CN117061748A - 一种基于卷积神经网络的视频编码优化方法 - Google Patents

一种基于卷积神经网络的视频编码优化方法 Download PDF

Info

Publication number
CN117061748A
CN117061748A CN202311158195.8A CN202311158195A CN117061748A CN 117061748 A CN117061748 A CN 117061748A CN 202311158195 A CN202311158195 A CN 202311158195A CN 117061748 A CN117061748 A CN 117061748A
Authority
CN
China
Prior art keywords
network
convolution
module
training
hevc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311158195.8A
Other languages
English (en)
Inventor
陈谦
陆宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202311158195.8A priority Critical patent/CN117061748A/zh
Publication of CN117061748A publication Critical patent/CN117061748A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于卷积神经网络的视频编码优化方法。本发明步骤:1、提出一个多输入的多尺度残差卷积网络代替HEVC传统环路滤波模块,添加高质量参考图像作为输入,提高环路滤波的性能;2、提出迭代训练的方法解决测试过程与训练过程之间的不一致性;3、基于改进的HEVC分像素插值滤波算法,提升HEVC视频压缩性能;本发明显著提高了HEVC环路滤波的性能,进一步提高了编码的压缩效率。实验结果表明,本文所提出的算法在RA编码模式下平均可以减少7.47%的BD‑rate。与现有的两种编码优化算法相比,本文提出的优化算法有效地提升了压缩效率,同时增强了视频质量。

Description

一种基于卷积神经网络的视频编码优化方法
技术领域
本发明提供一种基于卷积神经网络的视频编码优化方法。
背景技术
视频依据其形式可划分为模拟视频和数字视频两种,前者由模型相机逐行或隔行扫描生成,主要用于模拟电视系统;后者由数字相机拍摄生成或由模拟视频生成,日常生活所涉及视频多为数字视频。传统编码技术已经无法满足当下数字视频压缩、存储、传输等方面的要求,高效视频编码应运而生,HEVC是为满足数字视频有线和无线传输需求而开发的视频编码标准。
经过HEVC编码/解码过程后,重构的帧会通过HEVC环路滤波器进行后处理,以消除伪影。HEVC和其他标准都存在两种主要的压缩失真,这是由基于块的预测、变换和有限精度的量化引起的。最常见的失真是块效应。在HEVC中,帧首先被划分为块(CTUs/CUs)作为基本的编码单元。这些块在预测、变换和量化方面的编码相对独立。由于变换和量化过程中会引入一些损失,编码块只能提供原始帧的近似表示。因此,这些近似之间的差异可能导致块边界出现不连续性,从而产生块效应。在变换和量化过程中,高频信号会丢失,解码过程很难恢复这种信息丢失,因此会导致图像严重失真,并出现振铃效应。
近年来,针对HEVC的编码优化方法成为了研究热点。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于卷积神经网络的视频编码优化方法。
本发明解决其技术问题所采用的技术方案如下:
步骤1、利用深度学习对视频特征强大的挖掘能力,提出了一个多输入的多尺度残差卷积网络代替HEVC传统环路滤波模块,添加高质量参考图像作为输入,进一步提高了环路滤波的性能。
步骤2、提出迭代训练的方法解决测试过程与训练过程之间的不一致性。
步骤3、基于改进的HEVC分像素插值滤波算法,进一步提升HEVC视频压缩性能。
进一步的,步骤1所述的多尺度残差卷积网络,具体如下:
所述的多尺度残差卷积神经网络是基于ResNet的改进,其主要结构如图1所示,具体包括:
(1)浅层特征提取模块
如图1所示,浅层特征提取模块的作用是对输入的参考图像和重建图进行浅层特征的提取,以便后续更深层次特征的提取。
为了同时处理这些输入分量,本发明使用了两个对称的分支。在每个分支中,首先分别将这两个分量输入一个卷积核,提取特定的特征图,然后将它们拼接并输入下一模块。卷积核的大小设置为3x3,通道数设置为16。用以下(1)式表示:
其中,F1表示浅层特征提取模块提取的特征;xh表示输入的高质量参考帧分量;xr表示输入的未经滤波的重建分量;表示第n个k×k卷积核的卷积计算;σ表示LeakyReLU激活函数;/>表示张量通道上的拼接操作。
(2)深层特征提取模块
深层特征提取模块的作用是利用所提出的多尺度残差模块进行深度特征的提取,采用更深的网络进一步增强表达能力。
深层特征提取模块由一个卷积层和N个多尺度残差模块串联而成。所使用的多尺度残差模块的结构如图2所示。在每个多尺度残差模块中,输入的特征图分别经过5x5和3x3的卷积核,得到的张量进行拼接操作,然后进行1x1的卷积操作,并采用跳过连接将输出与输入特征相加。有N个残差模块串联,为了平衡编码时间和编码质量,本发明取N=10,即10个多尺度残差块进行串联,以提取深层特征。此模块用以下(2)式表示:
其中,表示5×5卷积层的输出;/>表示3×3卷积层的输出;Ma表示第a个多尺度残差模块的输出,a表示第a个多尺度残差模块;σ表示LeakyReLU激活函数。不同尺寸大小的卷积核可以获取不同尺度的特征,在提出的多尺度残差模块结构中,大卷积核更擅长提取大尺度的轮廓特征,小卷积核更擅长提取细节区域的特征。
(3)图像重建模块
如图1所示,图像重建模块包含两个卷积层,输入为深层特征提取模块提取的特征图。这两个卷积层用于对上述增强特征重建残差图像。用以下(3)式表示:
其中,O表示图像重建模块的输出。N表示第N个残差模块。
最后,将重建帧和图像重建模块的输出相加,得到网络的最终输出,使网络训练生成残差图像,减轻网络训练的负担。最终输出可以用式(4)表示:
y=xr+O (4)
为了尽可能增强当前帧的质量,该步骤提出使用额外的先验信息——高质量参考图像分量来提高网络增强性能。
在四叉树编码结构下,由于量化参数(QP)值不同,参考帧列表中的参考帧质量会发生波动。在帧间预测过程中,时间最近的帧具有最高的被选为参考帧的概率。然而,时间最近的参考帧并不一定是当前参考列表中质量最好的帧。因为参考列表由时间最近的帧和几个高质量帧组成。如果直接使用参考帧作为输入分量,有可能使得从参考中提取有用信息非常困难。最近的帧是最相似的,而质量最高的帧具有最小的失真。
为了消除质量波动,本发明采用参考帧列表中PSNR最高的帧作为补充输入。高质量参考帧提供更多有用的高质量信息来增强重建帧的质量。
进一步的,步骤2具体实现如下:
为了解决步骤2这个不一致的问题,本发明提出一种迭代训练方法,如图4所示。在整个迭代流程中,有多个训练操作。初始训练过程与传统训练过程类似:
2-1.由基于HM原始编码器(关闭环路滤波模块)编码生成的训练集进行网络训练。
2-2.将初始训练生成的多尺度残差卷积网络集成到HM编码器再次生成新的训练集。
2-3.基于这个新的训练集继续训练多尺度残差卷积网络,并且网络的初始模型参数与初始训练得到的网络参数相同。
2-4.重复训练过程将以迭代的方式进行,直到不能进一步改进性能或达到目标性能。
进一步的,步骤3具体实现如下:
由于HEVC固有的插值滤波器无法依据视频内容自适应减小帧间预测误差,造成编码效率低的问题。本发明提出了一种新颖的HEVC分像素插值滤波算法,并在编码器中采用率失真优化的方法,为每个预测单元选择最好的插值滤波器。
3-1.在视频的每帧中新增一组与HEVC传统固定插值滤波器g1、g2和g3相对应的自适应插值滤波器,记作g4、g5和g6,抽头数量分别为7、8和7,其中,自适应插值滤波器g4对应搜索得到(1/4,0)或(0,1/4)位置分像素,g5对应搜索得到(1/2,0)或(0,1/2)位置分像素,g6对应搜索得到(3/4,0)或(0,3/4)位置分像素。
3-1.记录当前帧中全部分像素运动向量为(1/2,0)或(0,1/2)的编码单元,对应原始像素为yi,i=1,2,…,M,yi对应预测像素记作qi,计算方式如下所示:
式中,j表示抽头,表示参考帧中对应的整像素。定义预测误差E如下所示:
将公式(5)代入公式(6),得到预测误差E如下所示:
自适应插值滤波器g5需与HEVC传统固定插值滤波器g2一样保持对称性,即则由此可将公式(5)转变为如下形式:
公式(8)用矩阵表示,D为等式右侧第一项,K为右侧第二项,g为右侧第三项,则公式(7)为下式形式:
E=||y-q||2=||y-DKg||2 (9)
式中,y表示原始像素矩阵,q表示预测像素矩阵。对上式求其最小优化解,得到自适应插值滤波器g5如下所示:
g5=[(DK)T(DK)]-1(DK)Ty (10)
记录当前帧中全部分像素运动向量为(1/4,0)或(0,1/4)的编码单元,对应原始像素为y′i,y′i对应预测像素记作q′i,如下所示:
引入矩阵D,得到自适应插值滤波器g4预测误差E′如下所示:
式中,y′表示原始像素矩阵,q′表示预测像素矩阵。由此可得到自适应插值滤波器g4如下所示:
g4=(DTD)-1DTy′ (13)
通过与g4相同的方法可获取到自适应插值滤波器g6,区别在于记录的是分像素运动向量为(3/4,0)或(0,3/4)的编码单元。自适应插值滤波器g6的表达式如下所示:
g6=(DTD)-1DTy′ (14)
若采用当前帧所得滤波器插值当前帧图像,则需要二次编码当前帧,造成计算复杂度大幅度增加的问题。因此我们采用参考帧的分像素插值滤波器对当前帧图像插值以增加编码效率。
本发明有益效果如下:本发明方法显著提高了HEVC环路滤波的性能。并提出了一种新颖的分像素插值滤波方法,进一步提高了编码的压缩效率。实验结果表明,本文所提出的算法在RA编码模式下平均可以减少7.47%的BD-rate。与现有的两种编码优化算法相比,本文提出的优化算法有效地提升了压缩效率,同时增强了视频质量。
附图说明
图1本发明卷积神经网络结构示意图;
图2本发明多尺度残差块结构;
图3本发明AI和RA模式下的编码结构;
图4本发明迭代训练方法流程图;
图5本发明采用的HM编码器示意图;
图6本发明视频主观质量比较本发明方法与其他方法的效果对比图;
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
一种基于卷积神经网络的视频编码优化方法。
本发明解决其技术问题所采用的技术方案如下:
步骤1、利用深度学习对视频特征强大的挖掘能力,提出了一个多输入的多尺度残差卷积网络代替HEVC传统环路滤波模块,添加高质量参考图像作为输入,进一步提高了环路滤波的性能。
步骤2、提出迭代训练的方法解决测试过程与训练过程之间的不一致性。
步骤3、基于改进的HEVC分像素插值滤波算法,进一步提升HEVC视频压缩性能。
进一步的,步骤1所述的多尺度残差卷积网络,具体如下:
所述的多尺度残差卷积神经网络是基于ResNet的改进,其主要结构如图1所示,具体包括:
(1)浅层特征提取模块
如图1所示,浅层特征提取模块的作用是对输入的参考图像和重建图进行浅层特征的提取,以便后续更深层次特征的提取。
为了同时处理这些输入分量,本发明使用了两个对称的分支。在每个分支中,首先分别将这两个分量输入一个卷积核,提取特定的特征图,然后将它们拼接并输入下一模块。卷积核的大小设置为3x3,通道数设置为16。用以下(1)式表示:
其中,F1表示浅层特征提取模块提取的特征;xh表示输入的高质量参考帧分量;xr表示输入的未经滤波的重建分量;表示第n个k×k卷积核的卷积计算;σ表示LeakyReLU激活函数;/>表示张量通道上的拼接操作。
(2)深层特征提取模块
深层特征提取模块的作用是利用所提出的多尺度残差模块进行深度特征的提取,采用更深的网络进一步增强表达能力。
深层特征提取模块由一个卷积层和N个多尺度残差模块串联而成。所使用的多尺度残差模块的结构如图2所示。在每个多尺度残差模块中,输入的特征图分别经过5x5和3x3的卷积核,得到的张量进行拼接操作,然后进行1x1的卷积操作,并采用跳过连接将输出与输入特征相加。有N个残差模块串联,为了平衡编码时间和编码质量,本发明取N=10,即10个多尺度残差块进行串联,以提取深层特征。此模块用以下(2)式表示:
其中,表示5×5卷积层的输出;/>表示3×3卷积层的输出;Ma表示第a个多尺度残差模块的输出,a表示第a个多尺度残差模块;σ表示LeakyReLU激活函数。不同尺寸大小的卷积核可以获取不同尺度的特征,在提出的多尺度残差模块结构中,大卷积核更擅长提取大尺度的轮廓特征,小卷积核更擅长提取细节区域的特征。
(4)图像重建模块
如图1所示,图像重建模块包含两个卷积层,输入为深层特征提取模块提取的特征图。这两个卷积层用于对上述增强特征重建残差图像。用以下(3)式表示:
其中,O表示图像重建模块的输出。N表示第N个残差模块。
最后,将重建帧和图像重建模块的输出相加,得到网络的最终输出,使网络训练生成残差图像,减轻网络训练的负担。最终输出可以用式(4)表示:
y=xr+O (4)
为了尽可能增强当前帧的质量,该步骤提出使用额外的先验信息——高质量参考图像分量来提高网络增强性能。
在四叉树编码结构下,由于量化参数(QP)值不同,参考帧列表中的参考帧质量会发生波动。在帧间预测过程中,时间最近的帧具有最高的被选为参考帧的概率。然而,时间最近的参考帧并不一定是当前参考列表中质量最好的帧。因为参考列表由时间最近的帧和几个高质量帧组成。如果直接使用参考帧作为输入分量,有可能使得从参考中提取有用信息非常困难。最近的帧是最相似的,而质量最高的帧具有最小的失真。
为了消除质量波动,本发明采用参考帧列表中PSNR最高的帧作为补充输入。高质量参考帧提供更多有用的高质量信息来增强重建帧的质量。
进一步的,步骤2具体实现如下:
全帧内模式和随机访问模式的编码结构如图3所示。对于AI模式,帧之间的预测过程中没有任何依赖关系(如图3(a)中的第0到第4帧)。换句话说,当前重建帧的质量不会对下一个编码帧的未经滤波的图像质量产生影响。然而,对于RA和LD(Low Delay)模式,如果当前重建帧的质量提高,下一个编码帧的未经滤波图像质量也会得到提高,因为当前帧将为下一帧提供更高质量图像。在图3(b)中,箭头指向参考帧方向。例如,如果第0帧的重建质量提高,第1帧的重建质量也会提高。
基于上述分析,若当前帧启用基于神经网络的循环滤波器,下一个编码帧的未经滤波图像质量会得到提高。然而,用于下一个编码帧的基于神经网络的循环滤波器是基于质量较低的未经滤波图像进行训练的。因此,最终的测试过程会与训练过程存在不一致的结果。
为了解决步骤2这个不一致的问题,本发明提出一种迭代训练方法,如图4所示。在整个迭代流程中,有多个训练操作。初始训练过程与传统训练过程类似:
2-1.由基于HM原始编码器(关闭环路滤波模块)编码生成的训练集进行网络训练。
2-2.将初始训练生成的多尺度残差卷积网络集成到HM编码器再次生成新的训练集。
2-3.基于这个新的训练集继续训练多尺度残差卷积网络,并且网络的初始模型参数与初始训练得到的网络参数相同。
2-4.重复训练过程将以迭代的方式进行,直到不能进一步改进性能或达到目标性能。
进一步的,步骤3具体实现如下:
由于HEVC固有的插值滤波器无法依据视频内容自适应减小帧间预测误差,造成编码效率低的问题。本发明提出了一种新颖的HEVC分像素插值滤波算法,并在编码器中采用率失真优化的方法,为每个预测单元选择最好的插值滤波器。
3-1.在视频的每帧中新增一组与HEVC传统固定插值滤波器g1、g2和g3相对应的自适应插值滤波器,记作g4、g5和g6,抽头数量分别为7、8和7,其中,自适应插值滤波器g4对应搜索得到(1/4,0)或(0,1/4)位置分像素,g5对应搜索得到(1/2,0)或(0,1/2)位置分像素,g6对应搜索得到(3/4,0)或(0,3/4)位置分像素。
3-1.记录当前帧中全部分像素运动向量为(1/2,0)或(0,1/2)的编码单元,对应原始像素为yi,i=1,2,……,M,yi对应预测像素记作qi,计算方式如下所示:
式中,j表示抽头,表示参考帧中对应的整像素。定义预测误差E如下所示:
将公式(5)代入公式(6),得到预测误差E如下所示:
自适应插值滤波器g5需与HEVC传统固定插值滤波器g2一样保持对称性,即则由此可将公式(5)转变为如下形式:
公式(8)用矩阵表示,D为等式右侧第一项,K为右侧第二项,g为右侧第三项,则公式(7)为下式形式:
E=||y-q||2=||y-DKg||2 (9)
式中,y表示原始像素矩阵,q表示预测像素矩阵。对上式求其最小优化解,得到自适应插值滤波器g5如下所示:
g5=[(DK)T(DK)]-1(DK)Ty (10)
记录当前帧中全部分像素运动向量为(1/4,0)或(0,1/4)的编码单元,对应原始像素为y′i,y′i对应预测像素记作q′i,如下所示:
引入矩阵D,得到自适应插值滤波器g4预测误差E′如下所示:
式中,y′表示原始像素矩阵,q′表示预测像素矩阵。由此可得到自适应插值滤波器g4如下所示:
g4=(DTD)-1DTy′ (13)
通过与g4相同的方法可获取到自适应插值滤波器g6,区别在于记录的是分像素运动向量为(3/4,0)或(0,3/4)的编码单元。自适应插值滤波器g6的表达式如下所示:
g6=(DTD)-1DTy′ (14)
若采用当前帧所得滤波器插值当前帧图像,则需要二次编码当前帧,造成计算复杂度大幅度增加的问题。因此我们采用参考帧的分像素插值滤波器对当前帧图像插值以增加编码效率。
实施例:
实验环境与训练参数设置
本发明采用HEVC参考软件HM16.9编码器作仿真实验。在实验过程中,使用DIV2K[10]数据集(AI)和BVI-DVC[11]数据集(RA)进行编码,得到压缩后的图像,与原图像形成数据对进行网络训练。这些训练数据使用4个量化参数(QP)进行编码{22,27,32,37}。我们为每个QP和I帧B帧训练一个独立的模型,因此总共有8个模型。在进行测试时,自动选择与当前slice最接近的QP模型。由于I帧没有参考图像,所以I帧对应的模型去没有参考帧,只保留重建帧处理。
实验使用了Adam作为优化器,设置学习率为0.001,损失函数使用MSE(均方误差)。该损失函数通过计算生成图像与真实图像之间每个像素的差异来评估模型的性能。
为了减少训练时间,我们首先训练QP32的模型,然后使用迁移学习,用QP32的模型参数对其他QP下的模型进行初始化以加快模型收敛速度。
HEVC编码方法
本发明采用率失真优化(RDO)策略,从基于神经网络的环路滤波器和HEVC环路滤波器中自适应选择。我们使用一个帧级标记位来表示采用何种环路滤波器。如果帧级标记为0,当前帧的所有CTU都不会应用所提出的环路滤波器。如果帧级标志为1,则会通过CTU级的标志来表示是否采用本发明所提出的环路滤波器。
本发明采用率失真优化(RDO)的策略,从HEVC固定滤波器和分像素滤波器中进行自适应选择,以实现最佳的编码性能。
实验结果对比分析
为了测试所提方法的率失真性能,使用18个不同分辨率和不同运动情况的数字视频序列,依据分辨率将数字视频序列划分为五个不同组别。
表1编码性能比较
为验证本发明方法的有效性,将本发明方法与一些最新的方法4和方法5进行比较。我们使用BD-BR来评估编码性能,代表在相同PSNR下的比特率减少量。BD-BR的负值意味着当前算法优于参考算法。BD-BR的正值意味着在相同PSNR下比特率增加,即性能下降。表1表示在RA配置下,本发明方法与参考文献[4]和[5]的比较结果。
如表1所示,本发明方法与HM16.9相比可以将BD-rate最多减少14.52%。在RA配置下,平均BD-rate减少可以达到7.47%。与其他两个方法相比,本发明提出的方法可以实现最多的码率节省,这表明本发明方法能够获得较好的压缩效率。通过分析表1中的数据还发现,本发明方法对于一些具有复杂纹理和快速运动的序列,性能表现一般。将来会研究并利用更先进的先验信息来减小性能优良序列和性能较差序列之间的差距。
主观效果分析
为了展示不同算法的视频主观质量,我们了选择两个视频序列进行比较,分别是“BasketballDrive”和BQMall”。我们在每个序列中选取了128×128大小的图像块作为比较,然后在QP32,RA模式下对序列进行编码。这两个序列的比较结果如图5所示,最左侧是原始序列图像,然后从左到右分别是原始图像块、方法4、方法5和本发明提出的方法的主观结果。在图6中,能够看到与其他方法相比,使用本发明的方法编码的序列在主观质量上取得了优势,几乎没有伪影,并且保留了更多的细节。
为了进一步提升HEVC视频编码的编码效率,本发明提出了一种基于卷积神经网络的视频编码优化算法。该方法包括一种基于卷积神经网络的环路滤波方法和一种提高环路滤波质量的迭代训练方法,并通过一种新颖的HEVC分像素插值滤波算法来进一步提高HEVC的压缩效率。此外,本发明采用高质量参考帧作为神经网络的额外输入,将其和当前重建帧输入到基于CNN的环路滤波网络中,以生成更高质量的重建帧。实验结果表明,本发明提出的HEVC编码优化算法获得了较高的压缩效率和视频质量。未来拟结合先验信息进一步改进该方法,提升其性能,并探索更广泛的应用场景。

Claims (4)

1.一种基于卷积神经网络的视频编码优化方法,其特征在于包括如下步骤:
步骤1、利用深度学习对视频特征强大的挖掘能力,提出一个多输入的多尺度残差卷积网络代替HEVC传统环路滤波模块,添加高质量参考图像作为输入,提高环路滤波的性能;
步骤2、提出迭代训练的方法解决测试过程与训练过程之间的不一致性;
步骤3、基于改进的HEVC分像素插值滤波算法,提升HEVC视频压缩性能;
进一步的,步骤1所述的多尺度残差卷积网络,具体如下:
所述的多尺度残差卷积神经网络,具体包括:
(1)浅层特征提取模块
浅层特征提取模块的作用是对输入的参考图像和重建图进行浅层特征的提取,以便后续更深层次特征的提取;
为了同时处理这些输入分量,使用两个对称的分支;在每个分支中,首先分别将这两个分量输入一个卷积核,提取特定的特征图,然后将它们拼接并输入下一模块;卷积核的大小设置为3x3,通道数设置为16;用以下(1)式表示:
其中,F1表示浅层特征提取模块提取的特征;xh表示输入的高质量参考帧分量;xr表示输入的未经滤波的重建分量;表示第n个k×k卷积核的卷积计算;σ表示LeakyReLU激活函数;/>表示张量通道上的拼接操作;
(2)深层特征提取模块
深层特征提取模块由一个卷积层和N个多尺度残差模块串联而成;在每个多尺度残差模块中,输入的特征图分别经过5x5和3x3的卷积核,得到的张量进行拼接操作,然后进行1x1的卷积操作,并采用跳过连接将输出与输入特征相加;此模块用以下(2)式表示:
其中,表示5×5卷积层的输出;/>表示3×3卷积层的输出;Mi表示第i个多尺度残差模块的输出,i表示第i个多尺度残差模块;σ表示LeakyReLU激活函数;
(3)图像重建模块
图像重建模块包含两个卷积层,输入为深层特征提取模块提取的特征图;两个卷积层用于对上述增强特征重建残差图像;用以下(3)式表示:
其中,O表示图像重建模块的输出;N表示残差模块个数;
最后,将重建帧和图像重建模块的输出相加,得到网络的最终输出,使网络训练生成残差图像,减轻网络训练的负担;最终输出用式(4)表示:
y=xr+O (4)。
2.根据权利要求1所述的一种基于卷积神经网络的视频编码优化方法,其特征在于提出使用额外的先验信息,即高质量参考图像分量来提高网络增强性能;采用参考帧列表中PSNR最高的帧作为补充输入。
3.根据权利要求1所述的一种基于卷积神经网络的视频编码优化方法,其特征在于步骤2具体实现如下:
2-1.由基于HM编码器编码生成的未经滤波的图像组成训练集进行网络训练;
2-2.将初始训练生成的多尺度残差卷积网络集成到HM编码器再次生成新的训练集;
2-3.基于这个新的训练集继续训练多尺度残差卷积网络,并且网络的初始模型参数与初始训练得到的网络参数相同;
2-4.重复训练过程将以迭代的方式进行,直到不能进一步改进性能或达到目标性能。
4.根据权利要求2或3所述的一种基于卷积神经网络的视频编码优化方法,其特征在于步骤3中需要在编码器中采用率失真优化的方法,为每个预测单元选择最好的插值滤波器;具体实现如下:
3-1.在视频的每帧中新增一组与HEVC传统固定插值滤波器g1、g2和g3相对应的自适应插值滤波器,记作g4、g5和g6,抽头数量分别为7、8和7,其中,自适应插值滤波器g4对应搜索得到(1/4,0)或(0,1/4)位置分像素,g5对应搜索得到(1/2,0)或(0,1/2)位置分像素,g6对应搜索得到(3/4,0)或(0,3/4)位置分像素;
3-2.记录当前帧中全部分像素运动向量为(1/2,0)或(0,1/2)的编码单元,对应原始像素为yi,i=1,2,…,M,yi对应预测像素记作qi,计算方式如下所示:
式中,j表示抽头,表示参考帧中对应的整像素;定义预测误差E如下所示:
将公式(5)代入公式(6),得到预测误差E如下所示:
自适应插值滤波器g5需与HEVC传统固定插值滤波器g2一样保持对称性,即则由此可将公式(5)转变为如下形式:
公式(8)用矩阵表示,D为等式右侧第一项,K为右侧第二项,g为右侧第三项,则公式(7)为下式形式:
E=||y-q||2=||y-DKg||2 (9)
式中,y表示原始像素矩阵,q表示预测像素矩阵;对上式求其最小优化解,得到自适应插值滤波器g5如下所示:
g5=[(DK)T(DK)]-1(DK)Ty (10)
记录当前帧中全部分像素运动向量为(1/4,0)或(0,1/4)的编码单元,对应原始像素为y′i,y′i对应预测像素记作q′i,如下所示:
引入矩阵D,得到自适应插值滤波器g4预测误差E′如下所示:
式中,y′表示原始像素矩阵,q′表示预测像素矩阵;由此可得到自适应插值滤波器g4如下所示:
g4=(DTD)-1DTy′ (13)
通过与g4相同的方法获取到自适应插值滤波器g6,区别在于记录的是分像素运动向量为(3/4,0)或(0,3/4)的编码单元;自适应插值滤波器g6的表达式如下所示:
g6=(DTD)-1DTy′ (14)。
CN202311158195.8A 2023-09-08 2023-09-08 一种基于卷积神经网络的视频编码优化方法 Pending CN117061748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311158195.8A CN117061748A (zh) 2023-09-08 2023-09-08 一种基于卷积神经网络的视频编码优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311158195.8A CN117061748A (zh) 2023-09-08 2023-09-08 一种基于卷积神经网络的视频编码优化方法

Publications (1)

Publication Number Publication Date
CN117061748A true CN117061748A (zh) 2023-11-14

Family

ID=88662670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311158195.8A Pending CN117061748A (zh) 2023-09-08 2023-09-08 一种基于卷积神经网络的视频编码优化方法

Country Status (1)

Country Link
CN (1) CN117061748A (zh)

Similar Documents

Publication Publication Date Title
CN108184129B (zh) 一种视频编解码方法、装置及用于图像滤波的神经网络
CN111711824B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN108900848B (zh) 一种基于自适应可分离卷积的视频质量增强方法
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN113055674B (zh) 一种基于两阶段多帧协同的压缩视频质量增强方法
CN109889852B (zh) 一种基于邻近值的hevc帧内编码优化方法
CN111988628B (zh) 基于强化学习的vvc的快速帧内编码方法
CN105306957A (zh) 自适应环路滤波方法和设备
Meng et al. Enhancing quality for VVC compressed videos by jointly exploiting spatial details and temporal structure
CN111726638A (zh) 一种结合去压缩效应与超分辨率的hevc编码优化方法
CN111586405A (zh) 一种多功能视频编码中基于alf滤波的预测模式快速选择方法
CN112218094A (zh) 一种基于dct系数预测的jpeg图像去压缩效应方法
CN113810715B (zh) 一种基于空洞卷积神经网络的视频压缩参考图像生成方法
Kong et al. Guided CNN restoration with explicitly signaled linear combination
CN112601095B (zh) 一种视频亮度和色度分数插值模型的创建方法及系统
CN115836525A (zh) 用于从多个交叉分量进行预测的方法和系统
CN103491372B (zh) 一种适用于hevc标准的去方块滤波器的滤波方法
CN114827616B (zh) 一种基于时空信息平衡的压缩视频质量增强方法
CN114511485B (zh) 一种循环可变形融合的压缩视频质量增强方法
CN107343199B (zh) 用于hevc中样点的快速自适应补偿方法
CN115941978A (zh) 一种基于多信息融合的深度神经网络的环路滤波方法
CN117061748A (zh) 一种基于卷积神经网络的视频编码优化方法
US20210014511A1 (en) Image processing apparatus and method
CN109168000B (zh) 一种基于rc预测的hevc帧内预测快速算法
CN106878753B (zh) 一种使用纹理平滑信息的3d视频残差编码模式选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination