CN112911286B - 一种分像素插值滤波器的设计方法 - Google Patents

一种分像素插值滤波器的设计方法 Download PDF

Info

Publication number
CN112911286B
CN112911286B CN202110133119.6A CN202110133119A CN112911286B CN 112911286 B CN112911286 B CN 112911286B CN 202110133119 A CN202110133119 A CN 202110133119A CN 112911286 B CN112911286 B CN 112911286B
Authority
CN
China
Prior art keywords
image
loss function
convolution
loss
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110133119.6A
Other languages
English (en)
Other versions
CN112911286A (zh
Inventor
张秋阳
黄晓峰
殷海兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110133119.6A priority Critical patent/CN112911286B/zh
Publication of CN112911286A publication Critical patent/CN112911286A/zh
Application granted granted Critical
Publication of CN112911286B publication Critical patent/CN112911286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明属于图像/视频压缩领域,涉及一种基于新型损失函数和可变形卷积的分像素插值滤波器的设计方法,包括:步骤1,在准备训练数据时,采用运动模糊的方式,对高分辨率图像进行降采样操作;步骤2,数据训练过程中,输入降采样后的图像,使用残差学习技术,经过神经网络得到新型损失函数;步骤3,使用新型损失函数训练带有可变形卷积层的神经网络,生成所需残差图像。本发明的新型损失函数既能反映失真同时也考虑了码率;可变形卷积可以更灵活地适应不同的视频图像,从而达到提升编码效果的目的。

Description

一种分像素插值滤波器的设计方法
技术领域
本发明属于图像/视频压缩领域,涉及一种基于新型损失函数和可变形卷积的分像素插值滤波器的设计方法。
背景技术
随着互联网的发展,整个网络环境中的图像,视频数据呈现爆炸性增长,为了节省传输带宽以及本地的存储成本,这要求互联网有更强的网络传输能力,即需要更高效的图像/视频压缩算法。在现有的视频编解码框架中,帧间预测起着减小时间冗余度的作用,而其中的分像素插值模块针对的是亚像素级运动的情况。在传统视频编码标准中,使用的是基于DCT设计的固定抽头滤波器,有计算简单的优势,但同时也有参考像素少,插值效果差的问题。
近年来,基于深度学习的分像素插值滤波器设计展现出巨大的潜力。神经网络对于复杂视频图像的插值相较于传统滤波器有着较明显的优势,即更大的感受野以及更多更精确的参数。通过大量样本的学习后,基于神经网络的滤波器可以得到更好的结果。
当前在基于深度学习的分像素插值滤波器设计这一领域,主要的研究方向有两个:一是更好的网络结构,传统卷积神经网络的卷积核是固定的方形,内部的参数也固定不变,无法适应多变的视频要素,不够灵活;二是更好的损失函数,在现有的技术中,均方差(MSE)函数被用作神经网络训练时的损失函数,MSE函数反映地是两张图像残差的绝对和,从而减小失真,但在视频编码算法的评判中,码率同样是非常重要的一部分,而影响码率的主要是残差的分布情况,MSE函数显然无法适用,当前大部分工作使用的MSE函数只能影响失真而不能影响码率,需要引进新的损失函数。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于新型损失函数和可变形卷积的分像素插值滤波器的设计方法,其具体技术方案如下。
一种分像素插值滤波器的设计方法,包括如下步骤:
步骤1,在准备训练数据时,采用运动模糊的方式,对高分辨率图像进行降采样操作;
步骤2,数据训练过程中,输入降采样后的图像,使用残差学习技术,经过神经网络得到新型损失函数;
步骤3,使用新型损失函数训练带有可变形卷积层的神经网络,生成所需残差图像。
进一步的,所述步骤1具体包括:通过不同的运动模糊核长度与核方向,对高分辨率图像加入运动模糊后进行降采样,表达式为:
B=C(L,β)*X+N
其中B为最终的模糊图像,C为运动模糊核,L为模糊核的长度,β为模糊核的方向,X为原始图像,N为噪声。
进一步的,所述步骤2具体包括:
步骤2.1,经过神经网络产生的残差图像除了与原始输入图像相加并与目标图像作MSE之外,还单独输出到一个特殊的层中进行离散余弦变换操作以及量化操作:
output=max(0,T(input)%Q)
其中T代表DCT,Q代表量化步长,output为经过神经网络产生的残差图像,input为原始输入图像;
步骤2.2,将残差图像转换为数值集中在左上方且其余位置均为0的矩阵,随后将该矩阵输入码率估计层中,所述码率估计层根据所述矩阵中的数值大小和数量估计出编码后码流的长度:
Figure BDA0002924062790000021
Lij为量化后变换单元TU中的参数,N为变换单元TU的大小,N2为TU中的参数的数量,码流的长度作为最终loss函数的一部分,则最后的loss函数可表示为:
loss=α·lossMSE+β·lossbitrate
其中α和β是调整两个loss比例关系的权重参数,lossMSE代表均方差MSE损失函数,lossbitrate=lengthbit代表码率损失函数。
进一步的,所述可变形卷积表示为:
y(px)=∑W(px+py)·X(px+py+Δpy)·Δmy
其中px为卷积的位置,py为向相邻八个像素移动的向量,Δpy为一个额外的移动向量,Δmy为0到1之间的系数,Δpy使得卷积核的每个点不固定于原本的位置从而改变卷积点的感受野,Δmy控制每个像素点参与卷积的程度。
本发明的设计方法,新型损失函数既能反映失真同时也考虑了码率;可变形卷积可以更灵活地适应不同的视频图像,从而达到提升编码效果的目的。
附图说明
图1是本发明的整体框架示意图;
图2是本发明的运动模糊生成图像示例图;
图3是本发明的可变形网络结构示意图;
图4是本发明的3x3可变形卷积示例图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图对本发明作进一步详细说明。
如图1和图2所示,一种基于新型损失函数和可变形卷积的分像素插值滤波器的设计方法,在准备训练数据时,使用运动模糊的方法来替换传统的高斯模糊方法,具体的,在分像素插值滤波器设计的任务中,由于分像素位置有3个二分之一位和12个四分之一位,所以在训练时需要训练不同的模型来对应不同位置的插值,根据上述特殊性,在准备训练样本时需要准备15个不同位置的样本。传统的高斯模糊方法是对高分辨率图像进行高斯模糊再降采样,这样不够有效。本发明采用运动模糊的方式,通过不同的运动模糊核长度与核方向,对高分辨率图片加入运动模糊后进行降采样,该操作可表示为:
B=C(L,β)*X+N
其中B为最终的模糊图像,C为运动模糊核,L为模糊核的长度,β为模糊核的方向,X为原始图像,N为噪声。
在训练阶段,由于视频编码过程中离散余弦变换的量化参数QP的不同会导致编码噪声不同,所以需要训练针对4个不同QP的模型,结合所述的15个分像素位置,总计需要训练60个模型。训练过程中使用了残差学习的方式,经由最后一个卷积层产生的残差图像除了与输出相加并与目标图像进行MSE计算外,还需单独输入一个特殊层进行变换量化操作,输出的频域图像再进行码率估计得到码率长度,二者加权求和后进行反向传播。
所述新型损失函数,既包括MSE损失函数,还包括基于离散余弦变换、量化以及编码码率估计的码率损失函数。
在训练阶段中,使用残差学习技术时,经过神经网络产生的残差图像除了与原始输入图像相加并与目标图像作MSE之外,还会单独输出到一个特殊的层中进行离散余弦变换操作以及量化操作:
output=max(0,T(input)%Q)
其中T代表DCT,Q代表量化步长。在进行如上操作后,残差图像转换为数值集中在左上方且其余位置均为0的矩阵。随后将该矩阵输入一个专门的码率估计层中,该层会根据所述矩阵中的数值大小和数量估计出编码后码流的长度:
Figure BDA0002924062790000041
Lij为量化后变换单元TU中的参数,N为变换单元TU的大小,N2为TU中的参数的数量,码流的长度将作为最终loss函数的一部分,如此一来就做到了码流和失真的双重优化,最大程度的提升BDrate的表现。最后的loss函数可表示为:
loss=α·lossMSE+β·lossbitrate
其中lossMSE代表MSE损失函数,lossbitrate=lengthbit代表码率损失函数,α和β是调整两个loss函数比例关系的权重参数。
上述方法将单一MSE函数所考虑不到的码率也包含进了神经网络的训练阶段,经由这种函数训练的神经网络可以生成更加平滑同时MSE也更小的残差图像,从而达到降低BDrate的最终目的。
传统的卷积操作表示为:
y(px)=∑W(px+py)·X(px+py)
其中px为卷积的位置,py为向相邻八个像素移动的向量。传统的卷积操作形状固定,参数固定。
如图3所示,带有可变形卷积层的新型神经网络结构,本发明的可变形卷积可表示为:
y(px)=∑W(px+py)·X(px+py+Δpy)·Δmy
其中Δpy为一个额外的移动向量,Δmy为0到1之间的系数。Δpy可以使卷积核的每个点不再固定于原本的位置从而改变卷积点的感受野,可以更加明确地参考到输入图上特征地形状;Δmy则控制着每个像素点参与卷积的程度,通过Δmy的变化可以更好地控制卷积操作的合理性甚至舍弃一些点使其不参与卷积,比如将其Δmy置为0。
下表为本文所提出的可变形卷积网络的卷积核参数细节。Kernel Size代表卷积核的大小,padding代表填充0的行列数,stride代表卷积核移动的步长。
Figure BDA0002924062790000051
如图4所示是一个3x3可变形卷积的示例图,在原本的卷积层外,还有一个特殊的卷积层,该层可以通过运算计算出每个卷积点对应的Δpy和Δmy并将其存储在一个3K个通道的矩阵中,K的值即卷积核的大小,此处为9,随后这些值被送入可变形卷积层中进行可变形卷积运算。通过这种特殊的卷积方式,可以更灵活地适应各种输入图像。
如下为本发明的技术效果数据表:
BDrate DINIF CNNIF GVNIF InvIF Ours
ClassB -0.6% -2.1% -3.3% -3.4% -3.6%
ClassC -1.0% -1.1% -2.2% -2.1% -2.2%
ClassD -1.3% -0.9% -2.2% -1.8% -2.0%
ClassE -0.9% -1.5% -2.2% -2.6% -2.9%
ClassF -0.6% -0.8% -0.9% -1.6% -1.8%
All -0.9% -1.3% -2.2% -2.3% -2.5%

Claims (3)

1.一种分像素插值滤波器的设计方法,其特征在于,包括如下步骤:
步骤1,在准备训练数据时,采用运动模糊的方式,对高分辨率图像进行降采样操作;
步骤2,数据训练过程中,输入降采样后的图像,使用残差学习技术,经过神经网络得到新型损失函数,具体包括:
步骤2.1,经过神经网络产生的残差图像除了与原始输入图像相加并与目标图像作MSE之外,还单独输出到一个特殊的层中进行离散余弦变换操作以及量化操作:
output=max(0,T(input)%Q)
其中T代表DCT,Q代表量化步长,output为经过神经网络产生的残差图像,input为原始输入图像;
步骤2.2,将残差图像转换为数值集中在左上方且其余位置均为0的矩阵,随后将该矩阵输入码率估计层中,所述码率估计层根据所述矩阵中的数值大小和数量估计出编码后码流的长度:
Figure FDA0003777381910000011
Lij为量化后变换单元TU中的参数,N为变换单元TU的大小,N2为TU中的参数的数量,码流的长度作为最终loss函数的一部分,则最后的loss函数可表示为:
loss=α·lossMSE+β·lossbitrate
其中α和β是调整两个loss比例关系的权重参数,lossMSE代表均方差MSE损失函数,lossbitrate=lengthbit代表码率损失函数;
步骤3,使用新型损失函数训练带有可变形卷积层的神经网络,生成所需残差图像。
2.如权利要求1所述的一种分像素插值滤波器的设计方法,其特征在于,所述步骤1具体包括:通过不同的运动模糊核长度与核方向,对高分辨率图像加入运动模糊后进行降采样,表达式为:
B=C(L,β)*X+N
其中B为最终的模糊图像,C为运动模糊核,L为模糊核的长度,β为模糊核的方向,X为原始图像,N为噪声。
3.如权利要求1所述的一种分像素插值滤波器的设计方法,其特征在于,所述可变形卷积表示为:
y(px)=∑W(px+py)·X(px+py+Δpy)·Δmy
其中px为卷积的位置,py为向相邻八个像素移动的向量,Δpy为一个额外的移动向量,Δmy为0到1之间的系数,Δpy使得卷积核的每个点不固定于原本的位置从而改变卷积点的感受野,Δmy控制每个像素点参与卷积的程度。
CN202110133119.6A 2021-01-29 2021-01-29 一种分像素插值滤波器的设计方法 Active CN112911286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110133119.6A CN112911286B (zh) 2021-01-29 2021-01-29 一种分像素插值滤波器的设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110133119.6A CN112911286B (zh) 2021-01-29 2021-01-29 一种分像素插值滤波器的设计方法

Publications (2)

Publication Number Publication Date
CN112911286A CN112911286A (zh) 2021-06-04
CN112911286B true CN112911286B (zh) 2022-11-15

Family

ID=76122157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110133119.6A Active CN112911286B (zh) 2021-01-29 2021-01-29 一种分像素插值滤波器的设计方法

Country Status (1)

Country Link
CN (1) CN112911286B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100213018B1 (ko) * 1994-07-30 1999-08-02 윤종용 동화상 부호화장치
CN107925772B (zh) * 2015-09-25 2020-04-14 华为技术有限公司 利用可选插值滤波器进行视频运动补偿的装置和方法
CN111010568B (zh) * 2018-10-06 2023-09-29 华为技术有限公司 插值滤波器的训练方法、装置及视频图像编解码方法、编解码器
CN111915484B (zh) * 2020-07-06 2023-07-07 天津大学 基于密集匹配与自适应融合的参考图引导超分辨率方法

Also Published As

Publication number Publication date
CN112911286A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN108012157B (zh) 用于视频编码分数像素插值的卷积神经网络的构建方法
Hu et al. Learning end-to-end lossy image compression: A benchmark
Hu et al. Improving deep video compression by resolution-adaptive flow coding
US10623775B1 (en) End-to-end video and image compression
JP7123169B2 (ja) ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体
CN113177882B (zh) 一种基于扩散模型的单帧图像超分辨处理方法
CN108900848B (zh) 一种基于自适应可分离卷积的视频质量增强方法
EP3673655A1 (en) Optical flow estimation for motion compensated prediction in video coding
CN115956363A (zh) 用于后滤波的内容自适应在线训练方法及装置
CN113301347A (zh) 一种hevc高清视频编码的优化方法
CN115668952B (zh) 用于视频编码的方法、装置及计算机可读存储介质
Hu et al. Fvc: An end-to-end framework towards deep video compression in feature space
CN115552905A (zh) 用于图像和视频编码的基于全局跳过连接的cnn滤波器
Yilmaz et al. End-to-end rate-distortion optimization for bi-directional learned video compression
CN113810715A (zh) 一种基于空洞卷积神经网络的视频压缩参考图像生成方法
CN112911286B (zh) 一种分像素插值滤波器的设计方法
CN112601095A (zh) 一种视频亮度和色度分数插值模型的创建方法及系统
CN113709483B (zh) 一种插值滤波器系数自适应生成方法及装置
Ho et al. SR-CL-DMC: P-frame coding with super-resolution, color learning, and deep motion compensation
EP4107952A1 (en) Block-wise content-adaptive online training in neural image compression with post filtering
KR20230003227A (ko) 신경 이미지 압축에서의 스케일링 인자 및/또는 오프셋에 의한 컨텐츠-적응적 온라인 훈련
Luo et al. Super-High-Fidelity Image Compression via Hierarchical-ROI and Adaptive Quantization
Li et al. Spatial-channel context-based entropy modeling for end-to-end optimized image compression
Luts New Approaches and Methods of Adaptive Image Encoding
CN114882133B (zh) 一种图像编解码方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant