CN114651270A - 通过时间可变形卷积进行深度环路滤波 - Google Patents

通过时间可变形卷积进行深度环路滤波 Download PDF

Info

Publication number
CN114651270A
CN114651270A CN202180006326.3A CN202180006326A CN114651270A CN 114651270 A CN114651270 A CN 114651270A CN 202180006326 A CN202180006326 A CN 202180006326A CN 114651270 A CN114651270 A CN 114651270A
Authority
CN
China
Prior art keywords
image frames
determining
frames
tdc
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180006326.3A
Other languages
English (en)
Inventor
蒋薇
王炜
李泽强
刘杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN114651270A publication Critical patent/CN114651270A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

提供了用于执行视频编码的方法、装置和存储介质。该方法包括:获取视频序列中的多个图像帧;确定多个图像帧中的每个图像帧的特征图,并基于特征图来确定偏移图;通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图;以及基于对齐特征图来生成多个对齐帧。

Description

通过时间可变形卷积进行深度环路滤波
相关申请的交叉引用
本申请基于并要求于2020年10月9日向美国专利商标局提交的美国临时申请第63/090,126号以及于2021年8月5日向美国专利商标局提交的美国申请第17/394,504号的优先权,这两个申请的公开内容通过引用以其全部内容并入本文中。
背景技术
1.技术领域
本公开内容涉及视频编码领域,尤其涉及使用环路滤波器来基于具有时间可变形卷积(TDC)的深度神经网络(DNN)处理经解码的视频的设备和方法。
2.相关技术的描述
传统的视频编码标准例如H.264/高级视频编码(H.264/AVC)、高效视频编码(HEVC)和通用视频编码(VVC)共享类似(递归)基于块的混合预测/变换框架,在该基于块的混合预测/变换框架中,各个编码工具例如帧内/帧间预测、整数变换和上下文自适应熵编码被仔细地手工制作以优化整体效率。基本上,时空像素邻域被用于预测信号结构,以获取用于随后的变换、量化和熵编码的相应残差。另一方面,深度神经网络(DNN)的性质是通过分析来自邻近像素的感受野的时空信息来提取不同水平的时空刺激。探索高度非线性和非局部时空相关性的能力为大大改善压缩质量提供了有希望的机会。
然而,压缩的视频不可避免地遭受压缩伪像,这严重降低了体验质量(QoE)。已经开发了基于DNN的方法来提高压缩的图像的视觉质量,例如图像去噪、超分辨率、去模糊等。当这些方法被应用于视频时,基于图像的方法遭受由改变压缩的视频质量、视频场景和视频中的对象运动而引起的不稳定和波动。因此,重要的是,利用来自视频中的邻近帧的信息来稳定和改善提高的视觉质量。
利用来自多个邻近视频帧的信息的一个注意事项是由移动相机和动态场景而引起的复杂运动。传统的基于块的运动向量不适用于非平移运动。此外,虽然基于学习的光流方法可以在像素级提供更准确的运动信息,但这些方法仍然容易出错,尤其是沿着移动对象的边界容易出错。
因此,本公开内容的一个或更多个实施方式提供了一种具有时间可变形卷积(TDC)的基于DNN的模型,以在无需显式的运动估计的情况下以数据驱动的方式处理任意运动和复杂运动。
发明内容
根据实施方式,提供了一种使用一个或更多个神经网络利用环路滤波器执行视频编码的方法。该方法包括:获取视频序列中的多个图像帧;确定多个图像帧中的每个图像帧的特征图,并且基于特征图来确定偏移图;通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图;以及生成多个对齐帧。
根据实施方式,提供了一种装置,该装置包括:至少一个存储器,所述至少一个存储器存储计算机程序代码;以及至少一个处理器,所述至少一个处理器被配置成访问至少一个存储器并按照计算机程序代码的指示进行操作。计算机程序代码包括:获取代码,其被配置成使至少一个处理器获取视频序列中的多个图像帧;确定代码,其被配置成使至少一个处理器:确定多个图像帧中的每个图像帧的特征图,并且基于特征图来确定偏移图,通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图;以及生成代码,其被配置成使至少一个处理器生成多个对齐帧。
根据实施方式,提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机程序代码,当由至少一个处理器执行所述计算机程序代码时,所述至少一个处理器被配置成:获取视频序列中的多个图像帧;确定多个图像帧中的每个图像帧的特征图,并且基于特征图来确定偏移图;通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图;以及生成多个对齐帧。
附图说明
下面的描述简要介绍了附图,附图示出了本公开内容的一个或更多个实施方式。
图1是示出了根据实施方式的视频编码系统的图;
图2是示出了根据实施方式的包括编码器和解码器的计算设备的示例的图;
图3是示出了根据实施方式的训练DNN LF模块的方法的图;
图4是示出了根据实施方式的使用2D TDC的DNN LF模块的操作的图;
图5是示出了根据实施方式的使用3D TDC的DNN LF模块的操作的图;以及
图6是根据实施方式的用于使用具有TDC的DNN处理视频数据的装置的框图。
具体实施方式
在本文中参照附图详细描述了示例实施方式。应当理解的是,本文中描述的本公开内容的一个或更多个实施方式仅是示例实施方式,并且不应被解释为限制本公开内容的范围。
图1是示出了根据实施方式的视频编码系统的图。
参照图1,视频编码系统100可以包括通过网络130彼此连接的编码器110和解码器120。编码器110可以被配置成对图像数据或视频数据进行压缩。编码器110可以设置在视频编码系统100的服务器侧上。服务器可以是云服务器或者包括多个服务器的服务器集群。服务器可以包括处理器、通信接口和数据库。处理器可以被配置成对视频序列的一个或更多个图像帧进行编码。通信接口可以被配置成发送和接收视频序列的一个或更多个图像帧或者可能与对视频序列进行编码有关的其他数据。数据库可以被配置成存储视频序列的一个或更多个图像、经编码的数据和经解码的数据。然而,一个或更多个实施方式不限于此。例如,编码器110可以在连接至网络130的计算设备(例如,台式计算机、膝上型计算机、平板计算机、移动设备、个人数字助理(PDA)、控制台、可穿戴设备等)中被实现。编码器110可以是在计算设备上运行的软件。
图2是示出了根据实施方式的被实现为编码器和/或解码器的计算设备的示例的图。计算设备200可以被实现为图1中所示的编码器110和/或解码器120。
参照图2,计算设备200可以包括处理器210、存储器220、存储设备230、输入接口240、输出接口250、通信接口260和总线270。
处理器210以硬件、固件或硬件和软件的组合来实现。处理器210是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理部件。在一些实现中,处理器210包括能够被编程成执行功能的一个或更多个处理器。
存储器220包括存储用于由处理器210使用的信息和/或指令的随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如,闪速存储器、磁存储器和/或光学存储器)。
存储设备230存储与计算设备200的操作和使用相关的信息和/或软件。例如,存储设备230可以包括硬盘(例如,磁盘、光盘、磁光盘和/或固态盘)、致密盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非暂态计算机可读介质以及相应的驱动器。
输入接口240包括允许计算设备200例如经由用户输入接收信息的部件(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)。另外地或替选地,输入接口240可以包括用于感测信息的传感器(例如,全球定位系统(GPS)部件、加速度计、陀螺仪和/或致动器)。输出接口250包括从计算设备200提供输出信息的部件(例如,显示器、扬声器以及/或者一个或更多个发光二极管(LED))。
通信接口260包括类似收发器的部件(例如,收发器和/或单独的接收器和发送器),该部件使得计算设备200能够例如经由有线连接、无线连接或者有线连接和无线连接的组合与其他设备进行通信。通信接口260可以允许计算设备200从另一设备接收信息以及/或者向另一设备提供信息。例如,通信接口260可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
总线270包括允许计算设备200的部件之间进行通信的部件。
计算设备200可以执行本文中描述的一个或更多个操作。计算设备200可以响应于处理器210执行存储在非暂态计算机可读介质例如存储器220和/或存储设备230中的软件指令而执行本文中描述的操作。计算机可读介质在本文中被定义为非暂态存储器设备。存储器设备可以包括单个物理存储设备内的存储器空间或跨多个物理存储设备分布的存储器空间。
软件指令可以经由通信接口260从另一个计算机可读介质或从另一设备被读取到存储器220和/或存储设备230中。当被执行时,存储在存储器220和/或存储设备230中的软件指令可以使处理器210执行本文中描述的一个或更多个过程。另外地或替选地,可以使用硬连线电路系统来代替软件指令或者硬连线电路系统与软件指令的组合,以执行本文中描述的一个或更多个过程。因此,本文中描述的实现不限于硬件电路系统和软件的任何特定组合。
提供图2中所示的部件的数目和布置作为示例。在实践中,计算设备200可以包括附加部件、更少的部件、不同的部件或者与图2中所示的那些部件相比不同布置的部件。另外地或替选地,计算设备200的一组部件(例如,一个或更多个部件)可以执行被描述为由计算设备200的另一组部件执行的一个或更多个功能。
图3是示出了根据实施方式的训练DNN LF模块的方法的图。
首先,将在本文中描述典型的视频压缩框架。假设输入视频x包括多个原始图像帧x1,...,xt。在第一运动估计步骤中,多个原始图像帧被划分成空间块,每个空间块可以迭代地被进一步划分成更小的块,并且针对每个空间块计算当前原始图像帧xt与先前重构帧的集合
Figure BDA0003632705420000051
之间的运动向量mt的集合。在此,下标t表示当前第t编码周期,其可能与图像帧的时间戳不匹配。此外,先前重构帧的集合
Figure BDA0003632705420000052
可以包括来自多个先前编码周期的帧。在第二运动补偿步骤中,通过基于运动向量mt复制先前重构帧
Figure BDA0003632705420000053
的相应像素来获取预测帧
Figure BDA0003632705420000054
并且通过
Figure BDA0003632705420000055
获取当前原始图像帧xt与预测帧
Figure BDA0003632705420000056
之间的残差rt。在第三估计步骤中,在对空间块执行离散余弦变换(DCT)之后,残差rt的DCT系数被量化以获取量化残差
Figure BDA0003632705420000057
由此,运动向量mt和量化残差
Figure BDA0003632705420000058
两者通过熵编码被编码为比特流,并且比特流被发送到一个或更多个解码器。在解码器侧上,量化残差
Figure BDA0003632705420000059
首先被去量化(例如,通过逆变换,例如离散余弦逆变换(IDCT)),以获取恢复残差
Figure BDA00036327054200000510
然后通过
Figure BDA00036327054200000511
将恢复残差
Figure BDA00036327054200000512
加回到预测帧
Figure BDA00036327054200000513
以获取重构帧。
此外,还可以使用附加部件来改善重构帧
Figure BDA00036327054200000514
的视觉质量。可以选择诸如去块滤波器(DF)、样本自适应偏移(SAO)、自适应环路滤波器(ALF)、跨部件自适应滤波器(CCALF)等的增强模块中的一个或更多个来处理重构帧
Figure BDA0003632705420000061
例如,去块滤波器(DF)是如下视频滤波器,该视频滤波器可以应用于经解码的视频以通过平滑在使用块编码技术时宏块之间形成的尖锐边缘来改善视觉质量和预测性能。样本自适应偏移(SAO)是通过将偏移值与每个样本相加来减少平均样本失真的环路内滤波技术。SAO包括两种类型的偏移技术,这两种类型的偏移技术是边缘偏移(EO)和带偏移(BO)。EO由要滤波的图像帧中的局部方向性结构来驱动,BO修改图像帧的强度值但不依赖于领域。自适应环路滤波器(ALF)可以用于使原始样本图像与经解码的样本图像之间的均方误差最小化。可以根据用户设置对增强模块的处理顺序和对增强模块的选择进行各种修改。
根据实施方式,提供了训练DNN LF的整体方法。参照图3,N个先前重构帧的集合
Figure BDA0003632705420000062
作为输入被提供给DNN LF模块310。DNN LF模块310可以通过使用端到端(E2E)LF DNN网络来生成高质量帧
Figure BDA0003632705420000063
然后,由重构质量计算模块320计算生成的高质量帧
Figure BDA0003632705420000064
以评估原始图像帧xt的重构质量。然后,重构质量计算模块320将重构质量
Figure BDA0003632705420000065
输出至反向传播模块330。反向传播模块330将重构质量
Figure BDA0003632705420000066
反馈至DNN LF模块310,以根据由重构质量计算模块320评估的重构质量来训练DNN LF模块310。
另外,由DNN LF模块310输出的N个先前重构帧的集合的对齐损失
Figure BDA0003632705420000067
可以被馈送至反向传播模块330,该对齐损失
Figure BDA0003632705420000068
然后通过反向传播模块330被反馈至DNN LF模块310以训练DNN LF模块310。将在下面参照图4来描述对齐损失的更详细描述。
此外,高质量帧
Figure BDA0003632705420000069
和原始图像帧xt可以被输入至判别模块340,以便识别和检测高质量帧
Figure BDA00036327054200000610
与原始图像帧xt之间的差异。也就是说,判别模块340可以基于
Figure BDA00036327054200000611
和xt来计算判别损失
Figure BDA00036327054200000612
并将判别损失发送至反向传播模块330。判别损失
Figure BDA00036327054200000613
可以通过反向传播模块330被反馈至DNN LF模块310和判别模块340,以训练DNN LF模块310和判别模块340。
判别DNN可以是使用
Figure BDA00036327054200000614
和xt中的至少一个作为输入来计算判别特征图
Figure BDA00036327054200000615
或d(xt)的分类网络。基于判别特征图
Figure BDA00036327054200000616
或d(xt),判别DNN对输入是原始图像帧xt还是生成的(或合成的)高质量帧
Figure BDA00036327054200000617
进行分类。可以计算分类损失
Figure BDA00036327054200000618
以测量误分类损失,例如分类交叉熵损失。此外,可以计算特征判别损失
Figure BDA00036327054200000619
以测量基于生成的高质量图像帧
Figure BDA0003632705420000071
计算的判别特征图与基于原始图像帧xt计算的判别特征图之间的差异。
总判别损失
Figure BDA0003632705420000072
可以是
Figure BDA0003632705420000073
Figure BDA0003632705420000074
的线性组合,根据下面的等式(1)来计算该总判别损失
Figure BDA0003632705420000075
Figure BDA0003632705420000076
在此,γ是与判别特征图
Figure BDA0003632705420000077
和d(xt)相关联的权重。
如上所述,由重构质量计算模块320输出的重构质量
Figure BDA0003632705420000078
由DNN LF310输出的对齐损失
Figure BDA0003632705420000079
由判别模块340输出的判别损失
Figure BDA00036327054200000710
被发送到反向传播模块330。基于从各个模块接收这些计算,反向传播模块330可以计算联合损失Ljoint的梯度,该联合损失Ljoint的梯度可以被反馈至DNN LF模块310和判别模块340。可以根据下面的等式(2)来计算联合损失Ljoint的梯度:
Figure BDA00036327054200000711
在此,λ是与对齐损失相关联的权重,β是与判别损失相关联的权重。
可以通过反向传播模块330反向传播联合损失Ljoint的梯度,以更新LF DNN(例如,特征提取DNN、偏移生成DNN、TDC DNN、帧重构DNN、帧合成DNN、判别DNN以及TDC和特征融合DNN)中的DNN权重系数。
基于将联合损失Ljoint反馈至上面的一个或更多个DNN,预测帧
Figure BDA00036327054200000712
被添加以更新N个先前重构帧的集合
Figure BDA00036327054200000713
例如,可以从N个先前重构帧的集合中移除距当前帧最远距离处的最老帧,并且可以添加预测帧
Figure BDA00036327054200000714
以代替移除的最老帧。此后,编码器可以进入从t到t+1的下一个编码周期。
根据实施方式,DNN LF模块310可以与上述附加部件(例如,DF、SAO、ALF、CCALF等)中的一个或更多个组合使用,以改善重构帧
Figure BDA00036327054200000717
的视觉质量。例如,可以通过DF、DNN LF模块、SAO和ALF依次处理重构帧
Figure BDA00036327054200000715
然而,一个或更多个实施方式不限于此,并且可以不同地配置处理附加部件的顺序。在实施方式中,DNN LF模块310可以单独用作对所有其他附加部件的替代,以提高重构帧
Figure BDA00036327054200000716
的视觉质量。
图4是示出了根据实施方式的使用2D TDC的DNN LF模块的操作的图。
参照图4,DNN LF模块400可以包括特征提取模块410、偏移生成模块420、TDC模块430、帧重构模块440、帧合成模块450和对齐误差计算模块460。
特征提取模块410可以接收N个先前重构帧的集合
Figure BDA0003632705420000081
作为输入,并且特征提取模块410可以被配置成通过使用特征提取DNN经过前向推理来计算特征图
Figure BDA0003632705420000082
例如,假设帧
Figure BDA0003632705420000083
被用作所有其他帧必须与其对齐的参考帧,偏移生成模块420可以经过偏移生成DNN通过连接特征图
Figure BDA0003632705420000084
Figure BDA0003632705420000085
并传递所连接的特征图基于
Figure BDA0003632705420000086
Figure BDA0003632705420000087
来计算偏移图ΔPj→i,t。在此,帧
Figure BDA0003632705420000088
可以是N个先前重构帧的集合
Figure BDA0003632705420000089
中的任何一个帧。不失一般性,N个先前重构帧的集合
Figure BDA00036327054200000810
限据其时间戳以升序排列。因此,可以基于N个重构帧
Figure BDA00036327054200000811
的时间戳来选择提高视觉质量的帧。例如,当目标是要提高当前重构帧
Figure BDA00036327054200000812
时,则
Figure BDA00036327054200000813
也就是说,所有其他先前重构的邻近帧可以在
Figure BDA00036327054200000814
之前。在另一个实施方式中,先前重构的邻近帧的一部分可以在
Figure BDA00036327054200000815
之前,并且其余帧可以在
Figure BDA00036327054200000816
之后。
由偏移生成模块420生成的偏移图ΔPj→i,t可以被输入至TDC模块430。在图4中,TDC DNN可以通过堆叠几个TDC层来形成,每个层之后是非线性激活层例如整流线性单元(ReLU)以及其他DNN层(例如,瓶颈层)。TDC模块430使用TDC DNN来基于由特征提取模块410输出的特征图
Figure BDA00036327054200000817
和由偏移生成模块420输出的偏移图ΔPj→i,t计算对齐特征图
Figure BDA00036327054200000818
根据实施方式,TDC DNN可以包括二维(2D)TDC层。例如,假设wk表示2D TDC核的权重系数,其中k是大于或等于1的自然数(例如,k=1,...,K),并且pk表示核中的第k位置的预定偏移(例如,用K=9和pk∈{(-1,-1),(-1,0),...,(1,1)}来定义3x3的核)。2D TDC层可以基于输入特征fin和可学习偏移ΔP来计算输出特征fout,其中,基于下面的等式来确定采样位置p0处的特征:
Figure BDA00036327054200000819
在此,偏移的总和(p0+pk+Δpk)可以是不规则的并且可以不是整数,TDC操作可以执行插值(例如,双线性插值)以纠正(p0+pk+Δpk)的不规则位置。
此外,对齐误差计算模块460可以被配置成:计算对齐损失
Figure BDA00036327054200000820
以测量
Figure BDA00036327054200000821
Figure BDA00036327054200000822
之间未对齐的误差。例如,可以使用L1范数(或绝对误差的平均值)或L2范数(平方根误差的平均值)来计算未对齐。帧重构模块440可以使用通过前馈推理计算的帧重构DNN来基于由特征提取模块410输出的特征图
Figure BDA0003632705420000091
和由TDC模块430输出的对齐特征图
Figure BDA0003632705420000092
生成对齐帧
Figure BDA0003632705420000093
对齐帧
Figure BDA0003632705420000094
可以被用作到帧合成模块450的输入,并且帧合成模块450可以使用帧合成DNN来生成合成的高质量帧
Figure BDA0003632705420000095
虽然上面已经描述了DNN LF模块的一些具体实施方式,但是应当理解,本公开内容的一个或更多个实施方式不限于此。例如,可以针对特征提取DNN、偏移生成DNN、TDCDNN、帧重构DNN和帧合成DNN中的每一个不同地配置层的类型、层的数目、核尺寸等。例如,任何骨干网络例如ResNET可以被用作特征合成DNN。例如,正则卷积的集合和瓶颈层可以被堆叠为偏移生成DNN。例如,TDC层的集合可以被堆叠为TDC DNN,并且利用跳过连接的一些卷积层可以被堆叠在一起作为帧重构DNN。例如,一些残差块层可以被堆叠在一起作为帧合成DNN。
图5是示出了根据实施方式的使用3D TDC的DNN LF模块的操作的图。
参照图5,DNN LF模块500可以包括特征提取模块510、TDC和特征融合模块520以及特征重构模块530。应当理解的是,上面参照图4描述了DNN LF模块500的部件的特征或功能中的一些。因此,可以省略对其的重复描述。
根据实施方式,输入帧
Figure BDA0003632705420000096
可以被堆叠在一起以获取尺寸的4D输入张量(n,c,h,w),其中c是通道的数目(例如,用于彩色帧的三个通道),并且(h,w)提供了视频帧的分辨率。特征提取模块510可以被配置成:使用特征提取DNN通过前向推理来计算特征图
Figure BDA0003632705420000097
的4D特征张量。在实施方式中,特征提取DNN使用3D卷积层(例如,C3D)来计算特征图
Figure BDA0003632705420000098
并捕获视频的时空特性。在另一个实施方式中,可以使用如参照图4描述的2D卷积层来计算每个单独的特征图。在此,在计算每个单独的输入帧的特征图
Figure BDA0003632705420000099
之后,可以将特征图
Figure BDA00036327054200000910
连接成4D张量。因此,特征提取模块510可以输出4D特征张量。
例如,假设Wk表示3D TDC核的权重系数并且pk表示核中的第k位置的预定偏移,其中k是大于或等于1的自然数(例如,k=1,...,K)。3D TDC核可以被定义为K=27并且pk∈{(-1,-1,-1),(-1,-1,0),...,(1,1,1)}。3D TDC层可以基于输入特征fin和可学习偏移ΔP来计算输出特征fout,其中使用上面提供的同一等式(3)给出采样位置p0处的特征。
在图5中,TDC和特征融合DNN可以通过堆叠一个或更多个3D TDC层来形成,其中每个层之后是非线性激活层,例如ReLU。另外地或替选地,每个3D TDC层之后可以是其他DNN层,例如瓶颈层。例如,假设帧
Figure BDA0003632705420000101
是所有其他帧需要与其对齐的参考帧,那么TDC和特征融合模块520使用TDC和特征融合DNN来基于4D特征张量
Figure BDA0003632705420000102
计算融合的对齐特征图
Figure BDA0003632705420000103
帧重构模块530使用帧重构DNN来基于融合的对齐特征图
Figure BDA0003632705420000104
计算重构的高质量帧
Figure BDA0003632705420000105
在此,在训练DNN LF模块500时没有执行显式的空间对齐。反而,3D可变形卷积直接学习时空偏移以生成对齐融合特征。
虽然上面已经描述了DNN LF模块的一些具体实施方式,但是应当理解,本公开内容的一个或更多个实施方式不限于此。例如,可以针对特征提取DNN、TDC和特征融合DNN以及帧重构DNN中的每一个不同地配置层的类型、层的数目、核尺寸等。
图6是根据实施方式的用于使用具有TDC的DNN LF处理视频数据的装置的框图。应当理解的是,上面参照图4和图5描述了装置600的部件的特征或功能中的一些。因此,可以省略对其的重复描述。
装置600可以包括:存储计算机程序代码的至少一个存储器;以及至少一个处理器,所述至少一个处理器被配置成访问至少一个存储器并按照计算机程序代码的指示进行操作。计算机程序代码600可以包括获取代码610、确定代码620和生成代码630。
获取代码610可以被配置成获取视频序列中的重构的图像帧的集合。根据实施方式,获取代码610可以被配置成执行上面关于图4和图5描述的特征提取模块410和510的操作。
确定代码620可以被配置成:确定多个图像帧中的每个图像帧的特征图,基于特征图来确定偏移图,并且通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图。根据实施方式,确定代码620可以被配置成:执行上面关于图4描述的偏移生成模块420、TDC 430和对齐误差计算模块460以及上面关于图5描述的TDC和特征融合模块520的操作。
生成代码630可以被配置成:生成多个对齐帧并且对多个对齐帧进行合成以输出与多个图像帧相对应的多个高质量帧。根据实施方式,生成代码630可以被配置成:执行图4的帧重构模块430和帧合成模块450以及图5的帧重构模块530的操作。
尽管将装置600描述为仅包括获取代码610、确定代码620和生成代码630,但是本公开内容的一个或更多个实施方式不限于此。一个或更多个实施方式可以包括比图6中所示的那些更多或更少的部件或部分。
在本公开内容的一个或更多个实施方式中使用的术语例如“单元”或“模块”指示用于处理至少一个功能或操作的单元,并且可以在硬件、软件中或者在硬件和软件的组合中被实现。
术语“单元”、“代码”或“模块”可以由存储在可寻址存储介质中并能够由处理器执行的程序来实现。
例如,术语“单元”、“代码”或“模块”可以包括软件组件、面向对象的软件组件、类组件和任务组件、进程、函数、属性、过程、子例程、程序代码段、驱动程序、固件、微代码、电路系统、数据、数据库、数据结构、表、数组和/或变量。
上面已经示出和描述了本公开内容的实施方式中的一些。然而,本公开内容的一个或更多个实施方式不限于前述具体实施方式。应当理解,在不脱离本公开内容的精神和范围的情况下,可以进行各种修改、替换、改进及其等同物。应当理解,这样的修改、替换、改进及其等同物应当落入本公开内容的保护范围内,并且不应被解释为独立于本公开内容的发明构思或前景。

Claims (20)

1.一种使用一个或更多个神经网络利用环路滤波器执行视频编码的方法,所述方法包括:
获取视频序列中的多个图像帧;
确定所述多个图像帧中的每个图像帧的特征图;
基于所述特征图来确定偏移图;
通过对所述特征图和所述偏移图执行时间可变形卷积(TDC)来确定对齐特征图;以及
基于所述对齐特征图来生成多个对齐帧。
2.根据权利要求1所述的方法,还包括:
对所述多个对齐帧进行合成,以输出与所述多个图像帧相对应的多个高质量帧。
3.根据权利要求1所述的方法,还包括:
确定指示所述特征图与所述对齐特征图之间未对齐的误差的对齐损失,
其中,通过所述对齐损失来训练所述一个或更多个神经网络。
4.根据权利要求1所述的方法,其中,获取所述多个图像帧包括:堆叠所述多个图像帧以获取4维(4D)输入张量。
5.根据权利要求1所述的方法,其中,确定所述偏移图包括:根据偏移生成深度神经网络(DNN)来连接多个特征图。
6.根据权利要求1所述的方法,其中,还使用去块滤波器(DF)、样本自适应偏移(SAO)、自适应环路滤波器(ALF)或跨部件自适应滤波器(CCALF)中的至少一个来处理所述多个图像帧。
7.根据权利要求2所述的方法,其中,评估所述多个高质量图像帧以确定所述多个图像帧的重构质量,
其中,在所述一个或更多个神经网络中反向传播所述多个图像帧的重构质量,以及
其中,通过所述多个图像帧的重构质量来训练所述一个或更多个神经网络。
8.根据权利要求1所述的方法,还包括确定判别损失,所述判别损失指示所述多个图像帧中的每个图像帧是原始图像帧还是高质量帧的分类中的误差,以及
其中,通过所述判别损失来训练在装置中实现的一个或更多个神经网络。
9.根据权利要求1所述的方法,其中,确定所述对齐特征图包括:使用时间可变形卷积深度神经网络(TDC DNN),
其中,所述TDC DNN包括堆叠中的多个TDC层,以及
其中,所述多个TDC层中的每个TDC层之后是包括整流线性单元(ReLU)的非线性激活层。
10.一种装置,包括:
至少一个存储器,所述至少一个存储器存储计算机程序代码;以及
至少一个处理器,所述至少一个处理器被配置成访问所述至少一个存储器并按照所述计算机程序代码的指示进行操作,所述计算机程序代码包括:
获取代码,所述获取代码被配置成使所述至少一个处理器获取视频序列中的多个图像帧;
确定代码,所述确定代码被配置成使所述至少一个处理器:
确定所述多个图像帧中的每个图像帧的特征图,并基于所述特征图来确定偏移图;
通过对所述特征图和所述偏移图执行时间可变形卷积(TDC)来确定对齐特征图;以及
生成代码,所述生成代码被配置成使所述至少一个处理器生成多个对齐帧。
11.根据权利要求10所述的装置,其中,所述生成代码还被配置成:使所述至少一个处理器对所述多个对齐帧进行合成,以输出与所述多个图像帧相对应的多个高质量帧。
12.根据权利要求10所述的装置,其中,所述确定代码还被配置成:使所述至少一个处理器确定对齐损失,所述对齐损失指示所述特征图与所述对齐特征图之间未对齐的误差,以及
其中,通过所述对齐损失来训练在所述装置中实现的一个或更多个神经网络。
13.根据权利要求10所述的装置,其中,所述获取代码还被配置成:使所述至少一个处理器以堆叠布置所述多个图像帧以获取4维(4D)输入张量。
14.根据权利要求10所述的装置,其中,所述确定代码还被配置成:使所述至少一个处理器通过根据偏移生成深度神经网络(DNN)连接多个特征图来确定所述偏移图。
15.根据权利要求10所述的装置,还包括:
处理代码,所述处理代码被配置成:使所述至少一个处理器使用去块滤波器(DF)、样本自适应偏移(SAO)、自适应环路滤波器(ALF)或跨部件自适应滤波器(CCALF)中的至少一个来处理所述多个图像帧。
16.根据权利要求11所述的装置,其中,所述多个高质量图像帧被评估,以确定所述多个图像帧的重构质量,
其中,所述多个图像帧的重构质量被反向传播到一个或更多个神经网络,以及
其中,通过所述多个图像帧的重构质量来训练所述一个或更多个神经网络。
17.根据权利要求10所述的装置,其中,所述确定代码还被配置成:使所述至少一个处理器确定判别损失,所述判别损失指示所述多个图像帧中的每个图像帧是原始图像帧还是高质量帧的分类中的误差,以及
其中,通过所述判别损失来训练在所述装置中实现的一个或更多个神经网络。
18.根据权利要求10所述的装置,其中,所述确定代码还被配置成:使所述至少一个处理器使用时间可变形卷积深度神经网络(TDC DNN)来确定所述对齐特征图,
其中,所述TDC DNN包括堆叠中的多个TDC层,以及
其中,所述多个TDC层中的每个TDC层之后是包括整流线性单元(ReLU)的非线性激活层。
19.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序代码,当由至少一个处理器执行所述计算机程序代码时,所述至少一个处理器被配置成:
获取视频序列中的多个图像帧;
确定所述多个图像帧中的每个图像帧的特征图,并且基于所述特征图来确定偏移图;
通过对所述特征图和所述偏移图执行时间可变形卷积(TDC)来确定对齐特征图;以及
生成多个对齐帧。
20.根据权利要求19所述的非暂态计算机可读存储介质,其中,所述至少一个处理器还被配置成:
对所述多个对齐帧进行合成,以输出与所述多个图像帧相对应的多个高质量帧。
CN202180006326.3A 2020-10-09 2021-08-18 通过时间可变形卷积进行深度环路滤波 Pending CN114651270A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063090126P 2020-10-09 2020-10-09
US63/090,126 2020-10-09
US17/394,504 US11601661B2 (en) 2020-10-09 2021-08-05 Deep loop filter by temporal deformable convolution
US17/394,504 2021-08-05
PCT/US2021/046471 WO2022076085A1 (en) 2020-10-09 2021-08-18 Deep loop filter by temporal deformable convolution

Publications (1)

Publication Number Publication Date
CN114651270A true CN114651270A (zh) 2022-06-21

Family

ID=81078440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180006326.3A Pending CN114651270A (zh) 2020-10-09 2021-08-18 通过时间可变形卷积进行深度环路滤波

Country Status (5)

Country Link
US (1) US11601661B2 (zh)
EP (1) EP4052214A4 (zh)
KR (1) KR20220107028A (zh)
CN (1) CN114651270A (zh)
WO (1) WO2022076085A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114827616B (zh) * 2022-04-28 2023-03-10 电子科技大学 一种基于时空信息平衡的压缩视频质量增强方法
WO2024076163A1 (ko) * 2022-10-06 2024-04-11 오픈엣지테크놀로지 주식회사 신경망 연산방법과 이를 위한 npu 및 컴퓨팅 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107925762B (zh) * 2015-09-03 2020-11-27 联发科技股份有限公司 基于神经网络的视频编解码处理方法和装置
JP2020510463A (ja) * 2017-01-27 2020-04-09 アーテリーズ インコーポレイテッド 全層畳み込みネットワークを利用する自動化されたセグメンテーション
US11107205B2 (en) * 2019-02-18 2021-08-31 Samsung Electronics Co., Ltd. Techniques for convolutional neural network-based multi-exposure fusion of multiple image frames and for deblurring multiple image frames

Also Published As

Publication number Publication date
EP4052214A4 (en) 2023-01-04
US11601661B2 (en) 2023-03-07
US20220116633A1 (en) 2022-04-14
WO2022076085A1 (en) 2022-04-14
KR20220107028A (ko) 2022-08-01
EP4052214A1 (en) 2022-09-07
JP2023509395A (ja) 2023-03-08

Similar Documents

Publication Publication Date Title
US10425649B2 (en) Method and apparatus for performing graph-based prediction using optimization function
CN105191309B (zh) 用于下一代视频编码的内容自适应预测距离分析器和分层运动估计系统
Moorthy et al. Efficient motion weighted spatio-temporal video SSIM index
CN104641643A (zh) 在分层层级中信号编码、解码和重构期间残差数据的分解
KR20220070326A (ko) 비디오 코딩을 위한 변형 가능한 콘볼루션에 의한 예측 프레임 생성
Maitre et al. Depth and depth–color coding using shape-adaptive wavelets
CN115486068A (zh) 用于视频编码中基于深度神经网络的帧间预测的方法和设备
CN114651270A (zh) 通过时间可变形卷积进行深度环路滤波
CN107852500A (zh) 运动矢量场编码方法和解码方法、编码和解码装置
US10666960B2 (en) Method and device for performing graph-based transform using generalized graph parameter
US9258561B2 (en) Method for coding a sequence of digital images
Dib et al. Super-ray based low rank approximation for light field compression
US10390025B2 (en) Method and apparatus for encoding and decoding video signal using improved prediction filter
Emara et al. Image compression using advanced optimization algorithms
KR20150128664A (ko) 픽셀의 2개의 블록을 비교하기 위한 방법 및 장치
Mirizzi et al. Underwater forward-scan sonar video coding by background modeling and synthesis for real-time transmission
CN107509074B (zh) 基于压缩感知的自适应3d视频压缩编解码方法
CN116385281A (zh) 一种基于真实噪声模型与生成对抗网络的遥感图像去噪方法
Kavitha et al. A survey of image compression methods for low depth-of-field images and image sequences
JP7482232B2 (ja) 時間変形可能畳み込みによるディープループフィルタ
CN117321989A (zh) 基于神经网络的图像处理中的辅助信息的独立定位
Braun et al. Optical flow for compressive sensing video reconstruction
US20240073425A1 (en) Image encoding apparatus and image decoding apparatus both based on artificial intelligence, and image encoding method and image decoding method performed by the image encoding apparatus and the image decoding apparatus
KR20240027510A (ko) Ai에 기반한 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법
CN116934647A (zh) 基于空间角度可变形卷积网络的压缩光场质量增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070666

Country of ref document: HK