CN110832860B - 用于编码/解码图像的方法及其装置 - Google Patents

用于编码/解码图像的方法及其装置 Download PDF

Info

Publication number
CN110832860B
CN110832860B CN201880045137.5A CN201880045137A CN110832860B CN 110832860 B CN110832860 B CN 110832860B CN 201880045137 A CN201880045137 A CN 201880045137A CN 110832860 B CN110832860 B CN 110832860B
Authority
CN
China
Prior art keywords
image
encoding
compression
residual signal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880045137.5A
Other languages
English (en)
Other versions
CN110832860A (zh
Inventor
全善暎
金载丸
朴永五
朴正辉
李钟硕
崔光杓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN110832860A publication Critical patent/CN110832860A/zh
Application granted granted Critical
Publication of CN110832860B publication Critical patent/CN110832860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Abstract

提供了一种对图像进行编码的方法,所述方法包括以下步骤:确定在对图像进行压缩时图像的主观质量;确定指示图像被压缩程度的压缩度中改变主观质量的至少一个压缩度;以及通过基于根据所确定的压缩度的压缩信息压缩图像的残留信号来对图像进行编码,其中通过使用深度神经网络(DNN)来确定图像的每一帧的主观质量。提供了一种图像解码方法和图像解码设备,用于通过使用根据图像编码方法编码的信息来执行用于对图像进行解码的图像解码方法。

Description

用于编码/解码图像的方法及其装置
技术领域
本公开涉及一种用于在图像编码或图像解码过程中有效地执行预测的方法和设备。
背景技术
可以对图像编码过程中使用的残留样本进行变换和量化,并且可以通过使用经历了变换和量化过程然后被逆变换和逆量化的信号来执行恢复过程。因此,可以将恢复的信号作为可在解码过程中使用的样本值存储在缓冲器中。
发明内容
技术问题
根据变换和量化过程,当对已经从空间域变换到频域的信号进行量化时,可能会出现误差,并且基于所述误差进行解码的图像的质量可能会劣化。另外,当对大量数据进行编码以减少质量劣化时,图像的压缩效率可能会下降。
问题的解决方案
根据实施例,提供了一种对图像进行编码的方法,所述方法包括:确定在对图像进行压缩时图像的主观质量;确定指示图像被压缩程度的压缩度中改变主观质量的至少一个压缩度;以及通过根据在基于所述至少一个压缩度执行的图像压缩过程中使用的压缩信息压缩图像的残留信号来对图像进行编码,其中,通过使用深度神经网络(DNN)来确定图像中所包括的每一帧的主观质量。
根据实施例,提供了一种对图像进行解码的方法,所述方法包括:从比特流获取在基于至少一个压缩度执行的图像压缩过程中使用的压缩信息;基于压缩信息,从自动编码器获取残留信号;以及通过使用所获取的残留信号对图像进行解码,其中,所述至少一个压缩度是改变通过使用DNN获取的主观质量的压缩度中的至少一者。
根据实施例,提供了一种图像解码设备,其包括:获取器,所述获取器被配置成从比特流获取在基于至少一个压缩度执行的图像压缩过程中使用的压缩信息;以及解码器,所述解码器被配置成基于压缩信息从自动编码器获取残留信号,并且通过使用所获取的残留信号对图像进行解码,其中,所述至少一个压缩度是改变通过使用DNN获取的主观质量的压缩度中的至少一者。
本公开的有益效果
根据实施例,通过使用深度神经网络(DNN)来执行图像编码或图像解码过程,使得可以提高图像的编码或解码效率。
附图说明
图1a是根据实施例的用于通过使用深度神经网络(DNN)对图像进行编码的图像编码设备的框图。
图1b是根据实施例的用于通过使用DNN对图像进行解码的图像解码设备的框图。
图2a是根据实施例的由图像编码设备执行的基于主观质量的拐点对图像进行编码的方法的流程图。
图2b是根据实施例的由图像解码设备执行的基于主观质量的拐点对图像进行解码的方法的流程图。
图3示出了根据实施例的图像的客观质量和主观质量在图像压缩过程中变得不同。
图4a示出了根据实施例的可由图像编码设备用来确定图像的主观质量的深度卷积神经网络。
图4b示出了根据实施例的图像编码设备的深度卷积神经网络,所述深度卷积神经网络使用与原始信号相关联的各种类型的信息来确定图像的主观质量。
图5a是用于描述根据实施例的编码器中所包括的自动编码器的操作的框图。
图5b是用于描述根据实施例的自动编码器的布局架构的图。
图5c至图5h是示出卷积神经网络(CNN)的各种架构的图。
图6a是根据实施例的通过使用自动编码器对图像进行编码和解码的编码器的框图。
图6b是根据实施例的通过使用自动编码器对图像进行解码的解码器的框图。
图7a示出了根据实施例的可以由编码器对自动编码器的输入和输出执行的预处理和后处理过程。
图7b示出了根据实施例的将由解码器对自动编码器的输出执行的后处理过程。
图8示出了根据实施例的由预处理器或后处理器执行的预处理或后处理的结果。
图9是用于描述根据实施例的残留信号的特性的图,所述特性可由编码器或解码器增大或减小。
图10示出了根据实施例的通过分割当前编码单元来确定至少一个编码单元的过程。
图11示出了根据实施例的通过分割非正方形编码单元来确定至少一个编码单元的过程。
图12示出了根据实施例的基于块形状信息和分割形状信息中的至少一者来分割编码单元的过程。
图13示出了根据实施例的从奇数个编码单元中确定预定编码单元的方法。
图14示出了根据实施例的当通过分割当前编码单元来确定多个编码单元时处理多个编码单元的次序。
图15示出了根据实施例的当编码单元不能以预定次序处理时确定当前编码单元将被分割成奇数个编码单元的过程。
图16示出了根据实施例的通过分割第一编码单元来确定至少一个编码单元的过程。
图17示出了根据实施例,当通过分割第一编码单元来确定的具有非正方形形状的第二编码单元满足预定条件时,第二编码单元能分割成的形状受到限制。
图18示出了根据实施例的当分割形状信息指示正方形编码单元将不被分割成四个正方形编码单元时分割正方形编码单元的过程。
图19示出了根据实施例,多个编码单元之间的处理次序可以根据分割编码单元的过程而改变。
图20示出了根据实施例的当编码单元被递归分割以确定多个编码单元时随着编码单元的形状和尺寸的改变来确定编码单元的深度的过程。
图21示出了根据实施例的能够基于编码单元的形状和尺寸确定的深度以及用于区分编码单元的部分索引(PID)。
图22示出了根据实施例,基于图片中所包括的多个预定数据单元来确定多个编码单元。
图23示出了根据实施例的用作用于确定图片中所包括的参考编码单元的确定次序的单元的处理块。
最优实施方式
根据实施例,提供了一种对图像进行编码的方法,所述方法包括:确定在对图像进行压缩时图像的主观质量;确定指示图像被压缩程度的压缩度中改变主观质量的至少一个压缩度;以及通过根据在基于所述至少一个压缩度执行的图像压缩过程中使用的压缩信息压缩图像的残留信号来对图像进行编码,其中,通过使用深度神经网络(DNN)来确定图像中所包括的每一帧的主观质量。
确定主观质量可以包括基于机器学习结果来确定主观质量,机器学习结果通过使用了多个层的DNN来获取。
确定主观质量可以包括:通过针对多个层中的每一层使用至少一个滤波核来确定至少一个卷积图像;以及对所述至少一个卷积图像执行池化。
确定主观质量可以包括:通过使用与帧相关联的样本值、直方图和运动信息中的至少一者来确定针对帧的主观质量。
对图像进行编码可以包括:当根据所述至少一个压缩度对图像进行压缩时,通过使用包括压缩图像的量化参数的压缩信息来压缩图像的残留信号;以及生成包括压缩残留信号的比特流。
压缩图像的残留信号可以包括:将残留信号输入到自动编码器;以及从在压缩和解压缩过程中共用的隐藏层获取压缩残留信号,所述隐藏层来自自动编码器中所包括的至少一个隐藏层。
获取压缩残留信号可以包括:基于压缩信息,确定在压缩过程和解压缩过程中共用的隐藏层的节点数;以及从具有所确定节点数的隐藏层获取压缩残留信号。
输入残留信号可以包括:对残留信号的幅度和分布执行预处理;以及将预处理过的残留信号输入到自动编码器。
所述方法还可以包括生成包括指示预处理的信息的比特流。
根据实施例,提供了一种对图像进行解码的方法,所述方法包括:从比特流获取在基于至少一个压缩度执行的图像压缩过程中使用的压缩信息;基于压缩信息,从自动编码器获取残留信号;以及通过使用所获取的残留信号对图像进行解码,其中,所述至少一个压缩度是改变通过使用DNN获取的主观质量的压缩度中的至少一者。
对图像进行解码可以包括:通过使用包括根据所述至少一个压缩度进行压缩的图像的量化参数的压缩信息来获取图像的残留信号;以及生成包括压缩残留信号的比特流。
获取残留信号可以包括:通过将从比特流获取的信息输入到包括基于压缩信息确定的节点数的隐藏层来获取残留信号,并且所述节点数可以与在自动编码器执行的压缩过程和解压缩过程中共用的隐藏层的节点数对应。
对图像进行解码可以包括:对所获取的残留信号的幅度和分布执行后处理;以及通过使用后处理过的残留信号来对图像进行解码。
执行后处理可以包括:从比特流获取指示后处理的信息;基于所获取的指示后处理的信息,执行后处理。
根据实施例,提供了一种图像解码设备,其包括:获取器,所述获取器被配置成从比特流获取在基于至少一个压缩度执行的图像压缩过程中使用的压缩信息;以及解码器,所述解码器被配置成基于压缩信息从自动编码器获取残留信号,并且通过使用所获取的残留信号对图像进行解码,其中,所述至少一个压缩度是改变通过使用DNN获取的主观质量的压缩度中的至少一者。
具体实施方式
通过参考以下对实施例和附图的详细描述,可以更容易地理解本公开的优点和特征以及实现所述优点和特征的方法。然而,就这一点而言,本公开可以以许多不同形式实施,并且不应被解释为限于本文所陈述的实施例。相反,提供这些实施例是为了使得本公开将是彻底且完整的,并且将各实施例的构思完全传达给本领域的普通技术人员。
在下文中,将简单定义说明书中所使用的术语,并且将详细描述本公开。
在本公开中使用的所有术语(包括描述性术语或技术性术语),应被解释为具有对于本领域普通技术人员显而易见的含义。然而,根据本领域普通技术人员的意图、先例或新技术的出现,这些术语可以具有不同的含义。另外,申请人可以任意选择一些术语,并且在这种情况下,所选术语的含义将在本公开的详细描述中详细描述。因此,必须基于术语的含义以及整个说明书中的描述来定义本公开中使用的术语。
除非在说明书的上下文中具有明显不同的含义,否则单数形式的表达包括复数形式的表达。
在整个说明书中,当一个部分“包括”或“包含”一个元件时,除非有与其相反的具体描述,否则所述部分还可以包括其他元件,并不排除其他元件。另外,说明书中使用的术语“单元”是指软件组件或诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的硬件组件,并且执行特定功能。然而,术语“单元”不限于软件或硬件。“单元”可以被形成为在可寻址存储介质中,或者可以被形成为操作一个或多个处理器。因此,例如,术语“单元”可以是指诸如软件组件、面向对象的软件组件、类组件以及任务组件的组件,并且可以包括过程、功能、属性、程序、子例程、程序代码段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表、数组、变量等。由组件和“单元”提供的功能可以与较少数量的组件和“单元”相关联,或者可以划分成其他组件和“单元”。
在下文中,“图像”可以表示诸如视频的静止图像的静态图像,或者可以指示诸如作为视频本身的运动图像的动态图像。
在下文中,“信号”或“样本”是指分配至图像的采样位置并且作为处理目标的数据。例如,空间域的图像中的像素值或变换域上的变换系数可以是样本。可以将包括一个或多个样本的单元定义为块。
现在将参考附图对本公开进行更全面地描述,以便本领域的普通技术人员能够毫无困难地执行本公开。另外,为了清楚地描述本公开,在附图中将省略与本公开的描述无关的部分。
图1a是根据实施例的用于通过使用深度神经网络(DNN)对图像进行编码的图像编码设备100的框图。
根据实施例的图像编码设备100可以包括编码器110和比特流生成器120,其中,括编码器110配置成执行编码并因此压缩图像的过程,比特流生成器120配置成生成包括与编码图像相关联的信息的比特流。
根据实施例,编码器110可以执行存储在存储器和/或存储装置中的程序命令。编码器110可以包括至少一个处理器,所述至少一个处理器包括中央处理单元(CPU)、图形处理单元(GPU)等。
根据实施例,为了允许解码设备在解码过程中使用由编码器110编码的信息,比特流生成器120可以生成包括图像压缩结果和在压缩中使用的各种类型信息的比特流。
图2a是根据实施例的由图像编码设备100执行的基于主观质量的拐点对图像进行编码的方法的流程图。根据实施例,主观质量可以对应于以下质量,即,所述质量是用于评估图像质量的各种评估项目之一,并且用户以所述质量来查看和感知图像。
在操作S200中,根据实施例,图像编码设备100的编码器110可以确定当对图像进行压缩时图像的主观质量。根据实施例,可以基于客观质量评估和主观质量评估来确定图像的质量。可以通过使用与原始图像相比的质量劣化的平均误差来测量峰值信噪比(PSNR)以执行客观质量评估。根据实施例,可以通过使用方程式1来计算PSNR。
[方程式1]
这里,MAX可以是图像信号的最大值并且单位可以是dB。均方误差(MSE)可以指示原始图像与压缩图像之间的误差的平方和。
以这种方式,通过使用数学方程式得出质量水平的方案被称为客观质量评估方法。然而,客观质量评估方法有时不能直接表示人类所感知的主观质量。因此,可以使用涉及相对准确地数字化人类所感知的质量的“主观质量评估”方法。针对评定图像的感知质量的方法的研究已经积极开展,并且可以如下文将描述的那样进行变化,但不限于此。
例如,根据要使用的参考图像(即,劣化之前的图像)的信息量,可以根据使用参考图像的所有信息的全参考(FR)方案、使用从参考图像中提取的一部分信息的减少参考(RR)方案、不使用参考图像的信息的无参考(NR)方案等来评估主观质量。另外,可以通过使用在恢复过程中存在的重构之前的比特流信息或参数等来预测和评估主观质量,而不使用恢复的图像信号。
例如,可以基于视频多方法评定融合(VMAF)得分来评定主观质量。VMAF是用于评定主观质量的工具。VMAF基于包括视觉信息保真度(VIF)、细节损失度量(DLM)、运动估计等的组件来评估主观质量。
另外,例如,可以基于平均意见得分(MOS)值来确定主观质量评估。可以执行这种MOS测试以确定和比较能够直接向用户表示主观感知质量的值,并且可以通过将特定图像直接显示给用户并且用户直接确定表示用户所感知的质量的得分来测量该值。
根据实施例,图像编码设备100的编码器110可以使用DNN来评估要编码的图像的主观质量。根据实施例,待由编码器110确定的主观质量可以是VMAF得分或MOS值,所述VMAF得分或MOS值根据图像的压缩度而变化。
根据实施例,编码器110可以使用利用各种类型的图像进行训练的DNN,以通过使用DNN来执行确定图像的主观质量的过程。根据实施例,编码器110可以通过使用经训练的DNN来执行基于待编码图像的特征的主观质量确定过程。在主观质量确定过程中使用的图像的特征可以包括构建图像的帧的亮度、色调、饱和度、对比度、直方图、空间频率响应特征、色度坐标、运动信息、比特率、分辨率、长宽比等。根据实施例,可以基于针对各种图像预设的感知特征值(VMAF、MOS等)来训练DNN,并且可以考虑预设的感知特征值和图像中所包括的至少一帧的特征来确定要编码的图像的主观质量。
在操作S202中,图像编码设备100的编码器110可以确定指示图像压缩程度的压缩度中改变主观质量的至少一个压缩度。
图3示出了根据实施例的图像的客观质量和主观质量在图像压缩过程中变得不同。
根据实施例,编码器110可以根据预定的各种压缩度来压缩图像,以便对图像进行编码。可能由于图像的压缩而发生图像劣化,并且可以通过评估客观质量和主观质量来确定图像是否劣化。根据实施例,可以基于与原始图像相比的有损数据量来确定压缩度,并且可以经由有损压缩而非无损压缩来指示压缩率。压缩度可以包括在去除时间和空间冗余的预测过程、基于视觉感知的变换和量化过程以及熵编码过程中要使用的各种类型的信息。
参考图3,当压缩度增加时,图像的客观质量可能会下降。可以基于包括PSNR、比特率等的各种类型的信息来确定图像的客观质量。例如,即使当PSNR相等时,具有较高比特率的图像也可以被确定为具有更好客观质量的图像。
根据实施例,编码器110可以确定与构建图像的每一帧中的压缩度相对应的主观质量。编码器110可以通过使用DNN来确定要编码的图像中所包括的帧的主观质量。由编码器110确定的主观质量可以是与VMAF得分或MOS值相对应的信息,并且可以是在特定压缩度的范围内恒定的值。参考图3,当压缩度增加时,客观质量300下降,而主观质量310可以具有即使当压缩度改变时主观质量310也不会改变的范围。就这一点而言,对于实际用户感知的图像质量的变化存在阈值,并且因此在压缩度的变化不超过阈值的范围内,可以确定压缩图像具有彼此相等的主观质量。根据实施例,参考图3,当压缩度在等于或大于a且小于b的范围内增加时,客观质量300可能会下降,但是主观质量310可以保持恒定为p值。类似地,当压缩度在等于或大于b且小于c的范围内或在等于或大于c且小于d的范围内增加时,客观质量300可能会下降,但是主观质量310可以分别保持恒定为q值或r值。根据实施例,主观质量310的范围可以在1到N之间(N>1)。
根据实施例,编码器110可以确定改变图像的根据DNN确定的主观质量的压缩度。参考图3,与连续改变的客观质量300不同,主观质量可以被确定为在预设的压缩度范围内保持恒定,并且当获取特定的压缩度时,主观质量可能会改变并且这种改变可能是不连续的。也就是说,编码器110可以针对构建图像的多个帧之一确定与压缩度相比的主观质量,并且可以将压缩度确定为允许主观质量在预设范围内保持恒定并且然后不连续地改变。参考图3,当压缩度在等于或大于a且小于b的范围内时,主观质量可以是p,但是当压缩度增加到b时,原本为p的主观质量可以不连续地改变,使得p的值可以改变。主观质量在等于或大于b且小于c的范围内可以保持恒定为q。
因此,为了有效地压缩图像同时实际上被压缩的图像的质量在用户查看图像时保持不变,图像编码设备100可以通过使用在图像的主观质量维持不变的压缩度范围内的最大压缩度来压缩图像。也就是说,参考图3,为了通过将主观质量确定为q来有效地压缩特定帧,图像编码设备100可以将最大压缩度确定为要在图像编码过程中使用的压缩度,所述最大压缩度来自在等于或大于b且小于c的范围内的压缩度。对于每一帧,编码器110可以在基于压缩度来编码每一帧时确定主观质量,并且可以确定改变主观质量的至少一个压缩度(例如,图3的a、b、c、d等)。
在操作S204中,根据实施例,图像编码设备100可以通过基于在根据至少一个压缩度执行的图像压缩过程中使用的压缩信息来压缩图像的残留信号以对图像进行编码。编码器110可以在操作S202中确定改变主观质量的至少一个压缩度,并且可以通过使用所确定的至少一个压缩度来对每一帧进行编码。图像编码设备100的比特流生成器120可以生成包括多条编码信息的比特流,并且可以将所述比特流传输到解码端。
根据实施例,图像编码设备100可以通过使用作为包括多个层的DNN的深度卷积神经网络来确定主观质量。
图4a示出了根据实施例的可由图像编码设备100用来确定图像的主观质量的深度卷积神经网络。
根据实施例,编码器110可以确定输入原始图像中所包括的多个帧中的每一者的主观质量。为了确定每一帧的主观质量,可以使用包括多个层的深度卷积神经网络。参考图4a,可以在多个隐藏层L1、L2、L3和L4中的每一者中执行对于每一帧中所包括的样本值的卷积计算。将在最后一层(例如,L4)中执行卷积计算时生成的至少一个特征图应用于全连接层,并且然后对所述至少一个特征图进行分类,使得可以确定主观质量。
根据实施例的深度卷积神经网络可以基于监督学习来确定输入图像的主观质量。监督学习被设计成通过使用算法来检测确定的答案。因此,基于监督学习的深度卷积神经网络可以是从训练数据推断性能的模型。在监督学习中,在训练中使用标记的样本(即,具有目标输出值的数据)。
监督学习算法接收一系列训练数据以及与其对应的目标输出值,通过基于与输入数据有关的实际输出值和目标输出值之间比较的训练来检测误差,并且因此基于所述检测的结果来修改模型。也就是说,当基于所提供的特定输入/输出数据集来训练深度卷积神经网络时,深度卷积神经网络学习所提供的输入/输出数据集的数据模式,并且因此生成用于预测输入图像的主观质量的模型。根据实施例,提供给深度卷积神经网络的输入数据集是每个内容的输入图像,并且输出数据集可以是输入图像的主观质量(例如,VMAF得分或MOS值)。以这种方式,基于监督学习的深度卷积神经网络可以通过从许多训练数据中进行自我训练来优化深度卷积神经网络的参数。
图4b示出了根据实施例的图像编码设备100的深度卷积神经网络,所述深度卷积神经网络使用与原始信号相关联的各种类型的信息来确定图像的主观质量。
根据实施例,编码器110可以使用包括构成原始图像的帧的样本值、每一帧的直方图、运动信息等的各种类型的信息作为深度神经网络的输入值。
根据实施例,编码器110可以确定输入原始图像中所包括的多个帧中每一者的主观质量,并且可以将与每一帧相关联的各种类型的信息确定为包括多个隐藏层的深度卷积神经网络的输入值。例如,编码器110可以使用样本值、直方图、运动信息、亮度、颜色、色度、对比度、空间频率响应特性、色度坐标、运动信息、分辨率、长宽比等作为对神经网络的输入。
参考图4b,编码器110可以使用每一帧的样本值、直方图、运动信息等作为多个卷积层的输入值,以便确定帧单元中的主观质量。在多个隐藏层L1、L2、L3和L4中的每一者中,可以对每一帧中所包括的样本值执行卷积计算。将在最后一个隐藏层(例如,隐藏层L4)上执行卷积计算时生成的至少一个特征图应用于全连接层,使得可以确定主观质量。
根据实施例,可以将用于确定主观质量的各种类型的信息确定为具有不同架构的深度卷积神经网络的输入。深度卷积神经网络可以包括任意数量的隐藏层,并且编码器110可以通过使用包括任意数量隐藏层的深度卷积神经网络来确定主观质量。例如,编码器110可以通过使用A个隐藏层来对帧的样本值执行卷积计算,可以通过使用B个隐藏层来对帧的直方图执行卷积计算,并且可以通过使用C个隐藏层来对运动信息执行卷积计算。也就是说,当要进行卷积计算的信息的类型不同时,编码器110可以使用不同数量的隐藏层来对每种类型的信息执行卷积计算。然而,隐藏层的数量和深度卷积神经网络的输入不限于前述实施例,并且应被宽泛地解释为本领域普通技术人员可以容易地使用以下特性的程度,与原始图像相关联的各种类型的信息可以用作不同隐藏层的输入。
在对最后一层中的多条信息中的每一者执行卷积计算之后,编码器110可以对融合层中的多条信息中的所有信息执行卷积计算。为了允许在包括各种类型信息的卷积计算结果的融合层中执行卷积计算,编码器110可以对多条信息中的每一者执行预设的计算过程。例如,可以执行针对多条信息的最终卷积计算的级联结果的计算、对针对多条信息的最终卷积计算施加权重的计算以及填充计算。
根据实施例,编码器110可以对卷积层中的卷积计算的结果执行池化处理。也就是说,为了减少在每个隐藏层中执行的卷积计算结果的信息量,需要简化或压缩处理,并且编码器110可以经由池化或子采样处理来简化卷积结果。编码器110可以使用在卷积层之间存在用于池化处理的池化层的深度卷积神经网络。根据实施例,编码器110可以通过在池化层中执行最大池化处理来对卷积结果执行简化处理。
根据实施例,编码器110可以确定原始图像中所包括的每一帧的主观质量,并且因此可以确定将改变主观质量的压缩度,并且可以确定针对所确定的压缩度的量化参数、比特率等。也就是说,编码器110可以确定量化参数、比特率、率失真成本、比特深度、数据单元的尺寸等,以将图像压缩到预设的主观质量。可以通过使用由编码器110确定的前述各种类型的信息作为压缩信息来对图像进行编码,其中,压缩信息是与压缩度有关的信息。
图5a是用于描述根据实施例的编码器500中所包括的自动编码器504的操作的框图。图5a的编码器500具有与图1a的编码器110的结构相对应的结构。
编码器500可以执行编码图像所需的各种操作。参考图5a,根据实施例的编码器500可以包括压缩信息生成器502,所述压缩信息生成器502生成根据改变主观质量的压缩度来对图像进行编码的过程中使用的压缩信息,自动编码器504执行基于压缩信息生成器502生成的压缩信息对残留信号进行压缩以及对压缩的残留信号进行解压缩的过程,并且熵编码器506能够对压缩的残留信号进行熵编码。
根据实施例,自动编码器504可以自动压缩预设信息,并且可以包括多个层作为网络架构。自动编码器504中所包括的多个层可以由执行压缩和解压缩的多个层组成。多个层相对于在压缩过程和解压缩过程中共用的隐藏层彼此对称。参考图5a,自动编码器504具有层L1、L2、L3、L4和L5相对于层L3彼此对称的架构。也就是说,自动编码器504具有对称的架构,在该对称的架构中,相对于层L3,层L2的节点数等于层L4的节点数,并且层L1的节点数等于层L5的节点数。根据实施例,在压缩过程和解压缩过程中共用的隐藏层可以是在自动编码器中所包括的多个层中具有最少节点数的层。
根据实施例,自动编码器504可以接收用于压缩的信号的输入。参考图5a,输入到L1的残留信号可以经过L1、L2和L3,然后可以被压缩,并且压缩的残留信号可以通过经过L3、L4和L5而进行解码。可以从层L3获取压缩最多的信号。因为层L3由自动编码器504的网络中最少数量的神经元组成,所以层L3可以被称为“瓶颈”层。根据实施例,可以生成经由压缩和解压缩残留信号的过程来解压缩的残留信号,所述过程由自动编码器504执行,但是在解压缩的残留信号与原始信号之间可能产生差异。根据实施例,图像编码设备100可以通过将自动编码器504的输入与输出之间的差异设置为误差并且反向传播所述误差来训练自动编码器504。根据实施例,可以对自动编码器504进行训练,以使恢复的残留信号等于输入残留信号。
根据实施例,自动编码器504可以分别在多个层上设置权重,并且所述权重可以相对于在压缩过程和解压缩过程中共用的隐藏层对称。因此,在压缩过程中使用的层的权重可以等于在解压缩过程中使用的层的权重。
在下文中,为了便于描述,通常在压缩过程和解压缩过程中共用的隐藏层可以被称为公共层。
根据实施例,熵编码器506可以从自动编码器504获取被压缩直到公共层的残留信号,并且可以基于所获取的信息来执行熵编码。可以由熵编码器506执行的熵编码方法可以包括可以在视频编码/解码领域中执行的各种无损压缩技术。熵编码器506可以在本领域普通技术人员可以容易执行的程度内,基于符号的出现概率,执行各种二进制算术编码方法中的一种方法(例如,基于上下文的自适应二进制算术编码(CABAC))。
根据实施例,编码器500可以通过使用量化参数作为在根据压缩度执行压缩的过程中使用的压缩信息来压缩图像的残留信号。根据实施例,编码器500可以确定量化参数以便基于改变主观质量的压缩度来执行压缩,并且可以基于量化参数来执行变换和量化过程以及与之相逆的逆变换和逆量化过程。
根据实施例,代替基于量化参数的变换和量化过程,编码器500可以通过使用自动编码器504来执行压缩残留信号的过程。自动编码器504可以基于量化参数对残留信号执行压缩,所述量化参数是从压缩信息生成器502获取的压缩信息。
根据实施例,当执行使用自动编码器504的残留信号压缩过程时,输入到熵编码器的分量可以沿特定方向聚集,这与通过将空间分量变换为频率分量来执行量化的编码过程不同。也就是说,当对残留信号进行频率变换时,在低频分量中非零变换系数可能更多,但是在非零变换系数之中存在零变换系数,因此需要通过使用预设扫描方法来检测非零变换系数的过程。然而,当图像编码设备100的编码器500使用自动编码器504执行残留信号压缩过程时,可以获取沿特定方向(例如,左上侧)聚集的压缩残留信号508。
根据实施例,编码器500可以通过将与残留信号的压缩率相对应的预定量化参数与由压缩信息生成器502生成的量化参数进行比较来对残留信号执行编码。
根据实施例,编码器500可以基于由压缩信息生成器502生成的压缩信息来确定构成自动编码器504的多个层。根据实施例,编码器500可以确定构成自动编码器504的每个层中所包括的层数和节点数。根据实施例,可以基于压缩信息来确定自动编码器504的公共层的节点数,并且然后可以基于包括公共层的多个隐藏层来执行残留信号的压缩和解压缩过程。
根据实施例,比特流生成器120可以生成包括指示自动编码器504的层数、每个层中所包括的节点数等的自动编码器信息的比特流。根据实施例,比特流生成器120可以生成包括指示自动编码器504的公共层中所包括的节点数的自动编码器信息的比特流,并且可以将所述比特流传输到解码端。然而,自动编码器信息的前述特性仅仅是实施例,并且应解释为,自动编码器信息可以包括指示自动编码器504的特性的各种信息,编码器110在本领域普通技术人员可以容易执行的程度上使用所述特性。
图5b是用于描述根据实施例的自动编码器的布局架构的图。
参考图5b,自动编码器504包括编码网络512和解码网络518。就这一点而言,编码网络512可以包括上文参考图5a所描述的层L1、L2和L3,并且解码网络518可以包括上文参考图5a所描述的层L3、L4和L5。
自动编码器504可以执行基于无监督学习的学习。因此,自动编码器504不需要接收期望值的输入,但是自动编码器504可以仅基于输入数据来确定网络或层的权重参数值。
自动编码器504的编码网络512可以被理解为压缩网络,其通过减小输入信号510的尺寸(即,通过提取有意义的特征)来生成压缩信号。另一方面,自动编码器504的解码网络518可以被理解为重构网络,其通过恢复由编码网络512压缩的压缩信号来生成类似于输入信号510的输出信号520。如上所述,自动编码器504可以被设计成包括卷积神经网络(CNN),并且因此可以输出类似于原始信号的恢复信号。下文将参考图5c至图5h来描述CNN的各种架构。
根据实施例,自动编码器504的编码网络512和解码网络518可以各自由CNN层和全连接(FC)层的组合构成。
例如,为了将自动编码器504设计成允许中间结果(即,压缩信号)等于离散余弦变换(DCT)结果的信号分布,示例性地,编码网络512和解码网络518具有FC层。在下文中,现在将描述包括CNN层和FC层的自动编码器504的配置。
根据实施例,自动编码器504可以通过经由编码网络512压缩输入信号510来生成第一压缩信号514。
根据实施例,自动编码器504可以通过将预设权重矩阵应用于第一压缩信号514来生成第二压缩信号516。就这一点而言,预设权重矩阵可以是使第一压缩信号514变成等于DCT结果的信号分布的矩阵。因此,可以经由训练来确定预设权重矩阵。例如,自动编码器504可以通过将第二压缩信号516与第一压缩信号514的DCT结果进行比较来计算损失,第二压缩信号516是通过对第一压缩信号514施加预设权重矩阵而生成的。就这一点而言,可以将预设权重矩阵的系数确定(即训练)为最小化损失的值。
DCT对应于通过使用余弦特征向量作为基向量来投影图像的信号分量的过程,并且因此,根据实施例,与第一压缩信号514相比,第二压缩信号516可以集中信号的分布。也就是说,根据实施例的预设权重矩阵可以是用于根据“空间域中的像素分布的集中”来对压缩信号进行额外压缩的矩阵,所述压缩信号已经经由编码网络512被压缩。因此,预设权重矩阵可以被理解为用于集中图像的信号分布的各种矩阵之一。在前述实施例中,描述了施加预设权重矩阵的结果生成类似于DCT结果的信号分布的结果,但是实施例不限于此,并且因此施加预设权重矩阵的结果可以生成类似于通过离散正弦变换(DST)、Karhuhen-Loeve变换(KLT)等实现的变换结果的信号分布的结果。
根据实施例,为了将自动编码器504设计成允许中间结果(即,压缩信号)等于DCT结果的信号分布,示例性地,自动编码器504使用FC层。
根据实施例,第二压缩信号516可以是残留信号的压缩信号。根据实施例,第二压缩信号516可以被输入到熵编码器506,并且因此可以被熵编码。上文参考图5a描述了熵编码过程,因此这里省略其详细描述。
根据实施例,自动编码器504可以生成并输出经由解码网络518从第二压缩信号516恢复的输出信号520。根据实施例,图像编码设备100可以通过将输入信号510与输出信号520之间的差异设置为损失并且反向传播所述损失来训练自动编码器504。根据实施例,可以将自动编码器504训练为使得输入信号510和输出信号520彼此相等。
也就是说,参考图5b,自动编码器504可以是被设计成通过使用第一损失和第二损失之和进行训练的网络。就这一点而言,第一损失可以是与输入信号510和输出信号520之间的误差相对应的损失。换句话说,第一损失可以是通过经由自动编码器504对输入信号510进行压缩和解压缩而计算出的损失。第二损失可以是与第一压缩信号514和第二压缩信号516之间的误差相对应的损失。换句话说,第二损失可以是通过集中由自动编码器504压缩的第一压缩信号514的信号分布而计算出的损失。根据实施例,可以将自动编码器504训练为通过将压缩信号的能量集中到块的左上部分来获取与DCT的能量集中水平相比更好的性能。
图5c至图5h是示出CNN的各种架构的图。
参考图5c,示出了根据实施例的DNN的基本架构。
参考图5c,输入数据530经由CNN 532的输入层输入,并且输出数据534经由CNN532的输出层输出。在CNN 532的输入层与输出层之间可以包括多个隐藏层。隐藏层可以包括卷积层和子采样层。卷积层通过使用卷积滤波器对输入到每个层的图像数据执行卷积计算,并且生成特征图。就这一点而言,特征图是指表示输入数据530的各种特征的图像数据。子采样层通过执行采样或池化来减小特征图的尺寸。CNN 532的输出层识别在特征图中表示的各种特征,并且因此对图像数据的类别进行分类。就这一点而言,输出层可以被配置为FC层。
根据实施例,CNN的架构(例如,隐藏层的数量、每个层中的滤波器的数量和尺寸等)是预定的,并且通过使用已知正确类别的多条数据,可以将每个层中滤波器(具体地,卷积滤波器)的权重矩阵设置为适当的值。如上所述,将已知正确值的多条数据用作“训练数据”。就这一点而言,确定滤波器的权重矩阵的过程称为“训练”。
例如,在CNN 532的架构中,每个层中的滤波器的数量可以是64,并且每个滤波器的尺寸可以是3×3。另外,例如,CNN 532的架构中的层总数可以是10。然而,前述实施例仅仅是一个示例,并且隐藏层的数量以及每个层中的滤波器的数量和尺寸可以根据各种形状进行改变和实现。
参考图5d,示出了根据另一实施例的CNN的架构。
图5d的CNN 540可以是由多个并行层构成的网络。也就是说,多个卷积层和池化层可以并行排列。在CNN 540中,从先前层输出的结果可以输入到彼此分离的多个并行层。可以将不同的滤波器分别应用于多个分离的并行层。例如,多个分离的并行层可以经由1×1卷积来减小尺寸,并且然后可以执行3×3、5×5等的卷积。另一层可以执行3×3最大池化,并且然后可以执行卷积。仅执行1×1卷积的层可以用作保持初始信息的身份环路。执行卷积的多个并行层可以最终级联,并且可以作为当前层的计算结果输出。根据CNN 540,层不需要总是以连续的方式堆叠。CNN 540的架构基于以下事实:未连续优化架构的网络比架构连续的网络具有更小的误差。
参考图5e,示出了根据另一实施例的CNN的架构。
图5e的CNN 550对应于采用跳过层概念的网络。CNN 550具有将过去层的输入添加到当前层的输出的架构。将CNN 550中的过去层的输入添加到当前层的输出的结果可以成为下一层的输入。在CNN的一般架构中,在多个层中执行卷积和池化过程,并且然后可以显著减小结果值的尺寸。在这种情况下,结果值的详细信息可能会丢失。CNN 550可以在卷积和池化过程中使用过去结果,并且因此可以加强细节部分。
参考图5f,示出了根据另一实施例的CNN的架构。
图5f的CNN 560对应于采用跳过层概念的网络,如同图5e的CNN 550的架构。然而,与CNN 550相比,CNN 560的特征在于,层之间的关系是紧密的,因为过去结果可以作为随机位置处的层的输入而被添加。此外,CNN 560可以将由过去层经由卷积操作执行的计算结果用作随机位置处的层的输入。
参考图5g,示出了根据另一实施例的CNN的架构。
图5g的CNN 570是使用多分辨率金字塔架构的网络。CNN 570可以将前一卷积层的结果划分成多级金字塔。例如,在第一级中,可不缩放分辨率,在第二级中,可以将分辨率缩放1/2×1/2,并且在第三级中,可以将分辨率缩放1/4×1/4。几个级的结果可以被级联,并且然后可以被用作FC层的输入。卷积层不受图像尺寸的影响,但是FC层在输入图像的尺寸方面具有限制,因此在一般网络中输入图像的尺寸必须是固定的。然而,当如在CNN 570中那样从多级的金字塔等级输出的特征被用作FC层的输入,并且不管图像的尺寸,金字塔的输出都是预先固定的时,图像的尺寸可以不再受限制。
参考图5h,示出了根据另一实施例的CNN的架构。
图5h的CNN 580是具有在非线性函数(ReLu)之前或之后执行批量归一化的架构的网络。批量归一化层定位在隐藏层的前部并且用于调整输入的分布。另外,批量归一化层是吸收在网络中的层,并且因此可以经由反向传播来优化相关联变量(缩放和移位)。可以以如下方式执行改善输入分布的方法:将输入到每一层的数据的平均值归一化为0且将分布归一化为1,并且将缩放变量γ乘以所述数据并将移位变量β添加到数据。就这一点而言,可以经由训练来确定缩放变量和移位变量。CNN 580可以通过对卷积结果执行归一化来防止梯度消失问题或梯度爆炸问题。另外,由于批量归一化,可以减少训练时间,并且可以提高训练的准确性。
参考图5c至图5h所描述的CNN的各种架构可以应用于本公开的实施例,并且其可能的组合或与已知学习网络的组合也可以应用于本公开的实施例。因此,前述的CNN的各种架构仅仅是为了便于描述的示例,并且在本实施例中可以使用具有各种修改的架构的CNN。
图6a是根据实施例的通过使用自动编码器604对图像进行编码和解码的编码器600的框图。
根据实施例,编码器600可以包括:预测执行器610,其能够基于输入图像的原始信号602中所包括的块执行预测;自动编码器604,其能够压缩或解压缩与预测信号和原始信号602之间的差异相对应的残留信号的幅度;熵编码器606,其能够基于由自动编码器604压缩的残留信号执行熵编码;以及滤波单元608,当基于由自动编码器604压缩和解压缩的残留信号和由预测执行器610确定的预测信号确定了恢复信号时,所述滤波单元608对恢复信号执行环路滤波。
根据实施例,自动编码器604可以压缩与原始信号602和通过使用存储在预测执行器610的解码图片缓冲器(DPB)中的参考图片执行帧间预测或帧内预测而获取的预测信号之间的差异相对应的残留信号。
根据实施例,可以基于由编码器600确定的压缩信息来确定构成自动编码器604的多个层和多个网络节点。例如,当由编码器600确定的压缩信息指示高压缩度时,可以增加构成自动编码器604的层数和网络节点数。如上文参考图2a所描述的,可以基于由编码器600确定的主观质量(例如,VMAF得分或MOS值)来确定压缩信息。
如上文参考图5a所描述的,自动编码器604可以经由多个层对输入残留信号执行压缩过程和解压缩过程。当残留信号被自动编码器604压缩直到公共层(所述公共层是在压缩过程和解压缩过程中共用的层)时,编码器600可以执行熵编码。
根据实施例,自动编码器604可以通过经由多个层对输入残留信号执行压缩过程和解压缩过程来获取解压缩的残留信号。解压缩的残留信号可以用于基于由预测执行器610确定的预测信号来确定恢复信号。滤波单元608可以对基于解压缩的残留信号和预测信号确定的恢复信号执行环路滤波(例如,解块滤波、样本自适应偏移(SAO)滤波等)。滤波后的解压缩残留信号可以存储在预测执行器610的DPB中,并且可以在此后的预测过程中被参考。
图7a示出了根据实施例的可以由编码器700对自动编码器708的输入和输出执行的预处理和后处理过程。
根据实施例,编码器700可以通过在使用自动编码器708压缩和解压缩残留信号的过程中执行预处理过程和后处理过程来修改自动编码器708的输入和输出。
参考图7a,根据实施例,编码器700可以包括:压缩信息生成器704,其生成在改变主观质量的压缩度下对图像进行编码的过程中使用的压缩信息;预处理器706,其对残留信号702执行预处理;自动编码器708,其执行基于由压缩信息生成器704生成的压缩信息对残留信号进行压缩并将残留信号解压缩到其原始状态的过程;熵编码器710,其能够对压缩的残留信号进行熵编码;以及后处理器712,其对由自动编码器708解压缩的残留信号执行后处理。参考图5a描述了压缩信息生成器704、自动编码器708和熵编码器710,并且因此这里省略其详细描述。
根据实施例,通过从原始信号中减去预测信号而确定的残留信号的特征在于,残留信号的值较小,并且其动态范围在特定的区间内较密集。预处理器706可以对输入到自动编码器708的残留信号执行预处理,并且因此可以将输入到自动编码器708的信号的幅度和动态范围改变为可以被自动编码器708有效压缩和解压缩的信号。根据实施例,预处理器706可以通过执行诸如归一化、直方图均衡化等的预处理来改变残留信号的幅度或动态范围。
根据实施例,通过将预处理的残留信号输入到自动编码器708而输出的解压缩的残留信号可以经历由后处理器712执行的后处理过程。根据实施例,后处理过程可以与由预处理器706执行的预处理过程相似或相反。也就是说,后处理器712可以执行经由后处理将残留信号恢复为在对其执行预处理之前的原始残留信号的过程。编码器700可以通过使用后处理的结果和预测信号来确定恢复信号,所述后处理由后处理器712对从自动编码器708输出的解压缩的残留信号来执行。
根据实施例,图像编码设备100的后处理器712可以通过使用预定的后处理执行方法来执行后处理。根据实施例,后处理器712可以根据基于预定条件确定的多个后处理执行方法之一来执行后处理。根据实施例,预定条件可以是与要输入到后处理器712的信号的幅度和分布有关的条件,并且后处理器712可以根据与预定条件相对应的方法来执行后处理。
根据实施例,图像编码设备100的后处理器712可以根据预定方法执行后处理,并且所述预定方法可以是与预定的预处理执行方法相对应并且与由预处理器706执行的预处理方法相对应的方法。根据实施例,可以预定的是:预处理器706执行预处理以将输入信号的幅度减小1/n倍并将分布增大n倍;并且后处理器712执行后处理以将输入信号的幅度增大n倍并使分布减小1/n倍。
根据实施例,可以经由单独的服务器(未示出)共享关于预处理执行方法的信息、在后处理过程中使用的预定条件以及与预处理执行方法相对应的预定后处理执行方法中的至少一者。根据实施例,可以将关于由图像编码设备100的预处理器706执行的预处理执行方法的信息传输到服务器(未示出)。在由解码器执行的后处理过程中,解码器可以基于从服务器获取的信息来确定关于预处理执行方法的信息、在后处理过程中使用的预定条件以及与预处理执行方法相对应的预定后处理执行方法中的至少一者。
根据实施例,比特流生成器120可以生成包括指示自动编码器504的层数、每个层的节点数等的自动编码器信息、以及预处理执行方法和后处理执行方法的比特流。根据实施例,与预处理执行方法或后处理执行方法有关的自动编码器信息和比特流可以被包括在彼此区分的网络抽象层(NAL)单元中。
根据实施例,比特流生成器120可以生成包括指示以下内容的报头信息的比特流:此后包括的预设数量的NAL单元是与自动编码器信息有关的NAL单元以及与预处理执行方法有关的NAL单元。在包括报头信息的比特流之后,比特流生成器120可以包括与自动编码器信息有关的NAL单元以及与预处理执行方法有关的NAL单元,并且因此可以指示此后的NAL单元包括包含以下内容的信息:在各个实施例中描述并且由自动编码器504和预处理器706执行的数据处理方法。
图8示出了根据实施例的由预处理器706或后处理器712执行的预处理或后处理的结果。
根据实施例,由预处理器706预处理的信号可以是与预处理之前的信号相比其动态范围更宽的信号,并且预设范围内的信号的绝对值改变(例如,幅度等于或小于预设值的信号增大),并且由后处理器712后处理的信号可以是与后处理之前的信号相比其动态范围更窄的信号,并且预设范围内的信号的绝对值改变(例如,幅度等于或大于预设值的信号减小)。根据实施例,由预处理器706和后处理器712执行的预处理过程和后处理过程可以是相对于彼此的逆过程。
根据实施例,可以基于可在图像编码过程中使用的各种数据单元来执行上文被描述为可以由编码器110执行的过程的各种实施例。根据实施例,编码器110可以通过使用各种数据单元来执行图像编码过程,所述数据单元包括视频、序列、帧、切片、切片片段、最大编码单元、编码单元、预测单元、变换单元、处理单元等。根据实施例,编码器110可以对每一帧执行预处理和后处理过程。根据实施例,编码器110可以基于编码单元、预测单元或变换单元,使用自动编码器执行压缩和解压缩过程。根据实施例,编码器110可以确定每一帧的主观质量。编码器110可以针对每个切片生成比特流,所述比特流包括在根据基于主观质量确定的至少一个压缩度来压缩图像时使用的压缩信息。根据实施例,编码器110可以在每个编码单元上执行改变输入到自动编码器的残留信号的分辨率的过程。然而,不应解释为编码器110用于执行预设过程的数据单元限于前述实施例,而应解释为,可以在本领域普通技术人员可以使用的程度上使用各种数据单元。下文将参考图10至图23来描述图像编码设备100可使用的各种数据单元的特性。
在下文中,现在将描述被配置成通过获取由图像编码设备100编码的信号来对图像进行解码的图像解码设备。
图1b是根据实施例的用于通过使用DNN对图像进行解码的图像解码设备150的框图。
根据实施例的图像解码设备150可以包括:解码器160,其被配置成执行解码并因此重构图像的过程;以及比特流获取器170,其被配置成获取包括与编码图像相关联的信息的比特流。
根据实施例,解码器160可以执行存储在存储器和/或存储装置中的程序命令。解码器160可以包括至少一个处理器,所述至少一个处理器包括CPU、GPU等。
根据实施例,比特流获取器170可以获取包括与编码图像相关联的信息以及在编码中使用的各种类型的信息的比特流,以允许解码器160在解码过程中使用所述比特流。
图2b是根据实施例的由图像解码设备150执行的基于主观质量的拐点对图像进行解码的方法的流程图。根据实施例,主观质量可以对应于以下质量:所述质量是用于评估图像质量的各种评估项目之一,并且用户以所述质量来查看和感知图像。
在操作S210中,图像解码设备150的比特流获取器170可以从比特流获取在根据至少一个压缩度来压缩图像的过程中使用的压缩信息。
根据实施例,压缩信息可以是指示在压缩要解码的图像的过程中使用了哪个压缩度的信息。根据实施例,当对图像进行压缩时,可以基于图像的主观质量来确定由压缩信息指示的至少一个压缩度。
根据实施例,图像解码设备150的比特流获取器170可以获取包括当通过使用改变主观质量的至少一个压缩度来编码图像时使用的压缩信息的比特流。解码器160可以通过使用所获取的压缩信息来对通过使用DNN确定其主观质量的图像进行解码。根据实施例,由所获取的压缩信息指示的至少一个压缩度可以是改变主观质量(例如,VMAF得分或MOS值)的压缩度。
图3示出了根据实施例的图像的客观质量和主观质量在压缩图像的过程中改变。
根据实施例,解码器160可以在各种预定的压缩度下压缩图像,以便对图像进行编码。由于图像的压缩而可能发生图像劣化,并且可以通过评估客观质量和主观质量来确定图像是否劣化。根据实施例,可以基于与原始图像相比的有损数据量来确定压缩度,并且可以经由有损压缩而非无损压缩来指示压缩率。压缩度可以包括在去除时间和空间冗余的预测过程、基于视觉感知的变换和量化过程以及熵编码过程中要使用的各种类型的信息。上文参考图3、图4a和图4b描述了确定要由图像解码设备150使用的压缩信息的过程,并且因此这里省略其详细描述。
根据实施例,在操作S212中,图像解码设备150可以基于从比特流获取的压缩信息,对图像的残留信号进行解码,并且在操作S214中,解码器160可以使用自动编码器执行残留信号解码过程。
根据实施例,图像解码设备150可以通过使用作为包括多个层的DNN的深度卷积神经网络来确定主观质量。
图5a是根据实施例的用于描述编码器500中所包括的自动编码器504的操作的框图。图5a的自动编码器504具有包括用于压缩和解压缩残留信号的多个层的网络架构。解码器160必须执行对从比特流获取的压缩残留信号进行解压缩的操作,并且根据实施例,解码器160中所包括的自动编码器可以具有与编码器500的自动编码器504的网络架构相对应的架构。根据实施例,解码器160的自动编码器可以通过使用编码器500的自动编码器504的用于压缩的层来对残留信号进行解压缩。上文参考图5a描述了编码器500的自动编码器504的操作,并且因此这里将省略关于解码器160的自动编码器的操作的描述。
根据实施例,比特流获取器170可以从比特流获取指示自动编码器504的层数、每个层中所包括的节点数等的自动编码器信息。根据实施例,解码器160可以从比特流获取指示自动编码器504的公共层中所包括的节点数的自动编码器信息,并且可以使用自动编码器504执行解码过程。然而,自动编码器信息的前述特性仅仅是实施例,并且应解释为,自动编码器信息可以包括指示自动编码器504的特性的各种信息,解码器160在本领域普通技术人员可以容易执行的程度上使用所述特性。
图6b是根据实施例的通过使用自动编码器624对图像进行解码的解码器620的框图。
根据实施例,解码器620可以包括:熵解码器622,其对由图像解码设备150的比特流获取器170获取的残留信号621进行熵解码;自动编码器624,其能够对所获取的残留信号的幅度进行解压缩;预测执行器626,其能够基于要重构的图像中所包括的块执行预测;以及滤波单元628,当基于由自动编码器624解压缩的残留信号和由预测执行器626确定的预测信号确定了恢复信号时,所述滤波单元628对恢复信号执行环路滤波。
如上文参考图5a和图5b所描述的,自动编码器624可以经由多个层对压缩信号执行解压缩过程,在所述压缩信号中,信号分布如同在DCT结果中那样被集中。根据实施例,自动编码器624可以通过利用多个层对输入的残留信号(即,压缩信号)执行解压缩过程来获取解压缩的残留信号。基于由预测执行器626确定的预测信号,可以使用解压缩的残留信号来确定恢复信号。滤波单元628可以对基于解压缩的残留信号和预测信号确定的恢复信号执行环路滤波(例如,解块滤波、SAO滤波等)。滤波后的解压缩残留信号可以存储在预测执行器626的DPB中,并且可以在此后的预测过程中被参考。
由于基于压缩信息确定了编码器600中的自动编码器604的网络架构,因此可以基于压缩信息以同样的方式来确定解码器620中的自动编码器624的网络架构。根据实施例,解码器620可以基于从比特流获取的压缩信息来确定自动编码器624的网络架构。根据实施例,压缩信息可以包括诸如量化参数、比特率等的信息。根据实施例,可以基于由编码器600确定的主观质量(例如,VMAF得分或MOS值)来确定压缩信息。
根据实施例,构成自动编码器624的多个层和多个网络节点可以对应于编码器600的自动编码器604的网络架构。
图7b示出了根据实施例的将由解码器750对自动编码器756的输出执行的后处理过程。
根据实施例,解码器750可以通过在使用自动编码器756压缩和解压缩残留信号的过程中执行预处理和后处理过程来修改自动编码器708的输入和输出。
参考图7b,根据实施例,解码器750可以包括:熵解码器754,其执行熵解码以便从接收的比特流获取残留信号752和压缩信息;自动编码器756,其执行基于从比特流获取的压缩信息来压缩残留信号并将残留信号解压缩到其原始状态的过程;以及后处理器758,其对由自动编码器756解压缩的残留信号执行后处理。参考图5a和图6b描述了自动编码器756和熵解码器754,并且因此这里省略其详细描述。
根据实施例,通过将预处理的残留信号输入到自动编码器756而输出的解压缩的残留信号可以经历由后处理器758执行的后处理过程。根据实施例,后处理过程可以与由编码器700的预处理器706执行的预处理过程相似或相反。也就是说,后处理器758可以执行经由后处理将残留信号恢复为在对其执行预处理之前的原始残留信号的过程。解码器750可以通过使用后处理的结果和预测信号来确定恢复信号,所述后处理由后处理器758对从自动编码器756输出的解压缩的残留信号来执行。
根据实施例,图像解码设备150可以从比特流获取与预处理执行方法有关的信息,并且解码器750可以基于所获取的信息对解压缩的残留信号执行后处理过程,所述后处理过程对应于预处理过程。根据实施例,与预处理执行方法有关的信息可以包括改变残留信号的幅度的方法、改变残留信号的分布的方法、关于由预处理器706使用的滤波器组的信息(例如,在预处理过程中使用的分布模型、在预处理过程中使用的表信息等)等。
根据实施例,由后处理器758后处理的信号可以是与后处理之前的信号相比其动态范围更窄的信号,并且预设范围内的信号的绝对值改变(例如,幅度等于或小于预设值的信号减小)。根据实施例,由后处理器758执行的后处理过程可以与在编码过程中执行的预处理过程相反。
根据实施例,图像解码设备150的后处理器758可以通过使用预定的后处理执行方法来执行后处理过程。根据实施例,后处理器758可以根据基于预定条件确定的多个后处理执行方法之一来执行后处理。根据实施例,预定条件可以是关于要输入到后处理器758的信号的幅度和分布的条件,并且后处理器758可以根据与预定条件相对应的方法来执行后处理。
根据实施例,图像解码设备150的后处理器758可以根据预定方法执行后处理,并且所述预定方法可以是与预定的预处理执行方法相对应并且与由预处理器706执行的预处理方法相对应的方法。根据实施例,可以预定的是:预处理器706执行预处理以便将输入信号的幅度减小1/n倍并将分布增大n倍;并且后处理器758执行后处理以便将输入信号的幅度增大n倍并使分布减小1/n倍。
根据实施例,可以经由单独的服务器(未示出)共享关于预处理执行方法的信息、在后处理过程中使用的预定条件以及与预处理执行方法相对应的预定后处理执行方法中的至少一者。根据实施例,图像解码设备150可以基于从服务器(未示出)获取的信息来确定关于预处理执行方法的信息、在后处理过程中使用的预定条件以及与预处理执行方法相对应的预定后处理执行方法中的至少一者。
根据实施例,比特流获取器170可以从比特流获取指示以下内容的报头信息:此后包括的预设数量的NAL单元是与自动编码器信息有关的NAL单元以及与预处理执行方法有关的NAL单元。在比特流获取器170从比特流获取报头信息之后,比特流获取器170可以获取与自动编码器信息有关的NAL单元以及与预处理执行方法有关的NAL单元。解码器160可以通过使用由自动编码器624或后处理器758执行的数据处理方法,使用自动编码器624或后处理器758来执行解码,所述数据处理方法包括在通过获取报头信息而获取的NAL单元中。根据实施例,后处理执行方法可以是与由图像编码设备100执行的预处理执行方法相对应的方法,并且可以包括在要由解码器160执行的后处理过程中需要的信息。
图9是根据实施例的用于描述残留信号的特性的图,所述特性可由编码器900或解码器920增大或减小。
根据实施例,编码器900可以包括:残留信号减小单元903,其能够减小与原始信号902和通过执行预测所获取的预测信号之间的差异相对应的残留信号的分辨率;以及自动编码器904,其能够对通过残留信号减小单元903减小其分辨率的残留信号进行压缩或解压缩。
根据实施例,解码器920可以包括:自动编码器924,其能够通过对从比特流获取的残留信号执行解压缩来获取解压缩的残留信号;以及残留信号增大单元925,其能够增大从自动编码器924输出的残留信号的分辨率。
根据实施例,残留信号减小单元903可以通过减小要输入到自动编码器904的残留信号的分辨率来提高自动编码器904的效率。通过有效地减少输入到自动编码器904的信息量,可以提高自动编码器904的效率。根据实施例,残留信号减小单元903可以通过使用DNN执行下采样过程来减小残留信号的分辨率。残留信号增大单元925可以增大从自动编码器924输出的残留信号的分辨率,并且因此可以恢复在编码过程中减小的残留信号的分辨率。根据实施例,残留信号增大单元925可以通过使用DNN执行上采样过程来增大残留信号的分辨率。
根据实施例,由残留信号减小单元903和残留信号增大单元925使用的DNN可以具有通过共享在执行下采样和上采样的过程中生成的信息而训练的网络的架构。
根据实施例,可以以如下方式来训练由残留信号减小单元903使用的用于下采样的DNN:使指示由于下采样而发生的损失的至少一条损失信息的总和可以被最小化。此外,可以基于重构图像与对其执行下采样之前的原始图像之间的比较结果来确定至少一条损失信息中的一些,所述重构图像以如下方式获取:对压缩图像进行解码,并且然后对其执行上采样。比较结果可以在训练用于上采样的DNN的过程中使用。
根据实施例,可以以如下方式来训练由残留信号增大单元925使用的用于上采样的DNN:通过对解码压缩图像执行上采样而重构的图像与对其执行下采样之前的原始图像进行比较而确定的至少一条损失信息的总和可以被最小化。此外,至少一条损失信息中的一些可以在训练用于下采样的DNN的过程中使用。
根据实施例,可以基于可在图像解码过程中使用的各种数据单元来执行上文被描述为可以由解码器160执行的过程的各种实施例。根据实施例,解码器160可以通过使用各种数据单元来执行图像解码过程,所述数据单元包括视频、序列、帧、切片、切片段、最大编码单元、编码单元、预测单元、变换单元、处理单元等。根据实施例,解码器160可以对每一帧执行后处理过程。根据实施例,解码器160可以基于编码单元、预测单元或变换单元,使用自动编码器执行解压缩过程。解码器160可以从比特流获取针对每个切片的压缩信息,所述压缩信息在根据基于主观质量确定的至少一个压缩度来压缩图像时使用。根据实施例,解码器160可以在每个编码单元上执行改变从自动编码器输出的残留信号的分辨率的过程。然而,不应解释为解码器160用于执行预设过程的数据单元限于前述实施例,而应解释为,可以在本领域普通技术人员可以使用的程度上使用各种数据单元。
下文将参考图10至图23来描述图像解码设备150可使用的各种数据单元的特性。
根据实施例,深度卷积神经网络和自动编码器可以被实现为软件模块。当深度卷积神经网络和自动编码器被实现为软件模块(例如,包括指令的程序模块)时,深度卷积神经网络和自动编码器可以存储在计算机可读记录介质中。
另外,深度卷积神经网络和自动编码器可以通过集成为硬件芯片而成为上述编码器110或解码器160的一部分。例如,深度卷积神经网络和自动编码器可以制造为用于人工智能(AI)的专用硬件芯片,或者可以制造为现有通用处理器(例如中央处理单元(CPU)或应用处理器(AP))或图形专用处理器(例如GPU)的一部分。
另外,深度卷积神经网络和自动编码器可以被提供为可下载软件。计算机程序产品可以包括通过制造商或电子市场电子分发的作为软件程序的产品(例如,可下载的应用程序)。对于电子分发,软件程序的至少一部分可以存储在存储介质中或者可以临时生成。在这种情况下,存储介质可以是制造商或电子市场的服务器,或者中继服务器的存储介质。
在下文中,参考图10至图23,将描述根据实施例的确定图像的数据单元的方法。
图10示出了根据实施例的由图像解码设备150执行的通过分割当前编码单元来确定至少一个编码单元的过程。
根据实施例,图像解码设备150可以通过使用块形状信息来确定编码单元的形状,并且可以通过使用分割形状信息来确定编码单元的分割方法。也就是说,由分割形状信息指示的编码单元分割方法可以基于由图像解码设备150所使用的块形状信息指示的块形状来确定。
根据实施例,图像解码设备150可以使用指示当前编码单元具有正方形形状的块形状信息。例如,图像解码设备150可以基于分割形状信息来确定是否分割正方形编码单元、是否竖直分割正方形编码单元、是否水平分割正方形编码单元或者是否将正方形编码单元分割成四个编码单元。参考图10,当当前编码单元1000的块形状信息指示正方形形状时,解码器160可以基于指示不执行分割的分割形状信息来确定与当前编码单元1000具有相同尺寸的编码单元1010a不被分割,或者可以基于指示预设分割方法的分割形状信息来确定编码单元1010b、1010c或1010d被分割。
参考图10,根据实施例,图像解码设备150可以基于指示在竖直方向上执行分割的分割形状信息来确定通过在竖直方向上分割当前编码单元1000获得的两个编码单元1010b。图像解码设备150可以基于指示在水平方向上执行分割的分割形状信息来确定通过在水平方向上分割当前编码单元1000获得的两个编码单元1010c。图像解码设备150可以基于指示在竖直和水平方向上执行分割的分割形状信息来确定通过在竖直和水平方向上分割当前编码单元1000获得的四个编码单元1010d。然而,正方形编码单元的分割方法不限于上述方法,并且分割形状信息可以指示各种方法。下面将关于各种实施例详细描述分割正方形编码单元的预设分割方法。
图11示出了根据实施例的由图像解码设备150执行的通过分割非正方形编码单元来确定至少一个编码单元的过程。
根据实施例,图像解码设备150可以使用指示当前编码单元具有非正方形形状的块形状信息。图像解码设备150可以基于分割形状信息确定是否分割非正方形当前编码单元或者是否通过使用预设分割方法来分割非正方形当前编码单元。参考图11,当当前编码单元1100或1150的块形状信息指示非正方形形状时,图像解码设备150可以基于指示不执行分割的分割形状信息来确定与当前编码单元1100或1150具有相同尺寸的编码单元1110或1160不被分割,或者基于指示预设分割方法的分割形状信息来确定编码单元1120a和1120b、1130a至1130c、1170a和1170b或1180a至1180c被分割。下面将关于各种实施例详细描述分割非正方形编码单元的预设分割方法。
根据实施例,图像解码设备150可以通过使用分割形状信息来确定编码单元的分割方法,并且在这种情况下,分割形状信息可以指示通过分割编码单元生成的一个或多个编码单元的数量。参考图11,当分割形状信息指示将当前编码单元1100或1150分割成两个编码单元时,图像解码设备150可以通过基于分割形状信息分割当前编码单元1100或1150来确定当前编码单元1100或1150中所包括的两个编码单元1120a和1120b或1170a和1170b。
根据实施例,当图像解码设备150基于分割形状信息分割非正方形当前编码单元1100或1150时,可以考虑非正方形当前编码单元1100或1150的长边的位置。例如,图像解码设备150可以考虑当前编码单元1100或1150的形状而通过划分当前编码单元1100或1150的长边来确定多个编码单元。
根据实施例,当分割形状信息指示将编码单元分割成奇数个块时,图像解码设备150可以确定当前编码单元1100或1150中所包括的奇数个编码单元。例如,当分割形状信息指示将当前编码单元1100或1150分割成三个编码单元时,图像解码设备150可以将当前编码单元1100或1150分割成三个编码单元1130a、1130b和1130c或1180a、1180b和1180c。根据实施例,图像解码设备150可以确定当前编码单元1100或1150中所包括的奇数个编码单元,并且不是所有所确定的编码单元可以具有相同尺寸。例如,所确定的奇数个编码单元1130a、1130b和1130c或1180a、1180b和1180c中的预设编码单元1130b或1180b可以具有与其他编码单元1130a和1130c或1180a和1180c的尺寸不同的尺寸。也就是说,可以通过分割当前编码单元1100或1150来确定的编码单元可以具有多种尺寸,并且在一些情况下,所有奇数个编码单元1130a、1130b和1130c或1180a、1180b和1180c可以具有不同尺寸。
根据实施例,当分割形状信息指示将编码单元分割成奇数个块时,图像解码设备150可以确定当前编码单元1100或1150中所包括的奇数个编码单元,并且可以对通过分割当前编码单元1100或1150生成的奇数个编码单元中的至少一个编码单元施加预设限制。参考图11,图像解码设备150可以允许编码单元1130b或1180b的解码方法不同于其他编码单元1130a和1130c或1180a和1180c的解码方法,其中编码单元1130b或1180b位于通过分割当前编码单元1100或1150生成的三个编码单元1130a、1130b和1130c或1180a、1180b和1180c中的中心位置。例如,与其他编码单元1130a和1130c或1180a和1180c不同,图像解码设备150可以限制位于中心位置的编码单元1130b或1180b不再被分割或仅被分割预设次数。
图12示出了根据实施例的由图像解码设备150执行的基于块形状信息和分割形状信息中的至少一者来分割编码单元的过程。
根据实施例,图像解码设备150可以基于块形状信息和分割形状信息中的至少一者来确定是否将正方形第一编码单元1200分割成编码单元。根据实施例,当分割形状信息指示在水平方向上分割第一编码单元1200时,图像解码设备150可以通过在水平方向上分割第一编码单元1200来确定第二编码单元1210。根据实施例使用的第一编码单元、第二编码单元和第三编码单元是用于理解在分割编码单元之前和之后的关系的术语。例如,可以通过分割第一编码单元来确定第二编码单元,并且可以通过分割第二编码单元来确定第三编码单元。将理解,第一编码单元、第二编码单元和第三编码单元的结构遵循以上描述。
根据实施例,图像解码设备150可以基于块形状信息和分割形状信息中的至少一者来确定是否将所确定的第二编码单元1210分割成编码单元。参考图12,基于块形状信息和分割形状信息中的至少一者,图像解码设备150可以将通过分割第一编码单元1200确定的非正方形第二编码单元1210分割成一个或多个第三编码单元1220a或者1220b、1220c和1220d,或者或可以不进行分割。图像解码设备150可以获得块形状信息和分割形状信息中的至少一者,并且基于所获得的块形状信息和分割形状信息中的至少一者,通过分割第一编码单元1200来确定多个不同形状的第二编码单元(例如,1210),并且可以基于块形状信息和分割形状信息中的至少一者通过使用第一编码单元1200的分割方法来分割第二编码单元1210。根据实施例,当第一编码单元1200基于第一编码单元1200的块形状信息和分割形状信息中的至少一者被分割成第二编码单元1210时,第二编码单元1210也可以基于第二编码单元1210的块形状信息和分割形状信息中的至少一者被分割成第三编码单元1220a或者1220b、1220c和1220d。也就是说,编码单元可以基于每个编码单元的块形状信息和分割形状信息中的至少一者来递归分割。因此,可以通过分割非正方形编码单元来确定正方形编码单元,并且可以通过递归分割正方形编码单元来确定非正方形编码单元。参考图12,可以递归分割通过分割非正方形第二编码单元1210确定的奇数个第三编码单元1220b、1220c和1220d中的预设编码单元(例如,位于中心位置的编码单元或正方形编码单元)。根据实施例,奇数个第三编码单元1220b、1220c和1220d中的正方形第三编码单元1220c可以在水平方向上分割成多个第四编码单元。多个第四编码单元中的非正方形第四编码单元可以分割成多个编码单元。例如,非正方形第四编码单元可以分割为奇数个编码单元。
下面将关于各种实施例描述可以用于递归分割编码单元的方法。
根据实施例,图像解码设备150可以基于块形状信息和分割形状信息中的至少一者来确定将第三编码单元1220a或者1220b、1220c和1220d中的每一者分割成编码单元或不分割第三编码单元。根据实施例,图像解码设备150可以将非正方形第二编码单元1210分割成奇数个第三编码单元1220b、1220c和1220d。图像解码设备150可以对奇数个第三编码单元1220b、1220c和1220d中的预设第三编码单元施加预设限制。例如,图像解码设备150可以将奇数个第三编码单元1220b、1220c和1220d中的位于中心位置的第三编码单元1220c限制为不再分割或者分割可设置的次数。参考图12,图像解码设备150可以将非正方形第二编码单元1210中所包括的奇数个第三编码单元1220b、1220c和1220d中的位于中心位置的第三编码单元1220c限制为不再分割、通过使用预设分割方法来分割(例如,仅分割成四个编码单元或者通过使用第二编码单元1210的分割方法来分割),或者仅分割预设次数(例如,仅分割n次(其中n>0))。然而,对位于中心位置处的第三编码单元1220c的限制不限于上述示例,并且可以包括用于与其他第三编码单元1220b和1220d不同地解码位于中心位置处的第三编码单元1220c的各种限制。
根据实施例,图像解码设备150可以从当前编码单元中的预设位置获得用于分割当前编码单元的块形状信息和分割形状信息中的至少一者。
图13示出了根据实施例的由图像解码设备150执行的从奇数个编码单元中确定预设编码单元的方法。参考图13,当前编码单元1300的块形状信息和分割形状信息中的至少一者可以从当前编码单元1300中所包括的多个样本中的预设位置的样本(例如,中心位置的样本1340)获得。然而,可以从中获得块形状信息和分割形状信息中的至少一者的当前编码单元1300中的预设位置不限于图13中的中心位置,并且可以包括当前编码单元1300中所包括的各种位置(例如,顶部、底部、左侧、右侧、左上、左下、右上和右下位置)。图像解码设备150可以从预设位置获得块形状信息和分割形状信息中的至少一者,并且确定是否将当前编码单元分割成各种形状和各种尺寸的编码单元。
根据实施例,当当前编码单元被分割成预设数量的编码单元时,图像解码设备150可以选择所述编码单元中的一者。可以使用各种方法来选择多个编码单元中的一者,如下面将关于各种实施例进行描述的。
根据实施例,图像解码设备150可以将当前编码单元分割成多个编码单元,并且可以确定位于预设位置的编码单元。
图13示出了根据实施例的由图像解码设备150执行的从奇数个编码单元中确定预设位置的编码单元的方法。
根据实施例,图像解码设备150可以使用指示奇数个编码单元的位置的信息来从奇数个编码单元中确定位于中心位置的编码单元。参考图13,图像解码设备150可以通过分割当前编码单元1300来确定奇数个编码单元1320a、1320b和1320c。图像解码设备150可以通过使用关于奇数个编码单元1320a至1320c的位置的信息来确定位于中心位置的编码单元1320b。例如,图像解码设备150可以通过基于指示编码单元1320a、1320b和1320c中所包括的预设样本的位置的信息确定编码单元1320a、1320b和1320c的位置来确定中心位置的编码单元1320b。详细地说,图像解码设备150可以通过基于指示编码单元1320a、1320b和1320c的左上样本1330a、1330b和1330c的位置的信息确定编码单元1320a、1320b和1320c的位置来确定位于中心位置的编码单元1320b。
根据实施例,指示分别包括在编码单元1320a、1320b和1320c中的左上样本1330a、1330b和1330c的位置的信息可以包括关于图片中的编码单元1320a、1320b和1320c的位置或坐标的信息。根据实施例,指示分别包括在编码单元1320a、1320b和1320c中的左上样本1330a、1330b和1330c的位置的信息可以包括指示包括在当前编码单元1300中的编码单元1320a、1320b和1320c的宽度或高度的信息,并且宽度或高度可以对应于指示图片中的编码单元1320a、1320b和1320c的坐标之间的差值的信息。也就是说,图像解码设备150可以通过直接使用关于图片中的编码单元1320a、1320b和1320c的位置或坐标的信息或者通过使用关于与坐标之间的差值相对应的编码单元的宽度或高度的信息来确定位于中心位置的编码单元1320b。
根据实施例,指示上部编码单元1320a的左上样本1330a的位置的信息可以包括坐标(xa,ya),指示中部编码单元1320b的左上样本1330b的位置的信息可以包括坐标(xb,yb),并且指示下部编码单元1320c的左上样本1330c的位置的信息可以包括坐标(xc,yc)。图像解码设备150可以通过使用分别包括在编码单元1320a、1320b和1320c中的左上样本1330a、1330b和1330c的坐标来确定中部编码单元1320b。例如,当左上样本1330a、1330b和1330c的坐标以升序或降序次序排序时,包括位于中心位置的样本1330b的坐标(xb,yb)的编码单元1320b可以被确定为通过分割当前编码单元1300确定的编码单元1320a、1320b和1320c中的位于中心位置的编码单元。然而,指示左上样本1330a、1330b和1330c的位置的坐标可以包括指示图片中的绝对位置的坐标,或者可以使用参考上部编码单元1320a的左上样本1330a的位置的指示中部编码单元1320b的左上样本1330b的相对位置的坐标(dxb,dyb)和指示下部编码单元1320c的左上样本1330c的相对位置的坐标(dxc,dyc)。通过使用编码单元中所包括的样本的坐标作为指示样本位置的信息来确定位于预设位置的编码单元的方法不限于上述方法,并且可以包括能够使用样本坐标的各种算术方法。
根据实施例,图像解码设备150可以将当前编码单元1300分割成多个编码单元1320a、1320b和1320c,并且可以基于预设标准选择编码单元1320a、1320b和1320c中的一者。例如,图像解码设备150可以从编码单元1320a、1320b和1320c中选择尺寸不同于其他编码单元的编码单元1320b。
根据实施例,图像解码设备150可以通过使用指示上部编码单元1320a的左上样本1330a位置的坐标(xa,ya)、指示中部编码单元1320b的左上样本1330b位置的坐标(xb,yb)和指示下部编码单元1320c的左上样本1330c位置的坐标(xc,yc)来确定编码单元1320a、1320b和1320c的宽度或高度。图像解码设备150可以通过使用指示编码单元1320a、1320b和1320c的位置的坐标(xa,ya)、(xb,yb)和(xc,yc)来确定编码单元1320a、1320b和1320c的相应尺寸。
根据实施例,图像解码设备150可以将上部编码单元1320a的宽度确定为上部编码单元1320a的右上样本和左上样本的x坐标之差,并且将其高度确定为yb-ya。根据实施例,图像解码设备150可以将中部编码单元1320b的宽度确定为中部编码单元1320b的右上样本和左上样本的x坐标之差,并且将其高度确定为yc-yb。根据实施例,图像解码设备150可以通过使用当前编码单元1300的宽度或高度和上部以及中部编码单元1320a和1320b的宽度或高度来确定下部编码单元1320c的宽度或高度。图像解码设备150可以基于所确定的编码单元1320a至1320c的宽度和高度来确定尺寸不同于其他编码单元的编码单元。参考图13,图像解码设备150可以将尺寸不同于上部和下部编码单元1320a和1320c的尺寸的中部编码单元1320b确定为预设位置的编码单元。然而,由图像解码设备150执行的确定尺寸不同于其他编码单元的编码单元的上述方法仅对应于通过使用基于样本坐标确定的编码单元尺寸来确定位于预设位置的编码单元的示例,并且因此可以使用通过比较基于预设样本的坐标确定的编码单元尺寸来确定位于预设位置的编码单元的各种方法。
然而,确定编码单元的位置所考虑的样本位置不限于上述左上位置,并且可以使用关于编码单元中所包括的样本的任意位置的信息。
根据实施例,图像解码设备150可以考虑当前编码单元的形状而从通过分割当前编码单元确定的奇数个编码单元中选择位于预设位置的编码单元。例如,当当前编码单元具有宽度长于高度的非正方形形状时,图像解码设备150可以在水平方向上确定位于预设位置的编码单元。也就是说,图像解码设备150可以在水平方向上确定位于不同位置的编码单元中的一者,并且对所述编码单元施加限制。当当前编码单元具有高度长于宽度的非正方形形状时,图像解码设备150可以在竖直方向上确定位于预设位置的编码单元。也就是说,图像解码设备150可以在竖直方向上确定位于不同位置的编码单元中的一者,并且可以对所述编码单元施加限制。
根据实施例,图像解码设备150可以使用指示偶数个编码单元的相应位置的信息来从偶数个编码单元中确定位于预设位置的编码单元。图像解码设备150可以通过分割当前编码单元来确定偶数个编码单元,并且可以通过使用关于偶数个编码单元的位置的信息来确定位于预设位置的编码单元。与之相关的操作可以对应于从奇数个编码单元中确定位于预设位置(例如,中心位置)的编码单元的操作,这已经在上面关于图13进行了详细描述,并且因此这里不提供其详细描述。
根据实施例,当非正方形当前编码单元被分割成多个编码单元时,关于位于预设位置的编码单元的预设信息可以在分割操作中使用以从多个编码单元中确定位于预设位置的编码单元。例如,图像解码设备150可以在分割操作中使用存储于包括在位于中心位置的编码单元中的样本中的块形状信息和分割形状信息中的至少一者来从通过分割当前编码单元确定的多个编码单元中确定位于中心位置的编码单元。
参考图13,图像解码设备150可以基于块形状信息和分割形状信息中的至少一者将当前编码单元1300分割成多个编码单元1320a、1320b和1320c,并且可以从多个编码单元1320a、1320b和1320c中确定位于中心位置的编码单元1320b。此外,图像解码设备150可以考虑从其中获得块形状信息和分割形状信息中的至少一者的位置而确定位于中心位置的编码单元1320b。也就是说,当前编码单元1300的块形状信息和分割形状信息中的至少一者可以从当前编码单元1300的位于中心位置的样本1340获得,并且当当前编码单元1300基于块形状信息和分割形状信息中的至少一者被分割成多个编码单元1320a、1320b和1320c时,包括样本1340的编码单元1320b可以被确定为位于中心位置的编码单元。然而,用于确定位于中心位置的编码单元的信息不限于块形状信息和分割形状信息中的至少一者,并且各种类型的信息可以用于确定位于中心位置的编码单元。
根据实施例,用于识别位于预设位置的编码单元的预设信息可以从包括在待确定的编码单元中的预设样本获得。参考图13,图像解码设备150可以使用从当前编码单元1300中的位于预设位置的样本(例如,当前编码单元1300的位于中心位置的样本)获得的块形状信息和分割形状信息中的至少一者来从通过分割当前编码单元1300确定的多个编码单元1320a、1320b和1320c中确定位于预设位置的编码单元(例如,多个分割编码单元中的位于中心位置的编码单元)。也就是说,图像解码设备150可以通过考虑当前编码单元1300的块形状来确定位于预设位置的样本,从通过分割当前编码单元1300确定的多个编码单元1320a、1320b和1320c中确定包括可以从其中获得预设信息(例如,块形状信息和分割形状信息中的至少一者)的样本的编码单元1320b,并且可以对编码单元1320b施加预设限制。参考图13,根据实施例,图像解码设备150可以将当前编码单元1300的位于中心位置的样本1340确定为可以从中获得预设信息的样本,并且可以在解码操作中对包括样本1340的编码单元1320b施加预设限制。然而,可以从中获得预设信息的样本的位置不限于上述位置,并且可以包括待针对限制确定的编码单元1320b中所包括的样本的任意位置。
根据实施例,可以基于当前编码单元1300的形状来确定可以从中获得预设信息的样本的位置。根据实施例,块形状信息可以指示当前编码单元是具有正方形形状还是非正方形形状,并且可以基于形状来确定可以从中获得预设信息的样本的位置。例如,图像解码设备150可以通过使用关于当前编码单元的宽度的信息和关于当前编码单元的高度的信息中的至少一者来确定位于用于将当前编码单元的宽度和高度中的至少一者对半分的边界上的样本作为可以从中获得预设信息的样本。作为另一示例,当当前编码单元的块形状信息指示非正方形形状时,图像解码设备150可以确定与用于将当前编码单元的长边对半分的边界相邻的样本之一作为可以从中获得预设信息的样本。
根据实施例,当当前编码单元被分割成多个编码单元时,图像解码设备150可以使用块形状信息和分割形状信息中的至少一者来从多个编码单元中确定位于预设位置的编码单元。根据实施例,图像解码设备150可以从编码单元中的位于预设位置的样本获得块形状信息和分割形状信息中的至少一者,并且通过使用从多个编码单元中的每一者中的预设位置的样本获得的分割形状信息和块形状信息中的至少一者来分割通过分割当前编码单元生成的多个编码单元。也就是说,可以基于从每个编码单元中的位于预设位置的样本获得的块形状信息和分割形状信息中的至少一者递归分割编码单元。上面已经关于图12描述了递归分割编码单元的操作,并且因此这里将不提供其详细描述。
根据实施例,图像解码设备150可以通过分割当前编码单元来确定一个或多个编码单元,并且可以基于预设块(例如,当前编码单元)来确定解码一个或多个编码单元的次序。
图14示出了根据实施例的当图像解码设备150通过分割当前编码单元来确定多个编码单元时处理多个编码单元的次序。
根据实施例,图像解码设备150可以基于块形状信息和分割形状信息,通过在竖直方向上分割第一编码单元1400来确定第二编码单元1410a和1410b,通过在水平方向上分割第一编码单元1400来确定第二编码单元1430a和1430b,或者通过在竖直和水平方向上分割第一编码单元1400来确定第二编码单元1450a至1450d。
参考图14,图像解码设备150可以确定以水平方向次序1410c处理第二编码单元1410a和1410b,所述第二编码单元1410a和1410b是通过在竖直方向上分割第一编码单元1400来确定的。图像解码设备150可以确定以竖直方向次序1430c处理第二编码单元1430a和1430b,所述第二编码单元1430a和1430b是通过在水平方向上分割第一编码单元1400来确定的。图像解码设备150可以确定以用于处理一行中的编码单元并且接着处理下一行中的编码单元的预设次序(例如,以栅格扫描次序或Z扫描次序1450e)处理第二编码单元1450a至1450d,所述第二编码单元1450a至1450d是通过在竖直和水平方向上分割第一编码单元1400来确定的。
根据实施例,图像解码设备150可以递归分割编码单元。参考图14,图像解码设备150可以通过分割第一编码单元1400来确定多个编码单元1410a、1410b、1430a、1430b、1450a、1450b、1450c和1450d,并且可以递归分割所确定的多个编码单元1410a、1410b、1430a、1430b、1450a、1450b、1450c和1450d中的每一者。多个编码单元1410a、1410b、1430a、1430b、1450a、1450b、1450c和1450d的分割方法可以对应于第一编码单元1400的分割方法。这样,多个编码单元1410a、1410b、1430a、1430b、1450a、1450b、1450c和1450d中的每一者可以独立地分割成多个编码单元。参考图14,图像解码设备150可以通过在竖直方向上分割第一编码单元1400来确定第二编码单元1410a和1410b,并且可以确定独立分割或不分割第二编码单元1410a和1410b中的每一者。
根据实施例,图像解码设备150可以通过在水平方向上分割左侧第二编码单元1410a来确定第三编码单元1420a和1420b,并且可以不分割右侧第二编码单元1410b。
根据实施例,编码单元的处理次序可以基于分割编码单元的操作来确定。换句话说,可以基于紧接在被分割之前的编码单元的处理次序来确定分割的编码单元的处理次序。图像解码设备150可以独立于右侧第二编码单元1410b确定通过分割左侧第二编码单元1410a确定的第三编码单元1420a和1420b的处理次序。因为第三编码单元1420a和1420b是通过在水平方向上分割左侧第二编码单元1410a来确定的,所以第三编码单元1420a和1420b可以以竖直方向次序1420c处理。因为左侧和右侧第二编码单元1410a和1410b以水平方向次序1410c处理,所以右侧第二编码单元1410b可以在包括于左侧第二编码单元1410a中的第三编码单元1420a和1420b以竖直方向次序1420c处理之后进行处理。基于被分割之前的编码单元确定编码单元的处理次序的操作不限于上述示例,并且可以使用各种方法来以预设次序独立地处理被分割并确定为各种形状的编码单元。
图15示出了根据实施例的由图像解码设备150执行的当编码单元不能以预设次序处理时确定当前编码单元将被分割成奇数个编码单元的过程。
根据实施例,图像解码设备150可以基于所获得的块形状信息和分割形状信息来确定当前编码单元是否被分割成奇数个编码单元。参考图15,正方形第一编码单元1500可以被分割成非正方形第二编码单元1510a和1510b,并且第二编码单元1510a和1510b可以被独立地分割成第三编码单元1520a和1520b以及1520c至1520e。根据实施例,图像解码设备150可以通过在水平方向上分割左侧第二编码单元1510a来确定多个第三编码单元1520a和1520b,并且可以将右侧第二编码单元1510b分割成奇数个第三编码单元1520c至1520e。
根据实施例,图像解码设备150可以通过确定第三编码单元1520a和1520b以及1520c至1520e是否能以预设次序处理来确定任何编码单元是否被分割成奇数个编码单元。参考图15,图像解码设备150可以通过递归分割第一编码单元1500来确定第三编码单元1520a和1520b以及1520c至1520e。图像解码设备150可以基于块形状信息和分割形状信息中的至少一者来确定第一编码单元1500、第二编码单元1510a和1510b以及第三编码单元1520a和1520b以及1520c、1520d和1520e中的任一者是否被分割成奇数个编码单元。例如,右侧编码单元1510b可以被分割成奇数个第三编码单元1520c、1520d和1520e。第一编码单元1500中所包括的多个编码单元的处理次序可以是预设次序(例如,Z扫描次序1530),并且图像解码设备150可以确定通过将右侧第二编码单元1510b分割成奇数个编码单元来确定的第三编码单元1520c、1520d和1520e是否满足用于以预设次序进行处理的条件。
根据实施例,图像解码设备150可以确定第一编码单元1500中所包括的第三编码单元1520a和1520b以及1520c、1520d和1520e是否满足用于以预设次序进行处理的条件,并且所述条件涉及第二编码单元1510a和1510b的宽度和高度中的至少一者是否沿着第三编码单元1520a和1520b以及1520c、1520d和1520e的边界对半分。例如,通过将非正方形左侧第二编码单元1510a的高度对半分来确定的第三编码单元1520a和1520b满足所述条件。然而,因为通过将右侧第二编码单元1510b分割成三个编码单元来确定的第三编码单元1520c、1520d和1520e的边界没有将右侧第二编码单元1510b的宽度或高度对半分,所以可以确定第三编码单元1520c、1520d和1520e不满足所述条件。当如上所述不满足所述条件时,图像解码设备150可以决定断开扫描次序,并且基于所述决定的结果,确定右侧第二编码单元1510b被分割成奇数个编码单元。根据实施例,当编码单元被分割成奇数个编码单元时,图像解码设备150可以对所分割的编码单元中的位于预设位置的编码单元施加预设限制。上面已经关于各种实施例描述了限制或预设位置,并且因此这里将不提供其详细描述。
图16示出了根据实施例的由图像解码设备150执行的通过分割第一编码单元1600来确定至少一个编码单元的过程。根据实施例,图像解码设备150可以基于由比特流获取器170获得的块形状信息和分割形状信息中的至少一者来分割第一编码单元1600。正方形第一编码单元1600可以被分割成四个正方形编码单元,或者可以被分割成多个非正方形编码单元。例如,参考图16,当块形状信息指示第一编码单元1600具有正方形形状并且分割形状信息指示将第一编码单元1600分割成非正方形编码单元时,图像解码设备150可以将第一编码单元1600分割成多个非正方形编码单元。详细地说,当分割形状信息指示通过在水平方向或竖直方向上分割第一编码单元1600来确定奇数个编码单元时,图像解码设备150可以将正方形第一编码单元1600分割成奇数个编码单元,例如,通过在竖直方向上分割正方形第一编码单元1600来确定的第二编码单元1610a、1610b和1610c,或者通过在水平方向上分割正方形第一编码单元1600来确定的第二编码单元1620a、1620b和1620c。
根据实施例,图像解码设备150可以确定第一编码单元1600中所包括的第二编码单元1610a、1610b、1610c、1620a、1620b和1620c是否满足用于以预设次序进行处理的条件,并且所述条件涉及第一编码单元1600的宽度和高度中的至少一者是否沿着第二编码单元1610a、1610b、1610c、1620a、1620b和1620c的边界对半分。参考图16,因为通过在竖直方向上分割正方形第一编码单元1600来确定的第二编码单元1610a、1610b和1610c的边界没有将第一编码单元1600的高度对半分,所以可以确定第一编码单元1600不满足用于以预设次序进行处理的条件。此外,因为通过在水平方向上分割正方形第一编码单元1600来确定的第二编码单元1620a、1620b和1620c的边界没有将第一编码单元1600的宽度对半分,所以可以确定第一编码单元1600不满足用于以预设次序进行处理的条件。当如上所述不满足所述条件时,图像解码设备150可以决定断开扫描次序,并且可以基于所述决定的结果确定第一编码单元1600被分割成奇数个编码单元。根据实施例,当编码单元被分割成奇数个编码单元时,图像解码设备150可以对所分割的编码单元中的位于预设位置的编码单元施加预设限制。上面已经关于各种实施例描述了限制或预设位置,并且因此这里将不提供其详细描述。
根据实施例,图像解码设备150可以通过分割第一编码单元来确定各种形状的编码单元。
参考图16,图像解码设备150可以将正方形第一编码单元1600或非正方形第一编码单元1630或1650分割成各种形状的编码单元。
图17示出了根据实施例,通过分割第一编码单元1700而确定的具有非正方形形状的第二编码单元满足预定条件时,第二编码单元能够由图像解码设备150分割成的形状受到限制。
根据实施例,图像解码设备150可以基于由比特流获取器170获得的块形状信息和分割形状信息中的至少一者来确定将正方形第一编码单元1700分割成非正方形第二编码单元1710a、1710b、1720a和1720b。第二编码单元1710a、1710b、1720a和1720b可以独立地分割。这样,图像解码设备150可以基于第二编码单元1710a、1710b、1720a和1720b中的每一者的块形状信息和分割形状信息中的至少一者来确定是否将第二编码单元1710a、1710b、1720a和1720b分割成多个编码单元。根据实施例,图像解码设备150可以通过在水平方向上分割非正方形左侧第二编码单元1710a来确定第三编码单元1712a和1712b,所述非正方形左侧第二编码单元1710a是通过在竖直方向上分割第一编码单元1700确定的。然而,当左侧第二编码单元1710a在水平方向上进行分割时,图像解码设备150可以限制右侧第二编码单元1710b不在左侧第二编码单元1710a被分割的水平方向上进行分割。当通过沿相同方向分割右侧第二编码单元1710b来确定第三编码单元1714a和1714b时,因为左侧和右侧第二编码单元1710a和1710b在水平方向上独立地分割,所以可以确定第三编码单元1712a、1712b、1714a和1714b。然而,这种情况同样用作图像解码设备150基于块形状信息和分割形状信息中的至少一者将第一编码单元1700分割成四个正方形第二编码单元1730a、1730b、1730c和1730d的情况,并且在图像解码方面可能是低效的。
根据实施例,图像解码设备150可以通过在竖直方向上分割非正方形第二编码单元1720a或1720b来确定第三编码单元1722a、1722b、1724a和1724b,所述非正方形第二编码单元1720a或1720b是通过在水平方向上分割第一编码单元1700来确定的。然而,当一个第二编码单元(例如,上部第二编码单元1720a)在竖直方向上进行分割时,由于上文描述的原因,图像解码设备150可以限制另一个第二编码单元(例如,下部第二编码单元1720b)不在分割上部第二编码单元1720a的竖直方向上被分割。
图18示出了根据实施例的由图像解码设备150执行的当分割形状信息指示正方形编码单元不被分割成四个正方形编码单元时分割正方形编码单元的过程。
根据实施例,图像解码设备150可以通过基于块形状信息和分割形状信息中的至少一者分割第一编码单元1800来确定第二编码单元1810a、1810b、1820a、1820b等。分割形状信息可以包括关于分割编码单元的各种方法的信息,但是关于各种分割方法的信息可以不包括用于将编码单元分割成四个正方形编码单元的信息。根据此类分割形状信息,图像解码设备150可以不将正方形第一编码单元1800分割成四个正方形第二编码单元1830a、1830b、1830c和1830d。图像解码设备150可以基于分割形状信息确定非正方形第二编码单元1810a、1810b、1820a、1820b等。
根据实施例,图像解码设备150可以独立地分割非正方形第二编码单元1810a、1810b、1820a、1820b等。第二编码单元1810a、1810b、1820a、1820b等中的每一者可以以预设次序递归地分割,并且这种分割方法可以对应于基于块形状信息和分割形状信息中的至少一者分割第一编码单元1800的方法。
例如,图像解码设备150可以通过在水平方向上分割左侧第二编码单元1810a来确定正方形第三编码单元1812a和1812b,并且可以通过在水平方向上分割右侧第二编码单元1810b来确定正方形第三编码单元1814a和1814b。此外,图像解码设备150可以通过在水平方向上分割左侧和右侧第二编码单元1810a和1810b两者来确定正方形第三编码单元1816a、1816b、1816c和1816d。在这种情况下,可以确定与从第一编码单元1800分割的四个正方形第二编码单元1830a、1830b、1830c和1830d具有相同形状的编码单元。
作为另一个示例,图像解码设备150可以通过在竖直方向上分割上部第二编码单元1820a来确定正方形第三编码单元1822a和1822b,并且可以通过在竖直方向上分割下部第二编码单元1820b来确定正方形第三编码单元1824a和1824b。此外,图像解码设备150可以通过在竖直方向上分割上部和下部第二编码单元1820a和1820b两者来确定正方形第三编码单元1822a、1822b、1824a和1824b。在这种情况下,可以确定与从第一编码单元1800分割的四个正方形第二编码单元1830a、1830b、1830c和1830d具有相同形状的编码单元。
图19示出了根据实施例,多个编码单元之间的处理次序可以根据分割编码单元的过程而改变。
根据实施例,图像解码设备150可以基于块形状信息和分割形状信息分割第一编码单元1900。当块形状信息指示正方形形状并且分割形状信息指示在水平和竖直方向中的至少一者上分割第一编码单元1900时,图像解码设备150可以通过分割第一编码单元1900来确定第二编码单元1910a、1910b、1920a和1920b。参考图19,通过仅在水平方向或竖直方向上分割第一编码单元1900来确定的非正方形第二编码单元1910a、1910b、1920a和1920b可以基于每个编码单元的块形状信息和分割形状信息独立地分割。例如,图像解码设备150可以通过在水平方向上分割通过在竖直方向上分割第一编码单元1900生成的第二编码单元1910a和1910b来确定第三编码单元1916a、1916b、1916c和1916d,并且可以通过在竖直方向上分割通过在水平方向上分割第一编码单元1900生成的第二编码单元1920a和1926b来确定第三编码单元1926a、1926b、1926c和1926d。上面已经关于图17描述了分割第二编码单元1910a、1910b、1920a和1920b的操作,并且因此这里将不提供其详细描述。
根据实施例,图像解码设备150可以以预设次序处理编码单元。上面已经关于图14描述了以预设次序处理编码单元的操作,并且因此这里将不提供其详细描述。参考图19,图像解码设备150可以通过分割正方形第一编码单元1900来确定四个正方形第三编码单元1916a、1916b、1916c和1916d以及1926a、1926b、1926c和1926d。根据实施例,图像解码设备150可以基于第一编码单元1900的分割方法来确定第三编码单元1916a、1916b、1916c和1916d以及1926a、1926b、1926c和1926d的处理次序。
根据实施例,图像解码设备150可以通过在水平方向上分割通过在竖直方向上分割第一编码单元1900生成的第二编码单元1910a和1910b来确定第三编码单元1916a、1916b、1916c和1916d,并且可以以用于最初在竖直方向上处理左侧第二编码单元1910a中所包括的第三编码单元1916a和1916c并且接着在竖直方向上处理右侧第二编码单元1910b中所包括的第三编码单元1916b和1916d的处理次序1917处理第三编码单元1916a、1916b、1916c和1916d。
根据实施例,图像解码设备150可以通过在竖直方向上分割通过在水平方向上分割第一编码单元1900生成的第二编码单元1920a和1920b来确定第三编码单元1926a、1926b、1926c和1926d,并且可以以用于最初在水平方向上处理上部第二编码单元1920a中所包括的第三编码单元1926a和1926b并且接着在水平方向上处理下部第二编码单元1920b中所包括的第三编码单元1926c和1926d的处理次序1927处理第三编码单元1926a、1926b、1926c和1926d。
参考图19,正方形第三编码单元1916a、1916b、1916c和1916d以及1926a、1926b、1926c和1926d可以分别通过分割第二编码单元1910a、1910b、1920a和1920b来确定。虽然第二编码单元1910a和1910b是通过在竖直方向上分割第一编码单元1900来确定的,其不同于通过在水平方向上分割第一编码单元1900来确定的第二编码单元1920a和1920b,但是从中分割的第三编码单元1916a、1916b、1916c和1916d以及1926a、1926b、1926c和1926d最终示出了从第一编码单元1900分割的相同形状的编码单元。这样,通过基于块形状信息和分割形状信息中的至少一者以不同方式递归分割编码单元,即使当编码单元最终被确定为相同形状时,图像解码设备150也可以以不同次序处理多个编码单元。
图20示出了根据实施例的当编码单元被递归分割以确定多个编码单元时随着编码单元的形状和尺寸的改变来确定编码单元的深度的过程。
根据实施例,图像解码设备150可以基于预设标准来确定编码单元的深度。例如,预设标准可以是编码单元的长边的长度。当编码单元的长边的长度在分割之前是经过分割的当前编码单元的长边长度的2n倍(n>0)时,图像解码设备150可以确定当前编码单元的深度从在分割之前的编码单元的深度增加n。在以下描述中,具有增加深度的编码单元被表达为更深深度的编码单元。
参考图20,根据实施例,图像解码设备150可以通过基于指示正方形形状的块形状信息(例如,块形状信息可以表达为“0:正方形”)分割正方形第一编码单元2000来确定更深深度的第二编码单元2002和第三编码单元2004。假设正方形第一编码单元2000的尺寸是2N×2N,则通过将第一编码单元2000的宽度和高度划分为1/21来确定的第二编码单元2002可以具有N×N的尺寸。此外,通过将第二编码单元2002的宽度和高度划分为1/2来确定的第三编码单元2004可以具有N/2×N/2的尺寸。在这种情况下,第三编码单元2004的宽度和高度是第一编码单元2000的宽度和高度的1/22倍。当第一编码单元2000的深度是D时,第二编码单元2002(其宽度和高度是第一编码单元2000的宽度和高度的1/21倍)的深度可以是D+1,并且第三编码单元2004(其宽度和高度是第一编码单元2000的宽度和高度的1/22倍)的深度可以是D+2。
根据实施例,图像解码设备150可以通过基于指示非正方形形状的块形状信息(例如,块形状信息可以表达为指示高度长于宽度的非正方形形状的“1:NS_VER”,或者指示宽度长于高度的非正方形形状的“2:NS_HOR”)分割非正方形第一编码单元2010或2020来确定更深深度的第二编码单元2012或2022和第三编码单元2014或2024。
图像解码设备150可以通过划分尺寸为N×2N的第一编码单元2010的宽度和高度中的至少一者来确定第二编码单元2002、2012或2022。也就是说,图像解码设备150可以通过在水平方向上分割第一编码单元2010来确定尺寸为N×N的第二编码单元2002或尺寸为N×N/2的第二编码单元2022,或可以通过在水平和竖直方向上分割第一编码单元2010来确定尺寸为N/2×N的第二编码单元2012。
根据实施例,图像解码设备150可以通过划分尺寸为2N×N的第一编码单元2020的宽度和高度中的至少一者来确定第二编码单元2002、2012或2022。也就是说,图像解码设备150可以通过在竖直方向上分割第一编码单元2020来确定尺寸为N×N的第二编码单元2002或尺寸为N/2×N的第二编码单元2012,或可以通过在水平和竖直方向上分割第一编码单元2020来确定尺寸为N×N/2的第二编码单元2022。
根据实施例,图像解码设备150可以通过划分尺寸为N×N的第二编码单元2002的宽度和高度中的至少一者来确定第三编码单元2004、2014或2024。也就是说,图像解码设备150可以通过在竖直和水平方向上分割第二编码单元2002来确定尺寸为N/2×N/2的第三编码单元2004、尺寸为N/22×N/2的第三编码单元2014或尺寸为N/2×N/22的第三编码单元2024。
根据实施例,图像解码设备150可以通过划分尺寸为N/2×N的第二编码单元2012的宽度和高度中的至少一者来确定第三编码单元2004、2014或2024。也就是说,图像解码设备150可以通过在水平方向上分割第二编码单元2012来确定尺寸为N/2×N/2的第三编码单元2004或尺寸为N/2×N/22的第三编码单元2024,或者可以通过在竖直和水平方向上分割第二编码单元2012来确定尺寸为N/22×N/2的第三编码单元2014。
根据实施例,图像解码设备150可以通过划分尺寸为N×N/2的第二编码单元2022的宽度和高度中的至少一者来确定第三编码单元2004、2014或2024。也就是说,图像解码设备150可以通过在竖直方向上分割第二编码单元2022来确定尺寸为N/2×N/2的第三编码单元2004或尺寸为N/22×N/2的第三编码单元2014,或者可以通过在竖直和水平方向上分割第二编码单元2022来确定尺寸为N/2×N/22的第三编码单元2024。
根据实施例,图像解码设备150可以在水平或竖直方向上分割正方形编码单元2000、2002或2004。例如,图像解码设备150可以通过在竖直方向上分割尺寸为2N×2N的第一编码单元2000来确定尺寸为N×2N的第一编码单元2010,或者可以通过在水平方向上分割第一编码单元2000来确定尺寸为2N×N的第一编码单元2020。根据实施例,当基于编码单元的最长边的长度确定深度时,通过在水平或竖直方向上分割尺寸为2N×2N的第一编码单元2000来确定的编码单元2010或2020的深度可以与第一编码单元2000的深度相同。
根据实施例,第三编码单元2014或2024的宽度和高度可以是第一编码单元2010或2020的宽度和高度的1/22倍。当第一编码单元2010或2020的深度是D时,第二编码单元2012或2022(其宽度和高度是第一编码单元2010或2020的宽度和高度的1/2倍)的深度可以是D+1,并且第三编码单元2014或2024(其宽度和高度是第一编码单元2010或2020的宽度和高度的1/22倍)的深度可以是D+2。
图21示出了根据实施例的能够基于编码单元的形状和尺寸确定的深度以及用于区分编码单元的部分索引(PID)。
根据实施例,图像解码设备150可以通过分割正方形第一编码单元2100来确定各种形状的第二编码单元。参考图21,图像解码设备150可以通过基于分割形状信息在竖直和水平方向中的至少一者上分割第一编码单元2100来确定第二编码单元2102a和2102b、2104a和2104b以及2106a、2106b、2106c和2106d。也就是说,图像解码设备150可以基于第一编码单元2100的分割形状信息来确定第二编码单元2102a和2102b、2104a和2104b以及2106a、2106b、2106c和2106d。
根据实施例,基于正方形第一编码单元2100的分割形状信息来确定第二编码单元2102a和2102b、2104a和2104b以及2106a、2106b、2106c和2106d的深度可以基于其长边的长度来确定。例如,因为正方形第一编码单元2100的边的长度等于非正方形第二编码单元2102a和2102b以及2104a和2104b的长边的长度,所以第一编码单元2100和非正方形第二编码单元2102a和2102b以及2104a和2104b可以具有相同深度,例如,D。然而,当图像解码设备150基于分割形状信息将第一编码单元2100分割成四个正方形第二编码单元2106a、2106b、2106c和2106d时,因为正方形第二编码单元2106a、2106b、2106c和2106d的边长是第一编码单元2100的边长的1/2倍,所以第二编码单元2106a、2106b、2106c和2106d的深度可以是比第一编码单元2100的深度D深1的D+1。
根据实施例,图像解码设备150可以通过基于分割形状信息在水平方向上分割高度长于宽度的第一编码单元2110来确定多个第二编码单元2112a和2112b以及2114a、2114b和2114c。根据实施例,图像解码设备150可以通过基于分割形状信息在竖直方向上分割宽度长于高度的第一编码单元2120来确定多个第二编码单元2122a和2122b以及2124a、2124b和2124c。
根据实施例,基于非正方形第一编码单元2110或2120的分割形状信息确定的第二编码单元2112a和2112b、2114a、2114b和2114c、2122a和2122b、2124a、2124b和2124c的深度可以基于其长边的长度来确定。例如,因为正方形第二编码单元2112a和2112b的边长是具有非正方形形状的第一编码单元2110的长边长度的1/2倍,第一编码单元2110的高度长于宽度,所以正方形第二编码单2112a和2112b的深度是比非正方形第一编码单元2110的深度D深1的D+1。
此外,图像解码设备150可以基于分割形状信息将非正方形第一编码单元2110分割成奇数个第二编码单元2114a、2114b和2114c。奇数个第二编码单元2114a、2114b和2114c可以包括非正方形第二编码单元2114a和2114c以及正方形第二编码单元2114b。在这种情况下,因为非正方形第二编码单元2114a和2114c的长边长度和正方形第二编码单元2114b的边长是第一编码单元2110的长边边长的1/2倍,所以第二编码单元2114a、2114b和2114c的深度可以是比非正方形第一编码单元2110的深度D深1的D+1。图像解码设备150可以通过使用上述确定从第一编码单元2110分割的编码单元的深度的方法来确定从宽度长于高度的具有非正方形形状的第一编码单元2120分割的编码单元的深度。
根据实施例,当奇数个分割编码单元不具有相等尺寸时,图像解码设备150可以基于编码单元之间的尺寸比率来确定用于识别分割编码单元的PID。参考图21,奇数个分割编码单元2114a、2114b和2114c中的中心位置的编码单元2114b可以具有与其他编码单元2114a和2114c的宽度相等的宽度以及是其他编码单元2114a和2114c的高度的两倍的高度。也就是说,在这种情况下,位于中心位置的编码单元2114b可以包括两个所述其他编码单元2114a或2114c。因此,当位于中心位置的编码单元2114b的PID基于扫描次序为1时,位于紧挨编码单元2114b处的编码单元2114c的PID可以增加2并且因此可以是3。也就是说,可以存在PID值的不连续性。根据实施例,图像解码设备150可以基于用于识别分割编码单元的PID是否存在不连续性来确定奇数个分割编码单元是否不具有相等尺寸。
根据实施例,图像解码设备150可以基于用于识别通过分割当前编码单元确定的多个编码单元的PID值来确定是否使用特定分割方法。参考图21,图像解码设备150可以通过分割具有高度长于宽度的矩形形状的第一编码单元2110来确定偶数个编码单元2112a和2112b或者奇数个编码单元2114a、2114b和2114c。图像解码设备150可以使用PID来识别相应编码单元。根据实施例,可以从每个编码单元的预设位置的样本(例如,左上样本)获得PID。
根据实施例,图像解码设备150可以通过使用用于区分编码单元的PID来从分割编码单元中确定位于预设位置的编码单元。根据实施例,当具有高度长于宽度的矩形形状的第一编码单元2110的分割形状信息指示将编码单元分割成三个编码单元时,图像解码设备150可以将第一编码单元2110分割成三个编码单元2114a、2114b和2114c。图像解码设备150可以向三个编码单元2114a、2114b和2114c中的每一者指派PID。图像解码设备150可以比较奇数个分割编码单元的PID以从编码单元中确定位于中心位置的编码单元。图像解码设备150可以从通过分割第一编码单元2110确定的编码单元中确定PID对应于编码单元的PID中的中间值的编码单元2114b作为位于中心位置的编码单元。根据实施例,当分割编码单元不具有相等尺寸时,图像解码设备150可以基于编码单元之间的尺寸比率来确定用于区分分割编码单元的PID。参考图21,通过分割第一编码单元2110生成的编码单元2114b可以具有与其他编码单元2114a和2114c的宽度相等的宽度以及是其他编码单元2114a和2114c的高度的两倍的高度。在这种情况下,当位于中心位置的编码单元2114b的PID为1时,位于紧挨编码单元2114b处的编码单元2114c的PID可以增加2并且因此可以为3。当如上所述PID没有均匀增加时,图像解码设备150可以确定编码单元被分割成多个编码单元,该多个编码单元包括尺寸不同于其他编码单元的尺寸的编码单元。根据实施例,当分割形状信息指示将编码单元分割成奇数个编码单元时,图像解码设备150可以以某种方式分割当前编码单元,使得奇数个编码单元中的预设位置的编码单元(例如,中心位置的编码单元)具有与其他编码单元的尺寸不同的尺寸。在这种情况下,图像解码设备150可以通过使用编码单元的PID来确定具有不同尺寸的中心位置的编码单元。然而,预设位置的编码单元的PID以及尺寸或位置不限于上述示例,并且可以使用编码单元的各种PID以及各种位置和尺寸。
根据实施例,图像解码设备150可以使用预设数据单元,在该处编码单元开始递归分割。
图22示出了根据实施例,多个编码单元基于图片中所包括的多个预设数据单元来确定。
根据实施例,预设数据单元可以被定义为某个数据单元,在该处编码单元开始通过使用块形状信息和分割形状信息中的至少一者进行递归分割。也就是说,预设数据单元可以对应于最上层深度的编码单元,其用于确定从当前图片分割的多个编码单元。在以下描述中,为了便于解释,预设数据单元被称为参考数据单元。
根据实施例,参考数据单元可以具有预设尺寸和预设形状。根据实施例,参考编码单元可以包括M×N个样本。这里,M和N可以彼此相等,并且可以是表达为2的幂的整数。也就是说,参考数据单元可以具有正方形或非正方形形状,并且可以被分割成整数个编码单元。
根据实施例,图像解码设备150可以将当前图片分割成多个参考数据单元。根据实施例,图像解码设备150可以通过使用关于每个参考数据单元的分割信息来分割从当前图片分割的多个参考数据单元。分割参考数据单元的操作可以对应于使用四叉树结构的分割操作。
根据实施例,图像解码设备150可以预先确定当前图片中所包括的参考数据单元允许的最小尺寸。因此,图像解码设备150可以确定尺寸等于或大于该最小尺寸的各种参考数据单元,并且可以参考所确定的参考数据单元通过使用块形状信息和分割形状信息来确定一个或多个编码单元。
参考图22,图像解码设备150可以使用正方形参考编码单元2200或非正方形参考编码单元2202。根据实施例,参考编码单元的形状和尺寸可以基于能够包括一个或多个参考编码单元的各种数据单元(例如,序列、图片、切片、切片段、最大编码单元等)来确定。
根据实施例,图像解码设备150的比特流获取器170可以相对于各种数据单元中的每一者从比特流获得参考编码单元形状信息和参考编码单元尺寸信息中的至少一者。上面已经关于图10的分割当前编码单元1000的操作描述了将正方形参考编码单元2200分割成一个或多个编码单元的操作,并且上面已经关于图11的分割当前编码单元1100或1150的操作描述了将非正方形参考编码单元2202分割成一个或多个编码单元的操作。因此,这里将不提供其详细描述。
根据实施例,图像解码设备150可以使用用于识别参考编码单元的尺寸和形状的PID,以根据先前基于预设条件确定的一些数据单元来确定参考编码单元的尺寸和形状。也就是说,比特流获取器170可以仅从比特流获得用于相对于各种数据单元(例如,序列、图片、切片、切片段、最大编码单元等)中的作为满足预设条件的数据单元(例如,尺寸等于或小于切片的数据单元)的每个切片、切片段或最大编码单元来识别参考编码单元的尺寸和形状的PID。图像解码设备150可以通过使用PID来相对于满足预设条件的每个数据单元确定参考数据单元的尺寸和形状。当根据具有相对较小尺寸的每个数据单元从比特流中获得并使用参考编码单元形状信息和参考编码单元尺寸信息时,使用比特流的效率可能不高,并且因此,可以仅获得并使用PID来代替直接获得参考编码单元形状信息和参考编码单元尺寸信息。在这种情况下,可以预先确定与用于识别参考编码单元的尺寸和形状的PID对应的参考编码单元的尺寸和形状中的至少一者。也就是说,图像解码设备150可以通过基于PID选择先前确定的参考编码单元的尺寸和形状中的至少一者来确定用作用于获得PID的单元的数据单元中所包括的参考编码单元的尺寸和形状中的至少一者。
根据实施例,图像解码设备150可以使用最大编码单元中所包括的一个或多个参考编码单元。也就是说,从图片分割的最大编码单元可以包括一个或多个参考编码单元,并且编码单元可以通过递归地分割每个参考编码单元来确定。根据实施例,最大编码单元的宽度和高度中的至少一者可以是参考编码单元的宽度和高度中的至少一者的整数倍。根据实施例,参考编码单元的尺寸可以通过基于四叉树结构将最大编码单元分割n次来获得。也就是说,根据各种实施例,图像解码设备150可以通过基于四叉树结构将最大编码单元分割n次来确定参考编码单元,并且可以基于块形状信息和分割形状信息中的至少一者来分割参考编码单元。
图23示出了根据实施例的用作用于确定图片2300中所包括的参考编码单元的确定次序的单元的处理块。
根据实施例,图像解码设备150可以确定从图片分割的一个或多个处理块。处理块是包括从图片分割的一个或多个参考编码单元的数据单元,并且可以根据特定次序来确定处理块中所包括的一个或多个参考编码单元。也就是说,在每个处理块中确定的一个或多个参考编码单元的确定次序可以对应于用于确定参考编码单元的各种类型的次序中的一者,并且可以根据处理块而变化。相对于每个处理块确定的参考编码单元的确定次序可以是各种次序中的一者,例如栅格扫描次序、Z扫描、N扫描、右上对角线扫描、水平扫描和竖直扫描,但不限于上述扫描次序。
根据实施例,图像解码设备150可以获得处理块尺寸信息,并且可以确定图片中所包括的一个或多个处理块的尺寸。图像解码设备150可以从比特流获得处理块尺寸信息,并且可以确定图片中所包括的一个或多个处理块的尺寸。处理块的尺寸可以是由处理块尺寸信息指示的数据单元的预设尺寸。
根据实施例,图像解码设备150的比特流获取器170可以根据每个特定数据单元从比特流获得处理块尺寸信息。例如,处理块尺寸信息可以以诸如图像、序列、图片、切片或切片段的数据单元从比特流获得。也就是说,比特流获取器170可以根据各种数据单元中的每一者从比特流获得处理块尺寸信息,并且图像解码设备150可以通过使用所获得的处理块尺寸信息来确定从图片分割的一个或多个处理块的尺寸。处理块的尺寸可以是参考编码单元的整数倍。
根据实施例,图像解码设备150可以确定图片2300中所包括的处理块2302和2312的尺寸。例如,图像解码设备150可以基于从比特流获得的处理块尺寸信息来确定处理块的尺寸。参考图23,根据实施例,图像解码设备150可以将处理块2302和2312的宽度确定为参考编码单元的宽度的四倍,并且可以将处理块2302和2312的高度确定为参考编码单元的高度的四倍。图像解码设备150可以确定一个或多个处理块中的一个或多个参考编码单元的确定次序。
根据实施例,图像解码设备150可以基于处理块的尺寸来确定图片2300中所包括的处理块2302和2312,并且可以确定处理块2302和2312中的一个或多个参考编码单元的确定次序。根据实施例,参考编码单元的确定可以包括参考编码单元的尺寸的确定。
根据实施例,图像解码设备150可以从比特流获得一个或多个处理块中所包括的一个或多个参考编码单元的确定次序信息,并且可以基于所获得的确定次序信息来确定相对于一个或多个参考编码单元的确定次序。确定次序信息可以被定义为用于确定处理块中的参考编码单元的次序或方向。也就是说,参考编码单元的确定次序可以相对于每个处理块独立确定。
根据实施例,图像解码设备150可以根据每个特定数据单元从比特流获得参考编码单元的确定次序信息。例如,比特流获取器170可以根据每个数据单元(诸如图像、序列、图片、切片、切片段或处理块)从比特流获得参考编码单元的确定次序信息。因为参考编码单元的确定次序信息指示用于确定处理块中的参考编码单元的次序,所以可以相对于包括整数个处理块的每个特定数据单元获得确定次序信息。
根据实施例,图像解码设备150可以基于所确定的确定次序来确定一个或多个参考编码单元。
根据实施例,比特流获取器170可以从比特流获得参考编码单元的确定次序信息作为与处理块2302和2312相关的信息,并且图像解码设备150可以确定处理块2302和2312中所包括的一个或多个参考编码单元的确定次序并且基于确定次序确定图片2300中所包括的一个或多个参考编码单元。参考图23,图像解码设备150可以分别确定处理块2302和2312中的一个或多个参考编码单元的确定次序2304和2314。例如,当相对于每个处理块获得参考编码单元的确定次序信息时,可以针对处理块2302和2312获得参考编码单元的不同类型的确定次序信息。当处理块2302中的参考编码单元的确定次序2304是栅格扫描次序时,可以根据栅格扫描次序确定处理块2302中所包括的参考编码单元。相反,当另一个处理块2312中的参考编码单元的确定次序2314是反向栅格扫描次序时,可以根据反向栅格扫描次序来确定处理块2312中所包括的参考编码单元。
根据实施例,图像解码设备150可以解码所确定的一个或多个参考编码单元。图像解码设备150可以基于如上所述确定的参考编码单元来解码图像。解码参考编码单元的方法可以包括各种图像解码方法。
根据实施例,图像解码设备150可以从比特流获得指示当前编码单元的形状的块形状信息或指示当前编码单元的分割方法的分割形状信息,并且可以使用所获得的信息。块形状信息或分割形状信息可以包括在与各种数据单元相关的比特流中。例如,图像解码设备150可以使用包括在序列参数集、图片参数集、视频参数集、切片报头或切片段报头中的块形状信息或分割形状信息。此外,图像解码设备150可以根据每个最大编码单元、每个参考编码单元或每个处理块从比特流获得对应于块形状信息或分割形状信息的语法,并且可以使用所获得的语法。
已经参考本公开的实施例具体示出并描述了本公开。就这一点而言,本领域的普通技术人员将理解,在不脱离本公开的范围的情况下,可以在形式和细节上做出各种改变。因此,实施例应仅在描述性意义上考虑,而非出于限制的目的。因此,本公开的范围不是由本公开的详细描述限定,而是由所附权利要求书限定,并且所述范围内的所有差异将被解释为包括在本公开中。
同时,本公开的前述实施例可以被写为在计算机上可执行的程序,并且可以在通过使用计算机可读记录介质执行所述程序的通用数字计算机中实现。计算机可读记录介质的示例包括磁存储介质(例如,ROM、软盘、硬盘等)、光学记录介质(例如,CD-ROM或DVD)等。

Claims (15)

1.一种对图像进行编码的方法,所述方法包括:
确定在对所述图像进行压缩时所述图像的主观质量;
确定指示所述图像被压缩程度的压缩度中改变所述主观质量的至少一个压缩度;以及
通过使用自动编码器压缩所述图像的残留信号对所述图像进行编码,其中,压缩所述图像的残留信号是基于根据所确定的压缩度的压缩信息进行的,
其中,对所述图像进行编码还包括从所述自动编码器中的在压缩过程和解压缩过程中共用的瓶颈层获取经压缩的残留信号,以及其中,通过使用深度神经网络来确定所述图像的每一帧的主观质量。
2.如权利要求1所述的方法,其中,确定所述主观质量包括:基于机器学习结果来确定所述主观质量,所述机器学习结果通过使用了多个层的深度神经网络来获取。
3.如权利要求2所述的方法,其中,确定所述主观质量包括:
通过针对所述多个层中的每一层使用至少一个滤波核来确定至少一个卷积图像;以及
对所述至少一个卷积图像执行池化。
4.如权利要求1所述的方法,其中,确定所述主观质量包括:通过使用与所述帧相关联的样本值、直方图和运动信息中的至少一者来确定针对所述帧的主观质量。
5.如权利要求1所述的方法,其中,对所述图像进行编码包括:
当根据所述至少一个压缩度对所述图像进行压缩时,通过使用包括所压缩图像的量化参数的所述压缩信息来压缩所述图像的残留信号;以及
生成包括经压缩的残留信号的比特流。
6.如权利要求5所述的方法,其中,压缩所述图像的残留信号包括:
将所述残留信号输入到所述自动编码器;以及
从所述瓶颈层获取所述经压缩的残留信号,所述瓶颈层来自所述自动编码器中所包括的至少一个隐藏层。
7.如权利要求6所述的方法,其中,所述自动编码器是被设计成通过使用第一损失和第二损失之和进行训练的网络,
所述第一损失是通过经由所述自动编码器对所述残留信号进行压缩和解压缩来计算的,以及
所述第二损失是通过集中由所述自动编码器压缩的所述残留信号的信号分布来计算的。
8.如权利要求6所述的方法,其中,获取所述经压缩的残留信号包括:
基于所述压缩信息,确定所述瓶颈层的节点数;以及
从具有所确定节点数的瓶颈层获取所述经压缩的残留信号。
9.如权利要求6所述的方法,其中,输入所述残留信号包括:
对所述残留信号的幅度和分布执行预处理;以及
将预处理过的残留信号输入到所述自动编码器。
10.一种对图像进行解码的方法,所述方法包括:
从比特流获取根据至少一个压缩度的压缩信息;
基于所述压缩信息,从自动编码器获取残留信号,其中,获取所述残留信号还包括从所述自动编码器中的在压缩过程和解压缩过程中共用的瓶颈层获取经压缩的残留信号;以及
通过使用所获取的残留信号对所述图像进行解码,
其中,所述至少一个压缩度是改变了通过使用深度神经网络获取的主观质量的压缩度中的至少一者。
11.如权利要求10所述的方法,其中,对所述图像进行解码包括:
通过使用所述压缩信息获取所述图像的残留信号,所述压缩信息包括根据所述至少一个压缩度压缩的所述图像的量化参数;以及
生成包括经压缩的残留信号的比特流。
12.如权利要求10所述的方法,其中,获取所述残留信号包括:通过将从所述比特流获取的信息输入到隐藏层来获取所述残留信号,所述隐藏层包括基于所述压缩信息确定的节点数,以及
所述节点数与在由所述自动编码器执行的压缩过程和解压缩过程中共用的隐藏层的节点数对应。
13.如权利要求12所述的方法,其中,对所述图像进行解码包括:
对所获取的残留信号的幅度和分布执行后处理;以及
通过使用后处理过的残留信号来对所述图像进行解码。
14.如权利要求13所述的方法,其中,执行所述后处理包括:
从所述比特流获取指示所述后处理的信息;以及
基于所获取的指示所述后处理的信息,执行所述后处理。
15.一种图像解码设备,包括:
获取器,配置成从比特流获取根据至少一个压缩度的压缩信息;以及
解码器,配置成基于所述压缩信息从自动编码器中的在压缩过程和解压缩过程中共用的瓶颈层获取残留信号,并且通过使用所获取的残留信号对所述图像进行解码,
其中,所述至少一个压缩度是改变了通过使用深度神经网络获取的主观质量的压缩度中的至少一者。
CN201880045137.5A 2017-07-06 2018-02-06 用于编码/解码图像的方法及其装置 Active CN110832860B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/KR2017/007267 WO2019009449A1 (ko) 2017-07-06 2017-07-06 영상을 부호화/복호화 하는 방법 및 그 장치
KRPCT/KR2017/007267 2017-07-06
PCT/KR2018/001540 WO2019009489A1 (ko) 2017-07-06 2018-02-06 영상을 부호화/복호화 하는 방법 및 그 장치

Publications (2)

Publication Number Publication Date
CN110832860A CN110832860A (zh) 2020-02-21
CN110832860B true CN110832860B (zh) 2024-04-09

Family

ID=64950158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880045137.5A Active CN110832860B (zh) 2017-07-06 2018-02-06 用于编码/解码图像的方法及其装置

Country Status (5)

Country Link
US (1) US11095894B2 (zh)
EP (1) EP3624452A1 (zh)
KR (1) KR102594362B1 (zh)
CN (1) CN110832860B (zh)
WO (2) WO2019009449A1 (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3056498A1 (en) * 2017-03-14 2018-09-20 University Of Manitoba Structure defect detection using machine learning algorithms
US10970363B2 (en) * 2017-10-17 2021-04-06 Microsoft Technology Licensing, Llc Machine-learning optimization of data reading and writing
CN111742553A (zh) * 2017-12-14 2020-10-02 交互数字Vc控股公司 用于视频压缩的基于深度学习的图像分区
US11412220B2 (en) 2017-12-14 2022-08-09 Interdigital Vc Holdings, Inc. Texture-based partitioning decisions for video compression
EP3528432B1 (en) * 2018-02-16 2020-09-02 Nokia Solutions and Networks Oy Method and apparatus for monitoring a telecommunication network
EP3756129A1 (en) * 2018-02-21 2020-12-30 Robert Bosch GmbH Real-time object detection using depth sensors
US11586928B2 (en) * 2018-03-09 2023-02-21 Tata Consultancy Services Limited Method and system for incorporating regression into stacked auto encoder (SAE)
CN108416327B (zh) * 2018-03-28 2022-04-29 京东方科技集团股份有限公司 一种目标检测方法、装置、计算机设备及可读存储介质
DE112019003209T5 (de) 2018-06-28 2021-04-08 Sony Corporation Codiervorrichtung, Codierverfahren, Decodiervorrichtung, Decodierverfahren und Programm
US11823557B2 (en) 2018-07-03 2023-11-21 Sony Corporation Encoding apparatus, encoding method, decoding apparatus, decoding method, transmission system, receiving apparatus, and program
US10685282B2 (en) * 2018-07-25 2020-06-16 WaveOne Inc. Machine-learning based video compression
US11109065B2 (en) * 2018-09-26 2021-08-31 Google Llc Video encoding by providing geometric proxies
US10999606B2 (en) * 2019-01-08 2021-05-04 Intel Corporation Method and system of neural network loop filtering for video coding
JP2020150516A (ja) * 2019-03-15 2020-09-17 シャープ株式会社 画像復号装置及び画像符号化装置
CN110046551B (zh) * 2019-03-18 2021-04-20 中国科学院深圳先进技术研究院 一种人脸识别模型的生成方法及设备
JP7205328B2 (ja) * 2019-03-19 2023-01-17 富士通株式会社 推定プログラム、推定装置および推定方法
US11729406B2 (en) 2019-03-21 2023-08-15 Qualcomm Incorporated Video compression using deep generative models
US11388416B2 (en) 2019-03-21 2022-07-12 Qualcomm Incorporated Video compression using deep generative models
JP7141007B2 (ja) * 2019-05-10 2022-09-22 日本電信電話株式会社 符号化装置、符号化方法及びプログラム
CN110349230A (zh) * 2019-07-15 2019-10-18 北京大学深圳研究生院 一种基于深度自编码器的点云几何压缩的方法
US11445222B1 (en) 2019-09-30 2022-09-13 Isize Limited Preprocessing image data
IL270116A (en) * 2019-10-23 2021-04-29 De Identification Ltd A system and method for identifying and protecting against cyber attacks against classification systems
KR102245682B1 (ko) * 2019-11-11 2021-04-27 연세대학교 산학협력단 영상 압축 장치, 이의 학습 장치 및 방법
US11341316B2 (en) * 2019-12-05 2022-05-24 Netflix, Inc. Techniques for compressing images to achieve a target quality level
US11394980B2 (en) 2020-01-05 2022-07-19 Isize Limited Preprocessing image data
JP2021118403A (ja) * 2020-01-23 2021-08-10 キヤノン株式会社 画像処理装置、その制御方法、プログラム並びに画像処理システム
US11388415B2 (en) 2020-05-12 2022-07-12 Tencent America LLC Substitutional end-to-end video coding
WO2021231072A1 (en) * 2020-05-15 2021-11-18 Amazon Technologies, Inc. Iterative media object compression algorithm optimization using decoupled calibration of perceptual quality algorithms
US11527019B2 (en) 2020-05-15 2022-12-13 Amazon Technologies, Inc. Iterative media object compression algorithm optimization using decoupled calibration of perceptual quality algorithms
US11544562B2 (en) 2020-05-15 2023-01-03 Amazon Technologies, Inc. Perceived media object quality prediction using adversarial annotations for training and multiple-algorithm scores as input
CN111787323B (zh) * 2020-05-23 2021-09-03 清华大学 一种基于对抗学习的可变比特率生成式压缩方法
US11900640B2 (en) * 2020-07-15 2024-02-13 Tencent America LLC Method and apparatus for substitutional neural residual compression
US11557025B2 (en) * 2020-08-17 2023-01-17 Netflix, Inc. Techniques for training a perceptual quality model to account for brightness and color distortions in reconstructed videos
US11532077B2 (en) 2020-08-17 2022-12-20 Netflix, Inc. Techniques for computing perceptual video quality based on brightness and color components
KR102394951B1 (ko) * 2020-08-27 2022-05-09 한국전자기술연구원 인코딩, 디코딩 장치 및 방법
KR102352077B1 (ko) 2020-08-31 2022-01-18 주식회사 핀그램 고속 동영상 부호화 방법 및 시스템
US11582470B2 (en) 2020-09-03 2023-02-14 Tencent America LLC Method and apparatus for multi-scale neural image compression with intra-prediction residuals
CN115668273A (zh) 2020-09-15 2023-01-31 三星电子株式会社 电子装置、其控制方法和电子系统
FR3114933B1 (fr) * 2020-10-06 2023-10-13 Fond B Com Procédé et dispositif électronique de décodage d’un flux de données, et programme d’ordinateur associé
US20210144377A1 (en) * 2020-11-19 2021-05-13 Intel Corporation Method and system of video coding with content adaptive quantization
US20240056575A1 (en) * 2020-12-22 2024-02-15 Intellectual Discovery Co., Ltd. Deep learning-based image coding method and device
WO2022177382A1 (ko) * 2021-02-22 2022-08-25 삼성전자 주식회사 Ai를 이용하는 영상의 부호화 및 복호화 장치 및 이에 의한 영상의 부호화 및 복호화 방법
EP4250729A4 (en) 2021-02-22 2024-05-01 Samsung Electronics Co Ltd AI-BASED IMAGE ENCODING AND DECODING APPARATUS AND RELATED METHOD
EP4262207A4 (en) 2021-02-22 2024-03-27 Samsung Electronics Co Ltd IMAGE ENCODING AND DECODING DEVICE USING AI AND IMAGE ENCODING AND DECODING METHOD USING SAID DEVICE
US11850968B2 (en) * 2021-03-23 2023-12-26 Ford Global Technologies, Llc Electrified vehicle control based on validated battery cell voltages compressed and encrypted using artificial intelligence
KR102500258B1 (ko) * 2021-04-26 2023-02-16 (주)이포즌 제품 이상 탐지 방법
CN113660600B (zh) * 2021-06-24 2022-11-01 南京邮电大学 一种室内定位系统及数据处理方法
WO2023055153A1 (ko) * 2021-09-29 2023-04-06 한국전자통신연구원 영상 부호화/복호화를 위한 방법, 장치 및 기록 매체
CN114399440B (zh) * 2022-01-13 2022-12-13 马上消费金融股份有限公司 图像处理方法、图像处理网络训练方法、装置及电子设备
WO2023155032A1 (zh) * 2022-02-15 2023-08-24 华为技术有限公司 图像处理方法和图像处理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07184062A (ja) * 1993-12-24 1995-07-21 Nec Corp 画質評価方式
US6075884A (en) * 1996-03-29 2000-06-13 Sarnoff Corporation Method and apparatus for training a neural network to learn and use fidelity metric as a control mechanism
KR20040107850A (ko) * 2003-06-14 2004-12-23 에스케이 텔레콤주식회사 동영상 압축 부호화기의 왜곡 최적화 장치 및 방법
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3788997B2 (ja) 1993-12-22 2006-06-21 キヤノン株式会社 画像信号処理装置
DE202016009107U1 (de) * 2015-02-19 2022-04-27 Magic Pony Technology Limited Visuelle Verarbeitung durch zeitliche und räumliche Interpolation
US10007977B2 (en) * 2015-05-11 2018-06-26 Netflix, Inc. Techniques for predicting perceptual video quality
US10034005B2 (en) * 2015-06-05 2018-07-24 Sony Corporation Banding prediction for video encoding
US9734567B2 (en) * 2015-06-24 2017-08-15 Samsung Electronics Co., Ltd. Label-free non-reference image quality assessment via deep neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07184062A (ja) * 1993-12-24 1995-07-21 Nec Corp 画質評価方式
US6075884A (en) * 1996-03-29 2000-06-13 Sarnoff Corporation Method and apparatus for training a neural network to learn and use fidelity metric as a control mechanism
KR20040107850A (ko) * 2003-06-14 2004-12-23 에스케이 텔레콤주식회사 동영상 압축 부호화기의 왜곡 최적화 장치 및 방법
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding

Also Published As

Publication number Publication date
US11095894B2 (en) 2021-08-17
WO2019009449A1 (ko) 2019-01-10
EP3624452A4 (en) 2020-03-18
EP3624452A1 (en) 2020-03-18
CN110832860A (zh) 2020-02-21
KR102594362B1 (ko) 2023-10-26
WO2019009489A1 (ko) 2019-01-10
US20200145661A1 (en) 2020-05-07
KR20200016879A (ko) 2020-02-17

Similar Documents

Publication Publication Date Title
CN110832860B (zh) 用于编码/解码图像的方法及其装置
CN111052740B (zh) 用于编码或解码图像的方法和装置
EP3567857A1 (en) Method for encoding/decoding image and device therefor
US10986356B2 (en) Method for encoding/decoding image and device therefor
CN110059796B (zh) 卷积神经网络的生成方法及装置
EP3836035A1 (en) Compression method for deep neural network, chip, electronic device and medium
EP3354030B1 (en) Methods and apparatuses for encoding and decoding digital images through superpixels
US9092855B2 (en) Method and apparatus for reducing noise introduced into a digital image by a video compression encoder
CN113766228A (zh) 点云压缩方法、编码器、解码器及存储介质
CN110971901A (zh) 卷积神经网络的处理方法及装置
EP2131594A1 (en) Method and device for image compression
CN115606179A (zh) 用于使用学习的下采样特征进行图像和视频编码的基于学习的下采样的cnn滤波器
US10148963B2 (en) Methods of and apparatus for encoding data arrays
CN116648716A (zh) 通过指示特征图数据进行解码
CN115552905A (zh) 用于图像和视频编码的基于全局跳过连接的cnn滤波器
Bacchus et al. Quasi lossless satellite image compression
CN115147317A (zh) 一种基于卷积神经网络的点云颜色质量增强方法及系统
KR20230115043A (ko) 영상의 화질에 따라 초해상도 딥러닝 네트워크를 적용하는 비디오 처리 방법 및 비디오 처리 장치
US20070081735A1 (en) Device, method, and program for image coding
US20230044603A1 (en) Apparatus and method for applying artificial intelligence-based filtering to image
Patel et al. Analysis of novel de-blocking method for blocking artifacts reduction
Jenab VIDEO ENCODING QUALITY AND BIT RATE PREDICTION, AND ITS APPLICATION IN RESOLUTION, AND FRAME-RATE ADAPTIVE ENCODING
Reyes et al. Structure-preserving properties of bilevel image compression
Selimović et al. Content-aware image compression with convolutional neural networks
Al-Azzawi et al. Wavelet neural network for vector prediction to fill-In missing image blocks in wireless transmission

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant