CN117981316A - 图像编码/解码方法、发送比特流的方法及存储比特流的记录介质 - Google Patents

图像编码/解码方法、发送比特流的方法及存储比特流的记录介质 Download PDF

Info

Publication number
CN117981316A
CN117981316A CN202280063305.XA CN202280063305A CN117981316A CN 117981316 A CN117981316 A CN 117981316A CN 202280063305 A CN202280063305 A CN 202280063305A CN 117981316 A CN117981316 A CN 117981316A
Authority
CN
China
Prior art keywords
information
image
resolution
current
current image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280063305.XA
Other languages
English (en)
Inventor
南廷学
柳先美
林宰显
金昇焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN117981316A publication Critical patent/CN117981316A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

提供了一种图像编码/解码方法、比特流传输方法以及用于存储比特流的计算机可读记录介质。根据本公开的图像编码方法是由图像编码装置执行的图像编码方法,并且可以是包括以下步骤的图像编码方法:获得关于当前图像与参考图像之间的相似度的信息以及关于当前图像的复杂度的信息;基于关于相似度的信息和关于复杂度的信息来预测一个或更多个候选分辨率的比特率信息和失真信息;以及基于比特率信息和失真信息在候选分辨率当中选择要应用于当前图像的分辨率。

Description

图像编码/解码方法、发送比特流的方法及存储比特流的记录 介质
技术领域
本公开涉及一种图像编码/解码方法、发送比特流的方法以及存储比特流的记录介质,并且涉及参考画面重采样(RPR)。
背景技术
最近,各个领域对高分辨率和高质量图像,例如高清(HD)图像和超高清(UHD)图像的需求正在增加。随着图像数据的分辨率和质量的改进,与现有图像数据相比,传输的信息量或比特量相对增加。传输信息量或比特量的增加导致传输成本和存储成本的增加。
因此,需要高效的图像压缩技术来有效地传输、存储和再现关于高分辨率和高质量图像的信息。
发明内容
技术问题
本公开的目的是提供一种具有改进的编码/解码效率的图像编码/解码方法和设备。
本公开的目的是提供一种自适应地确定最优分辨率的方法。
本公开的目的是提供一种考虑图像复杂度和相似度来确定最优分辨率的方法。
本公开的目的是提供一种考虑各个可选分辨率的预期比特量和预期失真来确定最优分辨率的方法。
本公开的目的是提供一种确定使率失真成本最小化的最优分辨率的方法。
本公开的另一目的是提供一种存储通过根据本公开的图像编码方法生成的比特流的非暂时性计算机可读记录介质。
本公开的另一目的是提供一种存储由根据本公开的图像解码设备接收、解码并用于重构图像的比特流的非暂时性计算机可读记录介质。
本公开的另一目的是提供一种发送通过根据本公开的图像编码方法或设备生成的比特流的方法。
本公开所解决的技术问题不限于上述技术问题,本领域技术人员通过以下描述将清楚此处未描述的其它技术问题。
技术方案
根据本公开的一方面的图像编码方法是一种由图像编码设备执行的图像编码方法,该图像编码方法可以包括以下步骤:获得关于当前图像和参考图像之间的相似度的信息以及关于当前图像的复杂度的信息;基于关于相似度的信息和关于复杂度的信息来预测一个或更多个候选分辨率的比特率信息和失真信息;以及基于所述比特率信息和所述失真信息从所述候选分辨率当中选择要应用于所述当前图像的分辨率。
根据本公开的另一方面的计算机可读记录介质可以存储通过本公开的图像编码装置或设备生成的比特流。
根据本公开的另一方面的传输方法可以发送通过本公开的图像编码方法或设备生成的比特流。
以上关于本公开的简要概述的特征仅仅是本公开的以下详细描述的示例性方面,并不限制本公开的范围。
有益效果
根据本公开,能够提供一种具有改进的编码/解码效率的图像编码/解码方法和设备。
根据本公开,可高效地推导最优分辨率。
根据本公开,可改进确定最优分辨率的复杂度。
本领域的技术人员将理解,通过本公开可以实现的效果不限于上文已经具体描述的内容,并且将从详细描述中更清楚地理解本公开的其它优点。
附图说明
图1是示意性地例示本公开的实施方式适用于的视频编码系统的视图。
图2是示意性地例示本公开的实施方式适用于的图像编码设备的视图。
图3是示意性地例示本公开的实施方式适用于的图像解码设备的视图。
图4是示出将画面分割成CTU的示例的图。
图5是示出将画面分割成拼块、切片和/或图块的示例的图。
图6是示意性地示出用于确定最优分辨率的配置的图。
图7是例示根据本公开的实施方式的图像编码方法的流程图。
图8是例示根据本公开的实施方式的图像解码方法的流程图。
图9是用于说明可用于获得复杂度和相似度的当前样本和邻近样本的位置的图。
图10是例示根据本公开的另一实施方式的图像编码方法的流程图。
图11是例示本公开的实施方式适用于的内容流系统的视图。
具体实施方式
以下,将结合附图对本公开的实施方式进行详细描述,以易于本领域技术人员实施。然而,本公开可以以各种不同的形式实施,并且不限于这里描述的实施方式。
在描述本公开时,如果确定相关已知功能或构造的详细描述使本公开的范围不必要地含糊不清,则将省略其详细描述。在附图中,省略了与本公开的描述无关的部分,并且相似的附图标记被赋予相似的部分。
在本公开中,当一个组件“连接”、“联接”或“链接”到另一个组件时,它不仅可以包括直接连接关系,还可以包括中间组件存在的间接连接关系。另外,当一个组件“包括”或“具有”其它组件时,除非另有说明,否则是指还可以包括其它组件,而不是排除其它组件。
在本公开中,术语第一、第二等仅用于将一个组件与其它组件区分开的目的,并且不限制组件的顺序或重要性,除非另有说明。相应地,在本公开的范围内,一个实施方式中的第一组件在另一个实施方式中可以被称为第二组件,类似地,一个实施方式中的第二组件在另一个实施方式中可以被称为第一组件。
在本公开中,相互区分的组件旨在清楚地描述每个特征,并不意味着组件必须分开。即,多个组件可以集成在一个硬件或软件单元中实现,或者一个组件可以在多个硬件或软件单元中分布和实现。因此,即使没有特别说明,这些组件集成或分布式的实施方式也包括在本公开的范围内。
在本公开中,各个实施方式中所描述的组件并不一定是必不可少的组件,一些组件可以是可选的组件。因此,由实施方式中描述的组件的子集组成的实施方式也包括在本公开的范围内。此外,除了在各种实施方式中描述的组件之外还包括其它组件的实施方式包括在本公开的范围内。
本公开涉及图像的编码和解码,除非在本公开中重新定义,否则本公开中使用的术语可以具有本公开所属技术领域中常用的一般含义。
在本公开中,“画面”一般是指表示特定时间段内的一个图像的单元,而切片(slice)/拼块(tile)是构成画面的一部分的编码单元,一个画面可以由一个或更多个切片/拼块组成。此外,切片/拼块可以包括一个或更多个编码树单元(CTU)。
在本公开中,“像素”或“像元(pel)”可以意指构成一个画面(或图像)的最小单元。此外,“样本”可以用作对应于像素的术语。一个样本一般可以表示像素或像素的值,也可以仅表示亮度分量的像素/像素值或仅表示色度分量的像素/像素值。
在本公开中,“单元”可以表示图像处理的基本单元。该单元可以包括画面的特定区域和与该区域相关的信息中的至少一个。在某些情况下,该单元可以与诸如“样本阵列”、“块”或“区域”的术语互换使用。在一般情况下,M×N块可以包括M列N行的样本(或样本阵列)或变换系数的集合(或阵列)。
在本公开中,“当前块”可以意指“当前编码块”、“当前编码单元”、“编码目标块”、“解码目标块”或“处理目标块”中的一个。当执行预测时,“当前块”可以意指“当前预测块”或“预测目标块”。当执行变换(逆变换)/量化(解量化)时,“当前块”可以意指“当前变换块”或“变换目标块”。当执行滤波时,“当前块”可以意指“滤波目标块”。
另外,在本公开中,除非明确说明为色度块,“当前块”可以意指包括亮度分量块和色度分量块二者的块或“当前块的亮度块”。当前块的亮度分量块可以通过包括诸如“亮度块”或“当前亮度块”的亮度分量块的明确描述来表示。另外,“当前块的色度分量块”可通过包括诸如“色度块”或“当前色度块”的色度分量块的明确描述来表示。
在本公开中,术语“/”或“,”可以解释为指示“和/或”。例如,“A/B”和“A,B”可以意指“A和/或B”。此外,“A/B/C”和“A/B/C”可以意指“A、B和/或C中的至少一个”。
在本公开中,术语“或”应被解释以指示“和/或”。例如,表达“A或B”可以包括1)仅“A”,2)仅“B”,或3)“A和B”两者。换言之,在本公开中,“或”应被解释以指示“附加地或可替选地”。
视频编码系统的概述
图1是示意性地例示本公开的实施方式适用于的视频编码系统的视图。
根据实施方式的视频编码系统可以包括编码设备10和解码设备20。编码设备10可以将编码的视频和/或图像信息或数据以文件或流的形式经由数字存储介质或网络递送到解码设备20。
根据实施方式的编码设备10可以包括视频源生成器11、编码单元12和发送器13。根据实施方式的解码设备20可以包括接收器21、解码单元22和渲染器23。编码单元12可以称为视频/图像编码单元,解码单元22可以称为视频/图像解码单元。发送器13可以被包括在编码单元12中。接收器21可以被包括在解码单元22中。渲染器23可以包括显示器并且显示器可以被配置为单独的装置或外部组件。
视频源生成器11可以通过捕获、合成或生成视频/图像的过程来获取视频/图像。视频源生成器11可以包括视频/图像捕获装置和/或视频/图像生成装置。视频/图像捕获装置可以包括例如一个或更多个相机、包括先前捕获的视频/图像的视频/图像档案等。视频/图像生成装置可以包括例如计算机、平板计算机和智能电话,并且可以(以电子方式)生成视频/图像。例如,可以通过计算机等生成虚拟视频/图像。在这种情况下,视频/图像捕获过程可以被生成相关数据的过程代替。
编码单元12可以对输入视频/图像进行编码。为了压缩和编码效率,编码单元12可以执行一系列过程,例如预测、变换和量化。编码单元12可以以比特流的形式输出编码数据(编码视频/图像信息)。
发送器13可以通过数字存储介质或网络以文件或流的形式将以比特流的形式输出的编码视频/图像信息或数据传输到解码设备20的接收器21。数字存储介质可以包括各种存储介质,例如USB、SD、CD、DVD、蓝光、HDD、SSD等。发送器13可以包括用于通过预定文件格式生成媒体文件的元件并且可以包括用于通过广播/通信网络传输的元件。接收器21可以从存储介质或网络中提取/接收比特流并将比特流传输到解码单元22。
解码单元22可以通过执行与编码单元12的操作相对应的一系列过程,例如解量化、逆变换和预测来解码视频/图像。
渲染器23可以渲染解码的视频/图像。渲染的视频/图像可以通过显示器显示。
图像编码设备的概述
图2是示意性地例示本公开的实施方式适用于的图像编码设备的视图。
如图2所示,图像编码设备100可以包括图像分割器110、减法器115、变换器120、量化器130、解量化器140、逆变换器150、加法器155、滤波器160、存储器170、帧间预测器180、帧内预测器185和熵编码器190。帧间预测器180和帧内预测器185可以统称为“预测器”。变换器120、量化器130、解量化器140和逆变换器150可以被包括在残差处理器中。残差处理器还可以包括减法器115。
在一些实施方式中,配置图像编码设备100的多个组件中的全部或至少一些可以由一个硬件组件(例如,编码器或处理器)来配置。此外,存储器170可以包括解码画面缓冲器(DPB)并且可以由数字存储介质配置。
图像分割器110可将输入到图像编码设备100的输入图像(或画面或帧)分割成一个或更多个处理单元。例如,处理单元可以称为编码单元(CU)。可以通过根据四叉树二叉树三叉树(QT/BT/TT)结构递归地分割编码树单元(CTU)或最大编码单元(LCU)来获取编码单元。例如,可以基于四叉树结构、二叉树结构和/或三叉树结构将一个编码单元分割为更深深度的多个编码单元。对于编码单元的分割,可以首先应用四叉树结构,然后可以应用二叉树结构和/或三叉树结构。可以基于不再分割的最终编码单元来执行根据本公开的编码过程。可以将最大编码单元用作最终编码单元,也可以将通过分割最大编码单元获取的更深深度的编码单元用作最终编码单元。这里,编码过程可以包括稍后将描述的预测、变换和重构的过程。作为另一个示例,编码过程的处理单元可以是预测单元(PU)或变换单元(TU)。预测单元和变换单元可以从最终编码单元划分或分割。预测单元可以是样本预测单元,变换单元可以是用于推导变换系数的单元和/或用于从变换系数推导残差信号的单元。
预测器(帧间预测器180或帧内预测器185)可以对要处理的块(当前块)执行预测,并且生成包括当前块的预测样本的预测块。预测器可以在当前块或CU的基础上确定是应用帧内预测还是帧间预测。预测器可以生成与当前块的预测有关的各种信息,并且将生成的信息传输到熵编码器190。关于预测的信息可以在熵编码器190中被编码并且以比特流的形式输出。
帧内预测器185可以通过参考当前画面中的样本来预测当前块。根据帧内预测模式和/或帧内预测技术,参考样本可以位于当前块的邻居中或者可以被分开放置。帧内预测模式可以包括多个非定向模式和多个定向模式。非定向模式可以包括例如DC模式和平面模式。根据预测方向的详细程度,定向模式可以包括例如33个定向预测模式或65个定向预测模式。然而,这仅仅是示例,可以根据设置使用更多或更少的定向预测模式。帧内预测器185可以通过使用应用于邻近块的预测模式来确定应用于当前块的预测模式。
帧间预测器180可以基于由参考画面上的运动向量指定的参考块(参考样本阵列)来推导当前块的预测块。在这种情况下,为了减少在帧间预测模式中传输的运动信息量,可以基于邻近块和当前块之间的运动信息的相关性以块、子块或样本为单位来预测运动信息。运动信息可以包括运动向量和参考画面索引。运动信息还可以包括帧间预测方向(L0预测、L1预测、双预测等)信息。在帧间预测的情况下,邻近块可以包括当前画面中存在的空间邻近块和参考画面中存在的时间邻近块。包括参考块的参考画面和包括时间邻近块的参考画面可以相同或不同。时间邻近块可以被称为并置参考块、并置CU(colCU)等。包括时间邻近块的参考画面可以被称为并置画面(colPic)。例如,帧间预测器180可基于邻近块配置运动信息候选列表并生成指示使用哪个候选来推导当前块的运动向量和/或参考画面索引的信息。可以基于各种预测模式来执行帧间预测。例如,在跳过模式和合并模式的情况下,帧间预测器180可以使用邻近块的运动信息作为当前块的运动信息。在跳过模式的情况下,与合并模式不同,可以不传输残差信号。在运动向量预测(MVP)模式的情况下,邻近块的运动向量可以用作运动向量预测子,并且当前块的运动向量可以通过编码运动向量差和运动向量预测子的指示符来用信号通知当前块的运动向量。运动向量差可以意指当前块的运动向量与运动向量预测子之间的差。
预测器可以基于以下描述的各种预测方法和预测技术来生成预测信号。例如,预测器不仅可以应用帧内预测或帧间预测,还可以同时应用帧内预测和帧间预测,以预测当前块。同时应用帧内预测和帧间预测两者来预测当前块的预测方法可以称为组合帧间和帧内预测(CIIP)。此外,预测器可以执行帧内块复制(IBC)以预测当前块。帧内块复制可以用于游戏等的内容图像/视频编码,例如,屏幕内容编码(SCC)。IBC是一种在与当前块相隔预定距离的位置处使用当前画面中先前重构的参考块来预测当前画面的方法。当应用IBC时,参考块在当前画面中的位置可以被编码为对应于预定距离的向量(块向量)。IBC基本上在当前画面中执行预测,但是可以与在当前画面内推导参考块的帧间预测类似地执行。即,IBC可以使用本公开中所描述的至少一种帧间预测技术。
预测器生成的预测信号可用于生成重构信号或生成残差信号。减法器115可以通过从输入图像信号(原始块或原始样本阵列)中减去从预测器输出的预测信号(预测块或预测样本阵列)来生成残差信号(残差块或残差样本阵列)。生成的残差信号可以被传输到变换器120。
变换器120可以通过将变换技术应用于残差信号来生成变换系数。例如,变换技术可以包括离散余弦变换(DCT)、离散正弦变换(DST)、karhunen-loève变换(KLT)、基于图的变换(GBT)或条件非线性变换(CNT)中的至少一种。这里,GBT是指当像素之间的关系信息由图形表示时从图形获得的变换。CNT是指基于使用所有先前重构的像素生成的预测信号获取的变换。此外,变换处理可以应用于具有相同大小的正方形像素块或者可以应用于具有可变大小而不是正方形的块。
量化器130可以对变换系数进行量化并且将它们传输到熵编码器190。熵编码器190可以对量化的信号(关于量化的变换系数的信息)进行编码并且输出比特流。关于量化变换系数的信息可以被称为残差信息。量化器130可基于系数扫描顺序将块类型的量化变换系数重新排列为一维向量形式,并基于一维向量形式的量化变换系数生成关于量化变换系数的信息。
熵编码器190可以执行各种编码方法,例如指数哥伦布、上下文自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)等。熵编码器190可以一起或单独地编码量化变换系数以外的视频/图像重构所需的信息(例如,语法元素的值等)。编码的信息(例如,编码的视频/图像信息)可以比特流的形式以网络抽象层(NAL)为单位进行传输或存储。视频/图像信息还可以包括关于各种参数集的信息,例如自适应参数集(APS)、画面参数集(PPS)、序列参数集(SPS)或视频参数集(VPS)。此外,视频/图像信息还可以包括通用约束信息。本公开中描述的用信号通知的信息、传输的信息和/或语法元素可以通过上述编码过程被编码并且被包括在比特流中。
比特流可以通过网络传输或者可以存储在数字存储介质中。网络可以包括广播网络和/或通信网络,数字存储介质可以包括USB、SD、CD、DVD、蓝光、HDD、SSD等各种存储介质。可以包括传输从熵编码器190输出的信号的发送器(未示出)和/或存储该信号的存储单元(未示出)作为图像编码设备100的内部/外部元件。另选地,可以提供发送器作为熵编码器190的组件。
从量化器130输出的量化变换系数可用于生成残差信号。例如,可以通过解量化器140和逆变换器150对量化变换系数应用解量化和逆变换来重构残差信号(残差块或残差样本)。
加法器155将重构残差信号与从帧间预测器180或帧内预测器185输出的预测信号相加,以生成重构信号(重构画面、重构块、重构样本阵列)。如果要处理的块没有残差,例如应用跳过模式的情况,则可以将预测块用作重构块。加法器155可以称为重构器或重构块生成器。生成的重构信号可以用于当前画面中要处理的下一个块的帧内预测,并且可以用于通过如下所述的滤波对下一个画面进行帧间预测。
滤波器160可以通过对重构信号应用滤波来提高主观/客观图像质量。例如,滤波器160可以通过对重构画面应用各种滤波方法来生成修改的重构画面,并将修改的重构画面存储在存储器170中,具体地,存储器170的DPB中。各种滤波方法可以包括例如去块滤波、样本自适应偏移、自适应环路滤波、双边滤波等。滤波器160可以生成与滤波有关的各种信息并将所生成的信息传输到熵编码器190,如稍后在每种滤波方法的描述中所描述的。与滤波相关的信息可以由熵编码器190编码并以比特流的形式输出。
传输到存储器170的修改的重构画面可以用作帧间预测器180中的参考画面。当通过图像编码设备100应用帧间预测时,可以避免图像编码设备100和图像解码设备之间的预测失配并且可以提高编码效率。
存储器170的DPB可以存储修改的重构画面以用作帧间预测器180中的参考画面。存储器170可以存储从其中推导(或编码)当前画面中的运动信息的块的运动信息和/或画面中已经重构的块的运动信息。存储的运动信息可以被传输到帧间预测器180并用作空间邻近块的运动信息或时间邻近块的运动信息。存储器170可以存储当前画面中重构块的重构样本并且可以将重构样本传送到帧内预测器185。
图像解码设备的概述
图3是示意性地例示本公开的实施方式适用于的图像解码设备的视图。
如图3所示,图像解码设备200可以包括熵解码器210、解量化器220、逆变换器230、加法器235、滤波器240、存储器250、帧间预测器260和帧内预测器265。帧间预测器260和帧内预测器265可以统称为“预测器”。解量化器220和逆变换器230可以被包括在残差处理器中。
根据实施方式,配置图像解码设备200的多个组件中的全部或至少一些可以由硬件组件(例如,解码器或处理器)来配置。此外,存储器250可以包括解码画面缓冲器(DPB)或者可以由数字存储介质配置。
已经接收到包括视频/图像信息的比特流的图像解码设备200可以通过执行与由图2的图像编码设备100执行的处理相对应的处理来重构图像。例如,图像解码设备200可以使用在图像编码设备中应用的处理单元来执行解码。因此,解码的处理单元例如可以是编码单元。编码单元可以通过分割编码树单元或最大编码单元来获取。通过图像解码设备200解码和输出的重构图像信号可以通过再现设备(未示出)再现。
图像解码设备200可以接收以比特流的形式从图2的图像编码设备输出的信号。接收到的信号可以通过熵解码器210进行解码。例如,熵解码器210可以解析比特流以推导图像重构(或画面重构)所需的信息(例如,视频/图像信息)。视频/图像信息还可以包括关于各种参数集的信息,例如自适应参数集(APS)、画面参数集(PPS)、序列参数集(SPS)或视频参数集(VPS)。此外,视频/图像信息还可以包括通用约束信息。图像解码设备还可以基于关于参数集的信息和/或通用约束信息对画面进行解码。本公开中描述的用信号通知/接收的信息和/或语法元素可以通过解码过程被解码并从比特流中获得。例如,熵解码器210基于诸如指数哥伦布编码、CAVLC或CABAC的编码方法对比特流中的信息进行解码,并输出图像重构所需的语法元素的值和残差的变换系数的量化值。更具体地,CABAC熵解码方法可以接收与比特流中每个语法元素对应的bin,使用解码目标语法元素信息、邻近块和解码目标块的解码信息或前一阶段解码的符号/bin的信息来确定上下文模型,根据确定的上下文模型通过预测bin的出现概率来对bin执行算术解码,并且生成与每个语法元素的值对应的符号。在这种情况下,CABAC熵解码方法可以在确定上下文模型后,通过将解码的符号/bin的信息用于下一个符号/bin的上下文模型来更新上下文模型。由熵解码器210解码的信息中与预测相关的信息可以被提供给预测器(帧间预测器260和帧内预测器265),并且在熵解码器210中对其执行熵解码的残差值,即,量化变换系数和相关的参数信息可以被输入到解量化器220。另外,可以将熵解码器210解码的信息当中关于滤波的信息提供给滤波器240。此外,用于接收从图像编码设备输出的信号的接收器(未示出)可以进一步被配置为图像解码设备200的内部/外部元件,或者接收器可以是熵解码器210的组件。
此外,根据本公开的图像解码设备可以被称为视频/图像/画面解码设备。图像解码设备可以分为信息解码器(视频/图像/画面信息解码器)和样本解码器(视频/图像/画面样本解码器)。信息解码器可以包括熵解码器210。样本解码器可以包括解量化器220、逆变换器230、加法器235、滤波器240、存储器250、帧间预测器260或帧内预测器265中的至少一个。
解量化器220可以对量化变换系数进行解量化并输出变换系数。解量化器220可以以二维块的形式重新排列量化变换系数。在这种情况下,可以基于在图像编码设备中执行的系数扫描顺序来执行重新排列。解量化器220可以通过使用量化参数(例如,量化步长信息)对量化变换系数执行解量化并获得变换系数。
逆变换器230可以对变换系数进行逆变换以获得残差信号(残差块、残差样本阵列)。
预测器可以对当前块执行预测并生成包括当前块的预测样本的预测块。预测器可以基于从熵解码器210输出的关于预测的信息来确定是将帧内预测还是帧间预测应用于当前块,并且可以确定特定帧内/帧间预测模式(预测技术)。
与在图像编码设备100的预测器中描述的相同的是,预测器可以基于稍后描述的各种预测方法(技术)来生成预测信号。
帧内预测器265可以通过参考当前画面中的样本来预测当前块。帧内预测器185的描述同样适用于帧内预测器265。
帧间预测器260可以基于参考画面上由运动向量指定的参考块(参考样本阵列)来推导当前块的预测块。在这种情况下,为了减少在帧间预测模式中传输的运动信息量,可以基于邻近块和当前块之间的运动信息的相关性以块、子块或样本为单位来预测运动信息。运动信息可以包括运动向量和参考画面索引。运动信息还可以包括帧间预测方向(L0预测、L1预测、双预测等)信息。在帧间预测的情况下,邻近块可以包括当前画面中存在的空间邻近块和参考画面中存在的时间邻近块。例如,帧间预测器260可以基于邻近块配置运动信息候选列表,并且基于接收到的候选选择信息推导当前块的运动向量和/或参考画面索引。可以基于各种预测模式来执行帧间预测,并且关于预测的信息可以包括指示当前块的帧间预测模式的信息。
加法器235可以通过将获得的残差信号与从预测器(包括帧间预测器260和/或帧内预测器265)输出的预测信号(预测块、预测样本阵列)相加生成重构信号(重构画面、重构块、重构样本阵列)。如果对于要处理的块不存在残差,例如当应用跳过模式时,预测块可以用作重构块。加法器155的描述同样适用于加法器235。加法器235可以被称为重构器或重构块生成器。所生成的重构信号可以用于当前画面中要处理的下一块的帧内预测,并且可以如下所述通过滤波用于下一画面的帧间预测。
滤波器240可以通过对重构信号应用滤波来提高主观/客观图像质量。例如,滤波器240可以通过对重构画面应用各种滤波方法来生成修改的重构画面,并将修改的重构画面存储在存储器250中,具体地,存储器250的DPB中。各种滤波方法可以包括例如去块滤波、样本自适应偏移、自适应环路滤波、双边滤波等。
存储在存储器250的DPB中的(修改的)重构画面可以用作帧间预测器260中的参考画面。存储器250可以存储从其中推导(或解码)当前画面中的运动信息的块的运动信息和/或画面中已经重构的块的运动信息。存储的运动信息可以被传输到帧间预测器260,以用作空间邻近块的运动信息或时间邻近块的运动信息。存储器250可以存储当前画面中重构块的重构样本并将重构样本传送到帧内预测器265。
在本公开中,在图像编码设备100的滤波器160、帧间预测器180和帧内预测器185中描述的实施方式可以同等地或对应地应用于图像解码设备200的滤波器240、帧间预测器260和帧内预测器265。
画面分割的概述
可以基于分割结构来执行根据本公开的视频/图像编码/解码方法。具体地,可以基于根据分割结构而推导的CTU、CU(和/或TU、PU)来执行诸如预测、残差处理((逆)变换、(解)量化等)、语法元素编码和滤波的过程。
可以在图像编码设备的图像分割器110中执行块分割过程。分割相关信息可以由熵编码器190编码并且以比特流的形式传送到图像解码设备200。图像解码设备200的熵解码器210可以基于从比特流获得的分割相关信息来推导当前画面的块分割结构,并且基于此,可以执行一系列的过程(例如,预测、残差处理、块/画面重构、环路内滤波等)以进行图像解码。
CU大小可以等于TU大小,或者在CU区域中可以存在多个TU。此外,CU大小通常可以指示亮度分量(样本)CB大小。TU大小通常可以指示亮度分量(样本)TB大小。可以根据画面/图像的颜色格式(色度格式,例如4:4:4、4:2:2、4:2:0等)根据分量比基于亮度分量(样本)CB或TB大小来推导色度分量(样本)CB或TB大小。可以基于maxTbSize来推导TU大小。例如,当CU大小大于maxTbSize时,可以从CU推导具有maxTbSize的多个TU(TB),并且可以以TU(TB)为单位执行变换/逆变换。另外,例如,当应用帧内预测时,可以以CU(或CB)为单位推导帧内预测模式/类型,并且可以以TU(或TB)为单位执行邻近参考样本推导和预测样本生成过程。在这种情况下,在一个CU(或CB)区域中可以存在一个或多个TU(或TB)。在这种情况下,多个TU(或TB)可以共享相同的帧内预测模式/类型。
另外,在根据本公开的视频/图像编码和解码中,图像处理单元可以具有分层结构。一个画面可以被分割为一个或更多个拼块、图块、切片或拼块组。一个图块可以包括拼块中的一个或更多个CTU行。切片可以包括画面的整数个图块。一个拼块组可以包括一个或更多个拼块。一个拼块可以包括一个或更多个CTU。CTU可以被分割为一个或更多个CU。画面中的特定拼块列和特定拼块行内的CTU的矩形区域。根据画面内的拼块光栅扫描,拼块组可以包括整数个拼块。切片头可以承载适用于切片(切片内的块)的信息/参数。
当图像编码/解码设备100或200具有多核处理器时,拼块、切片、图块或拼块组的编码/解码过程可以并行执行。在本公开中,切片或拼块组可以互换使用。即,拼块组头可被称为切片头。这里,切片可以具有包括帧内(I)切片、预测(P)切片和双预测(B)切片的切片类型之一。对于I切片中的块,可以不使用帧间预测,仅帧内预测可以用于预测。当然,即使在这种情况下,原始样本值也可以被编码并用信号通知而无需预测。对于P切片中的块,可以使用帧内预测或帧间预测,并且当使用帧间预测时可以仅使用单预测。此外,对于B切片中的块,可以使用帧内预测或帧间预测,并且当使用帧间预测时可以使用直至双预测。
在图像编码设备100中,可以根据图像的特性(例如,分辨率)或者考虑编码效率或并行处理来确定拼块/拼块组、图块、切片、最大和最小编码单元大小,并且关于其的信息或能够推导其的信息可以被包括在比特流中。
在图像解码设备200中,可以获得指示当前画面的拼块/拼块组、图块或切片或者拼块中的CTU是否被分割为多个编码单元的信息。当仅在特定条件下获得(发送)这种信息时,效率可增加。
切片头(切片头语法)可以包括共同适用于切片的信息/参数。APS(APS语法)或PPS(PPS语法)可以包括共同适用于一个或更多个画面的信息/参数。SPS(SPS语法)可以包括共同适用于一个或更多个序列的信息/参数。VPS(VPS语法)可以包括共同适用于多个层的信息/参数。DPS(DPS语法)可以包括共同适用于总体视频的信息/参数。DPS可以包括与编码视频序列(CVS)的级联有关的信息/参数。
在本公开中,高级语法可以包括APS语法、PPS语法、SPS语法、VPS语法或切片头语法中的至少一个。另外,例如,关于拼块/拼块组/图块/切片的分割和配置的信息可以通过高级语法在图像编码设备100中构造,并且以比特流的形式传送到图像解码设备200。
图4是示出将画面分割成CTU的示例的图。在图4中,由最外边界形成的矩形表示画面,包括在画面中的矩形表示CTU。
参照图4,画面可被分割成编码树单元(CTU)的序列。CTU可以对应于编码树块(CTB)。另选地,CTU可以包括亮度样本的编码树块以及与之对应的色度样本的两个编码树块。换言之,对于包含三样本阵列的画面,CTU可以包括亮度样本的N×N块和色度样本的两个对应块。
用于编码和预测的CTU的最大允许大小可以不同于用于变换的CTU的最大允许大小。例如,即使用于变换的CTU的最大允许大小为64×64,用于编码和预测的CTU中的亮度块的最大允许大小可为128×128。
图5是示出将画面分割成拼块、切片和/或图块的示例的图。
具体地,图5的(a)示出被分割成12个拼块和3个光栅扫描切片的画面(光栅扫描切片分割)的示例,图5的(b)示出被分割成24个拼块(6个拼块列和4个拼块行)和9个矩形切片的画面(矩形切片分割)的示例。另外,图5的(c)示出将画面分割成拼块、矩形切片和图块的示例,在图5的(c)中,画面被分割成四个拼块(两个拼块列和两个拼块行)、11个图块(包括在左上拼块中的1个图块、包括在右上拼块中的5个图块、包括在左下拼块中的2个图块以及包括在右下拼块中的3个图块)和四个矩形切片。
参照图5,画面可以被分割成一个或更多个拼块行和一个或更多个拼块列。一个拼块可以是覆盖画面的矩形区域的CTU序列。根据实施方式,拼块可以被分割成一个或更多个图块。各个图块可以由拼块内的多个CTU行组成。未被分割成多个图块的拼块可以是图块。然而,作为拼块的子集,图块不与拼块对应。
切片可以包括画面内的多个拼块或拼块内的多个图块。可以支持两个切片模式:光栅扫描切片模式(光栅扫描切片)和矩形切片模式(矩形切片)。在光栅扫描切片中,一个切片可以包括画面的拼块光栅扫描内的拼块序列。在矩形切片中,一个切片可以包括多个图块,其共同形成画面的矩形区域。矩形切片内的图块可以具有切片的图块光栅扫描顺序。
参考画面重采样(RPR)
通用视频编码(VVC)视频压缩标准技术可以在一个编码层视频序列(CLVS)中使用参考画面重采样(RPR)技术。即,一层图像中的图像的分辨率可改变。
在RPR中,当当前图像的分辨率和参考图像的分辨率不同时,计算参考图像与当前图像之间的分辨率比,并且参考图像的分辨率可以通过采样改变为具有与当前图像的分辨率相同大小的分辨率。可以参考具有改变的分辨率的参考图像来进行当前图像的编码/解码。
另外,在RPR中,可以选择要编码的当前图像的分辨率,并且在对各种分辨率(候选分辨率)执行编码之后,可以基于编码结果确定当前图像的最优分辨率。这里,最优分辨率的条件可以是相同比特率下的最佳图像质量或相同图像质量下的最低比特率。
然而,当对所有候选分辨率进行编码以计算最优分辨率时,同一画面必须被编码多次,这可能在计算量、时间和存储器使用方面增加复杂度。
为了避免复杂度的这种增加,考虑按照周期性时间(0.5秒、1秒等)、预定帧数(8、16、32、64、128等)、GOP(画面组)的倍数、RAP(随机访问点)的倍数等确定最优分辨率的相对简单的方法。然而,这种相对简单的方法具有无法准确地确定最优分辨率的问题。
本申请涉及一种在应用RPR技术时确定最优分辨率的方法。通过不必对每一个候选分辨率执行编码,本申请可改进复杂度。另外,在本申请中,由于基于当前图像的复杂度、当前图像与参考图像之间的相似度、预测比特率和预测失真来确定最优分辨率,所以可更准确地确定最优分辨率。因此,本申请可为上述传统分辨率确定方法的问题提供了解决方案。
以下,将描述本文所提供的各种实施方式。下面所描述的各种实施方式可以单独地执行,或者可通过将多个实施方式组合来执行。
实施方式1
实施方式1是确定最优分辨率的方法的实施方式。用于实现确定最优分辨率的方法的配置示出于图6中,根据实施方式1的图像编码方法示出于图7中,根据实施方式1的图像解码方法示出于图8中。
参照图6,图像编码设备100可以包括复杂度计算单元610、相似度计算单元620、比特率预测单元630、失真预测单元640和分辨率选择单元650。
图像编码设备100可以获得关于当前图像的复杂度的信息(S710)。在步骤S710中获得(或计算)关于复杂度的信息可以在复杂度计算单元610中执行。关于复杂度的信息可以使用当前图像作为输入来获得。
图像编码设备100可以获得关于当前图像与参考图像之间的相似度的信息(S710)。在步骤S710中获得(或计算)关于相似度的信息可以在相似度计算单元620中执行。关于相似度的信息可以使用当前图像和参考图像作为输入或者使用当前图像的一部分和参考图像作为输入来获得。
图像编码设备100可以预测一个或更多个候选分辨率的比特率信息(S720)。比特率信息的预测可以在比特率预测单元630中执行。可以基于关于复杂度的信息和关于相似度的信息来预测比特率信息。根据实施方式,比特率信息可以基于量化参数(QP)、时间层标识符(Tid)、切片类型和分辨率中的全部或部分来进一步预测。
图像编码设备100可以预测候选分辨率的失真信息(S720)。失真信息的预测可以在失真预测单元640中执行。可以基于关于复杂度的信息和关于相似度的信息来预测失真信息。根据实施方式,失真信息可以基于量化参数(QP)、时间层标识符(Tid)、切片类型和分辨率中的全部或部分来进一步预测。
图像编码设备100可以从候选分辨率当中选择要应用于当前图像的分辨率(即,最优分辨率)(S730)。最优分辨率的选择可以在分辨率选择单元650中执行。
可以基于比特率信息和失真信息来选择最优分辨率。例如,图像编码设备100可以计算候选分辨率的率失真成本并且选择具有最低率失真成本的候选分辨率作为最优分辨率。
最优分辨率可以被表达为当前图像的大小与参考图像的大小之比(例如,参考图像的大小/当前图像的大小)。图像的大小可以被表达为图像的宽度、图像的高度或图像中的样本数(宽度×高度)。如果当前图像的大小与参考图像的大小之比具有大于1的值(例如,1.25、1.5、1.75、2.0等),则当前图像的大小可以小于参考图像的大小。如果当前图像的大小与参考图像的大小之比具有小于1的值(例如,0.25、0.5、0.75等),则当前图像的大小可以大于参考图像的大小。为了易于实现(例如,仅允许执行移位操作而没有除法操作),当前图像的大小与参考图像的大小之比可以仅由上述比率组成,或者可具有任意比率(任意值)。
可以以诸如CTU、切片、拼块、帧、时间层、GOP或GOP的倍数、随机访问点(RAP)或RAP的倍数为单位来确定最优分辨率。
图像编码设备100可以对关于最优分辨率的信息(关于所选分辨率的信息)进行编码。根据实施方式,图像编码设备100可以对关于最优分辨率的信息和关于候选分辨率的信息进行编码。
当关于最优分辨率的信息被编码时,图像解码设备200可以从比特流获得关于最优分辨率的信息(关于所选分辨率的信息)(S820)。另外,图像解码设备200可以基于关于最优分辨率的信息来选择当前图像的最优分辨率(S830)。
例如,图像解码设备200可以通过从预定候选分辨率当中选择关于最优分辨率的信息所指示的候选分辨率来选择最优分辨率。图像解码设备200可以通过将当前图像的分辨率改变为所选最优分辨率来执行RPR。
当关于最优分辨率的信息和关于候选分辨率的信息被编码时,图像解码设备200可以从比特流获得关于候选分辨率的信息(S810)。图像解码设备200可以基于关于候选分辨率的信息来识别候选分辨率。
图像解码设备200可以从比特流获得关于最优分辨率的信息(关于所选分辨率的信息)(S820),并且基于关于最优分辨率的信息选择当前图像的最优分辨率(S830)。
例如,图像解码设备200可以通过从基于关于候选分辨率的信息识别的候选分辨率当中选择关于最优分辨率的信息所指示的候选分辨率来选择最优分辨率。图像解码设备200可以通过将当前图像的分辨率改变为所选最优分辨率来执行RPR。
实施方式2
实施方式2是计算关于复杂度的信息和关于相似度的信息的方法的实施方式。即,实施方式2是图7的步骤S710的示例。
关于复杂度的信息可以1)基于当前图像的样本值来推导,2)基于视频编解码器的结果值来推导,或者3)使用基于机器学习的神经网络来推导。
1)当前图像的样本值可以基于当前图像的样本单元平均梯度值、当前图像的亮度分量和色度分量之间的样本单元平均梯度值差、根据分辨率的变化的样本单元平均变换值差或者根据RPR应用的样本单元平均梯度值差中的至少一个来推导。
作为示例,当前图像的样本单元平均梯度值可以基于当前图像中的当前样本与位于当前样本周围的邻近样本之间的样本值梯度来推导。这里,邻近样本可以是位于当前样本周围的4个样本或8个样本。
图9中示出用于说明当前样本和邻近样本之间的位置关系的示例。在图9中,X(i,j)表示当前样本,除了X(i,j)之外的剩余样本表示邻近样本。
当使用4个邻近样本时,可以使用水平方向上的两个邻近样本(X(i-1,j)样本和X(i+1,j)样本)和垂直方向上的2个邻近样本(X(i,j-1)样本和X(i,j+1)样本)来计算样本值梯度。例如,各个方向上的样本值梯度可以根据下式1来计算。
[式1]
GH(i,j)=(X(i,j)<<1)-X(i-1,j)-X(i+1,j)
GV(i,j)=(X(i,j)<<1)-X(i,j-1)-X(i,j-1)
在式1中,GH(i,j)表示水平方向上的样本值梯度,GV(i,j)表示垂直方向上的样本值梯度。
使用所计算的样本值梯度的样本单元平均梯度可以根据式2来计算。
[式2]
在式2中,W和H是用于计算样本单元平均梯度的区域,并且可以以图像的所有样本、一些CTU或一些区域的样本、采样样本、应用了滤波的样本等形式使用。
当使用8个邻近样本时,可以基于当前样本另外计算使用位于对角方向上的样本的样本值梯度。例如,对角方向上的样本值梯度可以根据式3来计算。
[式3]
GD1(i,j)=(X(i,j)<<1)-X(i-1,j-1)-X(i+1,j+1)
GD2(i,j)=(X(i,j)<<1)-X(i-1,j+1)-X(i+1,j-1)
在式3中,GD1(i,j)表示右下对角方向上的样本值梯度,GD1(i,j)表示右上对角方向上的样本值梯度。
样本单元平均梯度可以根据基于8个邻近样本计算的样本值梯度和式4来计算。
[式4]
作为另一示例,样本单元平均梯度可以针对当前图像的亮度分量和色度分量中的每一个计算,或者可以使用单个等式来计算。当针对亮度分量和色度分量中的每一个计算样本单元平均梯度时,可以通过计算亮度分量的样本单元平均梯度与色度分量的样本单元平均梯度之间的差来计算当前图像的亮度分量与色度分量之间的样本单元平均梯度值。
作为另一示例,可以根据分辨率的变化来计算样本单元平均梯度。例如,可以计算原始大小的当前图像的样本单元平均梯度(当前图像的分辨率)与分辨率变化的当前图像的样本单元平均梯度之间的差。
作为另一示例,可以计算根据分辨率的变化的样本单元平均梯度。在这种情况下,在执行重采样以将当前图像改变为期望的分辨率并将其重构回原始分辨率(原始图像大小)之后,可以计算原始大小的当前图像的样本单元平均梯度(当前图像的分辨率)与具有重构的分辨率的当前图像的样本单元平均梯度之间的差。
作为另一示例,在不计算样本单元平均梯度的情况下,可以计算并推导重构的当前图像与原始图像之间的结构相似度索引图(SSIM)或峰值信噪比(PSNR)作为关于复杂度的信息。
2)当基于视频编解码器的结果值推导关于复杂度的信息时,整个当前图像、当前图像内的一些CTU或当前图像的部分区域可以被输入到视频编解码器,并且结果可以被提供作为关于复杂度的信息。
作为示例,使用诸如高级视频编码(AVC)、高效视频编码(HEVC)或VVC的视频编解码器对当前图像进行无损编码,或者使用预定量化参数对当前图像进行有损编码,并且可以基于结果获得关于复杂度的信息。这里,关于复杂度的信息可以包括特定单元的平均比特率、特定单元的的平均PSNR、切片类型等。
3)当使用基于机器学习的神经网络推导关于复杂度的信息时,整个当前图像、当前图像的一些CTU或当前图像的部分区域可以用作神经网络的输入。神经网络的输出结果可以是表示当前图像中所包括的复杂度的定量常数值,并且该常数值可以是关于复杂度的信息。另选地,本文所提出的方法的适用性(二进制结果0或1)可以是神经网络的输出。
此外,关于相似度的信息也可以1)基于当前图像的样本值来推导,2)基于视频编解码器的结果值来推导,或者3)使用基于机器学习的神经网络来推导。
1)基于当前图像的样本值推导关于相似度的信息、2)基于视频编解码器的结果值推导关于相似度的信息以及3)使用基于机器学习的神经网络推导关于相似度的信息可以根据与上述推导关于复杂度的信息的具体方法相同的方法来执行。
关于相似度的信息可以是可定量地指示当前图像与参考图像之间的相似度(冗余度)的信息。例如,关于相似度的信息可以是当前图像与参考图像之间的互相关值或者当前图像与参考图像之间的样本值梯度(或样本单元平均梯度值)。
实施方式3
实施方式3是预测比特率信息的方法的实施方式。即,实施方式3是图7的步骤S720的实施方式。
可以基于关于复杂度的信息和关于相似度的信息来预测比特率信息。根据实施方式,可以不仅基于关于复杂度的信息和关于相似度的信息,而且基于量化参数、时间层标识符、切片类型、分辨率等来预测给定分辨率(候选分辨率)的比特率信息。
量化参数、时间层标识符、切片类型和分辨率中的全部或一些可以用于预测比特率信息。另外,量化参数、时间层标识符、切片类型和分辨率中的一些可以被修改并用于预测比特率信息。作为示例,量化参数可以被修改并用作由量化参数定义的量化步长值。作为另一示例,量化参数可以是改变当前图像的分辨率之前的量化参数,或者可以是具有在预定范围内应用的偏移的量化参数。
比特率信息可以根据下式5(比特率信息预测模型)来预测。
[式5]
在式5中,ERi表示针对分辨率i预测的比特率信息,G表示当前图像的样本单元平均梯度。G可以从当前图像的大小仅计算一次,或者可以针对各个分辨率单独地计算。另选地,G可以通过实施方式2的关于复杂度的信息中的一个或更多个来改变或添加。QSj表示当量化参数值等于j时的量化步长。a和b是当给定输入参数时可以预测比特率信息的标度值,并且可以是预训练的系数。a和b可以基于机器学习来推导。例如,a和b可以通过线性回归或神经网络来推导。
比特率信息预测模型可以根据当前图像的分辨率、包括在当前图像中的样本数以及关于量化参数的范围或复杂度的信息而变化。
实施方式4
实施方式4是预测失真信息的方法的实施方式,并且是图7的步骤S720的实施方式。
失真信息可以指示根据分辨率的变化的(候选分辨率的)失真。在首先预测候选分辨率的图像质量值(例如,PSNR或SSIM)之后,可以基于此来预测失真信息。
可以基于关于复杂度的信息和关于相似度的信息来预测失真信息。根据实施方式,给定分辨率(候选分辨率)的失真信息可以不仅基于关于复杂度的信息和关于相似度的信息,而且基于量化参数、时间层标识符、切片类型、分辨率等来预测。
量化参数、时间层标识符、切片类型和分辨率中的全部或一些可以用于预测失真信息。另外,量化参数、时间层标识符、切片类型和分辨率中的一些可以被修改并用于预测失真信息。作为示例,量化参数可以被修改并用作由量化参数定义的量化步长值。作为另一示例,量化参数可以是改变当前图像的分辨率之前的量化参数,或者可以是具有在预定范围内应用的偏移的量化参数。
失真信息(例如,PSNR)可以根据下式6的失真信息预测模型来预测。
[式6]
EPSNRi=a×R+b×QP+c×G
在式6中,ESPSNRi表示针对分辨率i预测的失真信息,G表示当前图像的样本单元平均梯度。G可以仅从当前图像的大小计算一次,或者可以针对各个分辨率单独地计算。R表示当前图像的分辨率,QP表示量化参数值。a、b和c是当给定输入参数时可以预测失真信息的标度值,并且可以是预训练的系数。a、b和c可以基于机器学习来推导。例如,a、b和c可以通过线性回归或神经网络等来推导。
式6的失真信息预测模型可以根据当前图像的分辨率(或包括在当前图像中的样本数)、量化参数、样本单元平均梯度、关于复杂度的信息等而变化。换言之,失真信息可以使用根据当前图像的分辨率(或包括在当前图像中的样本数)、量化参数、样本单元平均梯度、关于复杂度的信息等而变化的失真信息预测模型来预测。
作为示例,可以通过式7的失真信息预测模型来预测失真信息,式7以平方的形式使用量化参数。
[式7]
EPSNRi=a×R+b×QP2+c×G
作为另一示例,可以通过式8的失真信息预测模型来预测失真信息,式8将分辨率与量化参数和样本单元平均梯度组合。
[式8]
EPSNRi=a×QP+b×QP×R+c×G+d×G×R
在式8中,d是当给定输入参数时可以预测失真信息的标度值,并且可以是预训练的系数。d可以基于机器学习来推导。例如,d可以通过线性回归或神经网络来推导。
作为另一示例,可以通过式9的失真信息预测模型来预测失真信息,式9将分辨率与量化参数和样本单元平均梯度组合并且以平方的形式使用量化参数。
[式9]
EPSNRi=a×QP2+b×QP×R+c×G+d×G×R
实施方式5
实施方式5是选择最优分辨率的方法的实施方式,并且是图7的步骤S730的实施方式。
基于比特率信息和失真信息,可以从候选分辨率当中选择要应用于当前图像的分辨率(最优分辨率)。例如,可以从候选分辨率当中选择使比特率失真成本最小化的候选分辨率作为最优分辨率。可以被选为最优分辨率的候选分辨率可以具有大于或小于输入图像的分辨率。
根据实施方式,最优分辨率可以根据式10的分辨率选择模型来选择。
[式10]
OR=argmin(ERi×λ+EPSNRi)
在式10中,OR(最优分辨率)表示最优分辨率,ERi表示分辨率i的比特率信息,EPSNRi表示分辨率i的失真信息。λ是由给定以对当前图像进行编码的量化参数定义的常数。根据式10的argmin,可以从候选分辨率当中确定使比特率失真成本最小化的分辨率i作为最优分辨率。
使用式10的最优分辨率选择模型,可确定最优分辨率,同时确定最优量化参数。可选量化参数值(候选量化参数值)可以作为相同的值输入到比特率预测单元630和失真预测单元640以用于预测比特率信息和失真信息,并且可以计算与之对应的比特率失真成本。即,通过式10,使比特率失真成本最小化的最优分辨率和最优量化参数可以一次确定。
根据实施方式,式10可以应用于所有候选分辨率,或者可以仅应用于一些候选分辨率。例如,在候选分辨率当中,可以排除不满足预定条件的候选分辨率,而不输入到最优分辨率选择处理中。这里,候选分辨率可以包括当前图像的分辨率。
预定条件可以是当前图像的分辨率的比特率值(比特率信息或预期比特量)与候选分辨率的比特率值(比特率信息或预期比特量)之间的差是否超过阈值或者当前图像的分辨率的失真值(失真信息或预期失真)与候选分辨率的失真值(失真信息或预期失真)之间的差是否超过阈值中的至少一个。
作为示例,图像编码设备100可以选择当前图像的分辨率的比特率信息与候选分辨率的比特率信息之间的差超过阈值的候选分辨率(S1010)。具体地,图像编码设备100可以通过计算当前图像的分辨率的比特率信息与候选分辨率的比特率信息之间的差(S1012)并且确定所计算的差是否超过阈值(S1014)来选择所计算的差超过阈值的候选分辨率。
如果所计算的差超过阈值,则图像编码设备100可以从除了对应候选分辨率之外的剩余候选分辨率当中选择最优分辨率(S1020)。如果所计算的差未超过阈值,则图像编码设备100可以从包括对应候选分辨率的候选分辨率当中选择最优分辨率(S1030)。
作为另一示例,图像编码设备100可以选择当前图像的分辨率的失真信息与候选分辨率的失真信息之间的差超过阈值的候选分辨率(S1010)。具体地,图像编码设备100可以通过计算当前图像的分辨率的失真信息与候选分辨率的失真信息之间的差(S1012)并且确定所计算的差是否超过阈值(S1014)来选择所计算的差超过阈值的候选分辨率。
如果所计算的差超过阈值,则图像编码设备100可以从除了对应候选分辨率之外的剩余候选分辨率当中选择最优分辨率(S1020)。如果所计算的差未超过阈值,则图像编码设备100可以从包括对应候选分辨率的候选分辨率当中选择最优分辨率(S1030)。
这样,当排除所计算的差超过阈值的候选分辨率时,由于最优分辨率选择处理可以应用于相对少量的候选分辨率,所以可降低选择最优分辨率的处理的复杂度。
图11是例示本公开的实施方式适用于的内容流系统的视图。
如图11中所示,应用本公开的实施方式的内容流系统可以主要包括编码服务器、流服务器、网络服务器、媒体存储装置、用户装置和多媒体输入装置。
编码服务器将从诸如智能电话、相机、摄像机等多媒体输入装置输入的内容压缩成数字数据以生成比特流并将该比特流发送到流服务器。作为另一示例,当智能电话、相机、摄像机等多媒体输入装置直接生成比特流时,可以省略编码服务器。
比特流可以由应用本公开的实施方式的图像编码方法或图像编码设备产生,并且流服务器可以在发送或接收比特流的过程中暂时存储比特流。
流服务器基于用户通过网络服务器的请求将多媒体数据发送到用户装置,并且网络服务器用作向用户告知服务的媒介。当用户向网络服务器请求所需的服务时,网络服务器可以将其递送到流服务器,并且流服务器可以向用户发送多媒体数据。在这种情况下,内容流系统可以包括单独的控制服务器。在这种情况下,控制服务器用于控制内容流系统中的装置之间的命令/响应。
流服务器可以从媒体存储装置和/或编码服务器接收内容。例如,当从编码服务器接收内容时,可以实时接收内容。在这种情况下,为了提供平滑的流服务,流服务器可以在预定时间内存储比特流。
用户装置的示例可以包括移动电话、智能电话、膝上型计算机、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航设备、石板PC、平板PC、超级本、可穿戴装置(例如,智能手表、智能眼镜、头戴式显示器)、数字电视、台式计算机、数字标牌等。
内容流系统中的各个服务器可以作为分布式服务器运行,在这种情况下,从各个服务器接收的数据可以被分布。
本公开的范围包括用于使根据各种实施方式的方法的操作能够在设备或计算机上执行的软件或机器可执行命令(例如,操作系统、应用、固件、程序等)、具有存储在其上并且可在设备或计算机上执行的此类软件或命令的非暂时性计算机可读介质。
工业实用性
本公开的实施方式可以被用于对图像进行编码或解码。

Claims (15)

1.一种由图像编码设备执行的图像编码方法,该图像编码方法包括以下步骤:
获得关于当前图像与参考图像之间的相似度的信息以及关于所述当前图像的复杂度的信息;
基于关于相似度的信息和关于复杂度的信息来预测一个或更多个候选分辨率的比特率信息和失真信息;以及
基于所述比特率信息和所述失真信息从所述候选分辨率当中选择要应用于所述当前图像的分辨率。
2.根据权利要求1所述的图像编码方法,其中,基于所述当前图像的样本值来获得所述关于复杂度的信息。
3.根据权利要求2所述的图像编码方法,其中,基于所述当前图像中位于当前样本周围的一个或更多个邻近样本与所述当前样本之间的样本值梯度来获得所述关于复杂度的信息。
4.根据权利要求3所述的图像编码方法,其中,所述邻近样本包括位于所述当前样本左侧和右侧的邻近样本以及位于所述当前样本上方和下方的邻近样本。
5.根据权利要求2所述的图像编码方法,其中,基于所述当前图像的亮度样本与所述当前图像的色度样本之间的样本值梯度来获得所述关于复杂度的信息。
6.根据权利要求1所述的图像编码方法,其中,所述关于相似度的信息是关于所述当前图像与所述参考图像之间的互相关或者所述当前图像与所述参考图像之间的样本值梯度的信息。
7.根据权利要求1所述的图像编码方法,其中,基于关于量化参数的信息、关于时间层标识符的信息、关于切片类型的信息或关于分辨率的信息中的一个或更多个来进一步预测所述比特率信息。
8.根据权利要求7所述的图像编码方法,其中,关于所述量化参数的所述信息是由所述量化参数定义的量化步长值。
9.根据权利要求7所述的图像编码方法,其中,所述量化参数是所述当前图像的量化参数。
10.根据权利要求1所述的图像编码方法,其中,基于关于量化参数的信息、关于时间层标识符的信息、关于切片类型的信息或关于分辨率的信息中的一个或更多个来进一步预测所述失真信息。
11.根据权利要求1所述的图像编码方法,其中,要应用于所述当前图像的所述分辨率被选为所述候选分辨率当中的使率失真成本最小化的候选分辨率。
12.根据权利要求1所述的图像编码方法,其中,选择要应用于所述当前图像的分辨率的步骤包括以下步骤:
选择关于所述当前图像的分辨率的比特率信息与所述比特率信息之间的差超过阈值的候选分辨率;以及
从除了超过所述阈值的候选分辨率之外的剩余候选分辨率当中选择要应用于所述当前图像的分辨率。
13.根据权利要求1所述的图像编码方法,其中,选择要应用于所述当前图像的分辨率的步骤包括以下步骤:
选择关于所述当前图像的分辨率的失真信息与所述失真信息之间的差超过阈值的候选分辨率;以及
从除了超过所述阈值的候选分辨率之外的剩余候选分辨率当中选择要应用于所述当前图像的分辨率。
14.一种发送通过图像编码方法生成的比特流的方法,所述图像编码方法包括以下步骤:
获得关于当前图像与参考图像之间的相似度的信息以及关于所述当前图像的复杂度的信息;
基于关于相似度的信息和关于复杂度的信息来预测一个或更多个候选分辨率的比特率信息和失真信息;以及
基于所述比特率信息和所述失真信息从所述候选分辨率当中选择要应用于所述当前图像的分辨率。
15.一种计算机可读记录介质,所述计算机可读记录介质存储通过图像编码方法生成的比特流,所述图像编码方法包括以下步骤:
获得关于当前图像与参考图像之间的相似度的信息以及关于所述当前图像的复杂度的信息;
基于关于相似度的信息和关于复杂度的信息来预测一个或更多个候选分辨率的比特率信息和失真信息;以及
基于所述比特率信息和所述失真信息从所述候选分辨率当中选择要应用于所述当前图像的分辨率。
CN202280063305.XA 2021-09-23 2022-09-21 图像编码/解码方法、发送比特流的方法及存储比特流的记录介质 Pending CN117981316A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163247319P 2021-09-23 2021-09-23
US63/247,319 2021-09-23
PCT/KR2022/014111 WO2023048464A1 (ko) 2021-09-23 2022-09-21 영상 부호화/복호화 방법, 비트스트림을 전송하는 방법 및 비트스트림을 저장한 기록 매체

Publications (1)

Publication Number Publication Date
CN117981316A true CN117981316A (zh) 2024-05-03

Family

ID=85720936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280063305.XA Pending CN117981316A (zh) 2021-09-23 2022-09-21 图像编码/解码方法、发送比特流的方法及存储比特流的记录介质

Country Status (3)

Country Link
KR (1) KR20240090206A (zh)
CN (1) CN117981316A (zh)
WO (1) WO2023048464A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401071B2 (en) * 2007-12-19 2013-03-19 Sony Corporation Virtually lossless video data compression
KR101379190B1 (ko) * 2009-10-28 2014-03-31 에스케이 텔레콤주식회사 적응적인 해상도 기반의 영상 부호화/복호화 방법 및 장치
KR101804702B1 (ko) * 2016-09-13 2017-12-06 연세대학교 산학협력단 전송 영상의 해상도 결정 방법 및 장치
CN108495130B (zh) * 2017-03-21 2021-04-20 腾讯科技(深圳)有限公司 视频编码、解码方法和装置、终端、服务器和存储介质
US10666992B2 (en) * 2017-07-18 2020-05-26 Netflix, Inc. Encoding techniques for optimizing distortion and bitrate

Also Published As

Publication number Publication date
KR20240090206A (ko) 2024-06-21
WO2023048464A1 (ko) 2023-03-30

Similar Documents

Publication Publication Date Title
JP7423835B2 (ja) 非分離二次変換に基づいた画像コーディング方法及びその装置
CN113455006B (zh) 图像解码方法和装置
JP7420982B2 (ja) 選択的変換に基づいた映像コーディング方法およびその装置
US11889069B2 (en) Image encoding/decoding method and device for utilizing simplified MPM list generation method, and method for transmitting bitstream
JP7197727B2 (ja) 映像コーディングにおけるマトリクスベースのイントラ予測のための変換
KR20210133299A (ko) Bdpcm에 기반한 영상 코딩 방법 및 그 장치
CN113491115B (zh) 基于cclm预测的图像解码方法及其装置
US20220174271A1 (en) Image encoding/decoding method and device having simplified mip mode mapping, and method for transmitting bitstream
US20220191512A1 (en) Image encoding/decoding method and device based on intra prediction mode conversion, and method for transmitting bitstream
US20240283929A1 (en) Image encoding/decoding method and device for signaling filter information on basis of chroma format, and method for transmitting bitstream
US12101481B2 (en) Image encoding/decoding method and device, and method for transmitting bitstream
KR20220074952A (ko) 영상/비디오 코딩 방법 및 장치
CN115176473A (zh) 使用bdpcm的图像解码方法及其装置
CN114982242A (zh) 发信号通知图片分割信息的方法和设备
CN117981316A (zh) 图像编码/解码方法、发送比特流的方法及存储比特流的记录介质
CN113273210B (zh) 用于编译关于合并数据的信息的方法和装置
CN115349258B (zh) 图像编码系统中用于残差编码的图像解码方法及其设备
US12132908B2 (en) Image encoding/decoding method and apparatus for performing intra prediction, and method for transmitting bitstream
US20230388512A1 (en) Image encoding/decoding method and apparatus for performing intra prediction, and method for transmitting bitstream
KR20240090207A (ko) 영상 부호화/복호화 방법, 비트스트림을 전송하는 방법 및 비트스트림을 저장한 기록 매체
KR20220161427A (ko) 픽처 분할 정보 및 서브픽처 정보에 기반하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장하는 기록 매체
KR20240102871A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20240016222A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한기록 매체
CN115004709A (zh) 用于发信号通知切片相关信息的方法和装置
CN115176465A (zh) 基于叶节点的重新配置的预测模式类型来执行预测的图像编码/解码方法和设备以及比特流传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination