CN119946292A - 编解码方法和装置 - Google Patents
编解码方法和装置 Download PDFInfo
- Publication number
- CN119946292A CN119946292A CN202410622443.8A CN202410622443A CN119946292A CN 119946292 A CN119946292 A CN 119946292A CN 202410622443 A CN202410622443 A CN 202410622443A CN 119946292 A CN119946292 A CN 119946292A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- pixel
- segmentation
- segmented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请实施例公开了编解码方法和装置,涉及媒体技术领域,可以避免设备对同一图像重复进行图像分割。该方法包括:对待编码图像进行编码以得到码流。对所编码图像进行图像分割以得到第一分割图像。对第一分割图像进行映射处理以得到第二分割图像。根据第一分割图像确定映射信息。对第二分割图像进行编码以得到分割编码图像。将分割编码图像和映射信息和图像编入码流。其中,映射信息包括第一信息、第二信息和第三信息,第一信息用于指示第一分割图像中像素点类型的数量,第二信息用于指示第一分割图像中像素点类型对应的像素值,第三信息用于指示第一分割图像中像素点类型对应的映射像素值。
Description
本申请是分案申请,原申请的申请号是202311468726.3,原申请日是2023年11月03日,原申请的全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及媒体技术领域,尤其涉及编解码方法和装置。
背景技术
图像分割(semantic segmentation)是图像处理和是机器视觉技术中关于图像理解的重要一环,也是人工智能(artificial intelligence,AI)领域中一个重要的分支。图像分割即是对图像中每一个像素点进行分类,确定每个点的类别(如属于背景、人或车等),从而进行区域划分。目前,图像分割已经被广泛应用于自动驾驶、无人机落点判定等场景中。
相关技术中,在设备存在图像分割需求(如设备运行有重压缩编码、车牌增强等业务)的情况下,设备需要根据码流进行图像分割操作。码流如果在多个设备之间传递,多个存在图像分割的设备会重复对该码流进行图像分割操作,这样会造成设备算力浪费,增加设备算力成本。
为此,如何避免设备对同一图像重复进行图像分割是本领域技术人员亟需解决的问题之一。
发明内容
本申请实施例提供了编解码方法和装置,可以避免设备对同一图像重复进行图像分割。为达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供了一种编码方法,该方法包括:对待编码图像进行编码以得到码流。对所编码图像进行图像分割以得到第一分割图像。对第一分割图像进行映射处理以得到第二分割图像。根据第一分割图像确定映射信息。对第二分割图像进行编码以得到分割编码图像。将分割编码图像和映射信息和图像编入码流。其中,映射信息包括第一信息、第二信息和第三信息,第一信息用于指示第一分割图像中像素点类型的数量,第二信息用于指示第一分割图像中像素点类型对应的像素值,第三信息用于指示第一分割图像中像素点类型对应的映射像素值。
本申请实施例提供的方法,通过将分割图像编入待编码图像的码流,使得解码端可以通过解码码流获取分割图像,从而避免设备对同一图像重复进行图像分割。另外,通过将分割图像的映射信息编入码流,可以使解码端通过映射信息,即可恢复分割图像,由此降低了分割图像的恢复难度。
在一种可能的实现方式中,可以根据上述第一分割图像确定上述第一信息和上述第二信息;根据上述第二信息确定上述第三信息。
可以看出,本申请实施例提供的方法,可以通过第一分割图像得到第一分割图像中像素点类型的数量和第一分割图像中像素点类型对应的像素值。然后通过和第一分割图像中像素点类型对应的像素值确定第一分割图像中像素点类型对应的映射像素值。
在一种可能的实现方式中,可以对上述第二信息中的像素值进行移位处理以得到上述第三信息中的映射像素值。
可以看出,本申请实施例提供的方法,可以通过移位处理以得到上述第三信息中的映射像素值。
例如,第二信息中的某个像素点的像素值为4,4由10进制转化为2进制则为100。100向左移位5位,则为10000000。10000000由2进制转化为10进制则为128。则第二信息中像素值为4的像素点对应的映射像素值为128。
又例如,第二信息中的某个像素点的像素值为5,5由10进制转化为2进制则为101。101向左移位5位,则为10100000。10100000由2进制转化为10进制则为160。则第二信息中像素值为5的像素点对应的映射像素值为160。
在一种可能的实现方式中,可以将上述待编码图像输入目标模型以得到上述第一分割图像,上述目标模型的训练集包括图像和上述图像的分割图像。
可以看出,本申请实施例提供的方法,可以通过将待编码图像输入网络模型以得到待编码图像的分割图像。
在一种可能的实现方式中,可以将上述映射信息和上述分割编码图像编入上述码流的扩展信息或补充增强信息中。
可以看出,本申请实施例提供的方法,可以通过扩展信息或补充增强信息将分割编码图像和映射信息编入待编码图像的码流中。
在一种可能的实现方式中,上述映射信息还包括第四信息和第五信息,上述第四信息用于指示上述第一分割图像的宽度,上述第五信息用于指示上述第一分割图像的高度。
第二方面,本申请实施例提供了一种解码方法,该方法包括:解码码流以得到分割编码图像和映射信息,上述分割编码图像是基于第一分割解码图像得到的,上述映射信息包括第一信息、第二信息和第三信息,上述第一信息用于指示第一分割图像中像素点类型的数量,上述第二信息用于指示上述第一分割图像中像素点类型对应的像素值,上述第三信息用于指示上述第一分割图像中像素点类型对应的映射像素值;解码上述分割编码图像以得到上述第一分割解码图像;根据上述映射信息对上述第一分割解码图像进行反映射处理以得到第二分割解码图像。
在一种可能的实现方式中,可以根据上述第一分割解码图像中像素点的像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。
在一种可能的实现方式中,可以根据上述第一分割解码图像中像素点的像素值和上述映射信息确定上述第一分割解码图像中像素点的映射像素值。根据上述映射像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。
在一种可能的实现方式中,上述映射信息还包括第四信息和第五信息,上述第四信息用于指示上述第一分割图像的宽度,上述第五信息用于指示上述第一分割图像的高度。
第三方面,本申请实施例提供了一种编码装置,该编码装置包括:编码单元、分割单元和处理单元。编码单元,用于对待编码图像进行编码以得到码流。分割单元,用于对上述待编码图像进行图像分割以得到第一分割图像。处理单元,用于对上述第一分割图像进行映射处理以得到第二分割图像。处理单元,还用于根据上述第一分割图像确定映射信息,上述映射信息包括第一信息、第二信息和第三信息,上述第一信息用于指示上述第一分割图像中像素点类型的数量,上述第二信息用于指示上述第一分割图像中像素点类型对应的像素值,上述第三信息用于指示上述第一分割图像中像素点类型对应的映射像素值。编码单元,还用于对上述第二分割图像进行编码以得到分割编码图像。编码单元,还用于将上述分割编码图像和上述映射信息和图像编入上述码流。
在一种可能的实现方式中,上述处理单元具体用于:根据上述第一分割图像确定上述第一信息和上述第二信息;根据上述第二信息确定上述第三信息。
在一种可能的实现方式中,上述处理单元具体用于:对上述第二信息中的像素值进行移位处理以得到上述第三信息中的映射像素值。
在一种可能的实现方式中,上述分割单元具体用于:将上述待编码图像输入目标模型以得到上述第一分割图像,上述目标模型的训练集包括图像和上述图像的分割图像。
在一种可能的实现方式中,上述编码单元具体用于:将上述映射信息和上述分割编码图像编入上述码流的扩展信息或补充增强信息中。
在一种可能的实现方式中,上述映射信息还包括第四信息和第五信息,上述第四信息用于指示上述第一分割图像的宽度,上述第五信息用于指示上述第一分割图像的高度。
第四方面,本申请实施例提供了一种解码装置,该解码装置包括:解码单元和处理单元。解码单元,用于解码码流以得到分割编码图像和映射信息,上述分割编码图像是基于第一分割解码图像得到的,上述映射信息包括第一信息、第二信息和第三信息,上述第一信息用于指示第一分割图像中像素点类型的数量,上述第二信息用于指示上述第一分割图像中像素点类型对应的像素值,上述第三信息用于指示上述第一分割图像中像素点类型对应的映射像素值。解码单元,用于解码上述分割编码图像以得到上述第一分割解码图像。处理单元,用于根据上述映射信息对上述第一分割解码图像进行反映射处理以得到第二分割解码图像。
在一种可能的实现方式中,上述处理单元具体用于:根据上述第一分割解码图像中像素点的像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。
在一种可能的实现方式中,上述处理单元具体用于:根据上述第一分割解码图像中像素点的像素值和上述映射信息确定上述第一分割解码图像中像素点的映射像素值;根据上述映射像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。
在一种可能的实现方式中,上述映射信息还包括第四信息和第五信息,上述第四信息用于指示上述第一分割图像的宽度,上述第五信息用于指示上述第一分割图像的高度。
第五方面,本申请实施例还提供一种编码装置,该装置包括:至少一个处理器,当所述至少一个处理器执行程序代码或指令时,实现上述第一方面或其任意可能的实现方式中所述的方法。
可选地,该装置还可以包括至少一个存储器,该至少一个存储器用于存储该程序代码或指令。
第六方面,本申请实施例还提供一种解码装置,该装置包括:至少一个处理器,当所述至少一个处理器执行程序代码或指令时,实现上述第二方面或其任意可能的实现方式中所述的方法。
可选地,该装置还可以包括至少一个存储器,该至少一个存储器用于存储该程序代码或指令。
第七方面,本申请实施例还提供一种芯片,包括:输入接口、输出接口、至少一个处理器。可选地,该芯片还包括存储器。该至少一个处理器用于执行该存储器中的代码,当该至少一个处理器执行该代码时,该芯片实现上述第一方面或其任意可能的实现方式中所述的方法。
可选地,上述芯片还可以为集成电路。
第八方面,本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序包括用于实现上述第一方面或其任意可能的实现方式中所述的方法。
第九方面,本申请实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现上述第一方面或其任意可能的实现方式中所述的方法。
本实施例提供的编解码装置、计算机存储介质、计算机程序产品和芯片均用于执行上文所提供的编解码方法,因此,其所能达到的有益效果可参考上文所提供的编解码方法中的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的译码系统的一种示例性框图;
图1b为本申请实施例提供的视频译码系统的一种示例性框图;
图2为本申请实施例提供的视频编码器的一种示例性框图;
图3为本申请实施例提供的视频解码器的一种示例性框图;
图4为本申请实施例提供的候选图像块的一种示例性的示意图;
图5为本申请实施例提供的视频译码设备的一种示例性框图;
图6为本申请实施例提供的装置的一种示例性框图;
图7为本申请实施例提供的一种编码方法的示意图;
图8为本申请实施例提供的一种解码方法的示意图;
图9为本申请实施例提供的一种编码装置的示意图;
图10为本申请实施例提供的一种解码装置的示意图;
图11为本申请实施例提供的一种芯片的结构示意图;
图12为本申请实施例提供的一种电子设备的结构示意图;
图13为本申请实施例提供的一种编码装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。
此外,本申请实施例的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选的还包括其他没有列出的步骤或单元,或可选的还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
需要说明的是,本申请实施例的描述中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优先或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
数据编解码包括数据编码和数据解码两部分。数据编码在源侧(或通常称为编码器侧)执行,通常包括处理(例如,压缩)原始数据以减少表示该原始数据所需的数据量(从而更高效存储和/或传输)。数据解码在目的地侧(或通常称为解码器侧)执行,通常包括相对于编码器侧作逆处理,以重建原始数据。本申请实施例涉及的数据的“编解码”应理解为数据的“编码”或“解码”。编码部分和解码部分也合称为编解码(编码和解码,CODEC)。
在无损数据编码情况下,可以重建原始数据,即重建的原始数据与原始数据具有相同的质量(假设存储或传输期间没有传输损耗或其他数据丢失)。在有损数据编码情况下,通过量化等执行进一步压缩,来减少表示原始数据所需的数据量,而解码器侧无法完全重建原始数据,即重建的原始数据的质量比原始数据的质量低或差。
本申请实施例可以应用于对视频数据以及其他具有压缩/解压缩需求的数据等。以下以视频数据的编码(简称视频编码)为例对本申请实施例进行说明,其他类型的数据(例如图像数据、音频数据、整数型数据以及其他具有压缩/解压缩需求的数据)可以参考以下描述,本申请实施例对此不再赘述。需要说明的是,相对于视频编码,音频数据以及整数型数据等数据的编码过程中无需将数据分割为块,而是可以直接对数据进行编码。
视频编码通常是指处理形成视频或视频序列的图像序列。在视频编码领域,术语“图像(picture)”、“帧(frame)”或“图片(image)”可以用作同义词。
几个视频编码标准属于“有损混合型视频编解码”(即,将像素域中的空间和时间预测与变换域中用于应用量化的2D变换编码结合)。视频序列中的每个图像通常分割成不重叠的块集合,通常在块级上进行编码。换句话说,编码器通常在块(视频块)级处理即编码视频,例如,通过空间(帧内)预测和时间(帧间)预测来产生预测块;从当前块(当前处理/待处理的块)中减去预测块,得到残差块;在变换域中变换残差块并量化残差块,以减少待传输(压缩)的数据量,而解码器侧将相对于编码器的逆处理部分应用于编码或压缩的块,以重建用于表示的当前块。另外,编码器需要重复解码器的处理步骤,使得编码器和解码器生成相同的预测(例如,帧内预测和帧间预测)和/或重建像素,用于处理,即编码后续块。
在以下译码系统10的实施例中,编码器20和解码器30根据图1a至图3进行描述。
图1a为本申请实施例提供的译码系统10的一种示例性框图,例如可以利用本申请实施例技术的视频译码系统10(或简称为译码系统10)。视频译码系统10中的视频编码器20(或简称为编码器20)和视频解码器30(或简称为解码器30)代表可用于根据本申请实施例中描述的各种示例执行各技术的设备等。
如图1a所示,译码系统10包括源设备12,源设备12用于将编码图像等编码图像数据21提供给用于对编码图像数据21进行解码的目的设备14。
源设备12包括编码器20,另外即可选地,可包括图像源16、图像预处理器等预处理器(或预处理单元)18、通信接口(或通信单元)22。
图像源16可包括或可以为任意类型的用于捕获现实世界图像等的图像捕获设备,和/或任意类型的图像生成设备,例如用于生成计算机动画图像的计算机图形处理器或任意类型的用于获取和/或提供现实世界图像、计算机生成图像(例如,屏幕内容、虚拟现实(virtual reality,VR)图像和/或其任意组合(例如增强现实(augmented reality,AR)图像)的设备。上述图像源可以为存储上述图像中的任意图像的任意类型的内存或存储器。
为了区分预处理器(或预处理单元)18执行的处理,图像(或图像数据)17也可称为原始图像(或原始图像数据)17。
预处理器18用于接收原始图像数据17,并对原始图像数据17进行预处理,得到预处理图像(或预处理图像数据)19。例如,预处理器18执行的预处理可包括修剪、颜色格式转换(例如从RGB转换为YCbCr)、调色或去噪。可以理解的是,预处理单元18可以为可选组件。
视频编码器(或编码器)20用于接收预处理图像数据19并提供编码图像数据21(下面将根据图2等进一步描述)。
源设备12中的通信接口22可用于:接收编码图像数据21并通过通信信道13向目的设备14等另一设备或任何其他设备发送编码图像数据21(或其他任意处理后的版本),以便存储或直接重建。
目的设备14包括解码器30,另外即可选地,可包括通信接口(或通信单元)28、后处理器(或后处理单元)32和显示设备34。
目的设备14中的通信接口28用于直接从源设备12或从存储设备等任意其他源设备接收编码图像数据21(或其他任意处理后的版本),例如,存储设备为编码图像数据存储设备,并将编码图像数据21提供给解码器30。
通信接口22和通信接口28可用于通过源设备12与目的设备14之间的直连通信链路,例如直接有线或无线连接等,或者通过任意类型的网络,例如有线网络、无线网络或其任意组合、任意类型的私网和公网或其任意类型的组合,发送或接收编码图像数据(或编码数据)21。
例如,通信接口22可用于将编码图像数据21封装为报文等合适的格式,和/或使用任意类型的传输编码或处理来处理上述编码后的图像数据,以便在通信链路或通信网络上进行传输。
通信接口28与通信接口22对应,例如,可用于接收传输数据,并使用任意类型的对应传输解码或处理和/或解封装对传输数据进行处理,得到编码图像数据21。
通信接口22和通信接口28均可配置为如图1a中从源设备12指向目的设备14的对应通信信道13的箭头所指示的单向通信接口,或双向通信接口,并且可用于发送和接收消息等,以建立连接,确认并交换与通信链路和/或例如编码后的图像数据传输等数据传输相关的任何其他信息,等等。
视频解码器(或解码器)30用于接收编码图像数据21并提供解码图像数据(或解码图像数据)31(下面将根据图3等进一步描述)。
后处理器32用于对解码后的图像等解码图像数据31(也称为重建后的图像数据)进行后处理,得到后处理后的图像等后处理图像数据33。后处理单元32执行的后处理可以包括例如颜色格式转换(例如从YCbCr转换为RGB)、调色、修剪或重采样,或者用于产生供显示设备34等显示的解码图像数据31等任何其他处理。
显示设备34用于接收后处理图像数据33,以向用户或观看者等显示图像。显示设备34可以为或包括任意类型的用于表示重建后图像的显示器,例如,集成或外部显示屏或显示器。例如,显示屏可包括液晶显示器(liquid crystal display,LCD)、有机发光二极管(organic light emitting diode,OLED)显示器、等离子显示器、投影仪、微型LED显示器、硅基液晶显示器(liquid crystal on silicon,LCoS)、数字光处理器(digitallightprocessor,DLP)或任意类型的其他显示屏。
译码系统10还包括训练引擎25,训练引擎25用于训练编码器20(尤其是编码器20中的熵编码单元270)或解码器30(尤其是解码器30中的熵解码单元304),以根据估计得到的估计概率分布对待编码图像块进行熵编码,训练引擎25的详细说明请参考下述方法测试施例。
尽管图1a示出了源设备12和目的设备14作为独立的设备,但设备实施例也可以同时包括源设备12和目的设备14或同时包括源设备12和目的设备14的功能,即同时包括源设备12或对应功能和目的设备14或对应功能。在这些实施例中,源设备12或对应功能和目的设备14或对应功能可以使用相同硬件和/或软件或通过单独的硬件和/或软件或其任意组合来实现。
根据描述,图1a所示的源设备12和/或目的设备14中的不同单元或功能的存在和(准确)划分可能根据实际设备和应用而有所不同,这对技术人员来说是显而易见的。
请参考图1b,图1b为本申请实施例提供的视频译码系统40的一种示例性框图,编码器20(例如视频编码器20)或解码器30(例如视频解码器30)或两者都可通过如图1b所示的视频译码系统40中的处理电路实现,例如一个或多个微处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application-specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、离散逻辑、硬件、视频编码专用处理器或其任意组合。请参考图2和图3,图2为本申请实施例提供的视频编码器的一种示例性框图,图3为本申请实施例提供的视频解码器的一种示例性框图。编码器20可以通过处理电路46实现,以包含参照图2编码器20论述的各种模块和/或本文描述的任何其他编码器系统或子系统。解码器30可以通过处理电路46实现,以包含参照图3解码器30论述的各种模块和/或本文描述的任何其他解码器系统或子系统。上述处理电路46可用于执行下文论述的各种操作。如图5所示,如果部分技术在软件中实施,则设备可以将软件的指令存储在合适的非瞬时性计算机可读存储介质中,并且使用一个或多个处理器在硬件中执行指令,从而执行本申请实施例技术。视频编码器20和视频解码器30中的其中一个可作为组合编解码器(encoder/decoder,CODEC)的一部分集成在单个设备中,如图1b所示。
源设备12和目的设备14可包括各种设备中的任一种,包括任意类型的手持设备或固定设备,例如,笔记本电脑或膝上型电脑、手机、智能手机、平板或平板电脑、相机、台式计算机、机顶盒、电视机、显示设备、数字媒体播放器、视频游戏控制台、视频流设备(例如,内容业务服务器或内容分发服务器)、广播接收设备、广播发射设备以及监控设备等等,并可以不使用或使用任意类型的操作系统。源设备12和目的设备14也可以是云计算场景中的设备,例如云计算场景中的虚拟机等。在一些情况下,源设备12和目的设备14可配备用于无线通信的组件。因此,源设备12和目的设备14可以是无线通信设备。
源设备12和目的设备14可以安装虚拟现实(virtual reality,VR)应用、增强现实(augmented reality,AR)应用或者混合现实(mixed reality,MR)应用等虚拟场景应用程序(application,APP),并可以基于用户的操作(例如点击、触摸、滑动、抖动、声控等)运行VR应用、AR应用或者MR应用。源设备12和目的设备14可以通过摄像头和/或传感器采集环境中任意物体的图像/视频,再根据采集的图像/视频在显示设备上显示虚拟物体,该虚拟物体可以是VR场景、AR场景或MR场景中的虚拟物体(即虚拟环境中的物体)。
需要说明的是,本申请实施例中,源设备12和目的设备14中的虚拟场景应用程序可以是源设备12和目的设备14自身内置的应用程序,也可以是用户自行安装的第三方服务商提供的应用程序,对此不做具体限定。
此外,源设备12和目的设备14可以安装实时视频传输应用,例如直播应用。源设备12和目的设备14可以通过摄像头采集图像/视频,再将采集的图像/视频在显示设备上显示。
在一些情况下,图1a所示的视频译码系统10仅仅是示例性的,本申请实施例提供的技术可适用于视频编码设置(例如,视频编码或视频解码),这些设置不一定包括编码设备与解码设备之间的任何数据通信。在其他示例中,数据从本地存储器中检索,通过网络发送,等等。视频编码设备可以对数据进行编码并将数据存储到存储器中,和/或视频解码设备可以从存储器中检索数据并对数据进行解码。在一些示例中,编码和解码由相互不通信而只是编码数据到存储器和/或从存储器中检索并解码数据的设备来执行。
请参考图1b,图1b为本申请实施例提供的视频译码系统40的一种示例性框图,如图1b所示,视频译码系统40可以包含成像设备41、视频编码器20、视频解码器30(和/或藉由处理电路46实施的视频编/解码器)、天线42、一个或多个处理器43、一个或多个内存存储器44和/或显示设备45。
如图1b所示,成像设备41、天线42、处理电路46、视频编码器20、视频解码器30、处理器43、内存存储器44和/或显示设备45能够互相通信。在不同实例中,视频译码系统40可以只包含视频编码器20或只包含视频解码器30。
在一些实例中,天线42可以用于传输或接收视频数据的经编码比特流。另外,在一些实例中,显示设备45可以用于呈现视频数据。处理电路46可以包含专用集成电路(application-specific integrated circuit,ASIC)逻辑、图形处理器、通用处理器等。视频译码系统40也可以包含可选的处理器43,该可选处理器43类似的可以包含专用集成电路(application-specific integrated circuit,ASIC)逻辑、图形处理器、通用处理器等。另外,内存存储器44可以是任何类型的存储器,例如易失性存储器(例如,静态随机存取存储器(static random access memory,SRAM)、动态随机存储器(dynamic random accessmemory,DRAM)等)或非易失性存储器(例如,闪存等)等。在非限制性实例中,内存存储器44可以由超速缓存内存实施。在其他实例中,处理电路46可以包含存储器(例如,缓存等)用于实施图像缓冲器等。
在一些实例中,通过逻辑电路实施的视频编码器20可以包含(例如,通过处理电路46或内存存储器44实施的)图像缓冲器和(例如,通过处理电路46实施的)图形处理单元。图形处理单元可以通信耦合至图像缓冲器。图形处理单元可以包含通过处理电路46实施的视频编码器20,以实施参照图2和/或本文中所描述的任何其他编码器系统或子系统所论述的各种模块。逻辑电路可以用于执行本文所论述的各种操作。
在一些实例中,视频解码器30可以以类似方式通过处理电路46实施,以实施参照图3的视频解码器30和/或本文中所描述的任何其他解码器系统或子系统所论述的各种模块。在一些实例中,逻辑电路实施的视频解码器30可以包含(通过处理电路46或内存存储器44实施的)图像缓冲器和(例如,通过处理电路46实施的)图形处理单元。图形处理单元可以通信耦合至图像缓冲器。图形处理单元可以包含通过处理电路46实施的视频解码器30,以实施参照图3和/或本文中所描述的任何其他解码器系统或子系统所论述的各种模块。
在一些实例中,天线42可以用于接收视频数据的经编码比特流。如所论述,经编码比特流可以包含本文所论述的与编码视频帧相关的数据、指示符、索引值、模式选择数据等,例如与编码分割相关的数据(例如,变换系数或经量化变换系数,(如所论述的)可选指示符,和/或定义编码分割的数据)。视频译码系统40还可包含耦合至天线42并用于解码经编码比特流的视频解码器30。显示设备45用于呈现视频帧。
应理解,本申请实施例中对于参考视频编码器20所描述的实例,视频解码器30可以用于执行相反过程。关于信令语法元素,视频解码器30可以用于接收并解析这种语法元素,相应地解码相关视频数据。在一些例子中,视频编码器20可以将语法元素熵编码成经编码视频比特流。在此类实例中,视频解码器30可以解析这种语法元素,并相应地解码相关视频数据。
为便于描述,参考通用视频编码(versatile video coding,VVC)参考软件或由ITU-T视频编码专家组(video coding experts group,VCEG)和ISO/IEC运动图像专家组(motion picture experts group,MPEG)的视频编码联合工作组(joint collaborationteam on video coding,JCT-VC)开发的高性能视频编码(high-efficiency videocoding,HEVC)描述本申请实施例。本领域普通技术人员理解本申请实施例不限于HEVC或VVC。
编码器和编码方法
如图2所示,视频编码器20包括输入端(或输入接口)201、残差计算单元204、变换处理单元206、量化单元208、反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲器(decodedpicture buffer,DPB)230、模式选择单元260、熵编码单元270和输出端(或输出接口)272。模式选择单元260可包括帧间预测单元244、帧内预测单元254和分割单元262。帧间预测单元244可包括运动估计单元和运动补偿单元(未示出)。图2所示的视频编码器20也可称为混合型视频编码器或基于混合型视频编解码器的视频编码器。
参见图2,帧间预测单元为经过训练的目标模型(亦称为神经网络),该神经网络用于处理输入图像或图像区域或图像块,以生成输入图像块的预测值。例如,用于帧间预测的神经网络用于接收输入的图像或图像区域或图像块,并且生成输入的图像或图像区域或图像块的预测值。
残差计算单元204、变换处理单元206、量化单元208和模式选择单元260组成编码器20的前向信号路径,而反量化单元210、逆变换处理单元212、重建单元214、缓冲器216、环路滤波器220、解码图像缓冲器(decodedpicture buffer,DPB)230、帧间预测单元244和帧内预测单元254组成编码器的后向信号路径,其中编码器20的后向信号路径对应于解码器的信号路径(参见图3中的解码器30)。反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲器230、帧间预测单元244和帧内预测单元254还组成视频编码器20的“内置解码器”。
图像和图像分割(图像和块)
编码器20可用于通过输入端201等接收图像(或图像数据)17,例如,形成视频或视频序列的图像序列中的图像。接收的图像或图像数据也可以是预处理后的图像(或预处理后的图像数据)19。为简单起见,以下描述使用图像17。图像17也可称为当前图像或待编码的图像(尤其是在视频编码中将当前图像与其他图像区分开时,其他图像例如同一视频序列,即也包括当前图像的视频序列,中的之前编码后图像和/或解码后图像)。
(数字)图像为或可以视为具有强度值的像素点组成的二维阵列或矩阵。阵列中的像素点也可以称为像素(pixel或pel)(图像元素的简称)。阵列或图像在水平方向和垂直方向(或轴线)上的像素点数量决定了图像的大小和/或分辨率。为了表示颜色,通常采用三个颜色分量,即图像可以表示为或包括三个像素点阵列。在RBG格式或颜色空间中,图像包括对应的红色、绿色和蓝色像素点阵列。但是,在视频编码中,每个像素通常以亮度/色度格式或颜色空间表示,例如YCbCr,包括Y指示的亮度分量(有时也用L表示)以及Cb、Cr表示的两个色度分量。亮度(luma)分量Y表示亮度或灰度水平强度(例如,在灰度等级图像中两者相同),而两个色度(chrominance,简写为chroma)分量Cb和Cr表示色度或颜色信息分量。相应地,YCbCr格式的图像包括亮度像素点值(Y)的亮度像素点阵列和色度值(Cb和Cr)的两个色度像素点阵列。RGB格式的图像可以转换或变换为YCbCr格式,反之亦然,该过程也称为颜色变换或转换。如果图像是黑白的,则该图像可以只包括亮度像素点阵列。相应地,图像可以为例如单色格式的亮度像素点阵列或4:2:0、4:2:2和4:4:4彩色格式的亮度像素点阵列和两个相应的色度像素点阵列。
在一个实施例中,视频编码器20的实施例可包括图像分割单元(图2中未示出),用于将图像17分割成多个(通常不重叠)图像块203。这些块在H.265/HEVC和VVC标准中也可以称为根块、宏块(H.264/AVC)或编码树块(coding tree block,CTB),或编码树单元(codingtree unit,CTU)。分割单元可用于对视频序列中的所有图像使用相同的块大小和使用限定块大小的对应网格,或在图像或图像子集或图像组之间改变块大小,并将每个图像分割成对应块。
在其他实施例中,视频编码器可用于直接接收图像17的块203,例如,组成上述图像17的一个、几个或所有块。图像块203也可以称为当前图像块或待编码图像块。
与图像17一样,图像块203同样是或可认为是具有强度值(像素点值)的像素点组成的二维阵列或矩阵,但是图像块203的比图像17的小。换句话说,块203可包括一个像素点阵列(例如,单色图像17情况下的亮度阵列或彩色图像情况下的亮度阵列或色度阵列)或三个像素点阵列(例如,彩色图像17情况下的一个亮度阵列和两个色度阵列)或根据所采用的颜色格式的任何其他数量和/或类型的阵列。块203的水平方向和垂直方向(或轴线)上的像素点数量限定了块203的大小。相应地,块可以为M×N(M列×N行)个像素点阵列,或M×N个变换系数阵列等。
在一个实施例中,图2所示的视频编码器20用于逐块对图像17进行编码,例如,对每个块203执行编码和预测。
在一个实施例中,图2所示的视频编码器20还可以用于使用片(也称为视频片)分割和/或编码图像,其中图像可以使用一个或多个片(通常为不重叠的)进行分割或编码。每个片可包括一个或多个块(例如,编码树单元CTU)或一个或多个块组(例如H.265/HEVC/VVC标准中的编码区块(tile)和VVC标准中的砖(brick)。
在一个实施例中,图2所示的视频编码器20还可以用于使用片/编码区块组(也称为视频编码区块组)和/或编码区块(也称为视频编码区块)对图像进行分割和/或编码,其中图像可以使用一个或多个片/编码区块组(通常为不重叠的)进行分割或编码,每个片/编码区块组可包括一个或多个块(例如CTU)或一个或多个编码区块等,其中每个编码区块可以为矩形等形状,可包括一个或多个完整或部分块(例如CTU)。
残差计算
残差计算单元204用于通过如下方式根据图像块(或原始块)203和预测块265来计算残差块205(后续详细介绍了预测块265):例如,逐个像素点(逐个像素)从图像块203的像素点值中减去预测块265的像素点值,得到像素域中的残差块205。
变换
变换处理单元206用于对残差块205的像素点值执行离散余弦变换(discretecosine transform,DCT)或离散正弦变换(discrete sine transform,DST)等,得到变换域中的变换系数207。变换系数207也可称为变换残差系数,表示变换域中的残差块205。
变换处理单元206可用于应用DCT/DST的整数化近似,例如为H.265/HEVC指定的变换。与正交DCT变换相比,这种整数化近似通常由某一因子按比例缩放。为了维持经过正变换和逆变换处理的残差块的范数,使用其他比例缩放因子作为变换过程的一部分。比例缩放因子通常是根据某些约束条件来选择的,例如比例缩放因子是用于移位运算的2的幂、变换系数的位深度、准确性与实施成本之间的权衡等。例如,在编码器20侧通过逆变换处理单元212为逆变换(以及在解码器30侧通过例如逆变换处理单元312为对应逆变换)指定具体的比例缩放因子,以及相应地,可以在编码器20侧通过变换处理单元206为正变换指定对应比例缩放因子。
在一个实施例中,视频编码器20(对应地,变换处理单元206)可用于输出一种或多种变换的类型等变换参数,例如,直接输出或由熵编码单元270进行编码或压缩后输出,例如使得视频解码器30可接收并使用变换参数进行解码。
量化
量化单元208用于通过例如标量量化或矢量量化对变换系数207进行量化,得到量化变换系数209。量化变换系数209也可称为量化残差系数209。
量化过程可减少与部分或全部变换系数207有关的位深度。例如,可在量化期间将n位变换系数向下舍入到m位变换系数,其中n大于m。可通过调整量化参数(quantizationparameter,QP)修改量化程度。例如,对于标量量化,可以应用不同程度的比例来实现较细或较粗的量化。较小量化步长对应较细量化,而较大量化步长对应较粗量化。可通过量化参数(quantizationparameter,QP)指示合适的量化步长。例如,量化参数可以为合适的量化步长的预定义集合的索引。例如,较小的量化参数可对应精细量化(较小量化步长),较大的量化参数可对应粗糙量化(较大量化步长),反之亦然。量化可包括除以量化步长,而反量化单元210等执行的对应或逆解量化可包括乘以量化步长。根据例如HEVC一些标准的实施例可用于使用量化参数来确定量化步长。一般而言,可以根据量化参数使用包含除法的等式的定点近似来计算量化步长。可以引入其他比例缩放因子来进行量化和解量化,以恢复可能由于在用于量化步长和量化参数的等式的定点近似中使用的比例而修改的残差块的范数。在一种示例性实现方式中,可以合并逆变换和解量化的比例。或者,可以使用自定义量化表并在比特流中等将其从编码器向解码器指示。量化是有损操作,其中量化步长越大,损耗越大。
在一个实施例中,视频编码器20(对应地,量化单元208)可用于输出量化参数(quantization parameter,QP),例如,直接输出或由熵编码单元270进行编码或压缩后输出,例如使得视频解码器30可接收并使用量化参数进行解码。
反量化
反量化单元210用于对量化系数执行量化单元208的反量化,得到解量化系数211,例如,根据或使用与量化单元208相同的量化步长执行与量化单元208所执行的量化方案的反量化方案。解量化系数211也可称为解量化残差系数211,对应于变换系数207,但是由于量化造成损耗,反量化系数211通常与变换系数不完全相同。
逆变换
逆变换处理单元212用于执行变换处理单元206执行的变换的逆变换,例如,逆离散余弦变换(discrete cosine transform,DCT)或逆离散正弦变换(discrete sinetransform,DST),以在像素域中得到重建残差块213(或对应的解量化系数213)。重建残差块213也可称为变换块213。
重建
重建单元214(例如,求和器214)用于将变换块213(即重建残差块213)添加到预测块265,以在像素域中得到重建块215,例如,将重建残差块213的像素点值和预测块265的像素点值相加。
滤波
环路滤波器单元220(或简称“环路滤波器”220)用于对重建块215进行滤波,得到滤波块221,或通常用于对重建像素点进行滤波以得到滤波像素点值。例如,环路滤波器单元用于顺利进行像素转变或提高视频质量。环路滤波器单元220可包括一个或多个环路滤波器,例如去块滤波器、像素点自适应偏移(sample-adaptive offset,SAO)滤波器或一个或多个其他滤波器,例如自适应环路滤波器(adaptive loop filter,ALF)、噪声抑制滤波器(noise suppression filter,NSF)或任意组合。例如,环路滤波器单元220可以包括去块滤波器、SAO滤波器和ALF滤波器。滤波过程的顺序可以是去块滤波器、SAO滤波器和ALF滤波器。再例如,增加一个称为具有色度缩放的亮度映射(luma mapping with chromascaling,LMCS)(即自适应环内整形器)的过程。该过程在去块之前执行。再例如,去块滤波过程也可以应用于内部子块边缘,例如仿射子块边缘、ATMVP子块边缘、子块变换(sub-block transform,SBT)边缘和内子部分(intra sub-partition,ISP)边缘。尽管环路滤波器单元220在图2中示为环路滤波器,但在其他配置中,环路滤波器单元220可以实现为环后滤波器。滤波块221也可称为滤波重建块221。
在一个实施例中,视频编码器20(对应地,环路滤波器单元220)可用于输出环路滤波器参数(例如SAO滤波参数、ALF滤波参数或LMCS参数),例如,直接输出或由熵编码单元270进行熵编码后输出,例如使得解码器30可接收并使用相同或不同的环路滤波器参数进行解码。
解码图像缓冲器
解码图像缓冲器(decodedpicture buffer,DPB)230可以是存储参考图像数据以供视频编码器20在编码视频数据时使用的参考图像存储器。DPB 230可以由多种存储器设备中的任一种形成,例如动态随机存取存储器(dynamic random access memory,DRAM),包括同步DRAM(synchronous DRAM,SDRAM)、磁阻RAM(magnetoresistive RAM,MRAM)、电阻RAM(resistive RAM,RRAM)或其他类型的存储设备。解码图像缓冲器230可用于存储一个或多个滤波块221。解码图像缓冲器230还可用于存储同一当前图像或例如之前的重建图像等不同图像的其他之前的滤波块,例如之前重建和滤波的块221,并可提供完整的之前重建即解码图像(和对应参考块和像素点)和/或部分重建的当前图像(和对应参考块和像素点),例如用于帧间预测。解码图像缓冲器230还可用于存储一个或多个未经滤波的重建块215,或一般存储未经滤波的重建像素点,例如,未被环路滤波单元220滤波的重建块215,或未进行任何其他处理的重建块或重建像素点。
模式选择(分割和预测)
模式选择单元260包括分割单元262、帧间预测单元244和帧内预测单元254,用于从解码图像缓冲器230或其他缓冲器(例如,列缓冲器,图2中未显示)接收或获得原始块203(当前图像17的当前块203)和重建图像数据等原始图像数据,例如,同一(当前)图像和/或一个或多个之前解码图像的滤波和/或未经滤波的重建像素点或重建块。重建图像数据用作帧间预测或帧内预测等预测所需的参考图像数据,以得到预测块265或预测值265。
模式选择单元260可用于为当前块(包括不分割)和预测模式(例如帧内或帧间预测模式)确定或选择一种分割,生成对应的预测块265,以对残差块205进行计算和对重建块215进行重建。
在一个实施例中,模式选择单元260可用于选择分割和预测模式(例如,从模式选择单元260支持的或可用的预测模式中),上述预测模式提供最佳匹配或者说最小残差(最小残差是指传输或存储中更好地压缩),或者提供最小信令开销(最小信令开销是指传输或存储中更好地压缩),或者同时考虑或平衡以上两者。模式选择单元260可用于根据码率失真优化(rate distortion Optimization,RDO)确定分割和预测模式,即选择提供最小码率失真优化的预测模式。本文“最佳”、“最低”、“最优”等术语不一定指总体上“最佳”、“最低”、“最优”的,但也可以指满足终止或选择标准的情况,例如,超过或低于阈值的值或其他限制可能导致“次优选择”,但会降低复杂度和处理时间。
换言之,分割单元262可用于将视频序列中的图像分割为编码树单元(codingtree unit,CTU)序列,CTU 203可进一步被分割成较小的块部分或子块(再次形成块),例如,通过迭代使用四叉树(quad-tree partitioning,QT)分割、二叉树(binary-treepartitioning,BT)分割或三叉树(triple-treepartitioning,TT)分割或其任意组合,并且用于例如对块部分或子块中的每一个执行预测,其中模式选择包括选择分割块203的树结构和选择应用于块部分或子块中的每一个的预测模式。
下文将详细地描述由视频编码器20执行的分割(例如,由分割单元262执行)和预测处理(例如,由帧间预测单元244和帧内预测单元254执行)。
分割
分割单元262可将一个图像块(或CTU)203分割(或划分)为较小的部分,例如正方形或矩形形状的小块。对于具有三个像素点阵列的图像,一个CTU由N×N个亮度像素点块和两个对应的色度像素点块组成。CTU中亮度块的最大允许大小在正在开发的通用视频编码(versatile video coding,VVC)标准中被指定为128×128,但是将来可指定为不同于128×128的值,例如256×256。图像的CTU可以集中/分组为片/编码区块组、编码区块或砖。一个编码区块覆盖着一个图像的矩形区域,一个编码区块可以分成一个或多个砖。一个砖由一个编码区块内的多个CTU行组成。没有分割为多个砖的编码区块可以称为砖。但是,砖是编码区块的真正子集,因此不称为编码区块。VVC支持两种编码区块组模式,分别为光栅扫描片/编码区块组模式和矩形片模式。在光栅扫描编码区块组模式,一个片/编码区块组包含一个图像的编码区块光栅扫描中的编码区块序列。在矩形片模式中,片包含一个图像的多个砖,这些砖共同组成图像的矩形区域。矩形片内的砖按照片的砖光栅扫描顺序排列。这些较小块(也可称为子块)可进一步分割为更小的部分。这也称为树分割或分层树分割,其中在根树级别0(层次级别0、深度0)等的根块可以递归的分割为两个或两个以上下一个较低树级别的块,例如树级别1(层次级别1、深度1)的节点。这些块可以又分割为两个或两个以上下一个较低级别的块,例如树级别2(层次级别2、深度2)等,直到分割结束(因为满足结束标准,例如达到最大树深度或最小块大小)。未进一步分割的块也称为树的叶块或叶节点。分割为两个部分的树称为二叉树(binary-tree,BT),分割为三个部分的树称为三叉树(ternary-tree,TT),分割为四个部分的树称为四叉树(quad-tree,QT)。
例如,编码树单元(CTU)可以为或包括亮度像素点的CTB、具有三个像素点阵列的图像的色度像素点的两个对应CTB、或单色图像的像素点的CTB或使用三个独立颜色平面和语法结构(用于编码像素点)编码的图像的像素点的CTB。相应地,编码树块(CTB)可以为N×N个像素点块,其中N可以设为某个值使得分量划分为CTB,这就是分割。编码单元(codingunit,CU)可以为或包括亮度像素点的编码块、具有三个像素点阵列的图像的色度像素点的两个对应编码块、或单色图像的像素点的编码块或使用三个独立颜色平面和语法结构(用于编码像素点)编码的图像的像素点的编码块。相应地,编码块(CB)可以为M×N个像素点块,其中M和N可以设为某个值使得CTB划分为编码块,这就是分割。
例如,在实施例中,根据HEVC可通过使用表示为编码树的四叉树结构将编码树单元(CTU)划分为多个CU。在叶CU级作出是否使用帧间(时间)预测或帧内(空间)预测对图像区域进行编码的决定。每个叶CU可以根据PU划分类型进一步划分为一个、两个或四个PU。一个PU内使用相同的预测过程,并以PU为单位向解码器传输相关信息。在根据PU划分类型应用预测过程得到残差块之后,可以根据类似于用于CU的编码树的其他四叉树结构将叶CU分割为变换单元(TU)。
例如,在实施例中,根据当前正在开发的最新视频编码标准(称为通用视频编码(VVC),使用嵌套多类型树(例如二叉树和三叉树)的组合四叉树来划分用于分割编码树单元的分段结构。在编码树单元内的编码树结构中,CU可以为正方形或矩形。例如,编码树单元(CTU)首先由四叉树结构进行分割。四叉树叶节点进一步由多类型树结构分割。多类型树形结构有四种划分类型:垂直二叉树划分(SPLIT_BT_VER)、水平二叉树划分(SPLIT_BT_HOR)、垂直三叉树划分(SPLIT_TT_VER)和水平三叉树划分(SPLIT_TT_HOR)。多类型树叶节点称为编码单元(CU),除非CU对于最大变换长度而言太大,这样的分段用于预测和变换处理,无需其他任何分割。在大多数情况下,这表示CU、PU和TU在四叉树嵌套多类型树的编码块结构中的块大小相同。当最大支持变换长度小于CU的彩色分量的宽度或高度时,就会出现该异常。VVC制定了具有四叉树嵌套多类型树的编码结构中的分割划分信息的唯一信令机制。在信令机制中,编码树单元(CTU)作为四叉树的根首先被四叉树结构分割。然后每个四叉树叶节点(当足够大可以被)被进一步分割为一个多类型树结构。在多类型树结构中,通过第一标识(mtt_split_cu_flag)指示节点是否进一步分割,当对节点进一步分割时,先用第二标识(mtt_split_cu_vertical_flag)指示划分方向,再用第三标识(mtt_split_cu_binary_flag)指示划分是二叉树划分或三叉树划分。根据mtt_split_cu_vertical_flag和mtt_split_cu_binary_flag的值,解码器可以基于预定义规则或表格推导出CU的多类型树划分模式(MttSplitMode)。需要说明的是,对于某种设计,例如VVC硬件解码器中的64×64的亮度块和32×32的色度流水线设计,当亮度编码块的宽度或高度大于64时,不允许进行TT划分。当色度编码块的宽度或高度大于32时,也不允许TT划分。流水线设计将图像分为多个虚拟流水线数据单元(virtualpipeline dataunit,VPDU),每个VPDU在图像中定义为互不重叠的单元。在硬件解码器中,连续的VPDU在多个流水线阶段同时处理。在大多数流水线阶段,VPDU大小与缓冲器大小大致成正比,因此需要保持较小的VPDU。在大多数硬件解码器中,VPDU大小可以设置为最大变换块(transformblock,TB)大小。但是,在VVC中,三叉树(TT)和二叉树(BT)的分割可能会增加VPDU的大小。
另外,需要说明的是,当树节点块的一部分超出底部或图像右边界时,强制对该树节点块进行划分,直到每个编码CU的所有像素点都位于图像边界内。
例如,上述帧内子分割(intra sub-partitions,ISP)工具可以根据块大小将亮度帧内预测块垂直或水平的分为两个或四个子部分。
在一个示例中,视频编码器20的模式选择单元260可以用于执行上文描述的分割技术的任意组合。
如上上述,视频编码器20用于从(预定的)预测模式集合中确定或选择最好或最优的预测模式。预测模式集合可包括例如帧内预测模式和/或帧间预测模式。
帧内预测
帧内预测模式集合可包括35种不同的帧内预测模式,例如,像DC(或均值)模式和平面模式的非方向性模式,或如HEVC定义的方向性模式,或者可包括67种不同的帧内预测模式,例如,像DC(或均值)模式和平面模式的非方向性模式,或如VVC中定义的方向性模式。例如,若干传统角度帧内预测模式自适应地替换为VVC中定义的非正方形块的广角帧内预测模式。又例如,为了避免DC预测的除法运算,仅使用较长边来计算非正方形块的平均值。并且,平面模式的帧内预测结果还可以使用位置决定的帧内预测组合(positiondependent intraprediction combination,PDPC)方法修改。
帧内预测单元254用于根据帧内预测模式集合中的帧内预测模式使用同一当前图像的相邻块地重建像素点来生成帧内预测块265。
帧内预测单元254(或通常为模式选择单元260)还用于输出帧内预测参数(或通常为指示块的选定帧内预测模式的信息)以语法元素266的形式发送到熵编码单元270,以包含到编码图像数据21中,从而视频解码器30可执行操作,例如接收并使用用于解码的预测参数。
HEVC中的帧内预测模式包括直流预测模式,平面预测模式和33种角度预测模式,共计35个候选预测模式。当前块可以使用左侧和上方已重建图像块的像素作为参考进行帧内预测。当前块的周边区域中用来对当前块进行帧内预测的图像块成为参考块,参考块中的像素称为参考像素。35个候选预测模式中,直流预测模式适用于当前块中纹理平坦的区域,该区域中所有像素均使用参考块中的参考像素的平均值作为预测;平面预测模式适用于纹理平滑变化的图像块,符合该条件的当前块使用参考块中的参考像素进行双线性插值作为当前块中的所有像素的预测;角度预测模式利用当前块的纹理与相邻已重建图像块的纹理高度相关的特性,沿某一角度复制对应的参考块中的参考像素的值作为当前块中的所有像素的预测。
HEVC编码器给当前块从35个候选预测模式中选择一个最优帧内预测模式,并将该最优帧内预测模式写入视频码流。为提升帧内预测的编码效率,编码器/解码器会从周边区域中、采用帧内预测的已重建图像块各自的最优帧内预测模式中推导出3个最可能模式,如果给当前块选择的最优帧内预测模式是这3个最可能模式的其中之一,则编码一个第一索引指示所选择的最优帧内预测模式是这3个最可能模式的其中之一;如果选中的最优帧内预测模式不是这3个最可能模式,则编码一个第二索引指示所选择的最优帧内预测模式是其他32个模式(35个候选预测模式中除前述3个最可能模式外的其他模式)的其中之一。HEVC标准使用5比特的定长码作为前述第二索引。
HEVC编码器推导出3个最可能模式的方法包括:选取当前块的左相邻图像块和上相邻图像块的最优帧内预测模式放入集合,如果这两个最优帧内预测模式相同,则集合中只保留一个即可。如果这两个最优帧内预测模式相同且均为角度预测模式,则再选取与该角度方向邻近的两个角度预测模式加入集合;否则,依次选择平面预测模式、直流模式和竖直预测模式加入集合,直到集合中的模式数量达到3。
HEVC解码器对码流做熵解码后,获得当前块的模式信息,该模式信息包括指示当前块的最优帧内预测模式是否在3个最可能模式中的指示标识,以及当前块的最优帧内预测模式在3个最可能模式中的索引或者当前块的最优帧内预测模式在其他32个模式中的索引。
帧间预测
在可能的实现中,帧间预测模式集合取决于可用参考图像(即,例如前述存储在DBP 230中的至少部分之前解码的图像)和其他帧间预测参数,例如取决于是否使用整个参考图像或只使用参考图像的一部分,例如当前块的区域附近的搜索窗口区域,来搜索最佳匹配参考块,和/或例如取决于是否执行半像素、四分之一像素和/或16分之一内插的像素内插。
除上述预测模式外,还可以采用跳过模式和/或直接模式。
例如,扩展合并预测,这个模式的合并候选列表由以下五个候选类型按顺序组成:来自空间相邻CU的空间MVP、来自并置CU的时间MVP、来自FIFO表的基于历史的MVP、成对平均MVP和零MV。可以使用基于双边匹配的解码器侧运动矢量修正(decoder side motionvector refinement,DMVR)来增加合并模式的MV的准确度。带有MVD的合并模式(mergemode with MVD,MMVD)来自有运动矢量差异的合并模式。在发送跳过标志和合并标志之后立即发送MMVD标志,以指定CU是否使用MMVD模式。可以使用CU级自适应运动矢量分辨率(adaptive motion vector resolution,AMVR)方案。AMVR支持CU的MVD以不同的精度进行编码。根据当前CU的预测模式,自适应地选择当前CU的MVD。当CU以合并模式进行编码时,可以将合并的帧间/帧内预测(combined inter/intra prediction,CIIP)模式应用于当前CU。对帧间和帧内预测信号进行加权平均,得到CIIP预测。对于仿射运动补偿预测,通过2个控制点(4参数)或3个控制点(6参数)运动矢量的运动信息来描述块的仿射运动场。基于子块的时间运动矢量预测(subblock-based temporal motion vector prediction,SbTMVP),与HEVC中的时间运动矢量预测(temporal motion vectorprediction,TMVP)类似,但预测的是当前CU内的子CU的运动矢量。双向光流(bi-directional optical flow,BDOF)以前称为BIO,是一种减少计算的简化版本,特别是在乘法次数和乘数大小方面的计算。在三角形分割模式中,CU以对角线划分和反对角线划分两种划分方式被均匀划分为两个三角形部分。此外,双向预测模式在简单平均的基础上进行了扩展,以支持两个预测信号的加权平均。
帧间预测单元244可包括运动估计(motion estimation,ME)单元和运动补偿(motion compensation,MC)单元(两者在图2中未示出)。运动估计单元可用于接收或获取图像块203(当前图像17的当前图像块203)和解码图像231,或至少一个或多个之前重建块,例如,一个或多个其他/不同之前解码图像231的重建块,来进行运动估计。例如,视频序列可包括当前图像和之前的解码图像231,或换句话说,当前图像和之前的解码图像231可以为形成视频序列的图像序列的一部分或形成该图像序列。
例如,编码器20可用于从多个其他图像中的同一或不同图像的多个参考块中选择参考块,并将参考图像(或参考图像索引)和/或参考块的位置(x、y坐标)与当前块的位置之间的偏移(空间偏移)作为帧间预测参数提供给运动估计单元。该偏移也称为运动矢量(motion vector,MV)。
运动补偿单元用于获取,例如接收,帧间预测参数,并根据或使用该帧间预测参数执行帧间预测,得到帧间预测块246。由运动补偿单元执行的运动补偿可能包含根据通过运动估计确定的运动/块矢量来提取或生成预测块,还可能包括对子像素精度执行内插。内插滤波可从已知像素的像素点中产生其他像素的像素点,从而潜在地增加可用于对图像块进行编码的候选预测块的数量。一旦接收到当前图像块的PU对应的运动矢量时,运动补偿单元可在其中一个参考图像列表中定位运动矢量指向的预测块。
运动补偿单元还可以生成与块和视频片相关的语法元素,以供视频解码器30在解码视频片的图像块时使用。此外,或者作为片和相应语法元素的替代,可以生成或使用编码区块组和/或编码区块以及相应语法元素。
在获取先进的运动矢量预测(advancedmotion vectorprediction,AMVP)模式中的候选运动矢量列表的过程中,作为备选可以加入候选运动矢量列表的运动矢量(motionvector,MV)包括当前块的空域相邻和时域相邻的图像块的MV,其中空域相邻的图像块的MV又可以包括位于当前块左侧的左方候选图像块的MV和位于当前块上方的上方候选图像块的MV。示例性的,请参考图4,图4为本申请实施例提供的候选图像块的一种示例性的示意图,如图4所示,左方候选图像块的集合包括{A0,A1},上方候选图像块的集合包括{B0,B1,B2},时域相邻的候选图像块的集合包括{C,T},这三个集合均可以作为备选被加入到候选运动矢量列表中,但是根据现有编码标准,AMVP的候选运动矢量列表的最大长度为2,因此需要根据规定的顺序从三个集合中确定在候选运动矢量列表中加入最多两个图像块的MV。该顺序可以是优先考虑当前块的左方候选图像块的集合{A0,A1}(先考虑A0,A0不可得再考虑A1),其次考虑当前块的上方候选图像块的集合{B0,B1,B2}(先考虑B0,B0不可得再考虑B1,B1不可得再考虑B2),最后考虑当前块的时域相邻的候选图像块的集合{C,T}(先考虑T,T不可得再考虑C)。
得到上述候选运动矢量列表后,通过率失真代价(rate distortion cost,RDcost)从候选运动矢量列表中确定最优的MV,将RD cost最小的候选运动矢量作为当前块的运动矢量预测值(motion vector predictor,MVP)。率失真代价由以下公式计算获得:
J=SAD+λR
其中,J表示RD cost,SAD为使用候选运动矢量进行运动估计后得到的预测块的像素值与当前块的像素值之间的绝对误差和(sum ofabsolute differences,SAD),R表示码率,λ表示拉格朗日乘子。
编码端将确定出的MVP在候选运动矢量列表中的索引传递到解码端。进一步地,可以在MVP为中心的邻域内进行运动搜索获得当前块实际的运动矢量,编码端计算MVP与实际的运动矢量之间的运动矢量差值(motion vector difference,MVD),并将MVD也传递到解码端。解码端解析索引,根据该索引在候选运动矢量列表中找到对应的MVP,解析MVD,将MVD与MVP相加得到当前块实际的运动矢量。
在获取融合(Merge)模式中的候选运动信息列表的过程中,作为备选可以加入候选运动信息列表的运动信息包括当前块的空域相邻或时域相邻的图像块的运动信息,其中空域相邻的图像块和时域相邻的图像块可参照图4,候选运动信息列表中对应于空域的候选运动信息来自于空间相邻的5个块(A0、A1、B0、B1和B2),若空域相邻块不可得或者为帧内预测,则其运动信息不加入候选运动信息列表。当前块的时域的候选运动信息根据参考帧和当前帧的图序计数(picture order count,POC)对参考帧中对应位置块的MV进行缩放后获得,先判断参考帧中位置为T的块是否可得,若不可得则选择位置为C的块。得到上述候选运动信息列表后,通过RD cost从候选运动信息列表中确定最优的运动信息作为当前块的运动信息。编码端将最优的运动信息在候选运动信息列表中位置的索引值(记为mergeindex)传递到解码端。
熵编码
熵编码单元270用于将熵编码算法或方案(例如,可变长度编码(variable lengthcoding,VLC)方案、上下文自适应VLC方案(context adaptive VLC,CALVC)、算术编码方案、二值化算法、上下文自适应二进制算术编码(context adaptive binary arithmeticcoding,CABAC)、基于语法的上下文自适应二进制算术编码(syntax-based context-adaptive binary arithmetic coding,SBAC)、概率区间分割熵(probabilityintervalpartitioning entropy,PIPE)编码或其他熵编码方法或技术)应用于量化残差系数209、帧间预测参数、帧内预测参数、环路滤波器参数和/或其他语法元素,得到可以通过输出端272以编码比特流21等形式输出的编码图像数据21,使得视频解码器30等可以接收并使用用于解码的参数。可将编码比特流21传输到视频解码器30,或将其保存在存储器中稍后由视频解码器30传输或检索。
视频编码器20的其他结构变体可用于对视频流进行编码。例如,基于非变换的编码器20可以在某些块或帧没有变换处理单元206的情况下直接量化残差信号。在另一种实现方式中,编码器20可以具有组合成单个单元的量化单元208和反量化单元210。
解码器和解码方法
如图3所示,视频解码器30用于接收例如由编码器20编码的编码图像数据21(例如编码比特流21),得到解码图像331。编码图像数据或比特流包括用于解码上述编码图像数据的信息,例如表示编码视频片(和/或编码区块组或编码区块)的图像块的数据和相关的语法元素。
在图3的示例中,解码器30包括熵解码单元304、反量化单元310、逆变换处理单元312、重建单元314(例如求和器314)、环路滤波器320、解码图像缓冲器(DBP)330、模式应用单元360、帧间预测单元344和帧内预测单元354。帧间预测单元344可以为或包括运动补偿单元。在一些示例中,视频解码器30可执行大体上与参照图2的视频编码器100描述的编码过程相反的解码过程。
如编码器20上述,反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲器DPB230、帧间预测单元344和帧内预测单元354还组成视频编码器20的“内置解码器”。相应地,反量化单元310在功能上可与反量化单元110相同,逆变换处理单元312在功能上可与逆变换处理单元122相同,重建单元314在功能上可与重建单元214相同,环路滤波器320在功能上可与环路滤波器220相同,解码图像缓冲器330在功能上可与解码图像缓冲器230相同。因此,视频编码器20的相应单元和功能的解释相应地适用于视频解码器30的相应单元和功能。
熵解码
熵解码单元304用于解析比特流21(或一般为编码图像数据21)并对编码图像数据21执行熵解码,得到量化系数309和/或解码后的编码参数(图3中未示出)等,例如帧间预测参数(例如参考图像索引和运动矢量)、帧内预测参数(例如帧内预测模式或索引)、变换参数、量化参数、环路滤波器参数和/或其他语法元素等中的任一个或全部。熵解码单元304可用于应用编码器20的熵编码单元270的编码方案对应的解码算法或方案。熵解码单元304还可用于向模式应用单元360提供帧间预测参数、帧内预测参数和/或其他语法元素,以及向解码器30的其他单元提供其他参数。视频解码器30可以接收视频片和/或视频块级的语法元素。此外,或者作为片和相应语法元素的替代,可以接收或使用编码区块组和/或编码区块以及相应语法元素。
反量化
反量化单元310可用于从编码图像数据21(例如通过熵解码单元304解析和/或解码)接收量化参数(quantization parameter,QP)(或一般为与反量化相关的信息)和量化系数,并基于上述量化参数对上述解码的量化系数309进行反量化以获得反量化系数311,上述反量化系数311也可以称为变换系数311。反量化过程可包括使用视频编码器20为视频片中的每个视频块计算的量化参数来确定量化程度,同样也确定需要执行的反量化的程度。
逆变换
逆变换处理单元312可用于接收解量化系数311,也称为变换系数311,并对解量化系数311应用变换以得到像素域中的重建残差块213。重建残差块213也可称为变换块313。变换可以为逆变换,例如逆DCT、逆DST、逆整数变换或概念上类似的逆变换过程。逆变换处理单元312还可以用于从编码图像数据21(例如通过熵解码单元304解析和/或解码)接收变换参数或相应信息,以确定应用于解量化系数311的变换。
重建
重建单元314(例如,求和器314)用于将重建残差块313添加到预测块365,以在像素域中得到重建块315,例如,将重建残差块313的像素点值和预测块365的像素点值相加。
滤波
环路滤波器单元320(在编码环路中或之后)用于对重建块315进行滤波,得到滤波块321,从而顺利进行像素转变或提高视频质量等。环路滤波器单元320可包括一个或多个环路滤波器,例如去块滤波器、像素点自适应偏移(sample-adaptive offset,SAO)滤波器或一个或多个其他滤波器,例如自适应环路滤波器(adaptive loop filter,ALF)、噪声抑制滤波器(noise suppression filter,NSF)或任意组合。例如,环路滤波器单元220可以包括去块滤波器、SAO滤波器和ALF滤波器。滤波过程的顺序可以是去块滤波器、SAO滤波器和ALF滤波器。再例如,增加一个称为具有色度缩放的亮度映射(luma mapping with chromascaling,LMCS)(即自适应环内整形器)的过程。该过程在去块之前执行。再例如,去块滤波过程也可以应用于内部子块边缘,例如仿射子块边缘、ATMVP子块边缘、子块变换(sub-block transform,SBT)边缘和内子部分(intra sub-partition,ISP)边缘。尽管环路滤波器单元320在图3中示为环路滤波器,但在其他配置中,环路滤波器单元320可以实现为环后滤波器。
解码图像缓冲器
随后将一个图像中的解码视频块321存储在解码图像缓冲器330中,解码图像缓冲器330存储作为参考图像的解码图像331,参考图像用于其他图像和/或分别输出显示的后续运动补偿。
解码器30用于通过输出端312等输出解码图像311,向用户显示或供用户查看。
预测
帧间预测单元344在功能上可与帧间预测单元244(特别是运动补偿单元)相同,帧内预测单元354在功能上可与帧间预测单元254相同,并基于从编码图像数据21(例如通过熵解码单元304解析和/或解码)接收的分割和/或预测参数或相应信息决定划分或分割和执行预测。模式应用单元360可用于根据重建图像、块或相应的像素点(已滤波或未滤波)执行每个块的预测(帧内或帧间预测),得到预测块365。
当将视频片编码为帧内编码(intra coded,I)片时,模式应用单元360中的帧内预测单元354用于根据指示的帧内预测模式和来自当前图像的之前解码块的数据生成用于当前视频片的图像块的预测块365。当视频图像编码为帧间编码(即,B或P)片时,模式应用单元360中的帧间预测单元344(例如运动补偿单元)用于根据运动矢量和从熵解码单元304接收的其他语法元素生成用于当前视频片的视频块的预测块365。对于帧间预测,可从其中一个参考图像列表中的其中一个参考图像产生这些预测块。视频解码器30可以根据存储在DPB 330中的参考图像,使用默认构建技术来构建参考帧列表0和列表1。除了片(例如视频片)或作为片的替代,相同或类似的过程可应用于编码区块组(例如视频编码区块组)和/或编码区块(例如视频编码区块)的实施例,例如视频可以使用I、P或B编码区块组和/或编码区块进行编码。
模式应用单元360用于通过解析运动矢量和其他语法元素,确定用于当前视频片的视频块的预测信息,并使用预测信息产生用于正在解码的当前视频块的预测块。例如,模式应用单元360使用接收到的一些语法元素确定用于编码视频片的视频块的预测模式(例如帧内预测或帧间预测)、帧间预测片类型(例如B片、P片或GPB片)、用于片的一个或多个参考图像列表的构建信息、用于片的每个帧间编码视频块的运动矢量、用于片的每个帧间编码视频块的帧间预测状态、其他信息,以解码当前视频片内的视频块。除了片(例如视频片)或作为片的替代,相同或类似的过程可应用于编码区块组(例如视频编码区块组)和/或编码区块(例如视频编码区块)的实施例,例如视频可以使用I、P或B编码区块组和/或编码区块进行编码。
在一个实施例中,图3的视频编码器30还可以用于使用片(也称为视频片)分割和/或解码图像,其中图像可以使用一个或多个片(通常为不重叠的)进行分割或解码。每个片可包括一个或多个块(例如CTU)或一个或多个块组(例如H.265/HEVC/VVC标准中的编码区块和VVC标准中的砖。
在一个实施例中,图3所示的视频解码器30还可以用于使用片/编码区块组(也称为视频编码区块组)和/或编码区块(也称为视频编码区块)对图像进行分割和/或解码,其中图像可以使用一个或多个片/编码区块组(通常为不重叠的)进行分割或解码,每个片/编码区块组可包括一个或多个块(例如CTU)或一个或多个编码区块等,其中每个编码区块可以为矩形等形状,可包括一个或多个完整或部分块(例如CTU)。
视频解码器30的其他变型可用于对编码图像数据21进行解码。例如,解码器30可以在没有环路滤波器单元320的情况下产生输出视频流。例如,基于非变换的解码器30可以在某些块或帧没有逆变换处理单元312的情况下直接反量化残差信号。在另一种实现方式中,视频解码器30可以具有组合成单个单元的反量化单元310和逆变换处理单元312。
应理解,在编码器20和解码器30中,可以对当前步骤的处理结果进一步处理,然后输出到下一步骤。例如,在插值滤波、运动矢量推导或环路滤波之后,可以对插值滤波、运动矢量推导或环路滤波的处理结果进行进一步的运算,例如裁剪(clip)或移位(shift)运算。
应该注意的是,可以对当前块的推导运动矢量(包括但不限于仿射模式的控制点运动矢量、仿射、平面、ATMVP模式的子块运动矢量、时间运动矢量等)进行进一步运算。例如,根据运动矢量的表示位将运动矢量的值限制在预定义范围。如果运动矢量的表示位为bitDepth,则范围为-2^(bitDepth-1)至2^(bitDepth-1)-1,其中“^”表示幂次方。例如,如果bitDepth设置为16,则范围为-32768~32767;如果bitDepth设置为18,则范围为-131072~131071。例如,推导运动矢量的值(例如一个8×8块中的4个4×4子块的MV)被限制,使得上述4个4×4子块MV的整数部分之间的最大差值不超过N个像素,例如不超过1个像素。这里提供了两种根据bitDepth限制运动矢量的方法。
尽管上述实施例主要描述了视频编解码,但应注意的是,译码系统10、编码器20和解码器30的实施例以及本文描述的其他实施例也可以用于静止图像处理或编解码,即视频编解码中独立于任何先前或连续图像的单个图像的处理或编解码。一般情况下,如果图像处理仅限于单个图像17,帧间预测单元244(编码器)和帧间预测单元344(解码器)可能不可用。视频编码器20和视频解码器30的所有其他功能(也称为工具或技术)同样可用于静态图像处理,例如残差计算204/304、变换206、量化208、反量化210/310、(逆)变换212/312、分割262/362、帧内预测254/354和/或环路滤波220/320、熵编码270和熵解码304。
请参考图5,图5为本申请实施例提供的视频译码设备500的一种示例性框图。视频译码设备500适用于实现本文描述的公开实施例。在一个实施例中,视频译码设备500可以是解码器,例如图1a中的视频解码器30,也可以是编码器,例如图1a中的视频编码器20。
视频译码设备500包括:用于接收数据的入端口510(或输入端口510)和接收单元(receiver unit,Rx)520;用于处理数据的处理器、逻辑单元或中央处理器(centralprocessing unit,CPU)530;例如,这里的处理器530可以是神经网络处理器530;用于传输数据的发送单元(transmitter unit,Tx)540和出端口550(或输出端口550);用于存储数据的存储器560。视频译码设备500还可包括耦合到入端口510、接收单元520、发送单元540和出端口550的光电(optical-to-electrical,OE)组件和电光(electrical-to-optical,EO)组件,用于光信号或电信号的出口或入口。
处理器530通过硬件和软件实现。处理器530可实现为一个或多个处理器芯片、核(例如,多核处理器)、FPGA、ASIC和DSP。处理器530与入端口510、接收单元520、发送单元540、出端口550和存储器560通信。处理器530包括译码模块570(例如,基于神经网络的译码模块570)。译码模块570实施上文所公开的实施例。例如,译码模块570执行、处理、准备或提供各种编码操作。因此,通过译码模块570为视频译码设备500的功能提供了实质性的改进,并且影响了视频译码设备500到不同状态的切换。或者,以存储在存储器560中并由处理器530执行的指令来实现译码模块570。
存储器560包括一个或多个磁盘、磁带机和固态硬盘,可以用作溢出数据存储设备,用于在选择执行程序时存储此类程序,并且存储在程序执行过程中读取的指令和数据。存储器560可以是易失性和/或非易失性的,可以是只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、三态内容寻址存储器(ternary content-addressable memory,TCAM)和/或静态随机存取存储器(static random-access memory,SRAM)。
请参考图6,图6为本申请实施例提供的装置600的一种示例性框图,装置600可用作图1a中的源设备12和目的设备14中的任一个或两个。
装置600中的处理器602可以是中央处理器。或者,处理器602可以是现有的或今后将研发出的能够操控或处理信息的任何其他类型设备或多个设备。虽然可以使用如图所示的处理器602等单个处理器来实施已公开的实现方式,但使用一个以上的处理器速度更快和效率更高。
在一种实现方式中,装置600中的存储器604可以是只读存储器(ROM)设备或随机存取存储器(RAM)设备。任何其他合适类型的存储设备都可以用作存储器604。存储器604可以包括处理器602通过总线612访问的代码和数据606。存储器604还可包括操作系统608和应用程序610,应用程序610包括允许处理器602执行本文上述方法的至少一个程序。例如,应用程序610可以包括应用1至N,还包括执行本文上述方法的视频译码应用。
装置600还可以包括一个或多个输出设备,例如显示器618。在一个示例中,显示器618可以是将显示器与可用于感测触摸输入的触敏元件组合的触敏显示器。显示器618可以通过总线612耦合到处理器602。
虽然装置600中的总线612在本文中描述为单个总线,但是总线612可以包括多个总线。此外,辅助储存器可以直接耦合到装置600的其他组件或通过网络访问,并且可以包括存储卡等单个集成单元或多个存储卡等多个单元。因此,装置600可以具有各种各样的配置。
请参考图7,图7为本申请实施例提供的一种编码方法。如图7所示,该编码方法可以包括:
S701、对待编码图像进行编码以得到码流。
示例性地,可以通过编码器对待编码图像进行编码以得到码流。
例如,可以通过H.264编码器、H.265编码器、H.266编码器、第二代音频视频编码标准(audio video coding standard2,AVS2)编码器、第三代音频视频编码标准(audiovideo coding standard 3,AVS3)编码器、第二代监控视频和音频编码(surveillancevideo and audio coding 2,SVAC2)编码器、第三代监控视频和音频编码(surveillancevideo and audio coding 3,SVAC3)编码器或其他编码器对待编码图像进行编码以得到码流。
S702、对待编码图像进行图像分割以得到第一分割图像。
在一种可能的实现方式中,可以将上述待编码图像输入目标模型以得到上述第一分割图像,上述目标模型的训练集包括图像和上述图像的分割图像。
示例性地,上述目标模型可以为AI模型
示例性地,第一分割图像可以为下采样的分割图像。
S703、对第一分割图像进行映射处理以得到第二分割图像。
在一种可能的实现方式中,可以对第一分割图像进行映射处理,将第一分割图像映射到编码器的像素空间中,以得到第二分割图像。
在一种可能的实现方式中,可以对第一分割图像中的像素点进行像素值映射,将像素值映射为从小到大的排序序号。之后对映射得到的像素值进行均匀缩放,将映射得到的像素值均匀缩放至预设数值区间。
示例性地,以第一分割图像的像素点的总类型为3类,对应的像素值为{1,2,3}。第一分割图像的像素点的像素值为从小到大的排序序号{0,1,2},故映射规则为{1->0,2->1,3->2}。
示例性地,以第一分割图像的像素点的总类型为8类,对应的像素值为{0,1,2,3,4,5,6,7}。将第一分割图像的像素点的像素值为从小到大的排序序号{0,1,2,3,4,5,6,7},故映射规则为{0->0,1->1,2->2,3->3,4->4,5->5,6->6,7->7}。之后对映射得到的像素值进行均匀缩放,将映射得到的像素值均匀缩放至数值区间[0,255]以得到第二分割图像,则第二分割图像的像素点的像素值为{16,48,80,112,144,176,208,240}。
示例性地,第二分割图像的像素点的像素值L可以满足:
其中,L为第二分割图像的像素点的像素值,N为第一分割图像中像素点类型的数量,i为第一分割图像中像素点的像素值映射后的排序序号。表示向下取整。
其中,第一分割图像的像素点的像素值为0表示像素点为背景的像素点;第一分割图像的像素点的像素值为1表示像素点为人员的像素点;第一分割图像的像素点的像素值为2表示像素点为人脸的像素点;第一分割图像的像素点的像素值为3表示像素点为机动车的像素点;第一分割图像的像素点的像素值为4表示像素点为非机动车的像素点;第一分割图像的像素点的像素值为5表示像素点为物品的像素点;第一分割图像的像素点的像素值为6表示像素点为场景的像素点;第一分割图像的像素点的像素值为7表示像素点为车牌的像素点。
又示例性地,以第一分割图像的像素点的总类型为4类,对应的像素值为{0,4,6,7}。将第一分割图像的像素点的像素值为从小到大的排序序号{0,1,2,3},故映射规则为{0->0,4->1,6->2,7->3}。之后对映射得到的像素值进行均匀缩放,将映射得到的像素值均匀缩放至数值区间[0,255]以得到第二分割图像,则第二分割图像的像素点的像素值为{32,96,160,244}。
需要说明的是,上述根据第一分割图像得到第二分割图像的方法仅是一种示例性的说明。根据第一分割图像得到第二分割图像的方法也可以采用本领域技术人员能够想到的其他方法实现,本申请实施例对此不作限定。
S704、根据第一分割图像确定映射信息。
其中,上述映射信息包括第一信息、第二信息和第三信息,上述第一信息用于指示上述第一分割图像中像素点类型的数量,上述第二信息用于指示上述第一分割图像中像素点类型对应的像素值,上述第三信息用于指示上述第一分割图像中像素点类型对应的映射像素值。
在一种可能的实现方式中,可以根据上述第一分割图像确定上述第一信息和上述第二信息。根据上述第二信息确定上述第三信息。
在一种可能的实现方式中,可以对上述第二信息中的像素值进行移位处理以得到上述第三信息中的映射像素值。
示例性地,如表1所示,以第一分割图像的像素点的总类型为8类,对应的像素值为{0,1,2,3,4,5,6,7},即第二信息中的像素值为{0,1,2,3,4,5,6,7}。将{0,1,2,3,4,5,6,7}由10进制转换为2进制则可以得到{000,001,010,011,100,101,110,111},对{000,001,010,011,100,101,110,111}左移5位则可以得到{00000000,00100000,01000000,01100000,10000000,10100000,11000000,11100000},将{00000000,00100000,01000000,01100000,10000000,10100000,11000000,11100000}由2进制转换为10进制则可以得到{0,32,64,96,128,160,192,224},即第三信息中的像素值为{0,32,64,96,128,160,192,224}。
表1
又示例性地,如表2所示,以第一分割图像的像素点的总类型为4类,对应的像素值为{0,4,6,7},即第二信息中的像素值为{0,4,6,7}。将{0,4,6,7}由10进制转换为2进制则可以得到{000,100,110,111},对{000,001,010,011,100,101,110,111}左移5位则可以得到{00000000,10000000,11000000,11100000},将{00000000,10000000,11000000,11100000}由2进制转换为10进制则可以得到{0,128,192,224},即第三信息中的像素值为{0,128,192,224}。
表2
需要说明的是,上述根据第二信息得到第三信息的方法仅是一种示例性的说明。根据第二信息得到第三信息的方法也可以采用本领域技术人员能够想到的其他方法实现,本申请实施例对此不作限定。
在一种可能的实现方式中,上述映射信息还包括第四信息和第五信息,上述第四信息用于指示上述第一分割图像的宽度,上述第五信息用于指示上述第一分割图像的高度。
S705、对第二分割图像进行编码以得到分割编码图像。
示例性地,可以通过编码器对第二分割图像进行编码以得到分割编码图像。
例如,可以通过H.264编码器、H.265编码器、H.266编码器、AVS2编码器、AVS3编码器、SVAC2编码器、SVAC3编码器或其他编码器对第二分割图像进行编码以得到分割编码图像。
在一种可能的实现方式中,可以在编码器支持YUV400(一种颜色编码方法)格式的情况下,将第二分割图像输入编码器进行编码以得到分割编码图像。
在另一种可能的实现方式中,可以在编码器仅支持YUV420格式的情况下,将第二分割图像转换为YUV420格式(如将第二分割图像的UV分量设置为像素的中值),将YUV420格式的第二分割图像输入编码器进行编码以得到分割编码图像。
在一种可能的实现方式中,分割编码图像的第一参数和待编码图像(待编码图像的编码图像)的第一参数可以相同。其中,第一参数包括图片次序计数(picture ordercount,POC)和/或解码顺序索引(decoding order index,DOI)。
可以理解的是,若该待编码图像为随机访问点图像,则待编码图像的分割编码图像也应为随机访问点图像。
S706、将分割编码图像和映射信息和图像编入码流。
在一种可能的实现方式中,可以将上述映射信息和上述分割编码图像编入上述码流的扩展信息或补充增强信息(supplement enhancement information,SEI)中。
在一种可能的实现方式中,可以按照预设语法表将分割编码图像和映射信息和图像编入码流。
示例性地,可以按照表3所示的语法表将分割编码图像和映射信息和图像编入码流。
表3所示的语法表中的map_class_num,即分割图像素类别数量,用于指示上述第一分割图像中像素点类型的数量。map_class_num可以为8位无符号整数。
表3所示的语法表中的map_label[i],即分割图像素标签,用于指示上述第一分割图像中像素点类型对应的像素值,map_label[i]可以为8位无符号整数。
表3所示的语法表中的map_value[i],即分割图像素标签映射值,用于指示上述第一分割图像中像素点类型对应的映射像素值,map_value[i]可以为8位无符号整数。
表3所示的语法表中的map_width,即分割图宽度,用于指示上述第一分割图像的宽度。可以为16位无符号整数。
表3所示的语法表中的map_height,即分割图高度,用于指示上述第一分割图像的高度,可以为16位无符号整数。
表3所示的语法表中的map_Data,即分割图数据map_Data,用于表示分割编码图像。map_Data可以提取出来,并用解码器进行解码。
表3
又示例性地,可以按照表4所示的语法表将分割编码图像和映射信息和图像编入码流。
表4所示的语法表中的map_class_num_minus1,即分割图像素类别数量,用于指示上述第一分割图像中像素点类型的数量。map_class_num_minus1可以为8位无符号整数。
需要说明的是,第一分割图像中像素点类型的数量MapClassNum为map_class_num_minus1+1。例如,若map_class_num_minus1为3,则第一分割图像中像素点类型的数量为4。又例如,若map_class_num_m inus1为0,则第一分割图像中像素点类型的数量为1。
表4所示的语法表中的map_label[i],即分割图像素标签,用于指示上述第一分割图像中像素点类型对应的像素值,map_label[i]可以为8位无符号整数。
需要说明的是,表4所示的语法表中的map_label[0]=0。
表4所示的语法表中的map_value[i],即分割图像素标签映射值,用于指示上述第一分割图像中像素点类型对应的映射像素值,map_value[i]可以为8位无符号整数。
需要说明的是,表4所示的语法表中的map_value[0]=0。
可以理解的是,相较于表3所示的语法表,表4所示的语法表可以减少传输0值的像素类别及其对应像素映射值。
表4
本申请实施例提供的方法,通过将分割图像编入待编码图像的码流,使得解码端可以通过解码码流获取分割图像,从而避免设备对同一图像重复进行图像分割。另外,通过将分割图像的映射信息编入码流,可以使解码端通过映射信息,即可恢复分割图像,由此降低了分割图像的恢复难度。
请参考图8,图8为本申请实施例提供的一种解码方法。如图8所示,该解码方法可以包括:
S801、解码码流以得到分割编码图像和映射信息。
其中,上述分割编码图像是基于第一分割解码图像得到的,上述映射信息包括第一信息、第二信息和第三信息,上述第一信息用于指示第一分割图像中像素点类型的数量,上述第二信息用于指示上述第一分割图像中像素点类型对应的像素值,上述第三信息用于指示上述第一分割图像中像素点类型对应的映射像素值。
示例性地,可以按照表3所示的语法表解码码流以得映射信息(map_class_num、map_label[i]和map_value[i])和分割编码图像(map_Data)。
又示例性地,可以按照表4所示的语法表解码码流以得映射信息(map_class_num_minus1、map_label[i]和map_value[i])和分割编码图像(map_Data)。
在一种可能的实现方式中,上述映射信息还包括第四信息和第五信息,上述第四信息用于指示上述第一分割图像的宽度,上述第五信息用于指示上述第一分割图像的高度。
S802、解码分割编码图像以得到第一分割解码图像。
在一种可能的实现方式中,可以通过解码器对解码分割编码图像进行解码以得到第一分割解码图像。
例如,可以通过H.264解码器、H.265解码器、H.266解码器、AVS2解码器、AVS3解码器、SVAC2解码器、SVAC3解码器或其他解码器对解码分割编码图像进行解码以得到第一分割解码图像。
其中,解码分割编码图像所采用的解码器可以和对第二分割图像进行编码所采用的编码器相对应。
例如,若采用H.265编码器对第二分割图像进行编码以得到分割编码图像,则解码分割编码图像所采用的解码器为H.265解码器。
又例如,若采用AVS3编码器对第二分割图像进行编码以得到分割编码图像,则解码分割编码图像所采用的解码器为AVS3解码器。
S803、根据映射信息对第一分割解码图像进行反映射处理以得到第二分割解码图像。
在一种可能的实现方式中,可以根据上述第一分割解码图像中像素点的像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。
在一种可能的实现方式中,可以根据上述第一分割解码图像中像素点的像素值和上述映射信息确定上述第一分割解码图像中像素点的映射像素值。根据上述映射像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。
在一种可能的实现方式中,可以根据映射信息确定上述第一分割解码图像中像素点的映射像素值区间,根据第一分割解码图像中像素点的像素值和上述映射像素值区间确定上述第一分割解码图像中像素点的映射像素值。根据上述映射像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。
示例性地,如表1和表5所示,以第一分割解码图像的像素点的总类型为8类,对应的像素值为{16,48,80,112,144,176,208,240},映射信息中第三信息中的像素值为{0,32,64,96,128,160,192,224},根据映射信息中第三信息的则可确定第一分割解码图像中像素点的映射像素值区间分别为{0~31,32~63,64~95,96~127,128~159,160~191,192~223,223~255}。根据映射像素值区间则可以确定第一分割解码图像中像素点的映射像素值为{0,32,64,96,128,160,192,224},根据表1和第一分割解码图像中像素点的映射像素值则可以确定第二分割解码图像中像素点的像素值为{0,1,2,3,4,5,6,7}。
其中,上述第一分割解码图像中像素点的映射像素值区间用于指示第一分割解码图像中像素点的像素值和第三信息中的像素值(第一分割解码图像中像素点的映射像素值)的映射关系。
例如,第三信息中的像素值0对应映射像素值区间为0~31说明第一分割解码图像中像素点的像素值为0~31的像素点对应的第三信息中的像素值(第一分割解码图像中像素点的映射像素值)为0。
表5
又示例性地,如表2和表6所示,以第一分割解码图像的像素点的总类型为4类,对应的像素值为{16,144,208,240},映射信息中第三信息中的像素值为{0,128,192,224},根据映射信息中第三信息的则可以确定第一分割解码图像中像素点的映射像素值区间分别为{0~31,128~159,192~223,223~255}。根据映射像素值区间则可以确定第一分割解码图像中像素点的映射像素值为{0,128,192,224},根据表1和第一分割解码图像中像素点的映射像素值则可以确定第二分割解码图像中像素点的像素值为{0,4,6,7}。
表6
在一种可能的实现方式中,可以根据映射信息确定上述第一分割解码图像中像素点的目标像素值。根据第一分割解码图像中像素点的目标像素值确定上述第一分割解码图像中像素点的映射像素值。根据上述映射像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。其中,第一分割解码图像中像素点的目标像素点为映射信息的第三信息中像素值与第一分割解码图像中像素点的像素值距离最近的像素值。
示例性地,如表1和表7所示,以第一分割解码图像的像素点的总类型为8类,对应的像素值为{16,48,80,112,144,176,208,240},映射信息中第三信息中的像素值为{0,32,64,96,128,160,192,224},第三信息中的像素点的像素值中与像素值16最接近的像素值为0,第三信息中的像素点的像素值中与像素值48最接近的像素值为32,第三信息中的像素点的像素值中与像素值80最接近的像素值为64,第三信息中的像素点的像素值中与像素值112最接近的像素值为96,第三信息中的像素点的像素值中与像素值144最接近的像素值为128,第三信息中的像素点的像素值中与像素值176最接近的像素值为160,第三信息中的像素点的像素值中与像素值208最接近的像素值为192,第三信息中的像素点的像素值中与像素值240最接近的像素值为224,则可以确定第一分割解码图像中像素点的映射像素值为{0,32,64,96,128,160,192,224},根据表1和第一分割解码图像中像素点的映射像素值则可以确定第二分割解码图像中像素点的像素值为{0,1,2,3,4,5,6,7}。
表7
示例性地,如表2和表8所示,以第一分割解码图像的像素点的总类型为4类,对应的像素值为{16,144,208,240},映射信息中第三信息中的像素值为{0,128,192,224},第三信息中的像素点的像素值中与像素值16最接近的像素值为0,第三信息中的像素点的像素值中与像素值144最接近的像素值为128,第三信息中的像素点的像素值中与像素值208最接近的像素值为192,第三信息中的像素点的像素值中与像素值240最接近的像素值为224,则可以确定第一分割解码图像中像素点的映射像素值为{0,128,192,224},根据表2和第一分割解码图像中像素点的映射像素值则可以确定第二分割解码图像中像素点的像素值为{0,4,6,7}。
表8
在一种可能的实现方式中,可以将第二分割解码图像用于下游业务。例如,可以将第二分割解码图像用于二次编码压缩、视频染色、实况相册、视频浓缩等应用中。
下面将结合图9介绍用于执行上述编码方法的编码装置。
可以理解的是,编码装置为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本申请实施例可以根据上述方法示例对编码装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图9示出了上述实施例中涉及的编码装置的一种可能的组成示意图,如图9所示,该编码装置900可以包括:编码单元901、分割单元902和处理单元903。
编码单元901,用于对待编码图像进行编码以得到码流。
分割单元902,用于对上述待编码图像进行图像分割以得到第一分割图像。
处理单元903,用于对上述第一分割图像进行映射处理以得到第二分割图像。
处理单元903,还用于根据上述第一分割图像确定映射信息,上述映射信息包括第一信息、第二信息和第三信息,上述第一信息用于指示上述第一分割图像中像素点类型的数量,上述第二信息用于指示上述第一分割图像中像素点类型对应的像素值,上述第三信息用于指示上述第一分割图像中像素点类型对应的映射像素值。
编码单元901,还用于对上述第二分割图像进行编码以得到分割编码图像。
编码单元901,还用于将上述分割编码图像和上述映射信息和图像编入上述码流。
在一种可能的实现方式中,上述处理单元903具体用于:根据上述第一分割图像确定上述第一信息和上述第二信息;根据上述第二信息确定上述第三信息。
在一种可能的实现方式中,上述处理单元903具体用于:对上述第二信息中的像素值进行移位处理以得到上述第三信息中的映射像素值。
在一种可能的实现方式中,上述分割单元902具体用于:将上述待编码图像输入目标模型以得到上述第一分割图像,上述目标模型的训练集包括图像和上述图像的分割图像。
在一种可能的实现方式中,上述编码单元901具体用于:将上述映射信息和上述分割编码图像编入上述码流的扩展信息或补充增强信息中。
在一种可能的实现方式中,上述映射信息还包括第四信息和第五信息,上述第四信息用于指示上述第一分割图像的宽度,上述第五信息用于指示上述第一分割图像的高度。
下面将结合图10介绍用于执行上述解码方法的解码装置。
可以理解的是,解码装置为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本申请实施例可以根据上述方法示例对解码装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图10示出了上述实施例中涉及的解码装置的一种可能的组成示意图,如图10所示,该解码装置1000可以包括:解码单元1001和处理单元1002。
解码单元1001,用于解码码流以得到分割编码图像和映射信息,上述分割编码图像是基于第一分割解码图像得到的,上述映射信息包括第一信息、第二信息和第三信息,上述第一信息用于指示第一分割图像中像素点类型的数量,上述第二信息用于指示上述第一分割图像中像素点类型对应的像素值,上述第三信息用于指示上述第一分割图像中像素点类型对应的映射像素值。
解码单元1001,还用于解码上述分割编码图像以得到上述第一分割解码图像。
处理单元1002,用于根据上述映射信息对上述第一分割解码图像进行反映射处理以得到第二分割解码图像。
在一种可能的实现方式中,上述处理单元1002具体用于:根据上述第一分割解码图像中像素点的像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。
在一种可能的实现方式中,上述处理单元1002具体用于:根据上述第一分割解码图像中像素点的像素值和上述映射信息确定上述第一分割解码图像中像素点的映射像素值;根据上述映射像素值和上述映射信息确定上述第二分割解码图像中像素点的像素值。
在一种可能的实现方式中,上述映射信息还包括第四信息和第五信息,上述第四信息用于指示上述第一分割图像的宽度,上述第五信息用于指示上述第一分割图像的高度。
本申请实施例还提供了一种芯片。图11示出了一种芯片1100的结构示意图。芯片1100包括一个或多个处理器1101以及接口电路1102。可选的,上述芯片1100还可以包含总线1103。
处理器1101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述编码方法或解码方法的各步骤可以通过处理器1101中的硬件的集成逻辑电路或者软件形式的指令完成。
可选地,上述的处理器1101可以是通用处理器、数字信号处理(digital signalprocessing,DSP)器、集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
接口电路1102可以用于数据、指令或者信息的发送或者接收,处理器1101可以利用接口电路1102接收的数据、指令或者其他信息,进行加工,可以将加工完成信息通过接口电路1102发送出去。
可选的,芯片还包括存储器,存储器可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,NVRAM)。
可选的,存储器存储了可执行软件模块或者数据结构,处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。
可选的,芯片可以使用在本申请实施例涉及的编码装置中。可选的,接口电路1102可用于输出处理器1101的执行结果。关于本申请实施例的一个或多个实施例提供的编码方法或解码方法可参考前述各个实施例,这里不再赘述。
需要说明的,处理器1101、接口电路1102各自对应的功能既可以通过硬件设计实现,也可以通过软件设计来实现,还可以通过软硬件结合的方式来实现,这里不做限制。
图12为本申请实施例提供的一种电子设备的结构示意图,该电子设备1200可以为处理器或者处理器中的芯片或者功能模块。如图12所示,该电子设备1200包括处理器1201,收发器1202以及通信线路1203。
其中,处理器1201用于执行本申请实施例提供的编码方法或解码方法中的任一步骤,且在执行本申请实施例提供的编码方法或解码方法中的任一步骤的过程中,可选择调用收发器1202以及通信线路1203来完成相应操作。
进一步地,该电子设备1200还可以包括存储器1204。其中,处理器1201,存储器1204以及收发器1202之间可以通过通信线路1203连接。
其中,处理器1201是处理器、通用处理器网络处理器(networkprocessor,NP)、数字信号处理器(digital signal processing,DSP)、微处理器、微控制器、可编程逻辑器件(programmable logic device,PLD)或它们的任意组合。处理器1201还可以是其他具有处理功能的装置,例如电路、器件或软件模块,不予限制。
收发器1202,用于与其他设备或其他通信网络进行通信,其他通信网络可以为以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。收发器1202可以是模块、电路、收发器或者任何能够实现通信的装置。
收发器1202主要用于命令和信息等的收发,可以包括发射器和接收器,分别进行命令和信息等的发送和接收;除命令和信息等收发之外的操作由处理器实现。
通信线路1203,用于在电子设备1200所包括的各部件之间传送信息。
在一种设计中,可以将处理器看做逻辑电路,收发器看做接口电路。
存储器1204,用于存储指令。其中,指令可以是计算机程序。
其中,存储器1204可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。存储器1204还可以是只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或其他磁存储设备等。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
需要指出的是,存储器1204可以独立于处理器1201存在,也可以和处理器1201集成在一起。存储器1204可以用于存储指令或者程序代码或者一些数据等。存储器1204可以位于电子设备1200内,也可以位于电子设备1200外,不予限制。处理器1201,用于执行存储器1204中存储的指令,以实现本申请上述实施例提供的方法。
在一种示例中,处理器1201可以包括一个或多个处理器,例如图12中的处理器0和处理器1。
作为一种可选的实现方式,电子设备1200包括多个处理器,例如,除图12中的处理器1201之外,还可以包括处理器1207。
作为一种可选的实现方式,电子设备1200还包括输出设备1205和输入设备1206。示例性地,输入设备1206是键盘、鼠标、麦克风或操作杆等设备,输出设备1205是显示屏、扬声器(speaker)等设备。
需要指出的是,电子设备1200可以是芯片系统或有图12中类似结构的设备。其中,芯片系统可以由芯片构成,也可以包括芯片和其他分立器件。本申请的各实施例之间涉及的动作、术语等均可以相互参考,不予限制。本申请的实施例中各个设备之间交互的消息名称或消息中的参数名称等只是一个示例,具体实现中也可以采用其他的名称,不予限制。此外,图12中示出的组成结构并不构成对该电子设备1200的限定,除图12所示部件之外,该电子设备1200可以包括比图12所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本申请中描述的处理器和收发器可实现在集成电路(integrated circuit,IC)、模拟IC、射频集成电路、混合信号IC、专用集成电路(application specific integratedcircuit,ASIC)、印刷电路板(printed circuitboard,PCB)、电子设备等上。该处理器和收发器也可以用各种IC工艺技术来制造,例如互补金属氧化物半导体(complementary metaloxide semiconductor,CMOS)、N型金属氧化物半导体(nMetal-oxide-semiconductor,NMOS)、P型金属氧化物半导体(positive channel metal oxide semiconductor,PMOS)、双极结型晶体管(Bipolar Junction Transistor,BJT)、双极CMOS(BiCMOS)、硅锗(SiGe)、砷化镓(GaAs)等。
图13为本申请实施例提供的一种编码装置的结构示意图。该编码装置可适用于上述方法实施例所示出的场景中。为了便于说明,图13仅示出了编码装置的主要部件,包括处理器1301、存储器1302、控制电路1303、以及输入输出装置1304。处理器1301主要用于对通信协议以及通信数据进行处理,执行软件程序,处理软件程序的数据。存储器1302主要用于存储软件程序和数据。控制电路1303主要用于供电及各种电信号的传递。输入输出装置1304主要用于接收用户输入的数据以及对用户输出数据。
当该编码装置为处理器1301时,该控制电路1303可以为主板,存储器1302包括硬盘,RAM,ROM等具有存储功能的介质,处理器1301可以包括基带处理器1301和中央处理器,基带处理器主要用于对通信协议以及通信数据进行处理,中央处理器主要用于对整个编码装置进行控制,执行软件程序,处理软件程序的数据,输入输出装置1304包括显示屏、键盘和鼠标等;控制电路1303可以进一步包括或连接收发电路或收发器,例如:网线接口等,用于发送或接收数据或信号,例如与其他设备进行数据传输及通信。进一步的,还可以包括天线,用于无线信号的收发,用于与其他设备进行数据/信号传输。
本申请实施例还提供一种编码装置,该装置包括:至少一个处理器,当上述至少一个处理器执行程序代码或指令时,实现上述相关方法步骤实现上述实施例中的编码方法或解码方法。
可选地,该装置还可以包括至少一个存储器,该至少一个存储器用于存储该程序代码或指令。
本申请实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在编码装置上运行时,使得编码装置执行上述相关方法步骤实现上述实施例中的编码方法或解码方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的编码方法或解码方法。
本申请实施例还提供一种编码装置,这个装置具体可以是芯片、集成电路、组件或模块。具体地,该装置可包括相连的处理器和用于存储指令的存储器,或者该装置包括至少一个处理器,用于从外部存储器获取指令。当装置运行时,处理器可执行指令,以使芯片执行上述各方法实施例中的编码方法或解码方法。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件,或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (19)
1.一种编码方法,其特征在于,所述方法包括:
对待编码图像进行编码以得到码流;
对所述待编码图像进行图像分割以得到第一分割图像;
对所述第一分割图像进行映射处理以得到第二分割图像;
根据所述第一分割图像确定映射信息,所述映射信息包括第一信息、第二信息和第三信息,所述第一信息为分割图像素类别数量,所述第二信息为分割图像素标签,所述第三信息为分割图像素标签映射值;
对所述第二分割图像进行编码以得到分割图数据;
将所述分割图数据和所述映射信息编入所述码流。
2.根据权利要求1所述的方法,其特征在于,所述映射信息还包括第四信息和第五信息,所述第四信息为分割图像宽度,所述第五信息为分割图高度。
3.根据权利要求1或2所述的方法,其特征在于,所述第二分割图像的像素点的像素值满足:
其中,L为所述第二分割图像的像素点的像素值,N为所述分割图像素类别数量,0≤i≤N-1,表示向下取整。
4.一种解码方法,其特征在于,所述方法包括:
解码码流以得到分割图数据和映射信息,所述映射信息包括第一信息、第二信息和第三信息,所述第一信息为分割图像素类别数量,所述第二信息为分割图像素标签,所述第三信息为分割图像素标签映射值;
解码所述分割图数据以得到第一分割解码图像;
根据所述映射信息对所述第一分割解码图像进行反映射处理以得到第二分割解码图像。
5.根据权利要求4所述的方法,其特征在于,所述映射信息还包括第四信息和第五信息,所述第四信息用于指示分割图像宽度,所述第五信息用于指示分割图高度。
6.根据权利要求4或5中所述的方法,其特征在于,所述分割图数据由第二分割图像编码得到,所述第二分割图像的像素点的像素值满足:
其中,L为所述第二分割图像的像素点的像素值,N为所述分割图像素类别数量,0≤i≤N-1,表示向下取整。
7.根据权利要求6中所述的方法,其特征在于,所述第二分割图像由第一分割编码图像映射得到。
8.一种编码装置,其特征在于,包括:编码单元、分割单元和处理单元;
编码单元,用于对待编码图像进行编码以得到码流;
分割单元,用于对所述待编码图像进行图像分割以得到第一分割图像;
处理单元,用于对所述第一分割图像进行映射处理以得到第二分割图像;
处理单元,还用于根据所述第一分割图像确定映射信息,所述映射信息包括第一信息、第二信息和第三信息,所述第一信息为分割图像素类别数量,所述第二信息为分割图像素标签,所述第三信息为分割图像素标签映射值;
编码单元,还用于对所述第二分割图像进行编码以得到分割图数据;
编码单元,还用于将所述分割图数据和所述映射信息编入所述码流。
9.根据权利要求8所述的装置,其特征在于,所述映射信息还包括第四信息和第五信息,所述第四信息为分割图像宽度,所述第五信息为分割图高度。
10.根据权利要求8或9所述的装置,其特征在于,所述第二分割图像的像素点的像素值满足:
其中,L为所述第二分割图像的像素点的像素值,N为所述分割图像素类别数量,0≤i≤N-1,表示向下取整。
11.一种解码装置,其特征在于,包括:解码单元和处理单元;
解码单元,用于解码码流以得到分割图数据和映射信息,所述映射信息包括第一信息、第二信息和第三信息,所述第一信息为分割图像素类别数量,所述第二信息为分割图像素标签,所述第三信息为分割图像素标签映射值;
解码单元,还用于解码所述分割图数据以得到第一分割解码图像;
处理单元,用于根据所述映射信息对所述第一分割解码图像进行反映射处理以得到第二分割解码图像。
12.根据权利要求11所述的装置,其特征在于,所述映射信息还包括第四信息和第五信息,所述第四信息为分割图像宽度,所述第五信息为分割图高度。
13.根据权利要求11或12所述的装置,其特征在于,所述分割图数据由第二分割图像编码得到,所述第二分割图像的像素点的像素值满足:
其中,L为所述第二分割图像的像素点的像素值,N为所述分割图像素类别数量,0≤i≤N-1,表示向下取整。
14.根据权利要求13中所述的装置,其特征在于,所述第二分割图像由第一分割编码图像映射得到。
15.一种编码装置,包括至少一个处理器和存储器,其特征在于,所述至少一个处理器执行存储在存储器中的程序或指令,以使得所述编码装置实现上述权利要求1至3中任一项所述的方法。
16.一种解码装置,包括至少一个处理器和存储器,其特征在于,所述至少一个处理器执行存储在存储器中的程序或指令,以使得所述解码装置实现上述权利要求4至7中任一项所述的方法。
17.一种计算机可读存储介质,用于存储计算机程序,其特征在于,当所述计算机程序在计算机或处理器运行时,使得所述计算机或所述处理器实现上述权利要求1至7中任一项所述的方法。
18.一种计算机程序产品,所述计算机程序产品中包含指令,其特征在于,当所述指令在计算机或处理器上运行时,使得所述计算机或所述处理器实现上述权利要求1至7中任一项所述的方法。
19.一种芯片,包括至少一个处理器和存储器,其特征在于,所述至少一个处理器执行存储在存储器中的程序或指令,以使得所述芯片实现上述权利要求1至7中任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410622443.8A CN119946292A (zh) | 2023-11-03 | 2023-11-03 | 编解码方法和装置 |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410622443.8A CN119946292A (zh) | 2023-11-03 | 2023-11-03 | 编解码方法和装置 |
| CN202311468726.3A CN119946291A (zh) | 2023-11-03 | 2023-11-03 | 编解码方法和装置 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311468726.3A Division CN119946291A (zh) | 2023-11-03 | 2023-11-03 | 编解码方法和装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN119946292A true CN119946292A (zh) | 2025-05-06 |
Family
ID=95545681
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410622443.8A Pending CN119946292A (zh) | 2023-11-03 | 2023-11-03 | 编解码方法和装置 |
| CN202311468726.3A Pending CN119946291A (zh) | 2023-11-03 | 2023-11-03 | 编解码方法和装置 |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311468726.3A Pending CN119946291A (zh) | 2023-11-03 | 2023-11-03 | 编解码方法和装置 |
Country Status (2)
| Country | Link |
|---|---|
| CN (2) | CN119946292A (zh) |
| WO (1) | WO2025091872A1 (zh) |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110169067A (zh) * | 2016-12-16 | 2019-08-23 | 夏普株式会社 | 图像解码装置以及图像编码装置 |
| CN110225341A (zh) * | 2019-06-03 | 2019-09-10 | 中国科学技术大学 | 一种任务驱动的码流结构化图像编码方法 |
| EP3633990A1 (en) * | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | An apparatus, a method and a computer program for running a neural network |
| CN111901603A (zh) * | 2020-07-28 | 2020-11-06 | 上海工程技术大学 | 一种用于静态背景视频的编码方法及解码方法 |
| WO2020224476A1 (zh) * | 2019-05-04 | 2020-11-12 | 华为技术有限公司 | 一种图像划分方法、装置及设备 |
| US20220159304A1 (en) * | 2019-08-28 | 2022-05-19 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
| CN116208767A (zh) * | 2018-09-03 | 2023-06-02 | 华为技术有限公司 | 一种对码流进行解码的方法、装置以及存储码流的设备 |
| CN116711308A (zh) * | 2021-01-25 | 2023-09-05 | Oppo广东移动通信有限公司 | 视频编解码以及模型训练方法与装置 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119815036A (zh) * | 2019-08-09 | 2025-04-11 | 现代自动车株式会社 | 用于利用子图像分区来编码和解码视频的方法和装置 |
| CN114125446B (zh) * | 2020-06-22 | 2025-07-22 | 华为技术有限公司 | 图像编码方法、解码方法和装置 |
| CN116800984A (zh) * | 2022-03-15 | 2023-09-22 | 华为技术有限公司 | 编解码方法和装置 |
-
2023
- 2023-11-03 CN CN202410622443.8A patent/CN119946292A/zh active Pending
- 2023-11-03 CN CN202311468726.3A patent/CN119946291A/zh active Pending
-
2024
- 2024-05-23 WO PCT/CN2024/094941 patent/WO2025091872A1/zh active Pending
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110169067A (zh) * | 2016-12-16 | 2019-08-23 | 夏普株式会社 | 图像解码装置以及图像编码装置 |
| CN116208767A (zh) * | 2018-09-03 | 2023-06-02 | 华为技术有限公司 | 一种对码流进行解码的方法、装置以及存储码流的设备 |
| EP3633990A1 (en) * | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | An apparatus, a method and a computer program for running a neural network |
| WO2020224476A1 (zh) * | 2019-05-04 | 2020-11-12 | 华为技术有限公司 | 一种图像划分方法、装置及设备 |
| CN110225341A (zh) * | 2019-06-03 | 2019-09-10 | 中国科学技术大学 | 一种任务驱动的码流结构化图像编码方法 |
| US20220159304A1 (en) * | 2019-08-28 | 2022-05-19 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
| CN111901603A (zh) * | 2020-07-28 | 2020-11-06 | 上海工程技术大学 | 一种用于静态背景视频的编码方法及解码方法 |
| CN116711308A (zh) * | 2021-01-25 | 2023-09-05 | Oppo广东移动通信有限公司 | 视频编解码以及模型训练方法与装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN119946291A (zh) | 2025-05-06 |
| WO2025091872A1 (zh) | 2025-05-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102616714B1 (ko) | 광학 흐름 정제를 위한 조기 종료 | |
| KR102746971B1 (ko) | 인터 예측을 위한 인코더, 디코더 및 대응하는 방법 | |
| KR102767916B1 (ko) | 서브블록 병합 후보를 위한 개별적인 병합 목록 및 비디오 코딩을 위한 인트라-인터 기술 조화 | |
| JP7592968B2 (ja) | エンコーダ、デコーダ、および対応するブロック解除フィルタ適応の方法 | |
| CN114450958B (zh) | 用于减小增强插值滤波器的内存带宽的仿射运动模型限制 | |
| KR102806123B1 (ko) | 인트라 스무딩을 위한 방법 및 장치 | |
| CN112673640A (zh) | 使用调色板译码的编码器、解码器和相应方法 | |
| JP7640647B2 (ja) | 双予測のオプティカルフロー計算および双予測補正におけるブロックレベル境界サンプル勾配計算のための整数グリッド参照サンプルの位置を計算するための方法 | |
| CN115349257B (zh) | 基于dct的内插滤波器的使用 | |
| WO2021045657A9 (en) | Motion vector range derivation for enhanced interpolation filter | |
| CN114286100A (zh) | 帧间预测方法及装置 | |
| CN115883831A (zh) | 编解码方法和装置 | |
| CN118042136A (zh) | 编解码方法和装置 | |
| WO2023160470A1 (zh) | 编解码方法和装置 | |
| CN119946292A (zh) | 编解码方法和装置 | |
| CN120151528A (zh) | 一种编解码方法及装置 | |
| CN120378625A (zh) | 一种解码方法及装置 | |
| CN120378615A (zh) | 一种编解码方法及装置 | |
| CN120302034A (zh) | 一种图像处理方法及装置 | |
| CN120378624A (zh) | 一种位流处理方法及装置 | |
| CN120302051A (zh) | 一种编解码方法及装置 | |
| CN120201202A (zh) | 一种解码方法及装置 | |
| CN118646900A (zh) | 编解码方法和装置 | |
| CN116647683A (zh) | 量化处理方法和装置 | |
| CN119865609A (zh) | 图像编解码方法和装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |