CN110603809A

CN110603809A - 用于视频编码或解码的设备和方法

Info

Publication number: CN110603809A
Application number: CN201880028688.0A
Authority: CN
Inventors: 林晶娟; 孙世勋; 李善英; 申在燮
Original assignee: SK Telecom Co Ltd
Current assignee: SK Telecom Co Ltd
Priority date: 2017-03-03
Filing date: 2018-03-02
Publication date: 2019-12-20
Anticipated expiration: 2038-03-02
Also published as: KR20180101123A; US20190394487A1; CN110603809B; US10951916B2; KR102390413B1

Abstract

本公开涉及用于将图片分成多个图块以高效地编码视频的视频编码或解码。在本公开的一个方面，一种用于对分割成多个图块的图片进行编码的视频编码方法包括以下步骤：对指示是否合并多个图块中的一些图块的第一信息进行编码；当第一信息被编码以指示图块合并时，通过合并多个图块中的一些图块来生成一个或多个合并图块，每个合并图块被定义为一个图块；对指示多个图块当中合并到合并图块中的每一个的图块的第二信息进行编码；以及将合并图块中的每一个编码为一个图块，而对合并到每个合并图块的图块之间的编码依赖性没有限制。

Description

用于视频编码或解码的设备和方法

技术领域

本公开涉及用于将图片分割成多个图块以便高效地编码视频的视频编码或解码。

背景技术

本节中的陈述仅提供与本公开相关的背景信息，并且可能不构成现有技术。

最近，视频大小、分辨率和帧速率逐渐增加，并且除了由相机产生的现有2D自然图像之外，对诸如游戏或360度视频(下文中称为“360°视频”)之类的视频内容的需求也在增加。

360°视频是使用多个相机在各个方向上捕获的图像。为了压缩和发送各种场景的视频，将从多个相机输出的图像拼接成一个2D图像。经拼接的图像被压缩并被发送到解码设备。解码设备对经压缩的图像进行解码，然后将经解码的图像映射到3D空间以再现图像。可以根据编码格式将360°视频转换为各种投影格式以进行编码。投影格式的示例包括矩形球面投影(Equirectangular Projection)、立方体图投影(Cube Map Projection)、和截正方棱锥投影(Truncated Square Pyramid Projection)。

在360°视频的情况下，屏幕上显示的图像必须根据用户视角的变化而改变，因此根据基于2D视频的传统压缩技术存在提高编码效率的限制。为了提高360°视频的视频编码和解码效率，视频需要通过根据用户的视角设置360°视频的投影视频中的感兴趣区域(ROI)并对ROI的图像质量和其它区域的图像质量进行区分来进行编码和解码。为此，需要能够将图片分割成多个区域并且独立地编码和解码每个区域的结构(例如，图块结构)。然而，根据传统压缩技术的图像分割结构不够灵活以设置ROI。

发明内容

技术问题

因此，鉴于上述问题提出了本公开，并且本发明的一个目的是提供一种用于视频编码和解码的方法和设备，其能够解决在图块边界处的间隔问题，从而提高编码效率。

技术方案

根据本公开的一个方面，提供了一种用于对被分割成多个图块的图片进行编码的视频编码方法，该方法包括以下步骤：编码指示是否合并多个图块中的一些的第一信息；当第一信息被编码为指示图块合并时，通过合并多个图块中的一些来生成一个或更多个合并图块，合并图块中的每一个被定义为一个图块；编码指示多个图块当中的合并到每一个合并图块中的图块的第二信息；以及将合并图块中的每一个编码为一个图块，而不限制合并到每个合并图块中的图块之间的编码依赖性。

根据本公开的另一方面，提供了一种用于对被分割成多个图块的图片进行解码的视频解码方法，该方法包括以下步骤：从比特流中解码指示是否合并多个图块中的一些的第一信息；当解码出的第一信息指示图块合并时，从比特流中解码指示多个图块当中的要被合并的图块的第二信息；以及通过合并由第二信息指示的图块生成一个或更多个合并图块，合并图块中的每一个被定义为一个图块；以及将合并图块中的每一个解码为一个图块，而不限制合并到每个合并图块中的图块之间的解码依赖性。

附图说明

图1是被分割成多个图块并被编码的图片的示例图。

图2是被分割成多个图块并被编码的图片的另一示例图。

图3是根据本公开的实施方式的视频编码设备的框图。

图4是示出根据本公开的实施方式的视频编码设备的操作的流程图。

图5是在包括多个图块的图片上标记图块的标识信息的示例图，多个图块当中的一些图块被合并。

图6是在包括多个图块的图片上标记图块的位置信息的示例图，多个图块当中的一些图块被合并。

图7是在包括多个图块的图片上标记关于每个图块是否被合并的信息的示例图，多个图块当中的一些图块被合并。

图8是在包括多个合并图块的图片上标记图块的标识信息的示例图。

图9是在包括多个合并图块的图片上标记图块的位置信息的示例图。

图10是在包括多个合并图块的图片上标记关于每个图块是否被合并的信息和合并图块的索引的示例图。

图11是在包括多个合并图块的图片上标记关于每个图块是否被合并的信息和合并图块的索引的另一示例性图。

图12a、图12b和图12c示出了用于360°视频的投影格式的示例性合并图块场景。

图13是根据本公开的实施方式的视频解码设备的框图。

图14是示出根据本公开的实施方式的视频解码设备的操作的流程图。

具体实施方式

在下文中，将参照附图详细描述本发明的一些实施方式。应当注意，在将附图标记添加到各个附图中的组成元件时，尽管这些元件在不同的附图中示出，但相同的附图标记表示相同的元件。此外，在以下对本发明的描述中，当本文中并入的已知功能和配置可能使本发明的主题相当不清楚时，将省略对其的详细描述。

图1是被分割成多个图块并被编码的图片的示例图。

图2是被分割成多个图块并被编码的图片的另一示例图。

在高效视频编码(HEVC)标准中，图片可以被分割成作为矩形区域的多个图块。图片可以被分割成一列或更多列的图块、被分割成一行或更多行的图块、或者被分割成一列或更多列以及一行或更多行的图块。可以将图片均匀地分割为相同大小的图块，或者可以基于行和列的长度将图片分割成不同大小的图块。然而，各行应具有相同数量的图块，并且各列应具有相同数量的图块。

当图片被分割成多个图块时，每个图块可以独立于其它图块被编码和解码。这里，独立意味着可以与其它图块的编码和解码处理无关地执行每个图块的所有编码和解码处理，这包括帧内预测、帧间预测、变换、量化、熵和滤波。然而，这并不意味着对每个图块完全独立地执行所有编码和解码处理。在帧间预测或环路滤波中，可以使用关于其它图块的信息来选择性地编码和解码图块。

表1中显示了图块的高级语法的示例。

[表1]

pic_parameter_set_rbsp(){
	…
tiles_enabled_flag
	…
if(tiles_enabled_flag){
	num_tile_columns_minus1
num_tile_rows_minus1
	uniform_spacing_flag
if(！uniform_spacing_flag){
	for(i＝0；i＜num_tile_columns_minus1；i++)
column_width_minus1[i]
	for(i＝0；i＜num_tile_rows_minus1；i++)
row_height_minus1[i]
	}
loop_filter_across_tiles_enabled_flag
	}

表1示出了作为指示图片参数集(PPS)中的图块功能的On(开)/Off(关)状态的标志的tiles_enabled_flag，以及用于在标志被设置为On状态时指定图块的大小的多个语法。该表还示出了具有通过从图片垂直分割的图块数减去1而获得的值的num_tile_columns_minus1、具有通过从图片水平分割的图块数减去1而获得的值的num_tile_rows_minus1、以及作为指示图像在水平轴和垂直轴上均匀分割成图块的标志的uniform_spacing_flag。当图片未在水平轴和垂直轴上均匀分割时(uniform_spacing_flag＝off)，附加地发送基于水平轴的关于每个图块的宽度信息(column_width_minus1)和基于垂直轴的关于每个图块的高度信息(row_height_minus1)。最后，发送指示是否在图块之间的边界区域中执行环路滤波器的标志(loop_filter_across_tiles_enabled_flag)。图1示出了当uniform_spacing_flag被设置为On时被分割成相同大小的块的示例图。图2示出了当uniform_spacing_flag被设置为Off时被分割成不同大小的块的示例图。

当设置ROI时，这种传统的图块结构在根据各个区域的特性处理ROI和ROI外部的区域方面具有限制。应该以比其它区域更高的图像质量来编码ROI。然而，当ROI被分割成多个图块时，由于图块边界处的间隔等，图像质量可能劣化。因此，ROI优选地被设置为一个图块而不是被分成多个图块。除了ROI之外的区域优选地被设置为具有小尺寸的多个图块，以便即使图像质量稍微降低也可以根据视角的变化灵活地处理。

在本公开中，定义了不规则图案的图块结构。因此，与传统的图块结构(其中图片的每一行应具有相同数量的图块并且每列应具有相同数量的图块)不同，可以灵活地配置图块。因此，本公开中提出的用于视频编码和解码的方法和设备可以解决ROI内的图块边界处的间隔问题并提高编码效率。

如本文所使用的，术语“图块”表示来自图片的分割区域。图块可以用作用于独立地编码和解码每个区域的工具(但是图块可以在帧间预测或环路滤波中选择性地具有依赖性)。在除了帧间预测和环路滤波之外的诸如帧内预测之类的编码处理中，“图块”与其它图块之间的依赖性受到限制。在本公开中，术语“图块”可以用具有相同含义的其它术语(例如，区、区域)代替。

图3是根据本公开的实施方式的视频编码设备的框图。

编码设备包括块分割器310、预测器320、减法器330、变换器340、量化器345、编码器350、逆量化器360、逆变换器365、加法器370、滤波器单元380和存储器390。编码设备的每个元件可以实现为硬件芯片，或者可以实现为软件，并且微处理器可以被实现为执行与各个元件相对应的软件的功能。

块分割器310将构成视频的每个图片分割为多个图块。然后，块分割器310将每个图块分割成多个编码树单元(CTU)，然后使用树结构来递归地分割CTU。在树结构中，叶节点是作为编码的基本单位的编码单元(CU)。将一节点分为四个子节点的四叉树(QT)结构，或将QT结构和将一节点分为两个子节点的二叉树(BT)结构相结合的四叉树加二叉树(QTBT)结构，可以用作树结构。

在本公开中，块分割器310通过将图片分割成多个图块并合并一些图块以生成一个或更多个合并图块来定义不规则或灵活的图块结构。每个合并图块被定义为一个图块。稍后将参照其它附图描述细节。

预测器320通过预测当前块来生成预测块。预测器320包括帧内预测器322和帧间预测器324。这里，作为与树结构中的叶节点相对应的编码的基本单位的当前块是指当前要编码的CU。另选地，当前块可以是CU被分割成的多个子块之一。

帧内预测器322使用位于包括当前块的当前图片中的当前块周围的像素(参考样本)来预测当前块中的像素。根据预测方向存在多种帧内预测模式，并且根据每种预测模式不同地定义要使用的相邻像素和计算公式。

帧间预测器324在比当前图片更早地编码和解码的参考图片中搜索与当前块最相似的块，并使用搜索到的块来针对当前块生成预测块。然后，帧间预测器生成与当前图片中的当前块和参考图片中的预测块之间的位移相对应的运动矢量。包括关于用于预测当前块的参考图片的信息和关于运动矢量的信息的运动信息由编码器350编码，并且被发送到视频解码设备。

减法器330从当前块中减去由帧内预测器322或帧间预测器324生成的预测块，以生成残差块。

变换器340将在空间域中具有像素值的残差块中的残差信号变换为频域中的变换系数。变换器340可以通过使用当前块的大小作为变换单位来变换残差块中的残差信号，或者可以将残差块分割为多个更小的子块，并以与子块的大小相对应的变换单位来变换残差信号。可能有各种方法将残差块分成更小的子块。例如，可以将残差块分割成相同的预定义大小的子块，或者可以以将残差块作为根节点的四叉树(QT)的方式进行分割。

量化器345对从变换器340输出的变换系数进行量化，并且将经量化的变换系数输出到编码器350。

编码器350使用诸如CABAC之类的编码方案来对经量化的变换系数进行编码以生成比特流。编码器350对用于通过将图片被分割成的图块中的一些图块合并来定义不规则或灵活的图块结构的合并信息进行编码，从而允许视频解码设备定义与视频编码设备相同的图块结构。合并信息包括指示是否合并多个图块中的一些图块的第一信息和指示多个图块当中将要合并到每个合并图块中的图块的第二信息。指示合并图块的数量的第三信息可以进一步包括在合并信息中。与合并信息有关的语法元素可以被配置在序列参数集(SPS)、图片参数集(PPS)、补充增强信息(SEI)和条带报头中的一个或更多个中的预定位置处。

编码器350对与位于树结构的最上层的CTU的大小有关的信息以及用于从树结构的CTU进行块分割的分割信息进行编码，使得视频解码设备可以按照与视频编码设备相同的方式分割块。例如，在QT分割的情况下，对指示是否将上层的块分割为下层的四个块的QT分割信息进行编码。在BT分割的情况下，编码器对从与QT的叶节点相对应的块开始的指示每个块是否被分割为两个块并指示分割类型的BT分割信息进行编码。

编码器350对关于指示当前块是通过帧内预测还是帧间预测进行编码的预测类型的信息进行编码，并且根据预测类型对帧内预测信息或帧间预测信息进行编码。

逆量化器360对从量化器345输出的经量化的变换系数进行逆量化以生成变换系数。逆变换器365将从逆量化器360输出的变换系数从频域变换到空间域以重构残差块。

加法器370将重构的残差块与由预测器320生成的预测块相加以重构当前块。在按顺序执行下一块的帧内预测时，将重构的当前块中的像素用作参考样本。

滤波单元380对重构的块之间的边界进行去块滤波，以便去除由逐块编码/解码引起的块伪像，并将块存储在存储器390中。当重构一个图片中的所有块时，将重构的图片用作参考图片，以对要编码的后续图片中的块进行帧间预测。

在下文中，将详细描述用于通过合并多个图块中的一些图块来生成一个或更多个合并图块来定义不规则或灵活的图块结构的视频编码方法。

图4是示出用于对被分割为多个图块的图片进行编码的视频编码设备的操作的流程图。

视频编码设备对指示是否合并多个图块中的一些图块的第一信息进行编码(S410)。例如，作为第一信息，可以使用指示是否合并图块的标志merge_tile_enabled_flag。当合并一些图块时，可以将标志merge_tile_enabled_flag编码为具有指示On。当不存在要合并的图块时，可以将标志merge_tile_enabled_flag编码为具有指示Off。

当指示是否合并图块的第一信息被编码以指示图块的合并时，视频编码设备通过合并多个图块中的一些图块来生成一个或更多个合并图块(S420)。将每个生成的合并图块定义为一个图块。换句话说，将要合并到每个合并图块中的图块不是在保持其在合并之前的特性的同时进行简单地分组，而是被合并到单个图块中。例如，可以以消除对合并到每个合并图块中的图块之间的编码依赖性的限制的方式来执行合并。

在生成一个或更多个合并图块之后，视频编码设备对指示多个图块当中被合并到每个合并图块中的图块的第二信息进行编码(S430)。针对每个合并图块，第二信息可以包括：i)合并到每个合并图块中的图块当中的起始图块和结束图块的标识信息，ii)关于合并到每个合并图块中的图块当中的起始图块和结束图块的位置信息，或iii)指示是否将多个图块中的每一个合并的信息。第二信息可以包括：iv)关于图块合并到的一个或更多个合并图块中的每一个的索引信息。稍后将参照其它附图来描述第二信息的具体示例。

视频编码设备可以另外对指示所生成的一个或更多个合并图块的数量的第三信息进行编码。

视频编码设备将每个合并图块编码为一个图块，而没有对合并到每个合并图块中的图块之间的编码依赖性的限制(S440)。在此，编码依赖性可以包括合并到每个合并图块中的图块之间的帧内预测依赖性。也就是说，消除了合并到相同合并图块中的图块之间的帧内预测依赖性的限制。

在下文中，将参照图5至图12描述用于合并图块的示例性语法元素。

实施方式#1

图5是在包括其中一些图块被合并的多个图块的图片上标记图块的标识信息的示例图。

图5示出了将图片分成相同大小的16个图块，并且将0到15的图块索引分配给各个图块作为标识信息的情况。在这种情况下，将图块5、图块6、图块9和图块10合并以生成一个合并图块。

在该实施方式中，视频编码设备将指示为On的merge_tile_enabled_flag编码为指示多个图块中的一些图块应当被合并的第一信息。设备将要合并的图块当中的起始图块和结束图块的标识信息编码为指示被合并到合并图块中的图块的第二信息。当存在多个合并图块时，针对合并图块中的每一个，对起始图块和结束图块的标识信息进行编码。

左上图块的标识符topleft_tile_id可以被编码为合并到合并图块中的图块当中的起始图块的标识信息，并且右下图块的标识符bottomright_tile_id可以被编码为结束图块的标识信息。在图5的示例中，标识被编码为topleft_tile_id＝5，bottomright_tile_id＝10。然而，这仅是示例，并且可以使用可以定义起始图块和结束图块的各种语法元素。例如，在要合并的图块当中，右上图块的标识符可以用作起始图块的图块标识信息，并且左下图块的标识符可以用作结束图块的标识信息。

表2示出了根据该实施方式的语法元素的示例。

[表2]

pic_parameter_set_rbsp(){
	…
tiles_enabled_flag
	…
if(tiles_enabled_flag){
	num_tile_columns_minus1
num_tile_rows_minus1
	uniform_spacing_flag
if(！uniform_spacing_flag){
	for(i＝0；i＜num_tile_columns_minus1；i++)
column_width_minus1[i]
	for(i＝0；i＜num_tile_rows_minus1；i++)
row_height_minus1[i]
	}
merge_tile_enabled_flag
	if(merge_tile_enabled_flag){
topleft_tile_id
	bottomright_tile_id
}
	loop_filter_across_tiles_enabled_flag
}

实施方式#2

图6是在包括其中一些图块被合并的多个图块的图片上标记图块的位置信息的示例图。

在图6的示例中，将图片分成与图5的情况相同大小的16个图块，并且将图片中央的图块合并为一个合并图块。该图代替图块的标识信息示出了关于图块的位置信息。例如，关于图块的位置信息可以由基于图块的行和列的坐标(u，v)来表示。当顶行的位置被设置为0(u＝0)并且最左列的位置被设置为0(v＝0)时，可以如图5所示依次呈现图块的坐标。

在该实施方式中，视频编码设备将指示为On的merge_tile_enabled_flag编码为指示多个图块中的一些图块应当被合并的第一信息。设备将要合并的图块当中的起始图块的标识和关于结束图块的位置信息编码为指示合并到合并图块中的图块的第二信息。当存在多个合并图块时，针对每个合并图块，对起始图块的标识和关于结束图块的位置信息进行编码。

关于左上图块的位置信息(u_start_pos和v_start_pos)可以被编码为关于要合并成合并图块的图块当中的起始图块的位置信息，并且右下图块的位置信息(u_end_pos和v_end_pos)可被编码为关于结束图块的位置信息。在图6的示例中，位置信息被编码为u_start_pos＝1、v_start_pos＝1、u_end_pos＝2、v_end_pos＝2。然而，这仅是示例，并且可以使用可以定义起始图块和结束图块的各种语法元素。例如，在要合并的图块当中，关于右上图块的位置信息可以用作关于起始图块的位置信息，并且关于左下图块的位置信息可以用作关于结束图块的位置信息。

表3示出了根据该实施方式的语法元素的示例。

[表3]

pic_parameter_set_rbsp(){
	…
tiles_enabled_flag
	…
if(tiles_enabled_flag){
	num_tile_columns_minns1
num_tile_rows_minus1
	uniform_spacing_flag
if(！uniform_spacing_flag){
	for(i＝0；i＜num_tile_columns_minus1；i++)
column_width_minus1[i]
	for(i＝0；i＜num_tile_rows_minus1；i++)
row_height_minus1[i]
	}
merge_tile_enabled_flag
	if(merge_tile_enabled_flag){
u_start_pos
	v_start_pos
u_end_pos
	v_end_pos
}
	loop_filter_across_tiles_enabled_flag
}

语法元素u_start_pos、v_start_pos、u_end_pos、v_end_pos的顺序不一定按表3所示设置，而是可以根据需要更改。

实施方式#3

图7是在包括其中一些图块被合并的多个图块的图片上标记关于每个图块是否被合并的信息的示例图。

在图7的示例中，将图片分割成与图5和图6的情况相同大小的16个图块，并且将图片中央的图块合并为一个合并图块。另外，针对图片被分割成的图块中的每一个示出了指示图块是否被合并为合并图块的信息。

在该实施方式中，视频编码设备将指示为On的merge_tile_enabled_flag编码为指示多个图块中的一些图块应当被合并的第一信息。设备将指示图块是否被合并到合并图块中的关于每个图块的信息编码为指示将要合并到合并图块中的图块的第二信息。也就是说，在该实施方式中，对与图片被分割成的图块的数量一样多的第二信息进行编码。

Merge_flag可以用作指示每个图块是否被合并的信息。Merge_flag在指示图块被合并时被编码为1，而在不指示图块被合并时被编码为0。在图6的示例中，merge_flag被编码为值0000 0110 0110 0000。

表4示出了根据该实施方式的语法元素的示例。

[表4]

pic_parameter_set_rbsp(){
	…
tiles_enabled_flag
	…
if(tiles_enabled_flag){
	num_tile_columns_minus1
num_tile_rows_minus1
	uniform_spacing_flag
if(！uniform_spacing_flag){
	for(i＝0；i＜num_tile_columns_minus1；i++)
column_width_minus1[i]
	for(i＝0；i＜num_tile_rows_minus1；i++)
row_height_minus1[i]
	}
merge_tile_enabled_flag
	if(merge_tile_enabled_flag){
for(i＝0；i＜(num_tile_columns_minus1+1)x(num_tile_rows_minus1+1)；i++)
	merge_flag[i]
}
	loop_filter_across_tiles_enabled_flag
}

实施方式#4

图8是在包括多个合并图块的图片上标记图块的标识信息的示例图。与实施方式#1(参见图5)不同，在该实施方式中生成多个合并图块。

图8示出了将图片分成相同大小的16个图块，并且将0到15的图块索引分配给各个图块作为标识信息的情况。在这种情况下，通过合并图块0、1、4和5生成第一合并图块，并且通过合并图块10、11、14和15生成第二合并图块。

在该实施方式中，视频编码设备将指示为On的merge_tile_enabled_flag编码为指示多个图块中的一些图块应当被合并的第一信息。设备将每个合并图块的起始图块和结束图块的标识信息编码为指示将被合并到相应合并图块中的图块的第二信息。也就是说，起始图块和结束图块的标识信息被编码成与图片中的合并图块的数量一样多。该实施方式的视频编码设备可以附加地对指示一个或更多个生成的合并图块的数量的第三信息num_merge_tile_minus1进行编码。

左上图块的标识符topleft_tile_id可以被编码为要被合并到每个合并图块中的图块当中的起始图块的标识信息，并且右下图块的标识符bottomright_tile_id可以被编码为每个合并图块的结束图块的标识信息。在图8的示例中，标识信息被编码为num_merge_tile_minus1＝1、{第一合并图块：topleft_tile_id＝0，bottomright_tile_id＝5}、以及{第二合并图块：topleft_tile_id＝10，bottomright_tile_id＝15}。然而，这仅是示例，并且可以使用可以定义起始图块和结束图块的各种语法元素。例如，在要合并的图块当中，右上图块的标识符可以用作起始图块的标识信息，而左下图块的标识符可以用作结束图块的标识信息。

表5示出了根据该实施方式的语法元素的示例。

[表5]

pic_parameter_set_rbsp(){
	…
tiles_enabled_flag
	…
if(tiles_enabled_flag){
	num_tile_columns_minus1
num_tile_rows_minus1
	uniform_spacing_flag
if(！uniform_spacing_flag){
	for(i＝0；i＜num_tile_columns_minus1；i++)
column_width_minus1[i]
	for(i＝0；i＜num_tile_rows_minus1；i++)
row_height_minus1[i]
	}
merge_tile_enabled_flag
	if(merge_tile_enabled_flag){
num_merge_tile_minus1
	for(i＝0；i＜(num_merge_tile_minus1+1)；i++){
topleft_tile_id[i]
	bottomright_tile_id[i]
}
	}
loop_filter_across_tiles_enabled_nag
	}

实施方式#5

图9示出了从被分成16个相同大小的图块的图片生成两个合并图块的情况，并且示出了关于每个图块的位置信息。例如，关于图块的位置信息可以由基于图块的行和列的坐标(u，v)来表示。当顶行的位置被设置为0(u＝0)并且最左列的位置被设置为0(v＝0)时，可以如图9所示依次呈现图块的坐标。在这种情况下，通过合并位置(1，0)的图块和位置(2，0)的图块来生成第一合并图块，并且通过合并位置(2，2)、(2，3)、(3，2)和(3，3)的图块生成第二合并图块。

在该实施方式中，视频编码设备将指示为On的merge_tile_enabled_flag编码为指示多个图块中的一些图块应当被合并的第一信息。设备将要合并的图块当中的起始图块的标识和关于结束图块的位置信息编码为指示合并到每个合并图块中的图块的第二信息。也就是说，对与合并图块的数量一样多的关于起始图块和结束图块的位置信息进行编码。该实施方式的视频编码设备附加地对指示一个或更多个生成的合并图块的数量的第三信息num_merge_tile_minus1进行编码。

关于左上图块的位置信息(u_start_pos和v_start_pos)可以被编码为关于合并到每个合并图块中的图块当中的起始图块的位置信息，并且右下图块的位置信息(u_end_pos和v_end_pos)可以被编码为关于结束图块的位置信息。在图9的示例中，位置信息被编码为num_merge_tile_minus1＝1、{第一合并图块：u_start_pos＝0，v_start_pos＝1，u_end_pos＝0，v_end_pos＝2}和{第二合并图块：u_start_pos＝2，v_start_pos＝2，u_end_pos＝3，v_end_pos＝3}。然而，这仅是示例，并且可以使用可以定义起始图块和结束图块的各种语法元素。例如，在要合并的图块当中，关于右上图块的位置信息可以用作关于起始图块的位置信息，并且关于左下图块的位置信息可以用作结束图块的位置信息。

表6示出了根据该实施方式的语法元素的示例。

[表6]

pic_parameter_set_rbsp(){
	…
tiles_enabled_flag
	…
if(tiles_enabled_flag){
	num_tile_columns_minus1
num_tile_rows_minus1
	uniform_spacing_flag
if(！uniform_spacing_flag){
	for(i＝0；i＜num_tile_columns_minus1；i++)
column_width_minus1[i]
	for(i＝0；i＜num_tile_rows_minus1；i++)
row_height_minus1[i]
	}
merge_tile_enabled_flag
	if(merge_tile_enabled_flag){
num_merge_tile_minus1
	for(i＝0；i＜(num_merge_tile_minus1+1)；i++){
u_start_pos[i]
	v_start_pos[i]
u_end_pos[i]
	v_end_pos[i]
}
	}
loop_filter_across_tiles_enabled_flag
	}

实施方式#6-1

图10是在包括多个合并图块的图片上标记关于每个图块是否被合并以及合并图块的索引的信息的示例图。

在图10的示例中，从被分成16个相同大小的图块的图片生成两个合并图块。另外，i)针对图片被分割成的图块中的每一个示出了指示图块是否合并到合并图块中的信息，并且ii)图中示出了要合并的图块所属的一个或更多个合并图块中的每一个的索引。

在该实施方式中，视频编码设备将指示为On的merge_tile_enabled_flag编码为指示多个图块中的一些图块应当被合并的第一信息。设备将与指示每个图块是否合并到合并图块中的关于每个图块的信息编码为指示合并到合并图块中的图块的第二信息。也就是说，在该实施方式中，对与图片被分割为的图块的数量一样多的第二信息进行编码。该实施方式的视频编码设备可以附加地对指示一个或更多个生成的合并图块的数量的第三信息num_merge_tile_minus1进行编码。

Merge_flag可以用作指示每个图块是否被合并的信息。Merge_flag在指示图块被合并时被编码为1，而在不指示图块被合并时被编码为0。

另外，对于多个图块当中被合并的图块(merge_flag＝1的图块)，视频编码设备对一个或更多个合并图块当中的图块所属的合并图块的索引merge_idx进行编码。例如，可以以截断一元码(TU)的方式对合并图块的图块索引merge_idx进行编码，该方式将图片中的合并图块的数量作为最大值。在以TU方式进行的编码中，当合并图块的数量为2时，将‘0’和‘1’用作merge_idx的值，而当合并图块的数量为3时，将‘0’、‘10’和‘11’用作merge_idx的值。

在图10的示例中，num_merge_tile_minus1＝1，并且merge_flag(merge_idx)被编码为01(0)1(0)0 01(1)1(1)0 01(1)1(1)0 0000。

表7示出了根据该实施方式的语法元素的示例。

[表7]

pic_parameter_set_rbsp(){
	…
tiles_enabled_flag
	…
if(tiles_enabled_flag){
	num_tile_columns_minus1
num_tile_rows_minus1
	uniform_spacing_flag
if(！uniform_spacing_flag){
	for(i＝0；i＜num_tile_columns_minusl；i++)
column_width_minus1[i]
	for(i＝0；i＜num_tile_rows_minus1；i++)
row_height_minus1[i]
	}
merge_tile_enabled_flag
	if(merge_tile_enabled_flag){
num_merge_tile_minus1
	for(i＝0；i＜(num_tile_columns_minus1+1)x(num_tile_rows_minus1+1)；i++){
merge_flag[i]
	if(merge_flag[i])
merge_idx[i]
	}
}
	loop_filter_across_tiles_enabled_flag
}

实施方式#6-2

图11是在包括多个合并图块的图片上标记关于每个图块是否被合并以及合并图块的索引的信息的另一示例图。

与实施方式#6-1中的表7不同，merge_idx可以在不对合并图块的数量(num_merge_tile_minus1)进行编码的情况下以一元方式编码(即，不向视频解码设备发信号)。例如，当合并图块的数量为2时，将‘0’和‘10’用作merge_idx的值，而当合并图块的数量是3时，将‘0’、‘10’和‘110’用作merge_idx的值。

根据该实施方式，当定义如图10所示的图块结构时，并且merge_flag(merge_idx)被编码为值01(0)1(0)0 01(10)1(10)0 01(10)1(10)0 0000。

以上描述的本公开的实施方式甚至可以应用于360°视频。针对360°视频，考虑到编码效率，可以以高图像质量来处理与用户视角相对应的区域，而可以以低图像质量来编码其它区域。在这种编码的情况下，本公开中提出的合并图块可以消除在用户观看的区域中的图块之间的感测差异。

图12a、12b和12c示出了用于360°视频的投影格式的示例性合并图块方案。具体地，图12a示出了将合并图块应用于矩形球面投影格式的示例。图12b示出了将合并图块应用于立方体图投影格式的示例。图12c示出了将合并图块应用于截正方棱锥投影格式的示例。

在每个图中，最右边的部分示出了根据该图的最左边和中间部分的投影格式将360°视频转换为2D视频的示例。在最右边的部分中，阴影部分表示用户视角所在的区域，可以定义为合并图块(即，一个图块)，并且以高图像质量进行编码，并且其它区域可能会分成多个图块并以低图像质量进行编码。

在下文中，将参照图13和图14描述根据本发明的实施方式的视频解码设备和方法。

图13是根据本公开的实施方式的视频解码设备的框图。

视频解码设备包括解码器1310、逆量化单元1320、逆变换器1330、预测器1340、加法器1350、滤波器单元1360和存储器1370。图15所示的组件可以被实现为硬件芯片，或者可以被实现为软件，并且微处理器可以被实现为执行与各个元件相对应的软件的功能。

解码器1310通过解码比特流并提取与图块结构有关的信息，将图片划分为多个图块。具体地，解码器1310通过从比特流中编码用于合并图片被分割成的多个图块中的一些图块的合并信息来定义不规则或灵活的图块结构。可以从序列参数集(SPS)、图片参数集(PPS)、补充增强信息(SEI)或条带报头的一个或多个预定位置中编码与合并信息有关的语法元素。稍后将参照其它附图描述其详细描述。

解码器1310提取重构包括合并图块的每个图块所需的预测信息和残差信号信息。解码器1310从诸如SPS或PPS之类的高级语法中提取关于编码树单元(CTU)大小的信息以确定CTU的大小，并且将每个图块分割为具有所确定的大小的CTU。然后，解码器将CTU确定为树结构的最上层，即，根节点，并通过提取有关CTU的分割信息，使用树结构分割CTU。

通过分割树结构确定要解码的当前块后，解码器1310提取关于指示当前块是通过帧内预测还是帧间预测被编码的预测类型的信息。当预测类型信息指示帧内预测时，解码器1310提取用于关于当前块的帧内预测信息(帧内预测模式)的语法元素。当预测类型信息指示帧间预测时，解码器1310提取用于帧间预测信息的语法元素。

另外，解码器1310提取关于当前块的经量化的变换系数的信息作为关于残差信号的信息。

逆量化器1320对经量化后的变换系数进行逆量化。逆变换器1330将逆量化的变换系数从频域变换到空间域以重构残差信号，并因此生成当前块的残差块。

预测器1340包括帧内预测器1342和帧间预测器1344。当帧内预测是当前块的预测类型时，激活帧内预测器1342，并且当帧内预测是当前块的预测类型时，激活帧间预测器1344。

帧内预测器1342基于从解码器1310提取的用于帧内预测模式的语法元素，确定多个帧内预测模式中的当前块的帧内预测模式，并根据帧内预测模式使用当前块周围的参考样本来预测当前块。

帧间预测器1344使用从解码器1310提取的用于帧间预测模式的语法元素来确定关于当前块的运动信息，并使用所确定的运动信息来预测当前块。

加法器1350通过将从逆变换器1330输出的残差块与从帧间预测器1344或帧内预测器1342输出的预测块相加来重构当前块。重建的当前块中的像素在随后解码的块的帧内预测中用作参考样本。

滤波器单元1360对重构的块之间的边界进行去块滤波，以便消除由逐块解码引起的块伪像，并将去块滤波后的块存储在存储器1370中。当重构一个图片中的所有块时，将重构的图片用作参考图片，以对要解码的后续图片中的块进行帧间预测。

在下文中，将详细描述用于通过合并多个图块中的一些图块来生成一个或更多个合并图块来定义不规则或灵活的图块结构的视频解码方法。

图14是示出根据本发明的实施方式的用于解码被分割为多个图块的图片的视频解码设备的操作的流程图。

视频解码设备从比特流中解码出指示是否合并多个图块中的一些图块的第一信息(S1410)。例如，作为第一信息，可以使用指示是否合并图块的标志merge_tile_enabled_flag。当合并一些图块时，将标志merge_tile_enabled_flag解码为On。当不合并图块时，将标志merge_tile_enabled_flag解码为Off。

当解码出的第一信息指示图块的合并时，视频解码设备从比特流中解码出指示多个图块当中被合并的图块的第二信息(S1420)。针对每个合并图块，第二信息可以包括：i)合并到每个合并图块中的图块当中的起始图块和结束图块的标识信息，ii)关于合并到每个合并图块中的图块当中的起始图块和结束图块的位置信息，或iii)指示是否将多个图块中的每一个合并的信息。第二信息可以包括：iv)关于图块合并到的一个或更多个合并图块中的每一个的索引信息。稍后将参照其它附图描述第二信息的具体示例。

视频解码设备通过合并由第二信息指示的图块来生成一个或更多个合并图块(S1430)。将每个生成的合并图块定义为一个图块。换句话说，合并到每个合并图块中的图块不是在保持其在合并之前的特性的同时进行简单地分组，而是被合并到单个图块中。例如，可以以消除对合并到合并图块中的图块之间的解码依赖性的限制的方式来执行合并。

在生成一个或多个合并图块之后，视频解码设备将每个合并图块解码为一个图块，而没有对合并到每个合并图块的图块之间的解码依赖性的限制(S1440)。这里，解码依赖性可以包括合并到每个合并图块中的图块之间的帧内预测依赖性。也就是说，消除了合并到相同合并图块中的图块之间对帧内预测依赖性的限制。

视频解码设备可以另外解码指示一个或更多个生成的合并图块的数量的第三信息。

以上参照图5至图12描述的用于合并图块的示例性语法元素也适用于视频解码设备和方法。在下文中，将在假设指示是否合并图片被分割成的多个图块中的一些图块的第一信息merge_tile_enabled_flag被解码为On的假设下详细描述视频解码设备和方法。

实施方式#1

图5示出了将图片分成相同大小的16个图块，并且将0至15的图块索引分配给各个图块作为图块的标识信息的情况。在这种情况下，将图块5、图块6、图块9和图块10合并以生成一个合并图块。

在该实施方式中，视频解码设备对指示为On的merge_tile_enabled_flag进行解码，从而将要合并的图块当中的起始图块和结束图块的标识信息解码为指示合并到合并图块中的图块的第二信息。当存在多个合并图块时，针对合并图块中的每一个解码起始图块和结束图块的标识信息。

左上图块的标识符topleft_tile_id可以被解码为起始图块的标识信息，并且右下图块的标识符bottomright_tile_id可以被解码为结束图块的标识信息。在图5的示例中，标识信息被解码为topleft_tile_id＝5，bottomright_tile_id＝10。然而，这仅是示例，可以使用可以定义起始图块和结束图块的各种语法元素。例如，在要合并的图块当中，右上图块的标识符可以用作起始图块的标识信息，而左下图块的标识符可以用作结束图块的标识信息。

在上面公开的表2中示出了根据该实施方式的语法元素的示例。

实施方式#2

在该实施方式中，由于视频解码设备对指示为On的merge_tile_enabled_flag进行解码，设备将要合并的图块当中的起始图块的标识和关于结束图块的位置信息解码为指示合并到合并图块中的图块的第二信息。当存在多个合并图块时，针对每个合并图块，对起始图块的标识以及关于结束图块的位置信息进行解码。

关于左上图块的位置信息(u_start_pos和v_start_pos)可以被解码为关于合并成合并图块的图块当中的起始图块的位置信息，并且关于右下图块的位置信息(u_end_pos和v_end_pos)可以被解码为关于结束图块的位置信息。在图6的示例中，位置信息被解码为u_start_pos＝1、v_start_pos＝1、u_end_pos＝2、v_end_pos＝2。然而，这仅是示例，并且可以使用可以定义起始图块和结束图块的各种语法元素。例如，在要合并的图块当中，关于右上图块的位置信息可以用作关于开始图块的位置信息，并且关于左下图块的位置信息可以用作关于结束图块的位置信息。

在上面公开的表3中示出了根据该实施方式的语法元素的示例。语法元素u_start_pos、v_start_pos、u_end_pos，v_end_pos的顺序不一定按表3所示设置，但可以根据需要更改。

实施方式#3

在该实施方式中，由于视频解码设备对指示为On的merge_tile_enabled_flag进行解码，设备将指示图块是否被合并为合并图块的关于每个图块的信息解码为指示合并到合并图块中的图块的第二信息。也就是说，在该实施方式中，对与图片被分割成的图块的数量一样多的第二信息进行解码。

Merge_flag可以用作指示每个图块是否被合并的信息。Merge_flag在指示图块被合并时被解码为1，而在不指示图块被合并时被解码为0。在图6的示例中，merge_flag被解码为值0000 0110 0110 0000。

在上面公开的表4中示出了根据该实施方式的语法元素的示例。

实施方式#4

在该实施方式中，由于视频解码设备对指示为On的merge_tile_enabled_flag进行解码，设备将每个合并图块的起始图块和结束图块的标识信息解码为指示合并到合并图块中的图块的第二信息。也就是说，起始图块和结束图块的标识信息被解码为与图片中的合并图块的数量一样多。该实施方式的视频解码设备可以附加地对指示一个或多个生成的合并图块的数量的第三信息num_merge_tile_minus1进行解码。

左上图块的标识符topleft_tile_id可以被解码为合并到每个合并图块中的图块当中的起始图块的标识信息，并且右下图块的标识符bottomright_tile_id可以被解码为每个合并图块的结束图块的标识信息。在图8的示例中，标识信息被解码为num_merge_tile_minus1＝1、{第一合并图块：topleft_tile_id＝0，bottomright_tile_id＝5}、以及{第二合并图块：topleft_tile_id＝10，bottomright_tile_id＝15}。然而，这仅是示例，并且可以使用可以定义起始图块和结束图块的各种语法元素。例如，在要合并的图块当中，右上图块的标识符可以用作起始图块的标识信息，而左下图块的标识符可以用作结束图块的标识信息。

在上面公开的表5中示出了根据该实施方式的语法元素的示例。

实施方式#5

在该实施方式中，由于视频解码设备对指示为On的merge_tile_enabled_flag进行解码，设备将关于要合并的图块当中的起始图块的标识以及关于结束图块的位置信息解码为指示合并到每个合并图块中的图块的第二信息。也就是说，对与合并块的数量一样多的关于起始图块和结束图块的位置信息进行解码。该实施方式的视频解码设备可以附加地对指示一个或多个生成的合并图块的数量的第三信息num_merge_tile_minus1进行解码。

关于左上图块的位置信息(u_start_pos和v_start_pos)可以被解码为关于合并到每个合并图块中的图块当中的起始图块的位置信息，并且右下图块的位置信息(u_end_pos和v_end_pos)可以被解码为关于结束图块的位置信息。在图9的示例中，位置信息被解码为num_merge_tile_minus1＝1、{第一合并图块：u_start_pos＝0，v_start_pos＝1，u_end_pos＝0，v_end_pos＝2}和{第二合并图块：u_start_pos＝2，v_start_pos＝2，u_end_pos＝3，v_end_pos＝3}。然而，这仅是示例，并且可以使用可以定义起始图块和结束图块的各种语法元素。例如，在要合并的图块当中，关于右上图块的位置信息可以用作关于起始图块的位置信息，并且关于左下图块的位置信息可以用作结束图块的位置信息。

在上面公开的表6中示出了根据该实施方式的语法元素的示例。语法元素u_start_pos、v_start_pos、u_end_pos、v_end_pos的顺序不一定按表3所示设置，而是可以根据需要更改。

实施方式#6-1

图10是在包括多个合并图块的图片上标记关于每个图块是否被合并以及每个合并图块的索引的信息的示例图。

在该实施方式中，由于视频解码设备对指示为On的merge_tile_enabled_flag进行解码，设备将指示图块是否被合并到合并图块中的关于每个图块的信息解码为指示要合并到合并图块中的图块的第二信息。也就是说，在该实施方式中，对与图片被分割成的图块的数量一样多的第二信息进行解码。该实施方式的视频解码设备可以附加地对指示一个或更多个生成的合并图块的数量的第三信息num_merge_tile_minus1进行解码。

Merge_flag可以用作指示每个图块是否被合并的信息。Merge_flag在指示图块被合并时被解码为1，而在不指示图块被合并时被解码为0。

另外，对于多个图块当中被合并的图块(具有merge_flag＝1的图块)，视频解码设备对一个或更多个合并图块当中的图块所属的合并图块的索引merge_idx进行解码。例如，合并图块的图块索引merge_idx可以由视频编码设备以截断一元码(TU)的方式进行编码，该方式将图片中的合并图块的数量作为最大值。在merge_idx已经以TU方式进行编码的情况中，当合并图块的数量为2时，merge_idx被解码为‘0’或‘1’，而当合并图块的数量为3时，merge_idx被解码为‘0’、‘10’或‘11’。

在图10的示例中，num_merge_tile_minus1＝1，并且merge_flag(merge_idx)被解码为01(0)1(0)0 01(1)1(1)0 01(1)1(1)0 0000。

在上面公开的表7中示出了根据该实施方式的语法元素的示例。

实施方式#6-2

与实施方式#6-1中的表7不同，视频编码设备可以以一元方式对merge_idx进行编码，而不对合并图块的数量(num_merge_tile_minus1)进行编码。在这种情况下，当合并图块的数量为2时，视频解码设备将merge_idx解码为‘0’或‘10’，而当合并图块的数量为3时，视频解码设备将merge_idx解码为‘0’、‘10’或‘110’。

根据该实施方式，当定义如图10所示的图块结构时，将merge_flag(merge_idx)解码为值01(0)1(0)0 01(10)1(10)0 01(10)1(10)0 0000。

根据根据本公开的实施方式的用于对视频进行编码或解码的装置和方法，可以基于图片中的行和列灵活地形成图块，从而解决了图块边界处的间隔和编码效率降低的问题。此外，在支持基于视口布局的虚拟现实(VR)内容的情况下，可以将与诸如用户的视角之类的重要视图相对应的区域定义为合并图块，从而抑制由于存在多个图块而导致的图像质量下降。另一方面，可以将要以一般图像质量处理的区域定义为小尺寸的图块。因此，即使重要视图改变，也可以灵活地处理视频。此外，可以根据特定注视定义的位置信息(例如，偏航、横滚、俯仰)，使视频的高质量区域和在与其对应的位置处的音频方向彼此同步。

虽然在图4和图14中示出了依次执行各个处理，但是实施方式不限于此。换句话说，图4和图14所示的处理可以以不同的顺序执行或并行执行。因此，实施方式不限于图4和图14的顺序。

根据图4和图14所示的实施方式的视频编码或解码方法可以由计算机程序实现，并记录在计算机可读记录介质上。在其上记录了用于实现根据实施方式的视频编码或解码方法的程序的计算机可读记录介质包括其中存储了计算机系统可读的数据的所有类型的装置。

尽管已经出于示例性目的描述了示例性实施方式，但是本领域技术人员将理解，在不脱离实施方式的思想和范围的情况下，可以进行各种修改和改变。为了简洁和清楚起见，已经描述了示例性实施方式。因此，本领域普通技术人员将理解，实施方式的范围不限于上面明确描述的实施方式，而是包括权利要求及其等同物。

Claims

1.一种用于对分割成多个图块的图片进行编码的视频编码方法，该方法包括以下步骤：

对指示是否合并所述多个图块中的一些图块的第一信息进行编码；

当所述第一信息被编码为指示图块合并时，通过合并所述多个图块中的一些图块来生成一个或更多个合并图块，每个所述合并图块被定义为一个图块；

对指示所述多个图块当中的合并到每个所述合并图块的图块的第二信息进行编码；以及

将每个所述合并图块编码为一个图块，而对合并到每个所述合并图块的图块之间的编码依赖性没有限制。

2.根据权利要求1所述的方法，其中，所述编码依赖性包括合并到每个所述合并图块的图块之间的帧内预测依赖性。

3.根据权利要求1所述的方法，其中，针对每个所述合并图块，所述第二信息包括被合并到每个所述合并图块的图块当中的起始图块和结束图块的标识信息。

4.根据权利要求1所述的方法，其中，针对每个所述合并图块，所述第二信息包括关于合并到每个所述合并图块的图块当中的起始图块和结束图块的位置信息。

5.根据权利要求1所述的方法，其中，针对所述多个图块中的每一个图块，所述第二信息包括指示该图块是否被合并到一个所述合并图块中的信息。

6.根据权利要求5所述的方法，其中，所述第二信息还包括所述多个图块当中被合并的每个图块所属的合并图块的索引。

7.根据权利要求1所述的方法，该方法还包括以下步骤：

对指示一个或更多个生成的合并图块的数量的第三信息进行编码。

8.一种用于解码分割成多个图块的图片的视频解码方法，该方法包括以下步骤：

从比特流中解码出指示是否合并所述多个图块中的一些图块的第一信息；

当解码出的所述第一信息指示图块合并时，从所述比特流中解码出指示所述多个图块当中要合并的图块的第二信息；以及

通过合并所述第二信息所指示的图块来生成一个或更多个合并图块，每个所述合并图块被定义为一个图块；以及

将每个所述合并图块解码为一个图块，而对合并到每个所述合并图块的图块之间的解码依赖性没有限制。

9.根据权利要求8所述方法，其中，所述解码依赖性包括合并到每个所述合并图块的图块之间的帧内预测依赖性。

10.根据权利要求8所述方法，其中，针对每个所述合并图块，所述第二信息包括被合并到每个所述合并图块的图块当中的起始图块和结束图块的标识信息。

11.根据权利要求8所述方法，其中，针对每个所述合并图块，所述第二信息包括关于合并到每个所述合并图块的图块当中的起始图块和结束图块的位置信息。

12.根据权利要求8所述方法，其中，所述第二信息包括指示所述多个图块中的每一个图块是否被合并的信息。

13.根据权利要求12所述方法，其中，所述第二信息还包括在所述多个图块当中被合并的每个图块所属的合并图块的索引。

14.根据权利要求8所述的方法，该方法还包括以下步骤：