ES2574278T3

ES2574278T3 - Codificación y decodificación de video usando transformadas

Info

Publication number: ES2574278T3
Application number: ES12729698.6T
Authority: ES
Inventors: Marta Mrak; Andrea GABRIELLINI; Nikola Sprljan; David Flynn
Original assignee: British Broadcasting Corp
Current assignee: British Broadcasting Corp
Priority date: 2011-06-27
Filing date: 2012-06-19
Publication date: 2016-06-16
Anticipated expiration: 2032-06-19
Also published as: JP2014523175A; JP6328220B2; WO2013001278A1; US8923406B2; CN103404141B; EP2652954B1; PL2652954T3; PT2652954E; GB2492333B; TW201320751A; CN103404141A; EP3026911A1; US20140056362A1; JP6063935B2; KR101622450B1; CN105847815B; WO2013001279A2; TWI516095B; CN105847815A; WO2013001279A3

Abstract

Un procedimiento de codificación de video según HEVC que utiliza una transformada de filas que opera sobre filas de un bloque de valores de imagen y que tiene un vector de transformada de filas y una transformada de columnas que opera sobre columnas del bloque de valores de imagen y que tiene un vector de transformada de columnas, que comprende las etapas de establecer un conjunto de modos de transformada que incluyen un modo de salto en la que una o ambas de la transformada de filas y la transformada de columnas son saltadas; seleccionar uno de dichos modos; para cualquier bloque en el que una transformada es saltada, aplicar un factor de modificación a escala a los valores de imagen correspondientes de ese bloque, donde el factor de modificación a escala es el producto de 64 y la raíz cuadrada del tamaño del vector de transformada de la transformada saltada y es un número entero; y para al menos algunos bloques o conjuntos de bloques proporcionar una indicación del modo seleccionado para un decodificador.

Description

DESCRIPCION

Codificacion y decodificacion de video usando transformadas 5 CAMPO DE LA INVENCION

[0001] Esta invencion se refiere a sistemas de compresion y descompresion de video y, en particular, a un marco para modelizar de forma adaptativa la representacion de senales entre codificacion por prediccion y por entropla, mediante el uso adaptativo de funciones transformadas y herramientas relacionadas, incluyendo

10 modification a escala, cuantificacion, barrido y serialization.

ANTECEDENTES DE LA INVENCION

[0002] La transmision y el almacenamiento de secuencias de video se emplean en varias aplicaciones como, 15 por ejemplo, programas de TV, servicios de descarga directa (“streaming") de video por internet y videoconferencias.

[0003] Las secuencias de video, en un formato sin procesar, requieren una cantidad muy grande de datos a representar, dado que cada segundo de una secuencia puede consistir en decenas de fotogramas individuales y cada fotograma se representa normalmente mediante al menos 8 bits por pixel, con cada fotograma requiriendo

20 varios cientos o miles de plxeles. Para minimizar los costes de transmision y almacenamiento, se usa compresion de video en los datos de video sin procesar. El objetivo es representar la information original con la menor capacidad posible, es decir, con tan pocos bits como sea posible. La reduction de la capacidad necesaria para representar una secuencia de video afectara a la calidad de video de la secuencia comprimida, es decir su similitud con la secuencia de video no comprimida original.

25

[0004] Los codificadores de video del estado de la tecnica, tales como AVC/H.264, utilizan cuatro procesos principales para conseguir el nivel maximo de compresion de video mientras consiguen un nivel deseado de calidad de video para la secuencia de video comprimida: prediccion, transformation, cuantificacion y codificacion por entropla. El proceso de prediccion explota la redundancia temporal y espacial encontrada en secuencias de video

30 para reducir enormemente la capacidad requerida para representar los datos. El mecanismo usado para predecir datos es conocido tanto por el codificador como el decodificador, por lo tanto solamente una senal de error, o residual, debe ser enviada al decodificador para reconstruir la senal original. Este proceso se realiza normalmente en bloques de datos (por ejemplo 8x8 plxeles) en lugar de fotogramas enteros. La prediccion se realiza normalmente contra fotogramas ya reconstruidos o bloques de plxeles reconstruidos que pertenecen al mismo fotograma.

35

[0005] El proceso de transformacion pretende explotar la correlation presente en las senales residuales. Esto lo hace concentrando la energla de la senal en pocos coeficientes. Por lo tanto, los coeficientes de transformada normalmente requieren menos bits para ser representados que los plxeles de la residual. H.264 usa transformadas de tipo numero entero de 4x4 y 8x8 basadas en la transformada discreta del coseno (DCT).

40

[0006] La capacidad requerida para representar los datos en la salida del proceso de transformacion puede seguir siendo demasiado alta para muchas aplicaciones. Ademas, no es posible modificar el proceso de transformacion para conseguir el nivel deseado de capacidad para la senal comprimida. El proceso de cuantificacion se ocupa de eso, permitiendo una reduccion adicional de la capacidad necesaria para representar la senal. Debe

45 observarse que este proceso es destructivo, es decir la secuencia reconstruida parecera diferente de la original.

[0007] El proceso de codificacion por entropla toma todos los coeficientes de transformada cuantificados no nulos y los procesa para ser representados de forma eficiente en un flujo de bits. Esto requiere leer, o barrer, los coeficientes de transformada en cierto orden para minimizar la capacidad requerida para representar la secuencia de

50 video comprimida.

[0008] La description anterior se aplica a un codificador de video; un decodificador de video realizara todos los procesos anteriores en un orden aproximadamente inverso. En particular, el proceso de transformacion en el lado del decodificador requerira el uso de la inversa de la transformada que esta siendo usada en el codificador.

55 Analogamente, la codificacion por entropla se convierte en decodificacion por entropla y el proceso de cuantificacion se convierte en modificacion a escala inversa. El proceso de prediccion normalmente se realiza de la misma forma exacta tanto en el codificador como en el decodificador.

[0009] La presente invencion se refiere a la parte de transformacion de la codificacion, por lo tanto, en el

presente documento se presenta una revision mas exhaustiva del proceso de transformada.

[0010] Las propiedades estadisticas de la residual afectan a la capacidad de la transformada (es decir DCT)

de comprimir la energia de la senal de entrada en un pequeno numero de coeficientes. La residual muestra 5 propiedades estadisticas muy diferentes, dependiendo de la calidad de la prediction y si la prediction explota redundancia espacial o temporal. Otros factores que afectan a la calidad de la prediccion son el tamano de los bloques que estan siendo usados y las caracteristicas espaciales/temporales de la secuencia que esta siendo procesada.

10 [0011] Es bien conocido que la DCT se aproxima al rendimiento maximo de compactacion de energia para

senales Markov-I altamente correlacionadas. El rendimiento de compactacion de energia de DCT comienza cayendo a medida que la correlation de senales se vuelve mas debil. Por ejemplo, es posible mostrar como la transformada discreta del seno (DST) puede superar a la DCT para senales de entrada con menores caracteristicas de correlacion adyacentes.

15

[0012] La DCT y DST en codification de imagen y de video se usan normalmente en bloques, es decir senales en 2D; esto significa que una transformada unidimensional se realiza en primer lugar en una direction (por ejemplo, horizontal) seguida por una transformada unidimensional realizada en la otra direccion. Como ya se ha mencionado, la capacidad de compactacion de energia de una transformada depende de las estadisticas de la senal

20 de entrada. Es posible, y de hecho tambien es habitual en algunas circunstancias, para la senal bidimensional introducida en la transformada presentar diferentes estadisticas a lo largo de los dos ejes vertical y horizontal. En este caso, seria deseable seleccionar la transformada de mejor rendimiento en cada eje. Un enfoque similar ya se ha intentado dentro de la nueva norma ISO e ITU de condition de video en desarrollo, codificacion de video de alta eficiencia (HEVC). En particular, una combination de dos transformadas separables unidimensionales tales como

25 una similar a DCT y DST se ha usado en la norma HEVC en desarrollo.

[0013] Aunque las normas de codificacion previas basadas en DCT usan una transformada bidimensional (DCT de 2D), las soluciones mas nuevas aplican una combinacion de DCT y DST a bloques intrapredichos, es decir en bloques que son predichos espacialmente. Se ha demostrado que DST es una mejor election que DCT para la

30 transformation de filas, cuando la prediccion direccional es desde una direccion que es mas cercana a la horizontal que a la vertical, y, analogamente, es una mejor eleccion para transformacion de columnas cuando la prediccion direccional es mas cercana a la vertical. En la direccion restante (por ejemplo en filas, cuando se aplica DST en columnas), se usa DCT.

35 [0014] Para fines de implementation, en codificacion de video es habitual usar aproximaciones de numeros

enteros de DCT y DST que, en el resto de este texto se denominaran simplemente DCT y DST. Una de las soluciones para transformada similar a DCT de numero entero usa representation de datos intermedios de 16 bits y es conocida como mariposa parcial (“partial butterfly"). Sus principales propiedades son las mismas propiedades de (anti)simetria que las de DCT, vectores de base casi ortogonales, representacion de datos de 16 bits antes y

40 despues de cada fase de transformada, multiplicadores de 16 bits para todas las multiplicaciones internas y sin necesidad de correccion de diferentes normas de vectores de base durante la (des)cuantificacion.

[0015] El documento de la tecnica anterior MALVAR H S ET AL: “LOW-COMPLEXITY TRANSFORM AND

QUANTIZATION IN H.264/AVC”, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO

45 TECHNOLOGY, IEEE SERVICE CENTER, PISCATAWAY, NJ, EE. UU., vol. 13, no. 7, paginas 598-603 del 1 de julio de 2003 presenta una vision general de los disenos de transformada y cuantificacion en la norma H.264/AVC con un enfoque especial en consideraciones respecto a implementaciones de baja complejidad usando aritmetica de numero entero de 16 bits.

50 [0016] El documento de la tecnica anterior YUMI SOHN ET AL: “One Dimensional Transform For H.264

Based Intra Coding”, 26. PICTURE CODING SYMPOSIUM, LISBOA del 7 de noviembre de 2007 desvela la adicion de modos de transformada alternativos para la norma H.264/AVC. El codificador puede seleccionar entre la transformada en 2D convencional, una transformada en 1D vertical, una transformada en 1D horizontal, o ninguna transformada que esta siendo aplicada a la senal residual de prediccion.

55

RESUMEN DE LA INVENCION

[0017] En un aspecto, la presente invention consiste en un procedimiento de codificacion de video tal como

se define en la reivindicacion 1.

[0018] La presente invencion tambien consiste en un procedimiento de decodificacion de video tal como se

define en la reivindicacion 2.

5 [0019] Pueden usarse los mismos factores de modificacion a escala para todos los coeficientes en una fila o

columna modificada a escala.

[0020] Preferentemente, se aplica una matriz de cuantificacion que tiene los mismos valores en cada columna cuando la transformada que opera sobre columnas es saltada, y se aplica una matriz de cuantificacion que

10 tiene los mismos valores en cada fila cuando la transformada que opera sobre filas es saltada.

[0021] Puede realizarse un barrido doble, donde un bloque de coeficientes de transformada se representa con sub-bloques de coeficientes; cada sub-bloque es visitado en barrido a nivel de sub-bloques, y dentro de cada sub-bloque se usa un barrido.

15

[0022] Las siguientes caracterlsticas preferidas son relevantes para cada uno de los aspectos de la invencion descritos anteriormente.

[0023] El conjunto de modos de salto de transformada puede comprender los dos modos de: transformada 20 sobre filas y columnas; y ninguna transformada. Como alternativa, el conjunto de modos de salto de transformada

puede comprender los cuatro modos de: transformada sobre filas y columnas; transformada sobre filas solamente; transformada sobre columnas solamente; y ninguna transformada.

[0024] La seleccion de modo puede senalizarse a un decodificador con una palabra de codigo asignada a 25 cada modo. El mismo modo de salto de transformada puede usarse en todos los componentes (luminancia - Y y

crominancia - U y V) de un bloque YUV. El modo de salto de transformada puede senalizarse para todos los componentes YUV de un bloque, para un grupo de bloques, y se senaliza por separado para cada componente para otro grupo de bloques. Por lo tanto, en HEVC puede ser util contar con senalizacion de modo YUV conjunta para bloques codificados INTER, y modo TSM separado para cada componente para bloques codificados en INTRA.

30

[0025] Puede no ser necesario que el modo de salto de transformada sea senalizado para bloques que tienen solamente coeficientes de valor nulo. Puede no ser necesario senalizarlo cuando el componente de luminancia tiene solamente valores nulos; en este caso la transformada en 2D se usa sobre componentes de crominancia. Puede no ser necesario senalizarlo cuando el unico coeficiente de valor no nulo del componente de luminancia es la esquina

35 superior izquierda del bloque (componente DC) en este caso, la transformada en 2D se usa sobre componentes de crominancia. El modo de salto de transformada puede senalizarse solamente para bloques con otros modos predefinidos (por ejemplo predichos a partir de otros fotogramas solamente).

[0026] En algunos ejemplos, el orden en el que los coeficientes dentro de un bloque son barridos en la fase 40 de codificacion por entropla puede adaptarse segun el modo de salto de transformada. Por lo tanto, puede

emplearse barrido fila por fila donde la transformada de filas es saltada y la transformada de columnas es conservada, y emplearse barrido columna por columna donde la transformada de columnas es saltada y la transformada sobre filas es conservada.

45 DESCRIPCION DETALLADA DE LA PRESENTE INVENCION

[0027] La presente invencion se describira a continuacion a modo de ejemplo con referencia a los dibujos adjuntos, en los que:

50 La figura 1 es un diagrama de bloques que ilustra una caracterlstica en un codificador segun una realizacion de la invencion;

La figura 2 es un diagrama de bloques que ilustra la caracterlstica en un decodificador segun la realizacion;

55 La figura 3 es un diagrama que ilustra una alternativa al enfoque de barrido en zigzag conocido;

La figura 4 es un diagrama que ilustra un enfoque de barrido alternativo adicional;

La figura 5 es un diagrama de bloques que ilustra una caracterlstica en un codificador segun una realizacion

adicional de la invencion;

La figura 6 es un diagrama de bloques que ilustra la caracterlstica en un decodificador segun la realizacion;

5 La figura 7 es un diagrama de bloques que ilustra una caracterlstica en un decodificador segun una realizacion adicional de la invencion

[0028] Esta invencion presenta un modo para realizar el proceso de transformacion - modo de salto de transformada (TSM). Tal como se ha descrito anteriormente, la transformada mas comun usada en la codificacion de

10 video es la DCT. Su rendimiento de compactacion de energla depende de la correlacion de la residual. Tambien se ha descrito como la residual puede estar altamente descorrelacionada, o correlacionada en una direccion solamente, haciendo a la DCT en 2D menos eficiente. Se ha propuesto saltar el proceso de transformacion cuando el codificador toma dicha decision en un sentido de tasa-distorsion. El modo de transformada seleccionado debe senalizarse al decodificador, que realiza a continuation una combination de transformada/ saltar transformada, tal 15 como se define en la serialization.

[0029] Es posible operar con dos modos, es decir un primer modo con una transformada en 2D (que comprende la transformada de filas y la transformada de columnas) y un segundo modo con ninguna transformada.

20 [0030] En gran parte de la description a continuacion, estos modos se suplementan con los modos

adicionales formados saltando solamente la transformada de filas o solamente la transformada de columnas. Por lo tanto, se definen cuatro modos de transformada tal como se muestra en la tabla 1.

Tabla 1 - Opciones de modo de salto de transformada

TSM: Transformada sobre filas Transformada sobre columnas Nota

TS0: + + Transformada en 2D

TS1: + - Transformada en 1D

TS2: - + Transformada en 1D

TS3: - - Ninguna transformada

[0031] El modo TS0 corresponde a una transformada en 2D, es decir DCT en 2D. El modo de TS1 define la aplicacion de DCT horizontal unidimensional, seguida por un salto de transformada en la direccion ortogonal, es decir la transformada de columnas es saltada. TS2 define el salto de la transformada horizontal, mientras que

30 solamente se transforman columnas. Finalmente, el modo TS3 salta completamente transformadas en ambos ejes, es decir, no se aplica ninguna transformada a la senal de entrada.

[0032] Las figuras 1 y 2 muestran diagramas de bloques del modo de salto de transformada fundamental, para codificador y decodificador, respectivamente. Cada modo de salto de transformada se selecciona con un par de

35 indicadores correspondientes (Tf0, Tf1), de modo que TS0: (1, 1), TS1: (1, 0), TS2: (0, 1) y TS3: (0, 0).

[0033] En cuanto a cualesquiera otros bits adicionales procedentes de un flujo de bits comprimido que permitan una option adaptativa, la senalizacion del modo de salto de transformada puede ser costosa. Por lo tanto, hay concebidas varias estrategias para maximizar la eficiencia de codificacion.

40

[0034] Pueden senalizarse cuatro opciones de TSM usando palabras de codigo disenadas cuidadosamente. No es necesario que esas palabras de codigo sean transmitidas para cada bloque, sino que pueden usarse algunos otros procedimientos para ahorrar la tasa de bits necesaria.

45 [0035] Algunas de las posibilidades para reducir el coste de senalizacion se enumeran a continuacion; cada

opcion influyendo sobre partes relacionadas con transformada del codificador y el decodificador:

1. El mismo modo de transformada usado en todos los componentes (luminancia - Y y crominancia - U y V) de un bloque YUV; por lo tanto, para bloques co-localizados Y, U y V solamente se transmite una election de TSM.

50

2. TSM no senalizado cuando todos los bloques cuantificados (Y, U y V) tienen solamente coeficientes con valores nulos.

3. TSM no senalizado para bloques cuando el bloque Y tiene solamente coeficientes de valor nulo, y entonces se usa DCT en 2D en componentes U y V.

4. TSM senalizado solamente para bloques con ciertos otros modos (por ejemplo bidireccional predicho); en caso 5 contrario, se aplica DCT en 2D.

5. Aplicacion de TSM senalizado en un conjunto de bloques (si “en” entonces modos de TS senalizados para cada bloque del conjunto).

10 6. TSM senalizado en un conjunto de bloques (por ejemplo todos los sub-bloques comparten el mismo TSM).

7. TSM senalizado si ciertas otras caracterlsticas de bloque estan presentes; por ejemplo TSM no senalizado cuando el bloque Y tiene solamente un valor no nulo, y ese valor esta en la esquina superior izquierda del bloque (componente DC); en ese caso se usa DCT en 2D para todos los componentes.

15

[0036] Cuatro modos de TSM (transformada en 2D, dos transformadas de bloques en 1D y transformada

saltada en un bloque) pueden definirse con diversas palabras de codigo, por ejemplo con palabras de 2 bits sencillas, o con mas bits (es decir con codigos unarios):

TSM: Senalizacion de 2 bits Codigo unario

TS0: 11 1

TS1: 10 01

TS2: 01 001

TS3: 00 000

20

[0037] Si se usa codificacion aritmetica, cada bin de la palabra de codigo puede codificarse con diferentes

modelos de probabilidad (es decir estados de contexto inicial para cada segmento), dependiendo del actual tamano de bloque y del valor de QP.

25 [0038] Por otro lado, si se usa codificacion de longitud variable, palabras de codigo de TSM pueden

codificarse independientemente de o mezcladas con otros elementos de sintaxis, para reducir la sobrecarga de senalizacion.

[0039] En algunos enfoques, un bloque no siempre se transforma de una vez, sino que se aplican bastantes 30 opciones para su division en subunidades mas pequenas, y se aplican transformadas sobre cada subunidad.

Representativo de dicha estructura de transformada es el procedimiento de arbol cuadruple residual “Residual QuadTree" (RQT). Aunque la aplicacion de TSM sobre bloques que no se dividen mas en unidades mas pequenas se ha asumido hasta ahora, tambien puede aplicarse TSM sobre dichas estructuras de transformada multidivididas. Se identifican varias opciones:

35

1. El TSM se decide a nivel de bloques, y se aplica la misma eleccion de transformada sobre cada subunidad.

2. El TSM se permite solamente a nivel de la ralz de la estructura de transformacion, es decir cuando un bloque no se divide mas en unidades mas pequenas cuando se permite una estructura multidividida; si un bloque se divide en

40 unidades mas pequenas, cada unidad se transforma usando transformada en 2D.

3. El TSM se decide y se senaliza para cada subunidad, independientemente de su profundidad.

4. El TSM se decide y se senaliza para subunidades, hasta una profundidad (tamano) especlfica de unidades; para 45 subunidades inferiores, cuando TSB no se senaliza, se usa transformada en 2D.

[0040] Los coeficientes dentro de un bloque pueden tener diferentes caracterlsticas cuando la transformada no se realiza en una o ambas direcciones. Por lo tanto, pueden aplicarse diferentes estrategias de codificacion, dependiendo del modo de salto de transformada, para comprimir mejor coeficientes dados.

[0041] Cuando se aplica una transformada en 2D sobre un bloque, los coeficientes resultantes se agrupan a menudo hacia la esquina superior izquierda de un bloque, es decir son componentes de baja frecuencia. El barrido convencional, por ejemplo barrido en zigzag es, por lo tanto, una buena eleccion para la codificacion de dichas senales.

5

[0042] Si solamente se aplica transformada en 1D (TS1 o TS2), puede usarse barrido adaptativo. Por ejemplo, puede usarse un barrido fila por fila, o un barrido columna por columna para casos TS2 y TS1 respectivamente, dado que puede esperarse que la transformada aplicada concentre los coeficientes hacia frecuencias mas bajas.

10

[0043] Para el caso TS3, donde no se aplica una transforma en ninguna direccion, puede usarse un barrido convencional (usado para un bloque transformado en 2D). Como alternativa, puede emplearse un patron de barrido diferente, que tiene en cuenta la probabilidad (impllcita en la decision de no llevar a cabo ninguna transformada) de que coeficientes no nulos estan distribuidos de forma no uniforme. Por ejemplo, los coeficientes pueden estar

15 agrupados en “islas” rodeadas por “mares” de coeficientes nulos.

[0044] Por lo tanto, en una nueva disposicion, las posiciones del primer y el ultimo coeficientes significativos dentro de un bloque pueden transmitirse en el flujo de bits, y a continuacion puede realizarse un barrido convencional de coeficientes dentro de un bloque. Esto se muestra en la figura 3 donde los cuadrados blancos

20 representan coeficientes que no estan codificados y tienen valor nulo, los cuadrados grises representan coeficientes que se codificaran, es decir incluyen coeficientes (no nulos) significativos), donde el primer coeficiente codificado esta marcado con “F” y el ultimo coeficiente codificado esta marcado con “L”. El barrido se realiza solamente sobre filas y columnas que pertenecen al area definida por el primer y el ultimo coeficiente. En este procedimiento de barrido, las coordenadas x e y del primer coeficiente deben ser iguales o mas pequenas que las coordenadas x e y 25 del ultimo coeficiente significativo.

[0045] Esta disposicion debe causar una codificacion altamente eficiente en el caso en el que se agrupen coeficientes no nulos, pero requiere la complejidad adicional en el codificador de determinar las posiciones del primer y el ultimo coeficientes significativos dentro de un bloque, junto con la necesidad de senalizar esas posiciones

30 al decodificador.

[0046] En una alternativa, se usa un barrido en zigzag doble, tal como se representa en la figura 4, donde un bloque de coeficientes de transformada se representa con sub-bloques de coeficientes. Cada sub-bloque es visitado en barrido en zigzag a nivel de sub-bloque, y dentro de cada bloque se usa un barrido en zigzag (o cualquier otro

35 barrido). Esto permite un mejor agrupamiento de coeficientes no nulos, que tienden a estar espacialmente cerca.

[0047] Sera deseable, donde se toma la decision de saltar cualquiera o ambas transformadas en 1D, minimizar o eliminar la necesidad de cambiar otros elementos del proceso para alojar la transformada o transformadas saltadas.

40

[0048] En este caso, se identifican dos estrategias de implementacion para la fase de transformada adaptativa:

1) saltar transformada de filas / columnas seleccionadas, y modificar la fase de cuantificacion.

45

2) sustituir la transformada de filas / columnas seleccionadas por una etapa de modificacion a escala adecuada y adaptar la etapa de cuantificacion si se requiere.

[0049] Aunque la primera estrategia se presenta adecuadamente con las figuras 1 y 2, la segunda estrategia 50 que emplea modificacion a escala se representa en las figuras 5 y 6. Una de las principales razones por las que se

realiza modificacion a escala es mantener los niveles de senal, con la presion mas elevada soportada, entre bloques de transformada. Esto se indica usando la llnea discontinua en las figuras 5 y 6.

[0050] La modificacion a escala se realiza modificando a escala cada valor de pixel de entrada en un factor 55 que se deriva de norma-2 de vectores de transformada correspondientes (que se usarlan para obtener un valor de

coeficiente de transformada, en la misma posicion en una fila/columna, si se selecciono la transformada). Algunas transformadas tienen propiedades cercanas a ortonormales de cada vector y esta propiedad puede simplificar adicionalmente el diseno de modificacion a escala, dado que puede usarse un unico valor para modificar a escala adecuadamente una fila/columna completa en la que la transformada es saltada.

[0051] En lo sucesivo, se describen estrategias de modificacion a escala en el contexto de transformada de DCT de numero entero con representacion de datos intermedios de 16 bits. Se reconocera, sin embargo, que esto es solo un ejemplo.

5

[0052] Las transformadas usadas en HEVC tienen las normas (TNn), donde N es el tamano de la transformada, cerca de los siguientes numeros:

- Transformada de 4 puntos: TN4 = 128 = 27; TNS4 = 7;

10

- Transformada de 8 puntos: TN8 = 181 = 27,5; TNS8 = 7,5;

- Transformada de 16 puntos: TN16 = 256 = 28; TNS16 = 8;

15 - Transformada de 32 puntos: TN32 = 362 = 28,5. TNS32 = 8,5;

donde TNS es el parametro de desplazamiento de norma de transformada (“Transform Norm Shift") (potencia de 2 representada por desplazamiento de bits a la izquierda). Notese que, en HEVC cada vector de transformada puede tener una norma ligeramente diferente, pero estos numeros son buenas aproximaciones para implementaciones practicas. Este hecho tambien se desvla en los disenos de cuantificacion y en el ajuste del nivel de transformada para preservar la representacion de datos intermedios de 16 bits. Por ejemplo, en diseno de decodificador HEVC, el valor de 16 bits entra en la transformada inversa. Para alcanzar precision de 16 bits entre transformadas de columna (1a fase inversa) y de fila (2a fase inversa), y precision de 9+DB despues de la transformada de filas, se produce el siguiente desplazamiento de bits del nivel de senal (considerando un tamano de bloque de N x N):

SHIFT = TNSn - SHIFT_INV_1ST + TNSn - (SHIFT_INV_2ND - DB),

donde, mediante la norma, SHIFT_INV_1ST = 7 y SHIFT_INV_2ND = 12, y DB es el incremento de profundidad de bits para procesamiento (por ejemplo 0 o 2). La profundidad de bits del procesamiento interno es B = 8 + DB. Por lo 30 tanto, SHIFT (desplazamiento) es igual a:

SHIFT = 2 ■ TNSn - 19 + DB = 2 ■ TNSn - 27 + B.

Esto corresponde al parametro desplazamiento de transformada usado en la cuantificacion HEVC.

35

Esto conduce, para el ejemplo donde se considera un bloque 4 x 4 (TNS4 = 7), a

-SHIFT4 = 13 - B,

40 es decir desplazamiento a la derecha en 13 - B.

[0053] Aunque este ejemplo puede usarse para abordar un ajuste del nivel de senal para TS3, hay que tener en cuenta algunas consideraciones adicionales cuando la transformada se aplica en una direccion solamente. Esto es porque TNSN no son siempre numeros enteros, por lo tanto el desplazamiento de bits no es la unica opcion para

45 el ajuste del nivel. Otras opciones para abordar disenos unificados para dichas combinaciones se abordan en el siguiente texto.

[0054] Donde una transformada se sustituye por modificacion a escala, la fase de transformada adaptativa esta disenada de tal manera que pueda intercalarse dentro de la transformada DCT de numero entero con

50 representacion de datos intermedios de 16 bits, es decir con el objetivo de sustituir algunas de sus partes y de ser compatibles con el resto del codec que soporta transformada en 2D original. Por ejemplo, puede usarse la no aplicacion de la transformada sobre filas, de una manera que siga siendo compatible con la parte de transformada 2D que se aplica sobre columnas. Esto significa que la cuantificacion aplicada para la transformada en 2D tambien puede usarse con la eleccion de la transformada adaptativa.

55

[0054] El salto de transformada directa se define para filas y columnas por separado.

[0055] En muestras x de filas el salto de transformada se aplica como:

20

25

y = (x ■ escala + compensacion) desplazado a la derecha S bits

(a)

donde:

5 S = M - 1 + DB

compensacion = 1 desplazado a la izquierda (S - 1) bits

DB = B - incremento de profundidad de 8 bits para procesamiento

10

M = log2(N), donde N es el tamano de fila/columna en el numero de plxeles, y la escala es un multiplicador de numero entero sin signo.

[0057] En las columnas, el salto de transformada se aplica como en (a) donde x son muestras de columnas, 15 pero con:

S = M + 6

compensacion = 1 desplazado a la izquierda (S - 1) bits

20

[0058] De esta manera, se garantiza una anchura de bits de 16 despues de cada fase de transformada, como en la transformada en 2D.

[0059] De nuevo, factores de escala se designan de una manera para estar cerca de la norma-2 de vectores 25 de transformada relacionados (escalaN 2 = TNn 2 = N ■ 642) y para ser un numero entero. En las muestras x de

columnas el salto de transformada inverso se aplica como

y = (x ■ escala + compensacion) desplazado a la derecha S bits

30 donde:

S=7

compensacion = 1 desplazado a la izquierda (S - 1) bits 35

y la escala es la misma que en el salto hacia delante.

[0060] En filas, se aplica la misma operacion de salto de transformada, pero con:

40 S = 12 - DB, donde DB es el mismo que en el salto de transformada directa.

[0061] Para ahorrar procesamiento de plxeles innecesario, donde una o ambas transformadas en 1D son saltadas, la modificacion a escala puede moverse a cuantificacion. Ademas (por ejemplo), si solamente se conserva la transformada vertical, esta puede adaptarse, para garantizar la representacion en 16 bits maxima de plxeles. Esto

45 permite que se realice un uso completo de la anchura de bits disponible. Por lo tanto, la modificacion a escala en cuantificacion tiene que adaptarse no solamente debido a la modificacion a escala relacionada con la transformada saltada sino tambien relacionada con una nueva modificacion a escala dentro de una transformada.

TSM = TS0 (transformada en 2D)

50

Se usa transformada 2D regular y cuantificacion correspondiente.

TSM - TS1 (1D transformada sobre filas) y TS2 (1D transformada sobre columnas)

55 En ambos casos, la transformada directa corresponde a la transformada de filas original

y = (x + compensacion) desplazado a la derecha S bits, (b)

donde:

x es el valor original del bloque residual,

S = M - 1 + DB,

5

compensation = 1 desplazado a la izquierda (S - 1) bits y M y DB son los mismos que en (a).

10 [0062] Esto garantiza precision de datos intermedios de 16 bits.

La cuantificacion esta adaptada y tiene en cuenta el nivel al que esta ahora la senal.

TSM = TS3 (ninguna transformada)

15

[0063] Los plxeles residuales se cuantifican directamente usando la matriz plana, de modo que el nivel de senal corresponda a los niveles de coeficientes cuantificados que son transformados en 2D y cuantificados.

[0064] Otro ejemplo de como puede ajustarse el nivel de la senal cuando una transformada es saltada se 20 presenta a continuation, con referencia a la figura 7. En este ejemplo, el objetivo es reducir una serie de

operaciones requeridas para alcanzar el rendimiento deseado. En ese contexto, donde una transformada o sus partes pueden ser saltadas o sustituidas, esta tecnica usa una combination de una o mas operaciones basicas:

1. Cambios a desplazamiento de bits dentro de fases de transformada;

25

2. Ajuste de la cuantificacion que corresponde a la modification a escala de una senal un factor menor que 2;

3. Sustitucion de la transformada o sus partes por un escalar fuera de la cuantificacion.

30 [0065] Cada modificacion a escala de la senal puede representarse modificando a escala con un factor de 2N

(donde N es un numero entero positivo) y modificando a escala con un factor M que es menor que 2. Notese que, en este caso, N es el tamano de transformada como en el ejemplo previo). En esta invention, la Operation 1 permite la modificacion a escala de senal con un factor de 2N (desplazamiento de bits) y la Operacion 2 permite modificacion a escala con M. La election de M normalmente esta limitada y depende del diseno de cuantificacion. Un componente 35 tlpico de una transformada en 1D en codification de video es el desplazamiento de bits. Por lo tanto, la Operacion 1 aplicada en este caso permite facilmente el ajuste de un nivel de senal con un factor de 2N. En el caso en el que ambas transformadas son saltadas, el ajuste del nivel de la senal puede realizarse en el bloque de “modificacion a escala” de la figura 7, que corresponde a la Operacion 3. En cualquier caso, el ajuste de la senal con un factor menor que 2, una compensacion del parametro de cuantificacion, o factor de modificacion a escala de cuantificacion, 40 puede seleccionarse adecuadamente para realizar el ajuste del nivel de senal requerido. Por ejemplo, en codificacion de video de alta eficiencia (HEVC), anadir una compensacion de 3 a un parametro de cuantificacion es equivalente a ajustar el nivel de la senal con cuadr(2) (ralz 2).

[0066] Se entendera que la invencion se ha descrito a modo de ejemplo solamente y que son posibles una

45 amplia variedad de modificaciones sin alejarse del alcance de la invencion tal como se describe en las reivindicaciones adjuntas. Caracterlsticas que se describen en el presente documento en ciertas combinaciones pueden encontrar aplicacion util en otras combinaciones mas alla de las mencionadas especlficamente y, en ciertos casos, pueden usarse en solitario. Por ejemplo, los enfoques de modificacion a escala en codificacion o decodificacion de video, donde:

50

posiciones del primer y el ultimo coeficientes a codificar/decodificar dentro de un bloque son senalizadas al decodificador y se realiza una modificacion a escala de coeficientes entre dichos primer y el ultimo coeficientes; o

se realiza un barrido doble, donde un bloque de coeficientes de transformada se representa con sub-bloques de 55 coeficientes; cada sub-bloque es visitado en barrido en zigzag a nivel de sub-bloque, y dentro de cada sub-bloque, se usa un patron de barrido adicional;

puede ser util mas alla del caso de modo de salto de transformada.

[0067] Aunque aspectos de esta invencion se han ilustrado con cuatro modos de salto de transformada, sera

posible, tal como se ha indicado anteriormente, en ciertas realizaciones operar con solamente dos de esos modelos.

Claims

REIVINDICACIONES

1. Un procedimiento de codificacion de video segun HEVC que utiliza una transformada de filas que opera sobre filas de un bloque de valores de imagen y que tiene un vector de transformada de filas y una

5 transformada de columnas que opera sobre columnas del bloque de valores de imagen y que tiene un vector de transformada de columnas, que comprende las etapas de establecer un conjunto de modos de transformada que incluyen un modo de salto en la que una o ambas de la transformada de filas y la transformada de columnas son saltadas; seleccionar uno de dichos modos; para cualquier bloque en el que una transformada es saltada, aplicar un factor de modification a escala a los valores de imagen correspondientes de ese bloque, donde el factor de 10 modificacion a escala es el producto de 64 y la ralz cuadrada del tamano del vector de transformada de la transformada saltada y es un numero entero; y para al menos algunos bloques o conjuntos de bloques proporcionar una indication del modo seleccionado para un decodificador.
2. Un procedimiento de decodificacion de video segun HEVC que ha sido codificado utilizando una 15 transformada de filas que opera sobre filas de un bloque de valores de imagen y que tiene un vector de

transformada de filas y una transformada de columnas que opera sobre columnas del bloque de valores de imagen y que tiene un vector de transformada de columnas; que comprende las etapas de recibir, para al menos algunos bloques o conjuntos de bloques, una indicacion del modo de salto de transformada en el que una o ambas de la transformada de filas y la transformada de columnas son saltadas; aplicar transformadas inversas segun el modo y 20 aplicar modificacion a escala inverso a valores de imagen no transformados cualesquiera, siendo el factor de modificacion a escala el producto de 64 y la ralz cuadrada del tamano del vector de transformada de la transformada saltada y siendo un numero entero.
3. Un procedimiento segun la reivindicacion 1 o la reivindicacion 2, en el que se usan los mismos 25 factores de modificacion a escala para todos los coeficientes en la fila o columna modificada a escala.
4. Un procedimiento segun una cualquiera de las reivindicaciones anteriores, en el que se aplica una matriz de cuantificacion que tiene los mismos valores en cada columna cuando la transformada que opera sobre columnas es saltada, y se aplica una matriz de cuantificacion que tiene los mismos valores en cada fila cuando la

30 transformada que opera sobre filas es saltada.
5. Un procedimiento segun una cualquiera de las reivindicaciones anteriores, en el que se realiza un barrido doble, donde un bloque de coeficientes de transformada se representa con sub-bloques de coeficientes; cada sub-bloque es visitado en barrido a nivel de sub-bloques, y dentro de cada sub-bloque se usa un barrido.

35
6. Un procedimiento segun una cualquiera de las reivindicaciones anteriores, en el que el conjunto de modos de salto de transformada comprende:

transformada sobre filas y columnas;

40

transformada sobre filas solamente; transformada sobre columnas solamente;

45 ninguna transformada.
7. Un procedimiento segun una cualquiera de las reivindicaciones anteriores, en el que la selection de modo se senaliza a un decodificador con una palabra de codigo asignada a cada modo.

50 8. Un procedimiento segun una cualquiera de las reivindicaciones anteriores, donde el orden en el que

los coeficientes dentro de un bloque son barridos en la fase de codificacion por entropla se adapta segun el modo de salto de transformada y preferentemente en el que se emplea barrido fila por fila donde la transformada de filas es saltada y la transformada de columnas es conservada, y se emplea barrido columna por columna donde la transformada de columnas es saltada y la transformada sobre filas es conservada.
9. Un procedimiento segun una cualquiera de las reivindicaciones anteriores, donde el modo de salto de

transformada se senaliza para todos los componentes YUV de un bloque, para un grupo de bloques, y se senaliza por separado para cada componente para otro grupo de bloques.
10. Un procedimiento segun una cualquiera de las reivindicaciones anteriores, en el que se usa el mismo

modo de salto de transformada sobre todos los componentes (luminancia - Y y crominancia - U y V) de un bloque YUV.

5 11. Un procedimiento segun una cualquiera de las reivindicaciones anteriores, en el que el modo de salto

de transformada no se senaliza para bloques que tienen solamente coeficientes de valor nulo o cuando el componente de luminancia tiene solamente valores nulos; en este caso se usa una transformada en 2D sobre componentes de crominancia o cuando el unico coeficiente de valor no nulo del componente de luminancia es la esquina superior izquierda del bloque (componente DC) en este caso se usa una transformada en 2D sobre 10 componentes de crominancia o se senaliza solamente para bloques con otros modos predefinidos (por ejemplo predichos a partir de otros fotogramas solamente).
12. Un producto de programa informatico que contiene instrucciones que hacen que medios programables implementen un procedimiento segun una cualquiera de las reivindicaciones anteriores.

15
13. Un decodificador de video adaptado y configurado para funcionar segun la reivindicacion 2 o cualquier reivindicacion dependiente de la reivindicacion 2.
14. Un codificador de video adaptado y configurado para funcionar segun la reivindicacion 1 o cualquier 20 reivindicacion dependiente de la reivindicacion 1.