ES2710782T3

ES2710782T3 - Codificación y descodificación de video

Info

Publication number: ES2710782T3
Application number: ES16175112T
Authority: ES
Inventors: Guillaume Laroche; Patrice Onno
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-03-09
Filing date: 2012-03-08
Publication date: 2019-04-26
Anticipated expiration: 2032-03-08
Also published as: TR201820537T4; PL3422712T3; KR101409145B1; US10764597B2; PL3422713T3; KR20190072668A; CN106878711A; BR122020002121B1; RU2018101282A3; RU2642329C1; GB201104033D0; HUE055245T2; CN107087165B; GB2488815B; CN106878711B; KR101991074B1; EP2684362B9; DK2684362T3; RU2018101282A; BR112013022774A2

Abstract

Procedimiento de generación de predictores de vectores de movimiento para un bloque a descodificar que forma parte de un fotograma de video actual que debe ser descodificado, en el que el número de predictores temporales de vectores de movimiento generados no es mayor de uno, y el número de predictores espaciales de vectores de movimiento generados es al menos uno, comprendiendo el procedimiento generar dicho un predictor temporal del vector de movimiento seleccionando, si está disponible, como el predictor temporal del vector de movimiento el vector de movimiento asociado con una posición superior izquierda, en un bloque del fotograma de referencia vecino y diagonalmente por debajo y a la derecha de un bloque del fotograma de referencia contiguo a dicho bloque a descodificar, teniendo dicho bloque del fotograma de referencia la misma posición y el mismo tamaño que el bloque a descodificar.

Description

DESCRIPCION

Codificacion y descodificacion de video

Sector tecnico de la invencion

La invencion se refiere a un procedimiento y un dispositivo para la codificacion de una secuencia de imagenes digitales y a un procedimiento y un dispositivo para la descodificacion de una secuencia de bits correspondiente. La invencion pertenece al sector del proceso de senales digitales y, en concreto, al sector de la compresion de video utilizando compensacion del movimiento para reducir las redundancias espaciales y temporales en las secuencias de video.

Descripcion de la tecnica anterior

Muchos formatos de compresion de video, por ejemplo, H.263, H.264, MPEG-1, MPEG-2, MPEG-4, SVC, utilizan la transformada discreta del coseno (DCT, Discrete Cosine Transform) basada en bloques y la compensacion del movimiento para eliminar redundancias espaciales y temporales. Estos se pueden denominar formatos predictivos de video. Cada fotograma o imagen de la senal de video esta dividido en segmentos que estan codificados y pueden ser descodificados de manera independiente. Un segmento es habitualmente una porcion rectangular del fotograma o, de manera mas general, una porcion de un fotograma o un fotograma entero. Ademas, cada segmento esta dividido en macrobloques (MB) y cada macrobloque esta ademas dividido en bloques, habitualmente bloques de 8x8 pixeles. En la mas reciente Codificacion de video de alta eficiencia (HEVC, High Efficiency Video Coding) actualmente en proceso de estandarizacion, cada segmento esta dividido en Unidades maximas de codificacion (LCU, Largest Coding Units) no superpuestas, generalmente bloques de 64 pixeles x 64 pixeles de tamano. Cada LCU se puede, a su vez, dividir iterativamente en Unidades de codificacion (CU - Coding Units) menores de tamano variable utilizando descomposicion en arbol cuaternario. Cada CU se puede partir asimismo en un maximo de 2 Unidades de particion rectangulares simetricas. Los fotogramas codificados son de dos tipos: fotogramas predichos temporales (predichos a partir de un fotograma de referencia llamados fotogramas P, o predichos a partir de dos fotogramas de referencia llamados fotogramas B) y fotogramas predichos no temporales (llamados Intra fotogramas o fotogramas I).

La prediccion temporal consiste en encontrar en un fotograma de referencia, bien un fotograma anterior o un fotograma futuro de la secuencia de video, una porcion de imagen o una zona de referencia que sea la mas proxima al bloque a codificar. Esta etapa se conoce como estimacion del movimiento. A continuacion, la diferencia entre el bloque a codificar y la porcion de referencia es codificada (compensacion del movimiento), junto con un elemento de informacion del movimiento relativo al vector de movimiento, que indica la zona de referencia que se debe utilizar para la compensacion del movimiento.

Con el fin de reducir mas el coste de la codificacion de la informacion del movimiento, se ha propuesto codificar un vector de movimiento mediante la diferencia con respecto a un predictor del vector de movimiento, calculado habitualmente a partir de los vectores de movimiento de los bloques que rodean al bloque a codificar.

En H.264, los vectores de movimiento son codificados con respecto a un predictor medio calculado a partir de vectores de movimiento situados en un entorno causal con el bloque a codificar, por ejemplo, de los bloques situados encima y a la izquierda del bloque a codificar. Solo se codifica la diferencia, tambien llamada vector de movimiento residual, entre el predictor medio y el vector de movimiento del bloque actual.

La codificacion utilizando vectores de movimiento residuales ahorra tasa de bits, pero requiere que el descodificador efectue el mismo calculo del predictor del vector de movimiento para descodificar el valor del vector de movimiento de un bloque a descodificar.

Recientemente, se han propuesto otras mejoras, tales como la utilizacion de una serie de posibles predictores del vector de movimiento. Este procedimiento, denominado competicion de vectores de movimiento, comprende la determinacion entre varios predictores del vector de movimiento o candidatos de que predictor del vector de movimiento minimiza el coste de la codificacion, habitualmente un coste de distorsion de la velocidad, de la informacion residual del movimiento. La informacion residual del movimiento se compone del vector de movimiento residual, es decir, la diferencia entre el vector de movimiento real del bloque a codificar y el predictor del vector de movimiento seleccionado, y un elemento de informacion que indica el predictor del vector de movimiento seleccionado, tal como por ejemplo un valor codificado del indice del predictor del vector de movimiento seleccionado.

En la Codificacion de video de alta eficiencia (HEVC, High Efficiency Video Coding) actualmente en proceso de estandarizacion, se ha propuesto la seleccion de un primer predictor espacial del vector de movimiento de un grupo de bloques predeterminado por encima del bloque actual a codificar, y un segundo predictor espacial del vector de movimiento de otro grupo de bloques predeterminado a la izquierda del bloque actual, y un predictor temporal del vector de movimiento de un bloque contiguo en un fotograma de referencia. Un bloque contiguo es un bloque situado en la misma posicion que el bloque a codificar, pero en otra imagen. Este esquema de seleccion del predictor del vector de movimiento se denomina Prediccion avanzada de vectores de movimiento (AMVP, Advanced Motion Vector Prediction).

Como resultado de la seleccion de predictor del vector de movimiento, se obtiene un conjunto de candidatos de predictor del vector de movimiento que mezclan predictores espaciales y predictores temporales, comprendiendo el conjunto en candidatos 0, 1, 2 o 3 dependiendo de la disponibilidad de los diferentes predictores espaciales del vector de movimiento y temporales. Con el fin de reducir mas la sobrecarga de senalizacion del predictor del vector de movimiento en la secuencia de bits, el conjunto de predictores de vectores de movimiento se reduce mediante la aplicacion de un proceso de supresion que elimina vectores de movimiento duplicados, es decir, vectores de movimiento que tienen el mismo valor. Por ejemplo, si el primer y el segundo predictores espaciales del vector de movimiento mencionados anteriormente son iguales, solo uno de ellos, asi como el predictor temporal del vector de movimiento, se deben mantener como candidatos para la prediccion del vector de movimiento. En este caso, solo es necesario un bit para indicar el indice del predictor del vector de movimiento al descodificador.

Los candidatos de predictor del vector de movimiento pueden ser asimismo ordenados para situar el predictor del vector de movimiento mas probable en la primera posicion, dado que la minima sobrecarga se produce si el primer candidato se elige como el mejor predictor.

Una reduccion suficiente del conjunto de predictores conduce a una ganancia en la sobrecarga de la senalizacion, dado que la indicacion del predictor del vector de movimiento seleccionado se puede codificar utilizando menos bits. En el limite, el conjunto de candidatos se puede reducir a 1, por ejemplo, si todos los predictores del vector de movimiento son iguales y, por lo tanto, no es necesario introducir ninguna informacion relativa al predictor del vector de movimiento seleccionado en la secuencia de bits.

Tal como se ha descrito anteriormente, en la propuesta de HEVC actual, los vectores de movimiento son descodificados mediante codificacion predictiva, utilizando una serie de predictores del vector de movimiento que podrian ser predictores espaciales o temporales. Por lo tanto, para cada fotograma que se utiliza como fotograma de referencia para la obtencion del predictor del vector de movimiento contiguo, es necesario almacenar junto al codificador y al descodificador sus vectores de movimiento correspondientes. Por defecto, el tamano de la memoria de vectores de movimiento es importante, considerando en primer lugar la granularidad del mapeo del movimiento (en el diseno de la HEVC actual el tamano minimo Inter-bloques es 4x4) y, en segundo lugar, que existen hasta dos vectores por bloque de movimiento para un SEGMENTO_B. Se estima que para imagenes con resolucion de 4Kx2K, y utilizando una granularidad de un conjunto de vectores de movimiento por bloque de 4x4 pixeles, son necesarios 26 bits por fotograma.

La publicacion de Yeping Su y Andrew Segall, “On motion vector competition”, (“Sobre la competicion de los vectores de movimiento”) JCTVC-C257, Guangzhou, CN, 7-15 de octubre de 2010, y la publicacion de Yeping Su y Andrew Segall “CE9: Reduced resolution storage of motion vector data” (“CE9: Almacenamiento de resolucion reducida de los datos de los vectores de movimiento”), JCTVC-D072, Daegu, KR, 20-28 de enero de 2011, propone la reduccion del tamano de la memoria de vectores de movimiento necesaria en el lado del descodificador para el almacenamiento de vectores contiguos en el tiempo e indices de referencia. La solucion propuesta comprende una simple compactacion por bloques de los vectores de movimiento, tal como se muestra en la figura 1. En la implementacion actual de la HEVC, se mantiene un vector de movimiento de entre 16 en cada cuadrado de 64x64 pixeles, y se considera el vector de movimiento del bloque de 4x4 superior izquierdo. Esto reduce las necesidades de memoria en un factor 16. Este factor de reduccion se senaliza en el conjunto de parametros de secuencia. El proceso de compresion de la memoria de vectores de movimiento se realiza tras un proceso de filtrado de bucle adaptativo, y antes de que la imagen descodificada se coloque en la memoria temporal de imagenes descodificadas (DPB, Descoded Picture Buffer).

Esta solucion permite una reduccion significativa de la memoria de vectores de movimiento, con una penalizacion en la eficiencia de la codificacion. Sin embargo, esta solucion no considera la diversidad de los predictores en el conjunto para la compactacion por bloques en la compresion de la memoria de MV (Vectores de movimiento, Motion Vector). Por otra parte, se probaron varios criterios, pero sin considerar la diversidad. Por otra parte, esta solucion no es ni adaptativa ni flexible. Ademas, cuando es necesaria mas compresion, es necesaria una mayor relacion de reduccion en la eliminacion de vectores de movimiento, lo que puede conducir a una perdida significativa de eficiencia en la codificacion.

El documento WO 2004/012459A describe otra propuesta para limitar el numero de vectores de movimiento almacenados. La informacion de limitacion se codifica como informacion de cabecera (posiblemente a un nivel global, tal como SPS, a nivel de imagen, tal como PPS o a nivel de segmento, tal como cabecera de segmento). Esta informacion de limitacion indica el numero de imagenes o el numero de macrobloques para los que estan almacenados vectores de movimiento. Si un bloque codificado hace referencia a un vector de movimiento que esta almacenado, entonces se utiliza este vector de movimiento; de lo contrario, se utiliza un vector de movimiento nulo (ambos componentes son iguales a 0). No obstante, esta solucion no considera la compactacion por bloques.

Aparte de las propuestas para reducir las necesidades de almacenamiento de vectores de movimiento, otras propuestas de la tecnica anterior han perseguido mejoras en los predictores para AMVP.

Por ejemplo, Jung, G. Clare, (Orange Labs), “Temporal MV predictor modification for MV-Comp, Skip, Direct and Merge” (“Modificacion de predictores temporales de MV para esquemas de MV-comp, Salto, Direccion y Fusion”), JCTVC-D164, Daegu, KR, 20-28 de enero de 2011, propone utilizar un predictor temporal centrado; vease tambien el documento WO 2011/001077 A. En esta propuesta, el bloque contiguo se encuentra mediante el mapeo del centro del bloque a un fotograma de referencia contiguo, en lugar de al origen (parte superior izquierda) del bloque del bloque (tal como la version previa de HEVC). Los vectores de movimiento central y superior izquierdo tienen el mismo valor si el bloque contiguo tiene el mismo tamano o un tamano mayor que el bloque actual. La figura 2 muestra un bloque contiguo subdividido en 64 bloques de 4x4, que tienen cada uno su propio vector de movimiento. Este bloque contiguo se utiliza para un bloque actual de 32x32 a codificar, y el predictor temporal seleccionado es el vector de movimiento del bloque de 4x4 sombreado en el centro del bloque contiguo.

El objetivo de seleccionar el centro de la particion en lugar de la parte superior izquierda es encontrar una mejor representacion del movimiento del bloque contiguo. Teoricamente, el centro del bloque es una representacion mejor del bloque, debido a que es el baricentro del bloque. Pero el predictor temporal a partir del bloque contiguo no es el unico predictor del conjunto de predictores AMVP.

Jian-Liang Lin, Yu-Pao Tsai, Yu-Wen Huang, Shawmin Lei, (Media Tek Inc.), en “Improved Advanced Motion Vector Prediction” (“Prediccion avanzada mejorada de vectores de movimiento”), JCTVC-D125, Daegu, KR, 20-28 de enero de 2011, proponen anadir varios bloques temporales tal como se representa en la figura 3. Se proponen 4 predictores, el superior izquierdo contiguo temporal (T) y otras tres esquinas (inferior izquierdo (I), inferior derecho (H), superior derecho (E)). De esta manera, se anaden predictores al conjunto de predictores y compiten entre si segun el criterio de distorsion de velocidad.

Ninguna de las dos propuestas anteriores para mejorar el conjunto de predictores de vectores de movimiento implica la compresion de la memoria de vectores de movimiento.

Es deseable solucionar uno o varios de los inconvenientes de la tecnica anterior.

Es deseable asimismo reducir las necesidades de la memoria de vectores de movimiento. Preferentemente, esta reduccion se deberia conseguir sin ninguna, o sin ninguna significativa, penalizacion adicional en la eficiencia de la codificacion. Incluso mas Preferentemente, esta reduccion se deberia conseguir en combinacion con mejoras en la eficiencia de la codificacion.

Es deseable asimismo conseguir mejoras en la eficiencia de la codificacion. Preferentemente, estas mejoras se deberian conseguir sin ninguna penalizacion, o sin ninguna significativa, en las necesidades de la memoria de vectores de movimiento. Incluso, mas Preferentemente, estas mejoras se deberian conseguir en combinacion con reducciones en las necesidades de la memoria de vectores de movimiento.

Es deseable asimismo encontrar buenos vectores de movimiento representativos en un fotograma de referencia para utilizar como predictores, no obstante, estos vectores de movimiento representativos se utilizan, es decir, incluso si se utilizan con propositos diferentes a reducir las necesidades de la memoria de vectores de movimiento y/o a la mejora de la eficiencia de la codificacion.

CARACTERISTICAS DE LA INVENCION

La invencion solo se define en las reivindicaciones, correspondientes a la duodecima realizacion en la descripcion. Las diversas realizaciones que se describen a continuacion engloban, por lo tanto, ejemplos que no realizan directamente la presente invencion.

Segun un primer aspecto de la presente invencion, se proporciona un procedimiento para determinar un predictor temporal del vector de movimiento que se puede incluir, junto con uno o varios predictores espaciales del vector de movimiento, en un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, comprendiendo el procedimiento seleccionar como dicho predictor temporal un vector de movimiento de entre los vectores de movimiento en un bloque de referencia de un fotograma de referencia diferente de dicho fotograma actual, siendo el bloque de referencia un bloque del fotograma de referencia contiguo a dicho bloque a codificar o un bloque del fotograma de referencia proximo al bloque contiguo, y estando basada la seleccion en un criterio de diversidad para conseguir la diversidad entre los predictores de dicho conjunto.

Dicho procedimiento puede ser utilizado para encontrar el mejor vector de movimiento para la compactacion de vectores por bloques durante el proceso de compresion de la memoria. La seleccion del mejor predictor puede basarse en una distancia espacial y/o espacio-temporal entre las posiciones del predictor que podria ser utilizada para la prediccion del vector de movimiento actual o para el predictor de los modos de Fusion y Salto.

En una realizacion, una posicion del vector de movimiento se selecciona de entre un conjunto de posiciones que, en terminos de distancia espacial, es la posicion mas alejada en comparacion con las posiciones de los otros predictores. Ademas, las posiciones consideradas deben ser una buena representacion de los bloques vecinos o del bloque contiguo. De esta manera es posible obtener diversidad en el conjunto de predictores.

Segun un segundo aspecto de la presente invencion, se proporciona un procedimiento para determinar un predictor temporal del vector de movimiento que se puede incluir, junto con uno o varios predictores espaciales del vector de movimiento, en un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, comprendiendo el procedimiento seleccionar como dicho predictor temporal el vector de movimiento en una posicion inferior derecha de un bloque del fotograma de referencia contiguo a dicho bloque a codificar.

Una seleccion de este tipo funciona bien con tamanos de bloque relativamente pequenos y tiene la ventaja de no tener carga de procesamiento, porque la seleccion esta predeterminada.

Segun un tercer aspecto de la presente invencion, se proporciona un procedimiento para determinar un predictor temporal del vector de movimiento que se puede incluir, junto con uno o varios predictores espaciales del vector de movimiento, en un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, comprendiendo el procedimiento seleccionar como dicho predictor temporal el vector de movimiento en una posicion inferior derecha de un bloque del fotograma de referencia contiguo a dicho bloque a codificar o en una posicion predeterminada, en la proximidad de dicha posicion inferior derecha, en un bloque del fotograma de referencia proximo al bloque contiguo.

En este aspecto de la invencion, la seleccion se expande para incluir posiciones en la proximidad de dicha posicion inferior derecha, en un bloque del fotograma de referencia proximo al bloque contiguo.

Una seleccion de este tipo funciona bien asimismo con tamanos de bloque relativamente pequenos y tiene la ventaja de no tener carga de procesamiento, porque la seleccion esta predeterminada.

Segun un cuarto aspecto de la presente invencion, se proporciona un procedimiento para determinar un predictor temporal del vector de movimiento que se puede incluir, junto con uno o varios predictores espaciales del vector de movimiento, en un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, comprendiendo el procedimiento seleccionar como dicho predictor temporal un vector de movimiento de entre los vectores de movimiento en un bloque de referencia de un fotograma de referencia diferente de dicho fotograma actual, siendo el bloque de referencia un bloque del fotograma de referencia contiguo a dicho bloque a codificar o un bloque del fotograma de referencia proximo al bloque contiguo, y dependiendo la seleccion de un tamano de bloque del bloque a codificar.

Un procedimiento de este tipo permite que el vector de movimiento sea seleccionado de manera diferente para diferentes tamanos de bloque. En experimentos, se consiguieron buenos resultados con este procedimiento.

Por ejemplo, en el caso de un primer tamano de bloque, el vector de movimiento en una primera posicion predeterminada en el bloque de referencia puede ser seleccionado como dicho predictor temporal y, en el caso de un segundo tamano de bloque diferente del primer tamano de bloque, el vector de movimiento en una segunda posicion predeterminada en el bloque de referencia, diferente de la primera posicion, puede ser seleccionado como dicho predictor temporal. Cuando el primer tamano de bloque es mas pequeno que el segundo tamano de bloque, es efectivo hacer que la primera posicion sea una posicion inferior derecha en el bloque contiguo y hacer que la segunda posicion sea una posicion central en el bloque contiguo.

De manera alternativa, en el caso de un primer tamano de bloque, un vector de movimiento en el bloque de referencia puede ser seleccionado como dicho predictor temporal utilizando un primer procedimiento de seleccion y, en el caso de un segundo tamano de bloque diferente del primer tamano de bloque, un vector de movimiento en el bloque de referencia puede ser seleccionado utilizando un segundo procedimiento de seleccion diferente de dicho primer procedimiento.

Algunas realizaciones implican determinar posiciones relativas de por lo menos uno de dichos predictores espaciales y por lo menos un vector de movimiento de dicho bloque de referencia, y seleccionar dicho predictor temporal en funcion de dichas posiciones relativas. Esta es una forma efectiva de garantizar la diversidad controlada entre los predictores.

Otras realizaciones implican determinar la disponibilidad, por lo menos, de uno de dichos predictores espaciales, y seleccionar dicho predictor temporal en funcion de dicha disponibilidad. De nuevo, esta es una manera efectiva de garantizar la diversidad controlada. Por ejemplo, en algunas implementaciones se pueden excluir uno o varios predictores espaciales. Asimismo, para algunas posiciones en el fotograma, por ejemplo, la parte superior del fotograma o el borde del lado izquierdo del fotograma, se sabe de antemano que uno o varios predictores espaciales no estan disponibles.

Otra realizacion utiliza una tabla de busqueda para seleccionar dicho predictor temporal, dicha tabla de busqueda almacenando para una o varias diferentes combinaciones seleccionables de predictores espaciales informacion que identifica el vector de movimiento del bloque de referencia a seleccionar para la combinacion en cuestion. Esto tiene una complejidad baja y puede funcionar de manera rapida.

Los procedimientos de los aspectos primero a cuarto pueden ser utilizados para lograr una reduccion en las necesidades de memoria para almacenar vectores de movimiento. Asimismo, se pueden utilizar para mejorar la eficiencia de la codificacion.

En el caso de reduccion de la memoria, el predictor temporal se selecciona antes de que se seleccione, por lo menos, un predictor espacial. Por consiguiente, en este caso, los procedimientos pueden comprender ademas estimar la posicion del predictor espacial en cuestion, dependiendo de una posicion media entre las posiciones potenciales del predictor espacial en cuestion. La media puede ser ponderada, si se desea, segun las frecuencias relativas en las que se seleccionaran las posiciones potenciales. Esto, a su vez, depende del proceso de seleccion aplicado, por ejemplo, en AMVP se realiza una busqueda de derecha a izquierda para el predictor superior y de abajo a arriba para el predictor izquierdo. Esto afecta a las frecuencias relativas.

Segun un quinto aspecto de la presente invencion, se proporciona un procedimiento para almacenar vectores de movimiento para ser utilizados como predictores temporales del vector de movimiento, que comprende almacenar, entre los vectores de movimiento del bloque a codificar de un fotograma actual, el vector de movimiento que tiene la misma posicion que el predictor temporal determinado por el procedimiento de uno cualquiera de los aspectos primero a cuarto de la presente invencion, de tal modo que el vector de movimiento almacenado este disponible como un predictor temporal para la codificacion de otro fotograma haciendo referencia a dicho fotograma actual, y no almacenar otros de dichos vectores de movimiento del bloque a codificar del fotograma actual.

Esto mejora la eficiencia de la codificacion en comparacion con los procedimientos anteriores de compactacion por bloques.

Segun un sexto aspecto de la presente invencion, se proporciona un procedimiento para generar un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, permitiendose al conjunto incluir, por lo menos, un predictor espacial del vector de movimiento y, por lo menos, un predictor temporal del vector de movimiento, que comprende utilizar el procedimiento de uno cualquiera de los primero a cuarto aspectos de la presente invencion para determinar dicho predictor temporal del vector de movimiento o uno de dichos predictores temporales del vector de movimiento del conjunto.

Esto puede proporcionar mejoras en la eficiencia de la codificacion. En este aspecto de la invencion es posible almacenar todos los vectores de movimiento, es decir, no es necesario reducir el numero de vectores de movimiento almacenados, aunque esto, por supuesto, es preferible.

En este caso, por lo menos, uno de dichos predictores espaciales se selecciona antes de que se determine el predictor temporal, y la determinacion del predictor temporal se realiza preferentemente dependiendo del predictor o predictores espaciales seleccionados. A diferencia de la aplicacion de reduccion de la memoria, por lo tanto, los resultados reales de las selecciones de predictores espaciales se pueden tener en cuenta, lo que da buenos resultados en terminos de mejora de la diversidad.

Segun un septimo aspecto de la presente invencion, se proporciona un procedimiento para codificar una secuencia de imagenes digitales en una secuencia de bits, estando codificada, por lo menos una porcion de una imagen, por compensacion del movimiento con respecto a una porcion de la imagen de referencia, comprendiendo el procedimiento de determinacion un predictor temporal del vector de movimiento segun cualquiera de los aspectos primero a cuarto de la presente invencion.

Segun un octavo aspecto de la presente invencion, se proporciona un procedimiento para codificar una secuencia de imagenes digitales en una secuencia de bits, estando codificada, por lo menos una porcion de una imagen, por compensacion del movimiento con respecto a una porcion de la imagen de referencia, comprendiendo el procedimiento de almacenamiento vectores de movimiento segun el quinto aspecto de la presente invencion.

Segun un noveno aspecto de la presente invencion se proporciona un procedimiento para codificar una secuencia de imagenes digitales en una secuencia de bits, estando codificada, por lo menos una porcion de una imagen, por compensacion del movimiento con respecto a una porcion de la imagen de referencia, comprendiendo el procedimiento de generacion un conjunto de predictores de vectores de movimiento segun el sexto aspecto de la presente invencion.

En los aspectos decimo a decimoquinto de la presente invencion, los procedimientos de los aspectos primero a sexto tambien se pueden utilizar en un procedimiento de descodificacion de una secuencia de bits que comprende una secuencia codificada de imagenes digitales, estando codificada, por lo menos una porcion de una imagen, por compensacion del movimiento con respecto a una imagen de referencia.

Segun un decimosexto aspecto de la presente invencion, se proporciona un dispositivo para determinar un predictor temporal del vector de movimiento que se puede incluir, junto con uno o varios predictores espaciales del vector de movimiento, en un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, comprendiendo el dispositivo medios para seleccionar como dicho predictor temporal un vector de movimiento de entre los vectores de movimiento en un bloque de referencia de un fotograma de referencia diferente de dicho fotograma actual, siendo el bloque de referencia un bloque del fotograma de referencia contiguo a dicho bloque a codificar o un bloque del fotograma de referencia proximo al bloque contiguo, y la seleccion se basa en un criterio de diversidad para conseguir la diversidad entre los predictores de dicho conjunto.

Segun un decimoseptimo aspecto de la presente invencion, se proporciona un dispositivo para determinar un predictor temporal del vector de movimiento que se puede incluir, junto con uno o varios predictores espaciales del vector de movimiento, en un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, comprendiendo el dispositivo medios para seleccionar como dicho predictor temporal el vector de movimiento en la posicion inferior derecha de un bloque del fotograma de referencia contiguo a dicho bloque a codificar.

Segun un decimoctavo aspecto de la presente invencion, se proporciona un dispositivo para determinar un predictor temporal del vector de movimiento que se puede incluir, junto con uno o varios predictores espaciales del vector de movimiento, en un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, comprendiendo el dispositivo medios para seleccionar como dicho predictor temporal el vector de movimiento en una posicion inferior derecha de un bloque del fotograma de referencia contiguo a dicho bloque a codificar o en una posicion predeterminada, en la proximidad de dicha posicion inferior derecha, en un bloque del fotograma de referencia proximo al bloque contiguo.

Segun un decimonoveno aspecto de la presente invencion, se proporciona un dispositivo para determinar un predictor temporal del vector de movimiento que se puede incluir, junto con uno o varios predictores espaciales del vector de movimiento, en un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, comprendiendo el dispositivo medios para seleccionar como dicho predictor temporal un vector de movimiento de entre los vectores de movimiento en un bloque de referencia de un fotograma de referencia diferente de dicho fotograma actual, siendo el bloque de referencia un bloque del fotograma de referencia contiguo a dicho bloque a codificar o un bloque del fotograma de referencia proximo al bloque contiguo, y dependiendo la seleccion del tamano de bloque del bloque a codificar.

Segun un vigesimo aspecto de la presente invencion, se proporciona un dispositivo para almacenar vectores de movimiento para ser utilizados como predictores temporales de vectores de movimiento, que comprende medios de control para provocar el almacenamiento, de entre los vectores de movimiento del bloque a codificar de un fotograma actual, del vector de movimiento que tiene la misma posicion que el predictor temporal determinado por el dispositivo de cualquiera de los aspectos decimosexto a decimonoveno de la presente invencion, de modo que el vector de movimiento almacenado esta disponible como un predictor temporal para la codificacion de otro fotograma haciendo referencia a dicho fotograma actual, y para evitar el almacenamiento de otros vectores de movimiento del bloque a codificar del fotograma actual.

Segun un vigesimoprimer aspecto de la presente invencion, se proporciona un dispositivo para generar un conjunto de predictores de vectores de movimiento para un bloque a codificar de un fotograma actual, permitiendose al conjunto incluir, por lo menos, un predictor espacial del vector de movimiento y, por lo menos, un predictor temporal del vector de movimiento, comprendiendo el dispositivo de uno cualquiera de los aspectos decimosexto a decimonoveno para determinar dicho predictor temporal del vector de movimiento o uno de dichos predictores temporales de vectores de movimiento del conjunto.

Segun un vigesimosegundo aspecto de la presente invencion, se proporciona un dispositivo para codificar una secuencia de imagenes digitales en una secuencia de bits, estando codificada, por lo menos una porcion de una imagen, por compensacion del movimiento con respecto a una porcion de la imagen de referencia, comprendiendo el dispositivo de uno cualquiera de los aspectos decimosexto a decimonoveno para determinar un predictor temporal del vector de movimiento.

Segun un vigesimotercer aspecto de la presente invencion, se proporciona un dispositivo para codificar una secuencia de imagenes digitales en una secuencia de bits, estando codificada, por lo menos una porcion de una imagen por compensacion del movimiento con respecto a una porcion de la imagen de referencia, comprendiendo el dispositivo de almacenamiento vectores de movimiento segun el vigesimo aspecto de la presente invencion.

Segun un vigesimocuarto aspecto de la presente invencion, se proporciona un dispositivo para codificar una secuencia de imagenes digitales en una secuencia de bits, estando codificada, por lo menos una porcion de una imagen por compensacion del movimiento con respecto a una porcion de la imagen de referencia, comprendiendo el dispositivo de generacion un conjunto de predictores de vectores de movimiento segun el primer aspecto de la presente invencion.

Segun un vigesimoquinto aspecto de la presente invencion, se proporciona un dispositivo para descodificar una secuencia de bits que comprende una secuencia codificada de imagenes digitales, estando codificada, por lo menos una porcion de una imagen por compensacion del movimiento con respecto a una porcion de la imagen de referencia, comprendiendo el dispositivo segun uno cualquiera de los aspectos decimosexto a decimonoveno de determinacion de un predictor temporal del vector de movimiento.

Segun un vigesimosexto aspecto de la presente invencion, se proporciona un dispositivo para descodificar una secuencia de bits que comprende una secuencia codificada de imagenes digitales, estando codificada, por lo menos una porcion de una imagen por compensacion del movimiento con respecto a una porcion de la imagen de referencia, comprendiendo el dispositivo de almacenamiento vectores de movimiento segun el vigesimo aspecto de la presente invencion.

Segun un vigesimoseptimo aspecto de la presente invencion, se proporciona un dispositivo para descodificar una secuencia de bits que comprende una secuencia codificada de imagenes digitales, estando por lo menos una parte de una imagen codificada por compensacion del movimiento con respecto a una imagen de referencia, comprendiendo el dispositivo de generacion un conjunto de predictores de vectores de movimiento segun el vigesimoprimer aspecto de la presente invencion.

La presente invencion se extiende asimismo a programas que, cuando son ejecutados en un ordenador o procesador, hacen que el ordenador o procesador lleve a cabo cualquiera de los procedimientos descritos anteriormente o que, cuando se cargan en un dispositivo programable, hacen que el dispositivo sea cualquiera de los dispositivos descritos anteriormente. Se puede proporcionar el propio programa, o este contenido en un medio portador. El medio portador puede ser un medio de almacenamiento o de grabacion, o puede ser un medio de transmision tal como una senal. Un programa que realiza la presente invencion puede ser transitorio o no transitorio. Tal como se ha descrito anteriormente, en las realizaciones de la presente invencion se tienen en cuenta las posiciones de los predictores espaciales para producir diversidad en el conjunto de predictores, en lugar de utilizar la mejor representacion del conjunto de predictores.

Para la compresion de la memoria de MV, se obtienen resultados significativos en comparacion con otras propuestas. Ademas, no hay impacto en la complejidad informatica en comparacion con la tecnica anterior.

La invencion se puede asimismo utilizar para el proceso de obtencion de vectores de movimiento con el fin de crear diversidad en el conjunto de predictores.

La invencion se puede utilizar asimismo para aumentar la eficiencia de codificacion de la compresion de la memoria del vector de movimiento. De manera mas precisa, en este caso es posible reducir la perdida (en terminos de eficiencia de codificacion) generada por la compactacion por bloques de la compresion de la memoria del vector de movimiento, o aumentar la relacion de compresion (de la compresion de la memoria del vector de movimiento) con una eficiencia de codificacion similar a la compactacion por bloques clasica.

Por extension, las realizaciones de la invencion pueden mejorar la eficiencia de la codificacion del esquema de AMVP y del modo de Fusion.

BREVE DESCRIPCION DE LOS DIBUJOS

A continuacion, se hara ahora referencia, a modo de ejemplo, a los dibujos adjuntos, en los que:

- la figura 1, descrita anteriormente en esta memoria, es un diagrama esquematico para su utilizacion en la explicacion de una propuesta de la tecnica anterior para reducir las necesidades de la memoria de vectores de movimiento;

- la figura 2, descrita tambien anteriormente en esta memoria, es un diagrama esquematico para su utilizacion en la explicacion de una propuesta de la tecnica anterior para mejorar el conjunto de predictores del vector de movimiento; - la figura 3, descrita tambien anteriormente en esta memoria, es un diagrama esquematico para su utilizacion en la explicacion de otra propuesta de la tecnica anterior para mejorar el conjunto de predictores del vector de movimiento;

- la figura 4 muestra partes del dispositivo adecuadas para implementar un codificador o un descodificador segun una realizacion de la presente invencion;

- la figura 5 muestra un diagrama de bloques de partes de un codificador segun una realizacion de la presente invencion;

- la figura 6 muestra una secuencia de imageries procesada mediante el codificador de la figura 5;

- la figura 7 muestra un diagrama de bloques de partes de un descodificador segun una realizacion de la invencion; - la figura 8 es un diagrama esquematico para su utilizacion en la explicacion de un procedimiento de determinacion de un conjunto de predictores de vectores de movimiento que pueden ser utilizados por el codificador de la figura 5 y el descodificador de la figura 7;

- la figura 9 es un diagrama de flujo de las etapas llevadas a cabo por el codificador de la figura 5 cuando se utiliza el procedimiento de la figura 8;

- la figura 10 es un diagrama de flujo de las etapas llevadas a cabo por el descodificador de la figura 7 cuando se utiliza el procedimiento de la figura 8;

- la figura 11 es un diagrama de flujo de un procedimiento de compactacion por bloques del vector de movimiento utilizable por el codificador de la figura 5 y el descodificador de la figura 7;

- la figura 12 es un diagrama esquematico para utilizar en la explicacion de un principio que subyace al procedimiento de la figura 11; y

- las figuras 13A a 13C muestran matrices de distancias respectivas adecuadas para su utilizacion en el procedimiento de la figura 11.

DESCRIPCION DETALLADA DE LAS REALIZACIONES

La figura 4 muestra un diagrama del dispositivo -1000- adaptado para implementar un codificador segun una realizacion de la presente invencion o para implementar un descodificador segun una realizacion de la presente invencion. El dispositivo -1000- es, por ejemplo, un microordenador, una estacion de trabajo o un dispositivo portatil ligero.

El dispositivo -1000- comprende un bus de comunicaciones -1113- al que se conectan preferentemente:

- una unidad central de proceso -1111-, tal como un microprocesador, indicada como CPU;

- una memoria de solo lectura (ROM, Read Only Memory) -1107- que almacena uno o varios programas informaticos para implementar la invencion;

- una memoria de acceso aleatorio (RAM, Random Access Memory) -1112- que almacena codigo ejecutable del procedimiento de la invencion y proporciona registros adaptados para grabar las variables y los parametros necesarios para implementar el procedimiento de codificacion de una secuencia de imagenes digitales y/o el procedimiento de descodificacion de una secuencia de bits; y

- una interfaz de comunicacion -1102- conectada a una red de comunicacion -1103- sobre la que se transmiten los datos digitales a procesar.

Una memoria de vectores de movimiento (MVM, Motion Vector Memory) -1112a- forma parte de la RAM -1112- y se utiliza para almacenar los vectores de movimiento de fotogramas de referencia.

Opcionalmente, el dispositivo -1000- puede tener tambien los siguientes componentes:

- un medio de almacenamiento de datos -1104- tal como un disco duro, capaz de contener los programas que implementan la invencion y los datos utilizados o producidos durante la implementacion de la invencion;

- una unidad de disco -1105- para un disco -1106-, estando la unidad de disco adaptada para leer datos del disco -1106- o para escribir datos en dicho disco;

- una pantalla -1109- para mostrar y/o servir como interfaz grafica con el usuario, por medio de un teclado -1110- o de cualquier otro medio de senalizacion.

El dispositivo -1000- puede ser conectado a diversos perifericos, tales como por ejemplo una camara digital -1100- o un microfono -1108-, siendo cada uno conectado a una tarjeta de entrada/salida (no mostrada) con el fin de proporcionar datos multimedia al dispositivo -1000-.

El bus de comunicacion permite la comunicacion e interoperatividad entre los diferentes elementos incluidos en el dispositivo -1000- o conectados al mismo. El mapeo del bus no es limitativo y, en particular, la unidad central de proceso es capaz de comunicar instrucciones a cualquier elemento del dispositivo -1000-, directamente o por medio de otro elemento del dispositivo -1000-.

El disco -1106- puede ser reemplazado por cualquier medio de informacion tal como, por ejemplo, un disco compacto (CD-ROM), regrabable o no, un disco ZIP o una tarjeta de memoria y, en terminos generales, por medios de almacenamiento de informacion que pueden ser leidos por un microordenador o por un microprocesador, integrados o no en el dispositivo, opcionalmente extraible y adaptado para almacenar uno o varios programas cuya ejecucion permita la implementacion del procedimiento de codificacion de una secuencia de imagenes digitales y/o del procedimiento de descodificacion de una secuencia de bits segun la invencion.

El codigo ejecutable puede ser almacenado bien en una memoria de solo lectura -1107-, en el disco duro -1104- o en un medio digital extraible tal como por ejemplo un disco -1106- tal como se ha descrito anteriormente. Segun una variante, el codigo ejecutable de los programas puede ser recibido por medio de la red de comunicacion -1103-, a traves de la interfaz -1102-, con el fin de ser almacenado en uno de los medios de almacenamiento del dispositivo -1000- antes de ser ejecutado, tal como el disco duro -1104-.

La unidad central de proceso -1111- esta adaptada para controlar y dirigir la ejecucion de las instrucciones o porciones de codigo del software del programa o programas segun la invencion, instrucciones que estan almacenadas en uno de los medios de almacenamiento mencionados anteriormente. Cuando se conecta el equipo, el programa o programas que estan almacenados en una memoria no volatil, por ejemplo, en el disco duro -1104- o en la memoria de solo lectura -1107-, son transferidos a la memoria de acceso aleatorio -1112-, que contiene entonces el codigo ejecutable del programa o programas, asi como los registros para almacenar las variables y parametros necesarios para la implementacion de la invencion.

En esta realizacion, el dispositivo es un dispositivo programable que utiliza software para implementar la invencion. Sin embargo, de manera alternativa, la presente invencion puede ser implementada en hardware (por ejemplo, en forma de un circuito integrado de aplicacion especifica, o ASIC, Application Specific Integrated Circuit).

La figura 5 muestra un diagrama de bloques de un codificador -30- segun una realizacion de la invencion. El codificador esta representado por modulos conectados, estando cada modulo adaptado para implementar, por ejemplo, en forma de instrucciones de programacion para ser ejecutadas por la CPU -1111- del dispositivo -1000-, una etapa correspondiente de un procedimiento que implementa una realizacion de la invencion.

Una secuencia original de imagenes digitales io a in -301- es recibida como entrada por el codificador -30-. Cada imagen digital esta representada por un conjunto de muestras, conocidas como pixeles.

Una secuencia de bits -310- es emitida por el codificador -30-.

La secuencia de bits -310- comprende una serie de unidades de codificacion o segmentos, comprendiendo cada segmento una cabecera de segmento para la codificacion de los valores de los parametros de codificacion utilizados para codificar el segmento y el cuerpo del segmento, que comprende datos de video codificados. En HEVC, estos segmentos estan divididos en Unidades maximas de codificacion (LCU, Largest Coding Units) no superpuestas, generalmente bloques de tamano 64 pixeles x 64 pixeles. Cada LCU puede, a su vez, ser dividida iterativamente en Unidades de codificacion (CU, Coding Units) menores de tamano variable, utilizando una descomposicion de arbol cuaternario. Cada CU puede ser ademas dividida en un maximo de 2 Unidades de particion (PU, Partition Units) rectangulares simetricas.

La figura 6 muestra la secuencia -301- de imagenes digitales i, segmentos -103-, LCU -104-, CU -105-, PU -106- y TU -107-. Una TU (Unidad transformada, Transform Unit) se define independientemente de la PU para transformacion y cuantificacion en la CU.

Se debe observar que, en la siguiente descripcion se utiliza el termino “bloque” en lugar de la terminologia especifica CU y PU utilizada en H^eVCA. CU o PU es un bloque de pixeles.

Volviendo a la figura 5, las imagenes digitales de entrada i son divididas en bloques mediante el modulo -302-. Estos bloques son porciones de imagen y pueden ser de tamanos variables (por ejemplo, 4x4, 8x8, 16x16, 32x32, 64x64). Mediante el modulo -306-, se selecciona un modo de codificacion para cada bloque de entrada. El modulo -306- se describe mas adelante.

Existen dos familias de modos de codificacion, codificacion de prediccion espacial o Intra-codificacion, y codificacion de prediccion temporal o Inter-codificacion. Los modos de codificacion posibles estan probados.

El modulo -303- implementa la Intra-prediccion, en la que el bloque determinado a codificar es predicho por medio de un predictor “Intra”, un bloque de pixeles construido a partir de la informacion ya codificada, por ejemplo, calculada a partir de los pixeles del entorno de dicho bloque a codificar. Una indicacion del predictor Intra seleccionado y la diferencia entre el bloque determinado y su predictor se codifica si se selecciona la Intra-codificacion mediante el modulo -306-.

La prediccion temporal se implementa mediante los modulos -304- y -305-. En primer lugar, se selecciona una imagen de referencia entre un conjunto de imagenes de referencia -316-, y se selecciona una porcion de la imagen de referencia, llamada tambien zona de referencia, que es la zona mas proxima al bloque determinado que se debe codificar, mediante el modulo -304- de estimacion del movimiento. Generalmente, el modulo de estimacion del movimiento -304- utiliza un algoritmo de ajuste de bloques (BMA, Block Matching Algorithm).

Con respecto a la “Inter” codificacion, son posibles dos tipos de prediccion. La Mono-prediccion (tipo P) consiste en predecir el bloque haciendo referencia a una zona de referencia de una imagen de referencia. La Bi-prediccion (tipo B) consiste en predecir el bloque haciendo referencia a dos zonas de referencia de una o dos imagenes de referencia. En el modulo -304- se realiza una estimacion del movimiento entre el bloque actual y las imagenes de referencia -316- con el fin de identificar, en una o varias de estas imagenes de referencia, un bloque de pixeles (tipo P), o varios (tipo B), para su utilizacion como predictores de este bloque actual. En el caso en que se utilicen varios predictores de bloque (tipo B), estos son fusionados para generar un solo bloque de prediccion. Las imagenes de referencia utilizadas son imagenes en la secuencia de video que han sido ya codificadas y despues reconstruidas (mediante descodificacion).

La diferencia entre la zona de referencia seleccionada y el bloque determinado, llamado tambien bloque residual, se calcula mediante el modulo de compensacion del movimiento -305-. La zona de referencia seleccionada se indica mediante un vector de movimiento.

La informacion relativa al vector de movimiento y al bloque residual se codifica si se selecciona Inter-prediccion mediante el modulo -306-. Para reducir mas la tasa de bits, el vector de movimiento es codificado por diferencia con respecto a un predictor del vector de movimiento. Se obtiene un conjunto de predictores del vector de movimiento, llamados tambien predictores de informacion del movimiento, a partir del campo de vectores de movimiento -318-mediante una prediccion del vector de movimiento y del modulo de codificacion -317-. La operacion del modulo -317-se describira a continuacion con detalle, con respecto a las figuras 8 y 9.

El modulo de seleccion del modo de codificacion -306- utiliza un criterio de coste de codificacion, tal como un criterio de distorsion de velocidad, para determinar cual es el mejor modo entre los modos de prediccion Intra e Inter. Se aplica una transformada -307- al bloque residual, los datos transformados obtenidos se cuantifican a continuacion mediante el modulo -308- y se codifican por entropia mediante el modulo -309-. La transformada se aplica a la Unidad de transformada (TU) mencionada anteriormente que esta incluida en un bloque. Una TU puede ser dividida ademas en varias TU mas pequenas utilizando una llamada descomposicion de Arbol cuaternario residual (RQT, Residual Arbol cuaternario), tal como se muestra en la figura 6. En HEVC, generalmente se utilizan 2 o 3 niveles de descomposiciones, y los tamanos autorizados de transformadas son de 32x32, 16x16, 8x8 y 4x4. La base de la transformada se deriva a partir de una transformada del coseno discreta, DCT (Discrete Cosine Transform).

Finalmente, el bloque residual codificado del bloque actual a codificar es introducido en la secuencia de bits -310-, junto con la informacion relativa al predictor utilizado. Para los bloques codificados en modo ‘SALTO’, solo se codifica una referencia al predictor en la secuencia de bits, sin ningun bloque residual.

Para calcular los predictores “Intra” o realizar una estimacion del movimiento para los predictores “Inter”, el codificador realiza una descodificacion de los bloques ya codificados por medio de un llamado bucle de “descodificacion” -311----- 315-. Este bucle de descodificacion hace posible la reconstruccion de los bloques e imagenes a partir de residuos transformados cuantificados.

El residuo transformado cuantificado es descuantificado en el modulo -311- mediante la aplicacion de la cuantificacion inversa a la proporcionada por el modulo -308-, y es reconstruido en el modulo -312- mediante la aplicacion de la transformada inversa a la del modulo -307-.

Si el residuo procede de una codificacion “Intra”, entonces en el modulo -313- el predictor “Intra” utilizado se anade a este residuo con el fin de obtener un bloque reconstruido correspondiente al bloque original modificado por las perdidas resultantes de una transformacion con perdidas, en este caso, operaciones de cuantificacion.

Si el residuo, por otro lado, procede de una codificacion “Inter”, los bloques senalados por los vectores de movimiento actuales (estos bloques pertenecen a las imagenes de referencia -316- indicadas por los indices de imagen actuales) son fusionados y, anadidos a continuacion a este residuo descodificado en el modulo -314-. De esta manera, se obtiene el bloque original, modificado por las perdidas resultantes de las operaciones de cuantificacion.

Un filtro de bucle -315- final se aplica a la senal reconstruida con el fin de reducir los efectos creados por la fuerte cuantificacion de los residuos obtenidos, y para mejorar la calidad de la senal. El filtro de bucle comprende dos etapas, un filtro de “desbloqueo” y un filtrado lineal. El filtrado de desbloqueo suaviza los limites entre los bloques con el fin de atenuar visualmente estas altas frecuencias creadas por la codificacion. El filtrado lineal mejora ademas la senal utilizando coeficientes de filtro determinados adaptativamente en el codificador. El filtrado mediante el modulo -315- se aplica, de este modo, a una imagen cuando todos los bloques de pixeles de esta imagen han sido descodificados.

Las imagenes filtradas, tambien llamadas imagenes reconstruidas, se almacenan a continuacion como imagenes de referencia -316- con el fin de permitir la realizacion de predicciones “Inter” sucesivas durante la compresion de las imagenes siguientes de la secuencia de video actual.

En el contexto de HEVC, es posible utilizar varias imagenes de referencia -316- para la estimacion y la compensacion del movimiento de la imagen actual. En otras palabras, la estimacion del movimiento se realiza sobre N imagenes. De este modo, los mejores predictores “Inter” del bloque actual, para la compensacion del movimiento, se seleccionan en algunas de las multiples imagenes de referencia. En consecuencia, dos bloques adyacentes pueden tener dos bloques de predictores que proceden de dos imagenes de referencia distintas. Esta es, en concreto, la razon por la que, en la secuencia de bits comprimida, se indica el indice de la imagen de referencia (ademas del vector de movimiento) utilizado para el bloque del predictor.

La utilizacion de multiples imagenes de referencia es tanto una herramienta para evitar los errores como una herramienta para mejorar la eficacia de la compresion. El grupo VCEG recomienda limitar el numero de imagenes de referencia a cuatro.

La figura 7 muestra un diagrama de bloques de un descodificador -40- segun una realizacion de la invencion. El descodificador se representa mediante modulos conectados, estando cada modulo adaptado para implementar, por ejemplo, en forma de instrucciones de programacion para ser ejecutadas por la CPU -1111- del dispositivo -1000-, una etapa correspondiente de un procedimiento que implementa una realizacion de la invencion.

El descodificador -40- recibe una secuencia de bits -401- que comprende unidades de codificacion, estando cada unidad compuesta por una cabecera que contiene informacion sobre los parametros de codificacion y un cuerpo que contiene los datos de video codificados. Tal como se ha explicado anteriormente con respecto a la figura 5, los datos de video codificados se codifican por entropia, y los indices de los predictores del vector de movimiento se codifican, para un bloque determinado, en un numero de bits predeterminado. Los datos de video codificados recibidos son descodificados por entropia mediante un modulo -402-, descuantificados mediante un modulo -403- y a continuacion se aplica una transformada inversa mediante un modulo -404-.

En concreto, cuando los datos del video codificado recibidos corresponden a un bloque residual de un bloque actual a codificar, el descodificador descodifica tambien la informacion de la prediccion del movimiento a partir de la secuencia de bits, con el fin de encontrar la zona de referencia utilizada por el codificador.

Un modulo -410- aplica la descodificacion del vector de movimiento para cada bloque actual codificado mediante la prediccion de movimiento. De manera similar al modulo -317- del descodificador de la figura 5, el modulo de descodificacion -410- del vector de movimiento utiliza informacion (el campo de los vectores de movimiento -411-, que es similar al campo de los vectores de movimiento -318- de la figura 5) relativa a los vectores de movimiento del fotograma actual y de los fotogramas de referencia para generar un conjunto de predictores de vectores de movimiento. La operacion del modulo -410- se describira con mas detalle a continuacion, haciendo referencia a la figura 10. Si la secuencia de bits se recibe sin perdidas, el descodificador genera exactamente el mismo conjunto de predictores de vectores de movimiento que el codificador. Una vez que se ha obtenido el indice del predictor del vector de movimiento para el bloque actual, si no se han producido perdidas, el valor real del vector de movimiento asociado con el bloque actual puede ser descodificado y proporcionado a un modulo -406- que aplica compensacion del movimiento inverso. La zona de referencia indicada por el vector de movimiento descodificado es extraida de una imagen de referencia entre las imagenes de referencia almacenadas -408-, y proporcionada tambien al modulo -406- para que este pueda aplicar la compensacion del movimiento inversa.

En caso de que se haya aplicado Intra-prediccion, un modulo -405- aplica una Intra-prediccion inversa.

Como resultado de la descodificacion segun el modo Inter o Intra, se obtiene un bloque descodificado. Se aplica un filtro de desbloqueo mediante un modulo -407-, de manera similar al filtro de desbloqueo -315- aplicado en el codificador. Finalmente, el descodificador -40- proporciona una senal de video descodificada -409-.

La figura 8 es un diagrama esquematico para su utilizacion en la explicacion de la generacion del conjunto de predictores de vectores de movimiento o de candidatos de vector de movimiento en la implementacion de HEVC actual.

En el diseno de HEVC actual, los vectores de movimiento son codificados mediante codificacion predictiva, utilizando una serie de vectores de movimiento. Este procedimiento se denomina Prediccion avanzada del vector de movimiento (AMVP, Advanced Motion Vector Prediction) y ha sido adaptado para considerar el nuevo contexto de HEVC con una estructura de bloque grande. Este esquema se aplica a los modos de Salto, Inter y Fusion.

El procedimiento permite la seleccion del mejor predictor para un conjunto determinado, en el que el conjunto esta compuesto de vectores de movimiento espaciales y vectores de movimiento temporales. El numero optimo de predictores espaciales y temporales se esta evaluando todavia en el proceso de estandarizacion de HEVC. No obstante, en la fecha de presentacion de la presente solicitud, la implementacion actual incluye 2 predictores espaciales y un predictor temporal contiguo para los modos Salto e Inter, y 4 predictores espaciales y un predictor temporal para el modo Fusion. La presente invencion no esta limitada a ser utilizada con la implementacion actual de AMVP. La implementacion de AMVP puede cambiar con respecto a la actual que se describe a continuacion, pero se considera que las realizaciones de la presente invencion que se van a describir a continuacion proporcionaran los mismos efectos y resultados ventajosos con otras implementaciones que pueden ser adoptadas.

Ademas, en la publicacion JCTVC-D072 mencionada en la introduccion, se propuso utilizar mas predictores temporales en lugar de utilizar solo uno en la version actual. La invencion se puede aplicar asimismo con esta modificacion.

En el conjunto de predictores representado en la figura 8, ambos vectores de movimiento espaciales se eligen entre los bloques de arriba, y los de la izquierda, incluyendo los bloques de las esquinas superiores y el bloque de la esquina izquierda.

El predictor izquierdo se selecciona entre los bloques I, H, G, F. El predictor del vector de movimiento se considera disponible si el vector existe, y si el indice del fotograma de referencia es el mismo que el indice del fotograma de referencia del bloque actual (lo que quiere decir que el vector de movimiento utilizado como predictor apunta al mismo fotograma de referencia que el vector de movimiento del bloque actual). La seleccion se realiza por medio de una busqueda de abajo (I) arriba (F). El primer predictor que cumple los criterios de disponibilidad anteriores se selecciona como predictor izquierdo (solo se anade un predictor izquierdo al conjunto de predictores). Si ningun predictor cumple los criterios, el predictor izquierdo se considera no disponible.

Un inter-bloque puede ser mono-predictivo (tipo P) o bi-predictivo (tipo B). En un fotograma-P, los inter-bloques son solo de tipo P. En un fotograma-B, los inter-bloques son de tipo P o B. En un inter-bloque de tipo P, se utiliza una lista L0 de fotogramas de referencia. Su vector de movimiento hace referencia a un fotograma de referencia de esta lista. Un indice de referencia se asocia, por lo tanto, con el vector de movimiento. En un inter-bloque de tipo P, se utilizan dos listas L0 y L1 de los fotogramas de referencia. Uno de sus dos vectores de movimiento hace referencia a un fotograma de referencia de la lista L0, y el otro de sus dos vectores de movimiento hace referencia a un fotograma de referencia de la lista L1. Un indice de referencia se asocia por lo tanto con cada uno de ambos vectores de movimiento.

La no existencia de un vector de movimiento significa que el bloque relacionado estaba Intra-codificado o que no existe ningun vector de movimiento en la lista con el que este asociado el vector de movimiento codificado. Por ejemplo, para un bloque en un fotograma B, si un bloque vecino tiene solo un vector de movimiento en la lista ‘L1 ’ y el vector de movimiento actual esta en ‘L0’, el vector de movimiento vecino se considera no existente para la prediccion del vector de movimiento actual.

El predictor superior se selecciona entre los bloques E, D, C, B, A, de nuevo como resultado de una busqueda, en este caso de derecha a izquierda. El primer vector de movimiento, de derecha a izquierda, que cumple los criterios de disponibilidad definidos anteriormente (si el predictor existe y tiene el mismo fotograma de referencia que el vector de movimiento actual) se selecciona como predictor superior. Si ningun predictor cumple los criterios, el predictor superior se considera no disponible.

El predictor temporal del vector de movimiento procede del fotograma de referencia mas cercano cuando los fotogramas no estan ordenados de manera diferente para la codificacion y para la visualizacion (estan codificados sucesivamente sin reordenacion). Esta configuracion corresponde a una configuracion de bajo retardo (no hay retardo entre el proceso de descodificacion y el proceso de visualizacion). En el caso de los fotogramas B, se consideran 2 vectores de movimiento para el bloque contiguo. Uno esta en la primera lista “L0” de imagenes de referencia y otro en la segunda lista “L1” de imagenes de referencia. Si ambos vectores de movimiento existen, se selecciona el movimiento que tiene la distancia temporal mas corta. Si ambos predictores tienen la misma distancia temporal, se selecciona el movimiento forma de “L0”. El vector de movimiento contiguo seleccionado, a continuacion, se escala, si es necesario, segun la distancia temporal entre la imagen de referencia y la imagen que contiene el fotograma que se va a codificar. Si no existe ningun predictor contiguo, el predictor se considera no disponible.

Para la codificacion de fotogramas B jerarquicos, que implica la reordenacion de los fotogramas y, por lo tanto, mas retardo de descodificacion, se pueden considerar 2 vectores de movimiento contiguos. Ambos proceden del fotograma de referencia futuro. Se selecciona el vector de movimiento que atraviesa el fotograma actual. Si ambos predictores atraviesan el fotograma actual, se selecciona el bloque que contiene el vector de movimiento que tiene la distancia temporal mas corta. Si ambos predictores tienen la misma distancia temporal, entonces se selecciona el vector de movimiento de la primera lista “L0”. A continuacion, el vector de movimiento contiguo seleccionado como el predictor temporal del vector de movimiento se escala, si es necesario, segun la distancia temporal entre la imagen de referenda y la imagen que contiene el bloque a descodificar. Si no existe ningun predictor contiguo, el predictor se considera no disponible.

Para los casos tanto de bajo retardo como jerarquicos, cuando el bloque contiguo esta dividido en una serie de particiones (potencialmente, el bloque contiguo contiene una serie de vectores de movimiento), el vector de movimiento seleccionado procede de la particion central, tal como se ha mencionado en la introduccion a la presente memoria, vease Jung, G. Clare, (Orange Labs), “Temporal MV predictor modification for MV-Comp, Skip, Direct and Merge schemes” (“Modificacion de predictores temporales de MV para esquemas de MV-Comp, salto, direccion y fusion”), JCTVC-S164, Daegu, KR, 20-28 de enero de 2011, que propone utilizar un predictor temporal centrado, y el documento WO 2011/001077 A.

Como resultado de este procedimiento de generacion de predictores de vectores de movimiento, el conjunto de predictores generado puede contener 0, 1, 2 o 3 predictores. Si no se ha podido incluir ningun predictor en el conjunto, el vector de movimiento no se predice. Las componentes tanto vertical como horizontal se codifican sin prediccion. (Esto corresponde a una prediccion mediante un predictor igual al valor cero). En la implementacion de HEVC actual, el indice del predictor es igual a 0.

El modo Fusion es una Inter-codificacion concreta, similar al modo Salto habitual bien conocido por los expertos en la materia. La principal diferencia en comparacion con el modo Salto habitual es que el modo Fusion propaga el valor del indice del fotograma de referencia, la direccion (Bi-direccional o uni-direccional) y la lista (con la direccion uni-direccional) de los predictores de vectores de movimiento al bloque predicho. El modo Fusion utiliza un predictor del vector de movimiento y su indice del fotograma de referencia, a menos que el predictor sea un predictor temporal en el que el fotograma de referencia considerado es siempre el fotograma de referencia inmediatamente anterior, llamado tambien Ref0 (y siempre prediccion bi para fotogramas B). De esta manera, los predictores de bloques (los bloques copiados) proceden de los fotogramas de referencia senalados por los predictores del vector de movimiento. La ordenacion de candidatos en el conjunto es importante para reducir la sobrecarga de senalizar el mejor predictor del movimiento en el conjunto de predictores. La ordenacion del conjunto se adapta en funcion del modo de prediccion actual para situar el predictor mas probable del movimiento en la primera posicion, dado que se produce una minima sobrecarga si el primer candidato se elige como mejor predictor. En la implementacion actual de HEVC, el predictor temporal es la primera posicion.

La sobrecarga de senalizar el indice del mejor predictor se puede reducir mas minimizando el numero de candidatos en el conjunto. Los vectores de movimiento duplicados simplemente se eliminan del conjunto.

Para el caso concreto del modo Fusion, el proceso de supresion tiene en cuenta los valores del vector de movimiento y su fotograma de referencia. Segun esto, para determinar si dos predictores son predictores duplicados, las dos componentes del vector de movimiento y su indice de referencia se comparan para ambos predictores y, solo si estos tres valores son iguales, se elimina un predictor del conjunto. Para un fotograma B, este criterio de igualdad se extiende a la direccion y las listas. Asi que dos predictores se consideran predictores duplicados si ambos utilizan la misma direccion, las mismas listas (L0, L1 o L0 y L1), los indices del fotograma de referencia y tienen los mismos valores de los vectores de movimiento (MV_L0 y M^v_L1 para prediccion bi).

En AMVP, la senalizacion del indice depende del resultado del proceso de supresion de predictores del vector de movimiento descrito anteriormente. De hecho, el numero de bits asignados a la senalizacion depende del numero de vectores de movimiento que quedan tras la supresion. Por ejemplo, si al final del proceso de supresion solo queda un vector de movimiento, no es necesario ninguna sobrecarga para senalizar el indice del predictores del vector de movimiento, dado que el indice puede ser obtenido facilmente por el descodificador. La Tabla 1 que sigue muestra la palabra de codigo para cada codificacion de indice segun el numero de predictores tras el proceso de supresion.

Tabla 1

La figura 9 es un diagrama de flujo para su utilizacion en la explicacion del esquema de operacion de la AMVP en el lado del codificador. Las operaciones de la figura 9 se llevan a cabo mediante el modulo -317- de la figura 5, excepto donde se indique otra cosa, y se puede considerar que este modulo -317- comprende los modulos -603-, -605-, -607-, -610- y -615- de la figura 9. El campo de los vectores de movimiento -601- en la figura 9 corresponde al campo de los vectores de movimiento -318- de la figura 5. El modulo de codificador entropico -612- en la figura 9 corresponde al modulo de codificador entropico -309- en la figura 5. Todas las operaciones en la figura 9 pueden ser implementadas en software y ejecutadas por la unidad central de proceso -1111- del dispositivo -1000-.

Un modulo de generacion de predictores del vector de movimiento -603- recibe un indice del fotograma de referencia -613- del vector de movimiento actual a codificar, y recibe tambien el campo de los vectores de movimiento -601-. El modulo -603- genera un conjunto de predictores de vectores de movimiento -604- tal como se ha descrito anteriormente haciendo referencia a la figura 8, teniendo en cuenta el indice del fotograma de referencia -613-. A continuacion, el proceso de supresion es aplicado por un modulo -605-, tal como se ha descrito tambien anteriormente haciendo referencia a la figura 8. El modulo -605- produce un conjunto reducido de predictores del vector de movimiento -606-. Se entrega asimismo el numero de predictores del vector de movimiento -616- en el conjunto reducido -606-. Un modulo -607- recibe el vector de movimiento a codificar -602- y aplica una seleccion de distorsion de velocidad (RD, Rate Distortion) del mejor predictor del conjunto reducido de predictores de vectores de movimiento -606-. Si se selecciona un mejor predictor, el modulo-607- produce un indice de predictor del vector de movimiento -608- y el predictor del vector de movimiento seleccionado -609-. A continuacion, un modulo -610- forma la diferencia entre el vector de movimiento a codificar -602- y el predictor del vector de movimiento seleccionado -609-. Esta diferencia es un vector de movimiento residual -611-. Este vector de movimiento residual es a continuacion codificado entropicamente en un modulo -612-. Un modulo -614- convierte el indice del predictor del vector de movimiento -608- en una palabra de codigo -615- segun el numero de predictores -616- en el conjunto reducido de predictores del vector de movimiento -606-, tal como se ha descrito anteriormente haciendo referencia a la Tabla 1. Tal como se ha descrito anteriormente, si este conjunto contiene solo un predictor, no se transmite ningun indice al lado del descodificador y no se genera ninguna palabra de codigo. Si el conjunto contiene uno o varios predictores, la palabra de codigo se genera en el modulo -614- y, a continuacion, se codifica por entropia en el modulo -612-.

La figura 10 es un diagrama de flujo para su utilizacion explicando el funcionamiento del esquema de la AMVP en el lado del descodificador. Las operaciones de la figura 10 son realizadas mediante el modulo -410- en la figura 7, excepto donde se indique otra cosa, y se puede considerar que este modulo -410- comprende los modulos -702-, -704-, -711- y -715- en la figura 10. Un campo de vectores de movimiento -701- en la figura 10 corresponde al campo de vectores de movimiento -411- en la figura 7. Un modulo descodificador entropico -706- en la figura 10 corresponde al modulo descodificador entropico -402- en la figura 7. Todas las operaciones en la figura 10 pueden ser implementadas en software y ejecutadas por la unidad central de proceso -1111- del dispositivo -1000-.

Un modulo-702- recibe el campo de vectores de movimiento -701- del fotograma actual y de los fotogramas descodificados anteriormente. El modulo -702- recibe tambien un indice del fotograma de referencia -713- del vector de movimiento actual a descodificar. El modulo -702- genera un conjunto de predictores de movimiento -703- en base al campo de vectores de movimiento -701- y al indice del fotograma de referencia -713-. Este proceso es el mismo que el descrito en relacion con el modulo -603- en el lado del codificador. A continuacion, un modulo -704-aplica un proceso de supresion. Este proceso es el mismo que el descrito en relacion con el modulo -605- en el lado del codificador. El modulo -704- produce un conjunto reducido de predictores de vectores de movimiento -708-. Se entrega asimismo el numero de predictores del vector de movimiento -716- en el conjunto reducido -708-.

El modulo de descodificador entropico -706- extrae un vector de movimiento residual -707- de la secuencia de bits -705- y lo descodifica. El numero de predictores -716- en el conjunto reducido -708- es utilizado a continuacion por el modulo -706- para extraer (si es necesario) la palabra de codigo del predictor del vector de movimiento -714-. Esta palabra de codigo (si existe) es transformada por el modulo -715- en un valor de indice de predictor -709- segun el numero de los predictores -716- en el conjunto reducido, utilizando la Tabla 1 anterior para la conversion. El predictor del vector de movimiento -710- se extrae a continuacion del conjunto reducido -708- segun el valor del indice del predictor -709-. Un modulo -711- anade el predictor del vector de movimiento al residuo del movimiento -707- con el fin de producir el vector de movimiento descodificado -712-.

A partir de lo anterior, es evidente que para cada fotograma que se utiliza como fotograma de referencia para la obtencion del predictor del vector de movimiento contiguo, es necesario almacenar junto al codificador y el descodificador sus vectores de movimiento correspondientes. Esto conduce a que el tamano de la memoria de vectores de movimiento sea importante, considerando en primer lugar la granularidad del mapeo del movimiento (en el diseno de HEVC actual, el tamano minimo de bloque en el modo Inter es 4x4) y, en segundo lugar, que existen dos vectores por bloque de movimiento para el SEGMENTO_B. Se estima que para imagenes de 4Kx2K de resolucion, y utilizando una granularidad de un conjunto de vectores de movimiento por bloque de 4x4, son necesarios 26 Mbits por fotograma. Esta memoria de vectores de movimiento tiene que ser una memoria rapida, y forma parte habitualmente de la RAM, por ejemplo, la RAM -1112- en la figura 4. Esto es costoso, sobre todo para dispositivos portatiles.

Primera realizacion

A continuacion, se describira una primera realizacion de la presente invencion.

En la primera realizacion, tal como en las propuestas JCTVC-C257 y JCTVC-D072 mencionadas en la introduccion y mostradas en la figura 1, la posicion de un bloque se utiliza para la compactacion por bloques de un conjunto de NxN vectores de movimiento. El vector de movimiento del bloque correspondiente a esta posicion de un bloque es almacenado como vector de movimiento representativo para todo el conjunto de NxN. Estas propuestas de la tecnica anterior utilizan exclusivamente la posicion del bloque superior izquierdo, tal como se muestra en la figura 1. No obstante, esta manera de compactacion no tiene en cuenta que el predictor del vector de movimiento contiguo se utiliza en un esquema competitivo con otros predictores espaciales. Como resultado, aunque estas propuestas de la tecnica anterior ofrecen una importante reduccion en las necesidades de la memoria de vectores de movimiento (por ejemplo, un factor de reduccion de 16 en el ejemplo de la figura 1), implican una penalizacion en terminos de eficiencia de la codificacion. Por ejemplo, se estima que la utilizacion de una reduccion de 16 veces en las necesidades de memoria tiene como resultado una perdida de 0,5% en la eficiencia de la codificacion en TMuC v0.9. Esto ocurre porque a menudo el vector de movimiento en la posicion del bloque superior izquierdo del bloque contiguo es similar a los predictores espaciales de los bloques vecinos del bloque actual a codificar. Esto significa que el predictor del vector de movimiento contiguo no aporta suficiente diversidad al conjunto de predictores en conjunto.

Utilizando una posicion de bloque diferente dentro del bloque contiguo, o incluso utilizando una posicion de bloque en otro bloque vecino del bloque contiguo, se puede obtener un mayor grado de diversidad. El efecto de esto es que, a pesar de seguir consiguiendo la misma reduccion en las necesidades de memoria del vector de movimiento que las propuestas de la tecnica anterior mencionadas anteriormente, la presente realizacion no incurre en ninguna penalizacion, o en ninguna importante, en la eficiencia de la codificacion en comparacion con un sistema en el que se almacenan todos los vectores de movimiento y no se utiliza ninguna compactacion por bloques.

Las realizaciones de la presente invencion reconocen que la diversidad del conjunto de predictores que incluye una mezcla de predictores espaciales y temporales depende de las posiciones relativas de los bloques de los que proceden los predictores. Cuanto mayor sea la distancia de un predictor a otro, mayor es la probabilidad de que los predictores sean diferentes. De este modo, puede ser preferible seleccionar como posicion del bloque en el bloque contiguo una posicion de bloque mas alejada de las posiciones de bloque de los predictores espaciales. Por supuesto, la distancia no debe ser tan grande que el predictor temporal ya no sea representativo de los vectores de movimiento en el bloque contiguo. Despues de todo, el bloque contiguo se selecciona como fuente del predictor temporal precisamente porque es contiguo al bloque actual. Segun esto, lo que se necesita es elegir una posicion de bloque para el predictor temporal que permita diversidad controlada entre ese predictor y los predictores espaciales.

Sera evidente que en AMVP los predictores espaciales se seleccionan entre ciertas posiciones (las posiciones A a I mostradas en la figura 8) segun los criterios de disponibilidad. Esto significa que, dependiendo de la disponibilidad, se pueden seleccionar 0, 1 o 2 predictores espaciales. La posicion del bloque a elegir para la compactacion por bloques del bloque contiguo no puede tener en cuenta la seleccion o selecciones de predictores espaciales reales, dado que se lleva a cabo antes que la seleccion o selecciones de predictores espaciales. Para posibilitar tener en cuenta la seleccion o selecciones del predictores espaciales cuando se elige la posicion de bloque del bloque contiguo seria necesario almacenar los vectores de movimiento en todas las posiciones de bloque en el bloque contiguo, lo que es incompatible con la reduccion de las necesidades de la memoria de vectores de movimiento.

A este respecto, no obstante, cuando el objetivo no es reducir las necesidades de memoria sino mejorar la eficiencia en la codificacion, es posible tener en cuenta la seleccion o selecciones de predictores espaciales cuando se elige la posicion de bloque del bloque contiguo, tal como se describira en las realizaciones siguientes.

En la implementacion actual del modelo de prueba de HEVC, para un bloque de Salto o Inter actual, se utilizan dos predictores espaciales, tal como se ha descrito anteriormente haciendo referencia a la figura 8, mientras que se utilizan cuatro predictores espaciales para el modo de Fusion. No obstante, el modo de Fusion se selecciona con menor frecuencia que los modos Salto e Inter. Segun esto, en la presente realizacion se supone que se tienen 2 predictores espaciales, por ejemplo, el predictor izquierdo y los predictores superiores, tal como se muestra en la figura 8. La presente realizacion se puede extender facilmente cuando se utilizan mas o menos predictores en el conjunto de predictores espaciales. Ademas, la descripcion de esta realizacion se refiere a la compresion de la memoria de vectores de movimiento sobre la base de una compactacion por bloques de 4x4. Esto se puede extender facilmente a todos los demas tamanos utilizados para la compactacion por bloques.

La figura 11 muestra las etapas de un procedimiento de determinacion de la posicion de un bloque 4x4 cuyo vector de movimiento se seleccionara como el unico vector de movimiento en el proceso de compresion de la memoria de vectores de movimiento de los primeros ejemplos. Tal como se ha explicado anteriormente, esto se puede considerar un proceso de compactacion por bloques, dado que tiene como resultado que se selecciona un vector de movimiento como representacion del bloque como conjunto. Los vectores de movimiento no seleccionados del bloque (por ejemplo 15 vectores de movimiento en el caso presente), que tienen posiciones de bloque distintas de la posicion de bloque determinada, no necesitan ser almacenados, lo que tiene como resultado una significativa compresion de la memoria de vectores de movimiento (por ejemplo, en un factor de 16 en el presente caso).

A este respecto, ademas de los propios vectores de movimiento (que tienen cada uno componentes vertical y horizontal y un indice de fotograma de referencia), la seleccion de la posicion del bloque se podria aplicar a todos los demas datos necesarios para el proceso de derivacion del predictor contiguo (la implementacion actual de la compresion de la memoria de MV no tiene en cuenta los otros datos). Estos datos son: el modo (Inter/Intra), el indice del fotograma de referencia del vector de movimiento, la lista ‘L0’ ‘L1 ’ de imagenes de referencia y la direccion Bi o uni-direccional.

En una primera etapa S1001, se recibe una lista de posiciones potenciales de los predictores espaciales. Estas posiciones son posiciones relativas con respecto al bloque actual. Con el proposito de compactacion por bloques, se puede considerar que el tamano (en pixeles) del bloque actual es 16x16 cuando se aplica la compactacion del bloque de 4x4 de vectores de movimiento tal como se representa en la figura 1. De este modo, las posiciones potenciales A, B, C, D, E para el predictor superior y las posiciones potenciales F, G, H, I para el predictor izquierdo de la figura 8 se reciben mediante el algoritmo. Por sencillez, se puede considerar que los bloques vecinos tienen un tamano de CU minimo igual a 4x4 (en pixeles) tal como se representa en la figura 12. En ese caso, todos los bloques de predictores espaciales tienen el mismo tamano, que es el tamano de los bloques que se compactaran en la compresion de la memoria MV. Tal como se representa en la figura 12, las posiciones potenciales del predictor superior son TP1-TP6, y las posiciones potenciales del predictor izquierdo son LP1-LP5. A continuacion, en la etapa S1002, el algoritmo determina la posicion media para cada predictor espacial. En el presente ejemplo simplificado de la figura 12, la posicion media para el predictor izquierdo es la posicion del bloque LP3, y la posicion media para el predictor superior es la frontera entre los bloques TP3 y TP4. Dado que la posicion media para el predictor superior es la frontera entre los bloques TP3 y TP4, las posiciones de ambos bloques TP3 y TP4 se consideran en el proceso siguiente, mientras que para el predictor izquierdo solo se considera la posicion del bloque LP3 en el proceso siguiente. A continuacion, se genera una matriz de distancias para cada predictor en la etapa S1003. Esta matriz tiene una celda para cada posicion posible de bloque del bloque que se compacta y contiene en cada celda la distancia minima entre la posicion media del predictor correspondiente (el predictor superior o el predictor izquierdo, segun sea el caso) y la posicion de bloque posible de la celda correspondiente. Las posiciones de bloque posibles se numeran de 1 a 16 en la figura 12, segun una representacion en zigzag adoptada para la memoria de vectores de movimiento. La construccion de esta matriz se explica a continuacion haciendo referencia a las figuras 13A a 13C. A continuacion, en la etapa S1004 las matrices de distancia de ambos predictores se suman celda a celda con el fin de obtener una unica matriz de distancias global. En la etapa S1005, se identifica el valor maximo en esta matriz de distancias global. La posicion correspondiente a este valor maximo es la posicion utilizada para la compactacion por bloques de la compresion de la memoria de MV (1006).

Para generar la matriz de distancias minima entre la posicion media y cada posicion de bloque posible numerada de 1 a 16 en la figura 12, se puede considerar el numero de bloques a ser atravesados para llegar a la posicion de bloque cuando se empieza desde la posicion media para el predictor correspondiente. Por ejemplo, con esta medida, tal como se representa en la figura 13A, que muestra la matriz de distancias para el predictor izquierdo, la distancia minima entre la posicion media correspondiente LP3 y la posicion de bloque numerada 7 en la figura 12 es 4. Esto es consecuencia de que, para alcanzar esta posicion, se necesita atravesar las posiciones de bloque numeradas 9, 3, 4 y 7, que son 4 bloques. En esta medida, no se ha considerado el caso diagonal para calcular la distancia, pero dicho caso se podria utilizar si se desea. Ademas, se podrian utilizar otras medidas de distancia en el presente algoritmo.

Las figuras 13A y 13B muestran respectivamente las matrices de distancias calculadas con esta medida para los predictores izquierdo y superior. Ademas, la figura 13C muestra la matriz de distancias global formada sumando celda a celda estas dos matrices de las figuras 13A y 13B.

Se puede observar que el valor maximo es 10 para la posicion de bloque numerada 16 (vease la figura 12), que es la posicion de bloque inferior derecha. Esta es la posicion de bloque identificada mediante el algoritmo en el caso de que se utilicen los predictores superior e izquierdo.

En la primera realizacion, se ejecuta el mismo algoritmo tambien mediante el descodificador, y el descodificador selecciona la misma posicion de bloque que el codificador y evita almacenar los vectores de movimiento de las posiciones de bloque no seleccionadas. De este modo, se consigue una reduccion similar en las necesidades de la memoria de vectores de movimiento tambien en el descodificador.

Segunda realizacion

En la primera realizacion, no se tiene en cuenta la probabilidad de seleccion de los predictores espaciales en las diferentes posiciones TP1-TP6 y LP1-LP5. No obstante, en el proceso de AMVP, la busqueda del predictor superior se inicia a partir de la posicion mas a la derecha y se desplaza hasta la posicion mas a la izquierda, tal como ya se ha descrito haciendo referencia a la figura 8. De este modo, se espera que el predictor en la posicion TP6 sea seleccionado con mayor frecuencia que el predictor en la posicion TP5, y asi sucesivamente, de derecha a izquierda en la figura 12. Ocurre lo mismo para el predictor izquierdo, para el que la busqueda se inicia en la posicion inferior y se desplaza hacia arriba hasta la posicion superior. Teniendo en cuenta las frecuencias de seleccion relativas, puede ser preferible ajustar la posicion media para el predictor superior hacia la derecha y la posicion media para el predictor inferior hacia abajo. La posicion media para cada predictor se podria calcular como una media ponderada de las posiciones potenciales, reflejando los pesos las frecuencias de seleccion relativas.

Tercera realizacion

En las realizaciones primera y segunda descritas anteriormente, el codificador utiliza dos predictores espaciales (los predictores superior e izquierdo). En la tercera realizacion, el codificador utiliza solo un predictor espacial en el conjunto de predictores espaciales. Por ejemplo, si solo se utiliza el predictor izquierdo, se utiliza la matriz de distancias del predictor izquierdo proporcionada en la figura 13A para encontrar la mejor posicion. En ese caso, la posicion seleccionada es la posicion de bloque numero 6, el bloque superior derecho. Si solo se utiliza el predictor superior, dos posiciones de bloque tienen al valor maximo (posicion de bloque numero 11 y posicion de bloque numero 16). En ese caso, si se utiliza AMVP, tal como se ha descrito haciendo referencia a la figura 8, teoricamente los predictores del lado derecho se seleccionan con mayor frecuencia que los predictores del lado izquierdo (tal como se ha explicado, los predictores se seleccionan de E a A en el proceso de derivacion de HEVC). De este modo, el algoritmo puede considerar la utilizacion del bloque numerado 11, dado que seria el bloque mas lejano. Cuarta realizacion

En las realizaciones primera, segunda y tercera descritas anteriormente, se supone que todos los bloques a codificar pueden tener dos predictores espaciales (los predictores superior e izquierdo). Segun esto, no se realiza ninguna distincion entre bloques para la compactacion por bloques.

En la cuarta realizacion, al menos un bloque se trata de manera diferente de otro bloque para la compactacion por bloques.

Por ejemplo, el codificador y el descodificador pueden conocer alguna zona de la imagen en la que existe solamente un predictor espacial, o ninguno. En concreto, el codificador y el descodificador conocen la frontera del fotograma (la frontera del fotograma tiene la misma posicion para todos los fotogramas). De este modo, el algoritmo puede tener en cuenta este conocimiento especifico. Por ejemplo, para el bloque superior izquierdo del fotograma, no existen predictores disponibles. En ese caso, el algoritmo puede encontrar que la mejor posicion de bloque para la compactacion por bloques es el centro del bloque. Para bloques a lo largo de la frontera superior, podria estar disponible solamente el predictor izquierdo, y la posicion de bloque seleccionada por el algoritmo es la posicion de bloque superior derecha numerada 6 (tal como en la tercera realizacion). Para bloques a lo largo de la frontera izquierda, solo estan disponibles algunos predictores superiores. El algoritmo puede encontrar que la posicion es el numero de bloque 11, es decir, la posicion inferior izquierda. De hecho, la posicion TP1 en la figura 12 nunca esta disponible para la frontera izquierda, de modo que la media de las posiciones es TP4 (no la frontera entre TP3 y TP4) y, en consecuencia, el algoritmo encuentra el numero de bloque 11 como la posicion mas lejana.

Esta realizacion se puede extender para la frontera del segmento si todos los fotogramas en la secuencia de bits tienen exactamente la misma fragmentacion (es decir, si cada segmento tiene exactamente la misma posicion para todos los fotogramas).

Quinta realizacion

En las realizaciones anteriores, el descodificador lleva a cabo el mismo proceso que el codificador para determinar la posicion de bloque para la compactacion por bloques.

En la quinta realizacion, solo el codificador utiliza el algoritmo, y la posicion del bloque utilizado para la compactacion por bloques se transmite al descodificador en la secuencia de bits (Secuencia/imagen/cabecera de segmento). Sexta realizacion

En las realizaciones anteriores, el codificador (y, excepto para el quinto ejemplo, el descodificador) ejecuta el algoritmo de la figura 11 para determinar la posicion del bloque.

En la sexta realizacion, el codificador y el descodificador hacen referencia a una tabla que contiene la posicion del bloque segun la utilizacion o no de los predictores espaciales. Un ejemplo de tal tabla se proporciona en la Tabla 2 siguiente. Esta tabla se determina por adelantado utilizando el mismo algoritmo que el de la figura 11. Esta solucion es menos compleja que aplicar el algoritmo todo el tiempo. La siguiente tabla muestra esta tabla concreta para el ejemplo descrito anteriormente. Las posiciones hacen referencia a la figura 12.

Septima realizacion

Esta realizacion extiende aun mas la idea de la sexta realizacion. La posicion de bloque inferior derecha se utiliza siempre para la compactacion por bloques cualquiera que sea el bloque espacial utilizado para AMVP o modo de fusion. Esto ahorra carga de proceso y no hay necesidad de senalizar al descodificador que posicion de predictor ha sido determinada.

Octava realizacion

Las realizaciones anteriores suponen que la compactacion por bloques se aplica de manera uniforme a todos los bloques. No obstante, en HEVC, se permiten bloques de diferentes tamanos. Las posiciones de bloque para un tamano de bloque pueden no ser optimas para otro tamano de bloque. Por ejemplo, se ha encontrado que las posiciones de bloque mostradas en la Tabla 2 funcionan bien para un bloque pequeno, por ejemplo, un bloque de 4x4, pero en el caso de un bloque grande puede ser mejor utilizar otras posiciones de bloque.

En la octava realizacion, es posible tener en cuenta el tamano del bloque cuando se determina la posicion del bloque. Esto se puede conseguir teniendo una matriz de distancias similar a la de la figura 13C para cada tamano de bloque diferente.

Novena realizacion

Es posible simplificar la octava realizacion simplemente cambiando de una posicion de bloque predeterminada para un primer tamano de bloque a otra posicion de bloque predeterminada para un segundo tamano de bloque. Por ejemplo, cuando el tamano del bloque es pequeno, por ejemplo, menor o igual que 16x16 (pixeles), se podria seleccionar siempre la posicion de bloque inferior derecha, mientras que cuando el tamano del bloque es grande, por ejemplo, un 32x32 (pixeles), o mayor, se podria seleccionar siempre la posicion de bloque central, vease la posicion de bloque sombreada en la figura 2.

Los resultados de la simulacion para esta realizacion son prometedores. Se consiguio un ahorro en tasa de bits (mejora en la eficiencia de la codificacion), en comparacion con utilizar la posicion de bloque central en todas las ocasiones, tal como en la propuesta anterior JCT-VC D164 mencionada en la introduccion.

Si se desea, se puede disponer una tabla del tipo mostrado en la Tabla 2 para cada tamano de bloque, que contenga las posiciones de bloque adecuadas para cada permutacion de los predictores disponibles.

Se considera que para bloques mayores la posicion de bloque central funciona mejor que la posicion inferior derecha, porque la posicion inferior derecha en el caso de un bloque grande no puede ser tan representativa del bloque como conjunto como el bloque central. Este no es el caso con bloques pequenos, para los que la posicion inferior derecha sigue siendo representativa del bloque como conjunto debido a las menores distancias implicadas, pero sigue introduciendo una diversidad controlada con respecto a los predictores espaciales.

Decima realizacion

En la decima realizacion, la posicion o posiciones de los bloques utilizadas en JCT-VC D164 se utilizan para bloques grandes, y la posicion de bloque inferior derecha se utiliza para bloques pequenos.

Undecima realizacion

En las realizaciones anteriores, la posicion de bloque seleccionada para la compactacion por bloques ha sido una de las posiciones de bloque en el bloque contiguo. No obstante, no es necesario limitar la posicion de bloque seleccionada a una en el bloque contiguo. Por ejemplo, en lugar de la posicion inferior derecha del bloque contiguo seria posible utilizar una posicion de bloque en la proximidad de la posicion inferior derecha de otro bloque en el mismo fotograma de referencia vecino del bloque contiguo. Como ejemplos, la posicion del bloque podria ser la posicion inferior izquierda en el bloque inmediatamente a la derecha del bloque contiguo, o la posicion superior derecha en el bloque inmediatamente por debajo del bloque contiguo, o la posicion superior izquierda en el bloque diagonalmente por debajo y a la derecha del bloque contiguo.

Duodecima realizacion

En el documento JCT-VC D125, descrito en la introduccion, se utilizan 4 predictores temporales, uno (T) del bloque contiguo y otros tres (E, H e I) exteriores al bloque contiguo en las esquinas superior izquierda, inferior izquierda e inferior derecha del bloque contiguo. En lugar de utilizar T como uno de los predictores temporales seria posible utilizar la posicion de bloque inferior derecha en el bloque contiguo. Esto probablemente no proporciona un buen compromiso en terminos de diversidad, pero en esto el centro seria lo mejor. Pero en terminos de codificacion del indice del predictor esto tiene una ventaja, porque la inferior derecha puede con mas frecuencia ser igual al predictor H (a menudo se elimina un predictor). De hecho, en la contribucion del documento JCT-VC D125 se utilizan demasiados predictores, de modo que D125 aumenta el coeficiente dedicado al indice del predictor.

Decimotercera realizacion

En las realizaciones anteriores la posicion del bloque se ha seleccionado con el proposito de reducir las necesidades de la memoria de vectores de movimiento.

En la decimotercera realizacion, la posicion del bloque se selecciona con el proposito de mejorar la eficiencia en la codificacion. Esto es posible dado que, si se elige el predictor temporal del fotograma de referencia, por ejemplo, de una posicion de bloque adecuada en el bloque contiguo para conseguir una diversidad controlada con los predictores espaciales, entonces el predictor temporal tiende a ser un buen competidor para el predictor espacial, cuando se realiza la seleccion de distorsion de coeficiente del predictor. Si el predictor temporal es un predictor mejor que los predictores espaciales, como es a menudo el caso en la practica, entonces, mejorar este predictor (en el sentido de hacerlo mas proximo al vector de movimiento requerido para el bloque a codificar, y por ello minimizar el residuo) es bueno para la eficiencia de la codificacion.

En principio, se pueden utilizar todas las anteriores primera a duodecima realizaciones, para seleccionar la posicion del bloque con el proposito de mejorar la eficiencia en la codificacion. En la decimotercera realizacion, aun pueden ser almacenados todos los vectores de movimiento, es decir, no es necesario emplear reduccion de la memoria de vectores de movimiento. No obstante, tal reduccion es deseable en muchos casos.

Decimocuarta realizacion

Si se almacenan los vectores de movimiento en todas las posiciones de bloque, es posible tener en cuenta el resultado real de la seleccion de los predictores espaciales cuando se selecciona la mejor posicion de bloque. Por ejemplo, en la figura 12, si solo esta disponible el predictor superior y se selecciona la posicion TP6, se podria seleccionar la posicion de bloque numerada 11. Si, por otro lado, solo esta disponible el predictor superior y se selecciona la posicion TP1, entonces se podria seleccionar la posicion de bloque numerada 16. Otras posiciones de bloque serian mejores si estuviese disponible una combinacion de los predictores superior e izquierdo, de nuevo en funcion de las posiciones de los predictores superior e izquierdo seleccionados. En general para cada posible resultado de la seleccion de predictor espacial se puede determinar una mejor posicion de bloque. Las mejores posiciones de bloque se podrian almacenar en una tabla de consulta que tiene una entrada para cada resultado diferente.

Las realizaciones descritas anteriormente se basan en particiones de bloques de imagenes de entrada, pero, de manera mas general, se puede considerar cualquier tipo de porciones de imagen para codificar o descodificar, en concreto porciones rectangulares, o de manera mas general porciones geometricas.

Claims

REIVINDICACIONES

1. Procedimiento de generacion de predictores de vectores de movimiento para un bloque a descodificar que forma parte de un fotograma de video actual que debe ser descodificado, en el que el numero de predictores temporales de vectores de movimiento generados no es mayor de uno, y el numero de predictores espaciales de vectores de movimiento generados es al menos uno, comprendiendo el procedimiento generar dicho un predictor temporal del vector de movimiento seleccionando, si esta disponible, como el predictor temporal del vector de movimiento el vector de movimiento asociado con una posicion superior izquierda, en un bloque del fotograma de referencia vecino y diagonalmente por debajo y a la derecha de un bloque del fotograma de referencia contiguo a dicho bloque a descodificar, teniendo dicho bloque del fotograma de referencia la misma posicion y el mismo tamano que el bloque a descodificar.

2. Procedimiento, segun la reivindicacion 1, en el que el por lo menos uno de dichos predictores espaciales se selecciona antes de la generacion del predictor temporal de vector de movimiento, y la generacion del predictor temporal se lleva a cabo dependiendo del predictor o predictores espaciales seleccionados.

3. Procedimiento de descodificacion de una secuencia de bits que comprende una secuencia codificada de imagenes digitales, siendo codificada al menos una porcion de una imagen mediante compensacion del movimiento con respecto a una imagen de referencia, que comprende el procedimiento de generacion de predictores de vectores de movimiento segun una de las reivindicaciones 1 o 2.

4. Procedimiento segun la reivindicacion 3, que comprende descodificar la secuencia de bits utilizando los predictores de vectores de movimiento.

5. Dispositivo de generacion de predictores de vectores de movimiento para un bloque a descodificar que forma parte de un fotograma de video actual que debe ser descodificado, en el que el numero de predictores temporales de vectores de movimiento generados no es mayor de uno, y el numero de predictores espaciales de vectores de movimiento generados es al menos uno, comprendiendo dicho dispositivo medios dispuestos para generar el predictor temporal del vector de movimiento seleccionando, si esta disponible, como el predictor temporal del vector de movimiento, el vector de movimiento en una posicion superior izquierda, en un bloque del fotograma de referencia vecino y diagonalmente por debajo y a la derecha de un bloque del fotograma de referencia contiguo a dicho bloque a descodificar, teniendo dicho bloque del fotograma de referencia la misma posicion y el mismo tamano que el bloque a descodificar.

6. Dispositivo, segun la reivindicacion 5, que comprende medios para seleccionar al menos dicho predictor espacial antes de que sea generado el predictor temporal, pudiendo funcionar los medios de generacion del predictor temporal de vector de movimiento para generar el predictor temporal de vector de movimiento en funcion del predictor o predictores espaciales seleccionados.

7. Dispositivo para la descodificacion de una secuencia de bits que comprende una secuencia codificada de imagenes digitales, siendo codificada por lo menos una porcion de una imagen mediante compensacion del movimiento con respecto a una imagen de referencia, comprendiendo el dispositivo de generacion un conjunto de predictores de vectores de movimiento segun cualquiera de las reivindicaciones 5 o 6.

8. Dispositivo segun la reivindicacion 7, que comprende medios para la descodificacion de la secuencia de bits utilizando predictores de vectores de movimiento.

9. Procedimiento de generacion de predictores de vectores de movimiento para un bloque a codificar que forma parte de un fotograma de video actual que debe ser codificado, en el que el numero de predictores temporales de vectores de movimiento generados no es mayor de uno, y el numero de predictores espaciales de vectores de movimiento generados es al menos uno, comprendiendo el procedimiento la generacion de dicho un predictor temporal del vector de movimiento, si esta disponible, seleccionando como el predictor temporal del vector de movimiento el vector de movimiento asociado con una posicion superior izquierda, en un bloque del fotograma de referencia vecino y diagonalmente por debajo y a la derecha de un bloque del fotograma de referencia contiguo a dicho bloque a codificar, teniendo dicho bloque del fotograma de referencia la misma posicion y el mismo tamano que el bloque a codificar.

10. Dispositivo de generacion de predictores de vectores de movimiento para un bloque a codificar que forma parte de un fotograma de video actual que debe ser codificado, en el que el numero de predictores temporales de vectores de movimiento generados no es mayor de uno, y el numero de predictores espaciales de vectores de movimiento generados es al menos uno, comprendiendo dicho dispositivo medios dispuestos para generar el predictor temporal del vector de movimiento seleccionando, si esta disponible, como el predictor temporal del vector de movimiento, el vector de movimiento en una posicion superior izquierda, en un bloque del fotograma de referencia vecino y diagonalmente por abajo y a la derecha de un bloque del fotograma de referencia contiguo a dicho bloque a codificar, teniendo dicho bloque del fotograma de referencia la misma posicion y el mismo tamano que el bloque a codificar.

11. Dispositivo para codificacion de una secuencia de imageries digitales en una secuencia de bits, estando codificada al menos una porcion de una imagen por compensacion del movimiento con respecto a una imagen de referencia, comprendiendo el dispositivo de generacion predictores de vectores de movimiento segun la reivindicacion 10.

12. Programa que, cuando es ejecutado en un ordenador o un procesador, hace que el ordenador o el procesador lleven a cabo un procedimiento segun una cualquiera de las reivindicaciones 1 a 4 y la reivindicacion 9.