ES2342365T3

ES2342365T3 - Codificacion y descodificacion de alta precision para imagenes de video.

Info

Publication number: ES2342365T3
Application number: ES02748364T
Authority: ES
Inventors: Gary A. Demos; David Ruhoff
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-03-02
Filing date: 2002-03-01
Publication date: 2010-07-06
Anticipated expiration: 2022-03-01
Also published as: US20140098858A1; US10264256B2; JP2004519920A; US20130148719A1; KR20040010601A; ATE467979T1; EP1380169A4; US8488670B2; US8576907B2; CA2439727A1; CN1284355C; US8594188B2; WO2002071735A8; DE60236354D1; AU2002306609A1; US20140036996A1; US20020154693A1; WO2002071735A3; WO2002071735A2; CN1550108A

Abstract

Procedimiento para comprimir y descomprimir una secuencia de imágenes de vídeo digitalizadas que incluye una secuencia de tramas representadas con una primera precisión de bits en un primer espacio cromático, y el procedimiento se caracteriza por las etapas de a) transformación de la secuencia de tramas para obtener una representación en un segundo espacio cromático con una segunda precisión de bits superior a la primera precisión de bits; b) realización de posteriores etapas de codificación con la segunda precisión de bits para generar un flujo de bits comprimido; y c) realización de posteriores etapas de descodificación con la segunda precisión de bits en el flujo de bits comprimido, y las posteriores etapas de descodificación incluyen la aplicación de una transformada discreta de coseno inversa.

Description

Codificación y descodificación de alta precisión para imágenes de vídeo.

Campo de la invención

La presente invención se refiere a la compresión de vídeo, y más concretamente a una compresión de vídeo de calidad mejorada basada en mejoras novedosas referidas a los sistemas de codificación y descodificación de tipo MPEG.

Antecedentes de la invención Antecedentes del MPEG

MPEG-2 Y MPEG-4 son estándares internacionales de compresión de vídeo que definen una sintaxis de vídeo que proporciona una manera eficiente de representar secuencias de imágenes en forma de datos codificados más compactos. El lenguaje de los bits codificados constituye la "sintaxis". Por ejemplo, unos pocos testigos pueden representar un bloque de muestras completo (por ejemplo, 64 muestras para MPEG-2). Ambos estándares MPEG describen también un procedimiento de descodificación (reconstrucción) en el que para los bits codificados se establece una correspondencia entre la representación compacta y una aproximación del formato original de la secuencia de imágenes. Por ejemplo, la presencia de un indicador en el flujo de bits determina si los siguientes bits deben ir precedidos de un algoritmo de predicción antes de ser descodificados con un algoritmo basado en la transformada discreta de coseno (DCT). Los algoritmos que comprenden el procedimiento de descodificación se rigen por la semántica definida por estos estándares MPEG. Esta sintaxis se puede aplicar para obtener provecho de características de vídeo tales como la redundancia espacial, la redundancia temporal, el movimiento uniforme, el enmascaramiento espacial, etc. De hecho, estos estándares MPEG definen un lenguaje de programación así como un formato de datos. Un descodificador de MPEG debe ser capaz de interpretar y descodificar un flujo de datos entrante, pero, siempre que el flujo de datos observe la sintaxis MPEG correspondiente, se pueden usar una amplia variedad de posibles estructuras de datos y técnicas de compresión. También es posible trasladar la semántica necesaria a una sintaxis alternativa.

Estos estándares MPEG utilizan diversos procedimientos de compresión, entre los que se incluyen procedimientos intratrama e intertrama. En la mayoría de las escenas de vídeo, el fondo permanece relativamente estable, mientras que la acción tiene lugar en el primer plano. El fondo puede moverse, pero gran parte de la escena es redundante. Estos estándares MPEG comienzan la compresión creando una trama de referencia denominada "intratrama" o "trama I". Las tramas I se comprimen sin hacer referencia a otras tramas y, por lo tanto, contienen una trama completa de información de vídeo. Las tramas I proporcionan puntos de entrada a un flujo de bits para ofrecer un acceso aleatorio, pero solo se pueden comprimir hasta cierto punto. Por regla general, los datos que representan tramas I se colocan en el flujo de bits cada 12 a 15 tramas. A partir de aquí, ya que solo una pequeña parte de las tramas situadas entre las tramas I de referencia son diferentes de las tramas I entre las que están comprendidas, solo se capturan, comprimen y almacenan las diferencias en las imágenes. Para estas diferencias se usan dos tipos de tramas: tramas predictivas o tramas P, y tramas bidireccionales interpoladas o tramas B.

Las tramas P se codifican generalmente haciendo referencia a una trama anterior (una trama I o bien una trama P previa), y, en general, se usan como referencia para tramas P posteriores. Las tramas P reciben una cantidad de compresión bastante elevada. Las tramas B proporcionan la mayor cantidad de compresión, pero requieren una trama de referencia tanto previa como futura para que se pueda codificar. Nunca se usan tramas bidireccionales como tramas de referencia.

Los macrobloques son zonas de píxeles de imagen. Para MPEG-2, un macrobloque es un conjunto de 16x16 píxeles de cuatro bloques de DCT de 8x8, junto con un vector de movimiento para tramas P y uno o dos vectores de movimiento para tramas B. Los macrobloques contenidos en tramas P se pueden codificar de forma individual usando una codificación intratrama o intertrama (predictiva). Los macrobloques contenidos en tramas B se codifican de forma individual usando una codificación intratrama, una codificación predictiva hacia delante, una codificación predictiva hacia atrás, o una codificación predictiva tanto hacia delante como hacia atrás (es decir, interpolada bidireccionalmente).

Tras la codificación, un flujo de bits de datos en formato MPEG comprende una secuencia de tramas I, P y B. Una secuencia puede consistir en casi cualquier patrón de tramas I, P y B (en su colocación, existen ciertas restricciones semánticas de poca importancia). No obstante, en la práctica industrial, es común encontrar un patrón fijo (por ejemplo, IBBPBBPBBPBBPBB).

Desde hace algún tiempo se sabe que los cálculos se reducen cuando se determinan vectores de movimiento mediante la utilización de una búsqueda de movimiento jerárquica. Por ejemplo, los algoritmos MPEG intentan encontrar una concordancia entre zonas del "macrobloque". Los codificadores de tipo MPEG y otros codificadores basados en la DCT (transformada discreta de coseno) con compensación de movimiento intentan hacer que cada región de un macrobloque de una trama actual concuerde con una posición en un trama previa (trama P) o en una trama previa y posterior (trama B). No obstante, no siempre es necesario encontrar una buena concordancia, ya que MPEG puede codificar un nuevo macrobloque como un ("intra") nuevo macrobloque independiente en este caso sin usar tramas previas o posteriores. En tales sistemas de DCT con compensación de movimiento es necesario un vector de movimiento de macrobloque para cada zona del macrobloque para MPEG-2. En MPEG-4, un conjunto de 4 vectores de movimiento, correspondientes a un vector para cada región de 8x8 (es decir, 4 vectores por macrobloque) también constituye un modo de codificación opcional.

Precisión del MPEG

Las aplicaciones de los códecs de vídeo de MPEG-2 y MPEG-4 de referencia utilizan la siguiente metodología de codificación:

a) Al convertir un espacio cromático RGB en YUV, solo se mantiene el número de bits que se van a codificar (por ejemplo, MPEG-2 está limitado a una codificación de 8 bits, y por tanto los valores YUV también están limitados a 8 bits).

b) Al codificar y descodificar, solo se conserva el número de bits que se han codificado, aplicando un redondeo prudente para reducir las perturbaciones.

c) Al volver a pasar a RGB, la precisión es limitada debido a las limitaciones en el número de bits que se han conservado (un máximo de 8 bits para MPEG-2)

La fig. 1 es un diagrama de bloques de un procedimiento de codificación de vídeo de referencia de MPEG-2 de la técnica anterior. Las tramas de entrada RGB 102 codificadas a 8 bits/píxel por color se aplican a un convertidor de RGB a YUV 104, que está limitado intencionadamente a una precisión de 8 bits por color en su salida. El resultado se aplica a una función DCT 106, y después a una función de cuantificación 108, después a una función DCT inversa 110, y la salida final 212 se almacena con la misma precisión que los datos de entrada.

El codificador de vídeo de referencia de MPEG-4 se aplica con el mismo procedimiento, aunque la precisión intermedia se puede ampliar hasta 12 bits (aunque las tablas VLC -de codificación de longitud variable- no están adaptadas para el uso del intervalo completo).

Se utilizan técnicas para aplicación de vibraciones aleatorias (dithering) en los valores de precisión limitada (un máximo de 8 bits por componente cromático en MPEG-2) con el fin de reducir la evidente visibilidad de saltos bruscos. No obstante, en la codificación, a causa de esta vibración, se crean ruido y perturbaciones, que también se crean debido al uso de una precisión de procesamiento intermedio limitada.

Además de esta limitada precisión de procesamiento intermedio, MPEG-2 y MPEG-4 permiten que el algoritmo basado en una DCT inversa (IDCT) usado durante la codificación (a menudo incorporado en una representación de coma flotante de alta precisión) sea ligeramente diferente al algoritmo IDCT usado durante la descodificación. Esto se conoce como "discordancia en la IDCT". La discordancia en la IDCT provoca una deriva gradual impredecible en la señal, que la aleja de los valores de descodificación previstos. Esto se reduce, convencionalmente, mediante el uso de una vibración aleatoria o dithering del bit de orden inferior en la frecuencia más alta de la IDCT (séptimo armónico para el tamaño de bloque típico de la DCT de 8x8 usado en MPEG-2 y MPEG-4). Dicha vibración añade ruido y perturbaciones a la señal.

La fig. 2 es un diagrama de bloques de un procedimiento de descodificación de vídeo de referencia MPEG-2 de la técnica anterior. Se aplica un flujo de bits de entrada codificados 202 a una función de descuantificación 204 que posee una precisión limitada que concuerda con la precisión del flujo de bits de entrada (típicamente, 8 bits para MPEG-2). El resultado se aplica a una función IDCT 206 (que puede no coincidir con la función IDCT 110 del codificador), que produce una salida de valores de 8 bits con signo 208. Esta salida comprende una trama I 210, o bien se combina con datos de una trama previa 212 o de una trama posterior 214 (ambas con la misma precisión) para generar una nueva trama 216. De este modo, el procedimiento de descodificación de MPEG-2 limita la precisión de procesamiento intermedio hasta un máximo de 8 bits. Asimismo, la precisión de procesamiento intermedio para la descodificación de vídeo de MPEG-4 también está limitada al número de bits usados en la codificación (un máximo de 12 bits, pero a menudo se fija en 8 bits).

La precisión limitada en MPEG-2 y MPEG-4 también limita la gama dinámica (es decir, el número de niveles de iluminación que se pueden representar para una imagen) y la gama de contraste (es decir, el número de niveles distintos asignados a zonas de la imagen con un contraste similar). Por consiguiente, los procedimientos de codificación y descodificación usados en MPEG-2 y MPEG-4 reducen la calidad potencial de las imágenes de salida descomprimidas, en comparación con las imágenes de entrada originales. La presente invención se ocupa de estas limitaciones.

La solicitud de patente internacional WO94/08427 describe un sistema de codificación/descodificación de vídeo en movimiento en el que los coeficientes de la componente de corriente continua obtenidos a partir de una transformada discreta de coseno de una señal de vídeo se codifican con una precisión, expresada en función de los bits de cuantificación, que se puede modificar de acuerdo con la calidad de imagen deseada. No obstante, este sistema presenta inconvenientes, entre los que se incluye el inconveniente que supone la pérdida del detalle fino de la imagen transportado por los componentes de corriente alterna en una señal con una amplia gama dinámica.

Resumen

La invención se dirige a una compresión de vídeo con una calidad mejorada, basada en mejoras innovadoras en los sistemas de codificación y descodificación de tipo MPEG. En un aspecto, la invención proporciona un procedimiento para mejorar considerablemente la calidad de imagen de la codificación de vídeo de tipo MPEG mediante la conservación de un mayor número de bits durante las etapas intermedias del procesamiento de la codificación y la descodificación. Resulta sorprendente que esta mejora en la calidad no haga que el número total de bits necesarios para codificar una secuencia de imágenes sea proporcionalmente mayor. Además, los problemas de discordancia en la IDCT se pueden eliminar haciendo que el algoritmo numérico de la función IDCT del descodificador concuerde de manera exacta con el algoritmo numérico de la función IDCT usado para la parte de descodificación del codificador. La eliminación de la discordancia en la IDCT permite aumentar las relaciones de compresión reduciendo el número de tramas I necesarias.

Otro aspecto de la invención consiste en un procedimiento para comprimir y descomprimir una secuencia de imágenes de vídeo digitalizadas que incluyen una secuencia de tramas representadas con una primera precisión de bits en un primer espacio cromático, y el procedimiento incluye la transformación de la secuencia de tramas para obtener una representación en un segundo espacio cromático con una segunda precisión de bits superior a la primera precisión de bits; la realización de posteriores etapas de codificación con la segunda precisión de bits para generar un flujo de bits comprimido; y la descodificación del flujo de bits comprimido mediante la descuantificación del flujo de bits comprimido con la segunda precisión de bits para generar una salida descuantificada, la aplicación de una transformada discreta de coseno con la segunda precisión de bits en la salida descuantificada para producir una salida descomprimida, y la generación de tramas de imagen con la segunda precisión de bits a partir de la salida descomprimida.

Otro aspecto más de la invención consiste en un procedimiento para comprimir y descomprimir una secuencia de imágenes de vídeo digitalizadas que incluyen una secuencia de tramas representadas con una primera precisión de bits en un primer espacio cromático, y el procedimiento incluye la transformación de la secuencia de tramas para obtener una representación en un segundo espacio cromático con una segunda precisión de bits superior a la primera precisión de bits; la realización de posteriores etapas de codificación con la segunda precisión de bits para generar un flujo de bits comprimido, entre las que se incluye la aplicación de un algoritmo numérico basado en una transformada discreta de coseno inversa; y la realización de posteriores etapas de descodificación con la segunda precisión de bits en el flujo de bits comprimido, entre las que se incluye la aplicación de un algoritmo numérico concordante basado en una transformada discreta de coseno inversa.

La invención incluye las correspondientes aplicaciones para un programa informático y las aplicaciones para un aparato.

En los dibujos adjuntos y en la siguiente descripción se exponen los detalles de una o más formas de realización de la invención. A partir de la descripción y los dibujos, y de las reivindicaciones, se pondrán de manifiesto otras características, objetos y ventajas de la presente invención.

Breve descripción de las figuras

Figura 1. Diagrama de bloques de un procedimiento de codificación de vídeo de referencia MPEG-2 de la técnica anterior.

Figura 2. Diagrama de bloques de un procedimiento de descodificación de vídeo de referencia MPEG-2 de la técnica anterior.

Figura 3. Diagrama de bloques de un procedimiento de codificación de tipo MPEG de acuerdo con la presente invención.

Figura 4. Diagrama de bloques de un procedimiento de descodificación de tipo MPEG de acuerdo con la presente invención.

Figura 5. Diagrama de flujo que resume un procedimiento preferido para ampliar la gama dinámica y/o de contraste durante la compresión de la imagen.

Los símbolos de referencia similares de los diversos dibujos indican elementos similares.

Descripción detallada Procesamiento intermedio de imagen de alta precisión

Las condiciones de precisión limitada y las técnicas comprendidas en MPEG-2 y MPEG-4 están diseñadas para minimizar la cantidad de memoria necesaria para almacenar tramas I, B y P. No obstante, la memoria de trama posee actualmente un precio bastante asequible. La presente invención se basa, en parte, en el descubrimiento de que se puede lograr una calidad de imagen mejorada considerablemente a partir de la codificación de vídeo de tipo MPEG mediante la conservación de un mayor número de bits durante las etapas intermedias de procesamiento de codificación y descodificación. Resulta sorprendente que esta mejora en la calidad no haga que el número total de bits necesarios para codificar una secuencia de imágenes sea proporcionalmente mayor. De hecho, por lo general, el número de bits se reduce usando la presente invención.

La fig. 3 es un diagrama de bloques de un procedimiento de codificación de tipo MPEG de acuerdo con la presente invención. Las tramas de entrada RGB 302 se aplican a un convertidor de RGB a YUV 304. Se suelen preferir los modernos dispositivos de generación de tramas (por ejemplo, cámaras de vídeo y escáneres de película de alta definición) como fuente de entrada, debido a que dichos dispositivos pueden producir unas imágenes de salida con una mayor gama cromática (por ejemplo, 10 bits/píxel por color). No obstante, la fuente de entrada puede ser un dispositivo convencional de MPEG-2 o MPEG-4 de 8 bits. El resultado se aplica a una función DCT 306, que conserva más bits de precisión (por ejemplo, 16 bits) de los que se encuentran en la señal de entrada original. La salida de la función DCT 306 se aplica a una función de cuantificación 308, y después a una función IDCT 310, que, de nuevo, conserva más bits de precisión (por ejemplo, 16 bits) de los que se encuentran en la señal de entrada original (como por ejemplo, tramas I sin signo y tramas P y B con signo de 16 bits, siendo 16 bits una representación conveniente para sistemas digitales de hardware y software). La salida final 312 es, típicamente, una señal YUV almacenada con la misma precisión que la precisión de procesamiento intermedio. Una característica importante de tal aumento de precisión en la salida es que permite mejorar la predicción de las siguientes tramas P y B.

El concepto de discordancia de IDCT que se incorpora en la codificación de vídeo MPEG-2 y MPEG-4 se basa en la suposición de que el cálculo usado para la descodificación puede diferir con respecto al cálculo usado para la parte de descodificación de la codificación. Tal como se menciona anteriormente, esta discordancia provocará una deriva, incluso en presencia de la vibración aleatoria de discordancia de la DCT de bits inferiores y armónicos altos (que también añade ruido). La práctica habitual en MPEG-2 consiste en colocar tramas I, unas cerca de otras (aproximadamente, cada medio segundo), para volver a corregir esta deriva, y para limitar el alcance del error. No obstante, las tramas I resultan relativamente poco eficientes, con un coste, por lo general, de aproximadamente 3 veces el número de bits como tramas P, y 5 veces el número de bits como tramas B. Las tramas I también forman puntos de reinicio y de referencia durante la "sintonización" de una secuencia de imágenes en movimiento. No obstante, la frecuencia de su aparición en los medios almacenados podría aumentarse provechosamente hasta varios segundos (por ejemplo, en el intervalo de aproximadamente 1 a 5 segundos, de media) para mejorar la eficiencia, de no ser por la discordancia de la IDCT.

La discordancia de la IDCT se puede eliminar haciendo que los algoritmos numéricos de la función IDCT del descodificador concuerden de manera exacta con los de la función IDCT usada por la parte de descodificación del codificador. Cualquier limitación de precisión en estas funciones IDCT concordantes se corrige automáticamente en cada trama P, gracias al mecanismo de realimentación natural que surge al pasar de una trama P a la siguiente mediante la codificación de su señal de diferencia (que incluye la diferencia entre las limitaciones de precisión de la IDCT). La "concordancia exacta" de los algoritmos numéricos se refiere al hecho de que esas partes de los algoritmos que transforman la entrada en una salida deberían aplicar las mismas definiciones para las funciones de multiplicación y suma, las mismas representaciones numéricas, la misma precisión, etc. No obstante, no es necesario que los algoritmos numéricos sean idénticos, en lo que respecta a su aplicación en programas informáticos o circuitos integrados. De este modo, por ejemplo, se pueden usar diferentes lenguajes informáticos y modos de generación binarios (por ejemplo, interpretados frente a compilados).

De este modo, se puede lograr una codificación de alta calidad mediante la precisión suficiente en la función IDCT. No obstante, la función IDCT no requiere una precisión muy alta. Por ejemplo, en el software de referencia de vídeo de MPEG-4, se usa una aplicación de una IDCT con coma flotante de precisión doble (64 bits). Esto resulta totalmente innecesario, ya que una aplicación de la IDCT de 16 bits es suficiente para proporcionar las mejoras necesarias para codificar una gama dinámica de hasta 12 bits. Se pueden usar aplicaciones de la IDCT de codificador y descodificador (que concuerdan de forma exacta) superiores a 16 bits, tales como las aplicaciones de coma flotante de 32 bits, para ampliar la gama dinámica hasta 16 bits (lo cual produce una gama dinámica superior a 1 billón a uno en pasos logarítmicos de menos del diez por ciento, lo cual supera los límites de la visión humana). De este modo, al hacer que las aplicaciones de codificador y descodificador de la IDCT concuerden de forma exacta, el presente procedimiento reduce en gran medida la cantidad de cálculos necesarios para las aplicaciones de la IDCT, al tiempo que elimina los problemas de la discordancia de la IDCT. Además, contrariamente a lo esperado, el uso de aplicaciones de la IDCT de codificador y descodificador que concuerdan de forma exacta, en realidad aumenta la eficiencia global (es decir, se logra una relación de compresión más alta) incluso con un aumento en la precisión intermedia, ya que las tramas I, en las que cada bit resulta costoso, se pueden separar aún más en el tiempo (por ejemplo, en un intervalo de aproximadamente 1 a 5 segundos, de media). De hecho, la separación entre las tramas I intercaladas se puede multiplicar de forma virtualmente ilimitada, o limitada únicamente por el deseo de poder saltar en medio de un programa o para corregir errores generados por un canal de distribución con pérdidas.

La fig. 4 es un diagrama de bloques de un procedimiento de descodificación de tipo MPEG de acuerdo con la presente invención. Se aplica un flujo de bits de entrada codificado de alta precisión 402 a una función descuantificadora 404 que posee una precisión de procesamiento "intermedia" que concuerda con la precisión del flujo de bits de entrada. El resultado obtenido se aplica preferentemente a una función IDCT 406 que concuerda de forma exacta con la función IDCT 310 del codificador correspondiente. La función IDCT 406 produce una salida de valores con signo 408 de la misma precisión intermedia que todas las etapas de procesamiento interno previas (por ejemplo, 16 bits). Esta salida comprende una trama I 410, o bien se combina con datos precedentes de una trama previa 412 o de una trama posterior 414 (ambas con la misma precisión) para generar una nueva trama 416.

Además, se deberían eliminar todas las formas de vibración o dither, reduciendo de ese modo el ruido y las perturbaciones. Concretamente, se debería eliminar la aplicación de vibración en el redondeo (excepto con una precisión plena, como por ejemplo, de 16 bits, es decir, redondeo del 17º bit), y aplicación de la vibración del bit inferior del armónico alto de la discordancia de la IDCT. Además, en la forma de realización preferida, la precisión de píxel intermedia adicional se usa durante cualquier etapa de conversión del espacio cromático (por ejemplo, de YUV a RGB u otras conversiones, como por ejemplo de YUV 2:0 a YUV 4:2:2, para visualizar, utilizar o almacenar la imagen convertida) durante la descodificación, redondeando únicamente en la etapa final.

Cabe señalar que las técnicas de alta precisión que se muestran en la fig. 3 y en la fig. 4 se pueden usar para codificar y posteriormente descodificar una entrada de precisión estándar (por ejemplo, la entrada con precisión de 8 bits utilizada por MPEG-2). Aunque el resultado no posee una calidad tan alta como la codificación y la descodificación de una entrada de mayor precisión, el resultado seguirá constituyendo una mejora con respecto a la actual codificación y descodificación de MPEG. Además, tanto el procedimiento de codificación como el de descodificación se pueden mejorar mediante un aumento en la precisión durante el procesamiento intermedio y el almacenamiento. No es necesario que dicha precisión sea idéntica para obtener mejoras, pero la mejora se optimiza cuando las partes de descodificación de la codificación y descodificación concuerdan de forma exacta en la precisión y el algoritmo numérico.

A continuación, se presenta un resumen de la forma de realización preferida del presente procedimiento para mejorar la calidad de la imagen comprimida:

1) Conservar más bits de precisión durante el procesamiento intermedio que la precisión de la entrada (por ejemplo, conservar más bits de precisión de la etapa de conversión de RGB a YUV durante la codificación, y conservar más bits de precisión de la etapa de IDCT).

2) Almacenar el resultado del aumento en la precisión intermedia.

3) Utilizar, de forma opcional, una aplicación de la IDCT que concuerde de forma exacta en el codificador y el descodificador.

4) Eliminar, de forma opcional, todas las formas de vibración o dither.

5) Utilizar la precisión de píxel adicional durante la etapa final de conversión de espacio cromático durante la descodificación, redondeando únicamente en la etapa final.

Gama dinámica y ampliación del contraste

El presente inventor ha expuesto anteriormente el concepto de aumento gradual en la gama dinámica y colorimétrica de las representaciones de imágenes basadas en píxeles. Véase, por ejemplo, "The Use of Logarithmic and Density Units for Pixels", de Gary Demos, presentado en la conferencia de la SMPTE de octubre de 1990, y publicado en el SMPTE Journal (oct. de 1990, vol. 100, nº 10). Véase también "An Example Representation for Image Color and Dynamic Range which is Scalable, Interoperable, and Extensible", de Gary Demos, presentado en la conferencia de la SMPTE de octubre de 1993, y publicado en las actas y las ediciones preliminares.

El uso de una representación logarítmica para los valores de los píxeles posee muchas ventajas. Por ejemplo, la metodología de codificación de YUV calcula U como R-Y, y V como B-Y. En una representación logarítmica, U se convierte en R/Y y V se convierte en B/Y, las cuales son de igual luminancia (o "isoluminantes") según la terminología acuñada en la publicación de la SMPTE de 1993, "An Example Representation for Image Color and Dynamic Range which is Scalable, Interoperable, and Extensible", referida anteriormente. Es decir, ambos canales U y V no contienen ninguna señal bajo variación de iluminación si poseen una tonalidad constante. Esto permite una alta eficiencia en la codificación del color usando los canales U y V. Además, esta eficiencia en la codificación de la tonalidad se obtiene a lo largo de una gama dinámica muy amplia de brillo general. Una representación logarítmica también permite el uso de procedimientos sencillos de medida y calibrado de sistemas, además de ser perceptualmente uniforme a lo largo de una gama de brillo muy amplia.

La tabla 1 indica la gama y la capacidad de definición tonal de diversos números de bits en el intervalo de 9 a 14 bits/píxel. A partir de esta tabla, se puede observar que es posible aproximarse a la gama de la visión humana, que comprende una gama de aproximadamente 10.000.000 a 1 en gama de brillo, gama cromática y definición tonal (en pasos de 1/8 por ciento), usando una precisión de menos de 16 bits usando una representación logarítmica.

TABLA 1 Número de bits necesarios usando pasos logarítmicos entero, mitad, cuarto y octavo

1

Las actuales cámaras y proyectores electrónicos de alta calidad son capaces de funcionar a aproximadamente 10 bits/píxel por color de gama dinámica y cromática. Por ejemplo, la cámara Polaroid/Phillips LDK9000 proporciona una imagen con un bajo nivel de ruido y una amplia gama cromática. Esta cámara posee un tamaño de píxel CCD de 11 micrómetros y una cuenta de electrones a máxima capacidad de píxel (full well) de aproximadamente 25.000 electrones. Son perfectamente factibles tamaños de sensor más grandes, con el potencial de aumentar la cuenta de electrones a máxima capacidad hasta cientos o miles o millones de electrones. En el lado de proyección de la imagen, unos proyectores de microespejos con una entrada gamma de 10 bits son capaces de lograr una gama dinámica de 1000:1 con una distinción tonal razonable, aproximándose de este modo a la calidad cinematográfica. Aunque las mejores películas pueden alcanzar una gama dinámica más amplia (aproximadamente de 3000:1) con una alta fidelidad tonal y una amplia gama cromática, ahora es posible prever que la creación y presentación de imágenes digitales competirá con este rendimiento y, finalmente, lo superará.

Como se señala anteriormente, la calidad de la compresión de la imagen en movimiento se puede mejorar considerablemente mediante la conservación de una precisión ampliada durante el procesamiento intermedio. También se puede utilizar el mismo mecanismo para ampliar enormemente la gama dinámica de la información de la imagen que puede comprimirse de forma eficiente. Por ejemplo, si se conservan 14 bits de precisión intermedia, esta gama de bits puede representar una gama dinámica de 700.000.000:1 en pasos logarítmicos de 1/8%.

También resulta útil realizar la observación directa, que no se contempla en las publicaciones referidas, de que la distinción del brillo es local. De este modo, no es posible distinguir pequeñas variaciones de brillo en un área de sombras oscuras que esté situada justo al lado de un objeto muy brillante. De este modo, solo es necesario conservar la distinción en la gama tonal y dinámica con respecto al brillo local en esa misma zona de una imagen. No obstante, una parte diferente de la imagen podría tener sombras oscuras, y podría estar lo bastante alejada de la región luminosa como para que se observe una distinción sustancial en el detalle, lo cual requiere un detalle correspondiente en la gama tonal de la representación de brillo local.

Estos conceptos, combinados con el uso de la precisión ampliada durante el procesamiento intermedio, se pueden aplicar a la compresión de imágenes en movimiento. Concretamente, una vez que la precisión intermedia que se mantiene dentro del sistema de compresión se amplía a números de bits más altos, como por ejemplo 13, 14, 15 ó 16, esta precisión ampliada también será capaz de representar imágenes con una amplia gama dinámica. Además, para lograr una compresión eficiente, se puede utilizar la limitación perceptual de la distinción tonal en áreas luminosas frente a la distinción ampliada en sombras.

En los sistemas de compresión de tipo MPEG, la distinción tonal se determina mediante el "parámetro de cuantificación" o "QP". QP se divide en los coeficientes de frecuencia de la DCT para reducir el número de bits necesarios para codificar un flujo de imágenes en movimiento. Durante la descodificación, el QP se multiplica por los coeficientes de la DCT antes de calcular la IDCT. De este modo, aunque el QP se aplica en el espacio de frecuencia (DCT), sigue representando un parámetro de precisión tonal.

Atendiendo a las características de distinción de zonas descritas anteriormente, se puede utilizar un QP alto en áreas de alto brillo sin una pérdida visible de claridad o tono, ya que la distinción tonal es relativa al brillo completo. No obstante, en las zonas oscuras de las sombras de la imagen, se debe utilizar un QP bajo para permitir la precisión tonal fina.

En MPEG-1, MPEG-2 y MPEG-4, resulta habitual utilizar un factor lineal del QP en el intervalo de 1 a 32. Aunque esto resulta adecuado para una gama dinámica de 8 bits, como la que proporciona MPEG-2, esta gama resulta insuficiente para números de bits más altos (como 10 bits o 12 bits), o para una gama dinámica más amplia. En MPEG-2 y MPEG-4, es posible variar el QP de un macrobloque al siguiente. Normalmente, este es el mecanismo mediante el cual se ajusta la tasa de bits para mantener una tasa de bits constante. Un QP más alto produce menos bits codificados, mientras que un QP más bajo produce más bits codificados. De este modo, lo único que se requiere para mantener una tasa de bits constante en un sistema de precisión limitada tal como en la capacidad de 8 bits de MPEG-1 y MPEG-2 es variar el QP en el intervalo de 1 a 32. No obstante, para una precisión de 10 bits o de 12 bits, como en MPEG-4, si el grado de cambio en la escena varía mucho (alta tensión de escena), y se requiere una tasa de bits baja y constante, un intervalo de QP de 32 valores posibles puede resultar insuficiente. Un intervalo de QP de 32 valores para 10 bits es equivalente a un intervalo de QP de 8 valores para 8 bits, siendo únicamente un cuarto del intervalo disponible para sistemas de codificación de 8 bits tales como MPEG-2. Para sistemas de codificación de 12 bits, tales como MPEG-4, un intervalo de 32 valores es equivalente a un intervalo de QP de 2 valores para una codificación de 8 bits, estando únicamente los primeros dieciséis del intervalo de QP disponibles para un sistema de 8 bits.

Resulta útil ampliar el intervalo de QP en el caso general. No obstante, se puede observar que el uso de una codificación y/o descodificación intermedia de alta precisión junto con una correspondencia directa entre el intervalo de QP y los valores de QP (es decir, un valor x es el mismo que el número de representación x; de este modo, un valor 14 es igual al número de representación 14) puede dar lugar a una compresión y descompresión de alta calidad.

Es deseable mantener el pequeño número de pasos en el QP (por ejemplo, 32 ó 64 valores, o algún número pequeño como estos) si se desea una variación de QP dentro de una trama, ya que los bits necesarios para codificar variaciones de QP por macrobloque están limitados a 2 unidades en MPEG-4. Si se varía el QP sólo una vez por trama, o una vez por rebanada (slice) o gran estructura de este tipo, entonces el número de valores para QP puede ser grande.

Si fuera necesario, el intervalo eficaz de QP se puede ampliar hasta un amplio intervalo de valores (es decir, los valores de QP aplicados realmente durante la compresión y descompresión) dentro de un pequeño número de códigos de representación aprovechando la naturaleza perceptualmente logarítmica de la gama dinámica. Por consiguiente, se puede usar una tabla de consulta no lineal para establecer una correspondencia entre un pequeño número de códigos QP representativos (por ejemplo, el intervalo de 1 a 32, o de 1 a 128) y un intervalo mucho más amplio de valores de QP determinados (por ejemplo, de 1 a 128, de 1 a 256, de 1 a 1024, o de 1 a 4096). En dicha tabla, las entradas bajas de código de QP se corresponderían prácticamente uno a uno con determinados valores de QP. Por ejemplo, los códigos de QP 1 a 4 pueden corresponderse con determinados valores de salida de QP de 1 a 4. No obstante, la correspondencia irá adoptando gradualmente una pendiente más acentuada, en un modelo logarítmico, de tal forma que el código de QP 8 puede corresponderse con un valor de QP determinado 16, el código de QP 16 podría corresponderse con un valor de QP determinado 64, y el código QP 32 podría corresponderse con un valor de QP determinado 256. Se puede observar que MPEG-2 sí permite un modo de QP lineal de 1 a 31, un modo de QP de doble paso que establece una correspondencia entre cada código de 1 a 31 y dos veces su valor (es decir, de 2 a 62). Y un modo de QP no lineal que establece una correspondencia entre códigos de 1 a 31 y determinados valores de 1 a 112. En MPEG-2, estos grandes valores determinados de QP dan lugar a una codificación extremadamente tosca que usa valores de píxel de 8 bits. Por ejemplo, los valores de QP de 62 a 112 corresponden a la codificación de solo dos o un bit, respectivamente, de los valores de 8 bits. De este modo, cualquier imagen codificada que use estos valores tendrá una calidad extremadamente baja.

Otra posibilidad consiste en que, si se especifica el QP una vez por trama o rebanada u otra gran estructura, el número de bits disponibles para el QP no está limitado, y los valores de QP pueden representarse completamente a lo largo de un intervalo muy amplio dentro de cualquier número de bits, incluidos 16 bits, 32 bits, 32 bits con coma flotante, e incluso números de bits más altos. No obstante, el marco conceptual de las imágenes de amplia gama dinámica es tal que algunas partes de la imagen tienen un brillo alto, y requieren unos valores determinados de QP altos, y otras partes tienen un brillo bajo, y requieren unos valores determinados de QP bajos. De este modo, resulta útil usar un procedimiento para especificar eficientemente valores de QP en función de una zona. El mecanismo existente en los sistemas de codificación (tales como MPEG-4), de permitir que los valores de QP varíen \pm2 unidades por macrobloque, es suficiente si el intervalo de códigos de QP es limitado (por ejemplo, de 1 a 32, como en MPEG-4). No obstante, si se necesita un intervalo grande de valores de QP, existen otros procedimientos sencillos para especificar los valores de QP zonales que también resultan apropiados y útiles.

De este modo, el uso de valores de QP que varían zonalmente es lo suficientemente general como para permitir representaciones de una gama dinámica muy amplia que se pueden comprimir enormemente, y aún así ser visualmente indistinguibles de la imagen en movimiento original.

Es preciso prestar atención al número de bits disponibles para la representación codificada tras dividir por determinados valores de QP (la división de la salida de la DCT por QP se denomina también "cuantificación"). Tras la cuantificación, los bits restantes de deben codificar para obtener el flujo de bits. Los bits codificados, excepto en el caso de intratramas e intramacrobloques, representan la diferencia entre la mejor concordancia predicha mediante un vector de movimiento en una trama previa o posterior, y la trama actual y el macrobloque actual. La representación codificada de esta diferencia codificada con la DCT y cuantificada determinará la relación de compresión que se puede lograr.

En MPEG-2 y MPEG-4, el intervalo máximo de valores codificados es \pm2047 (limitado por la representación de la tabla de VLC). Esto corresponde a una precisión descuantificada de 8 bits. De este modo, para la codificación descuantificada (es decir, QP=1) de imágenes de 10 bits, resulta posible superar este intervalo máximo de codificación en un factor de cuatro. Esto puede suceder si el mejor bloque predictor de concordancias contiene una transición a escala completa de negro a blanco en CC, o el cambio de coeficiente de CA a escala completa (tal como un borde acentuado entre negro y blanco predicho a partir de una zona gris plana). Los predictores óptimos rara vez proporcionarán una concordancia tan escasa, y por ello, en el caso de este ejemplo de 10 bits, rara vez o nunca será necesaria una codificación a escala completa. No obstante, el intervalo de valores codificados en una imagen en movimiento de 12 bits, o de imágenes aún más amplias de 14 ó 16 bits, superará a menudo una limitación del intervalo como, por ejemplo, de \pm2047. Aunque el límite de \pm2047 se amplía fácilmente, resulta beneficioso desde el punto de vista conceptual tratar de limitar el número medio de bits que se codifican. Tanto el número medio de bits como el máximo intervalo codificado se reducen directamente mediante el uso de valores QP. Por ejemplo, un QP de 4 amplía la gama dinámica disponible con una representación codificada de \pm2047 para incluir todos los casos posibles de codificación de 10 bits, y todos los casos probables de codificación de imágenes en movimiento de 12 bits. Por lo tanto, se puede observar que la ampliación de los valores de QP a un mayor número de valores, como 16, 32 ó 64, puede ampliar aún más la gama dinámica de la imagen en movimiento que se puede representar mediante un número limitado de bits codificados, con lo cual se obtiene una alta compresión.

Una clave de este concepto consiste en que los valores altos de QP en imágenes con una amplia gama dinámica corresponden a zonas de la imagen que poseen un brillo elevado, que no requieren una distinción tonal fina. Este procedimiento de codificación de imágenes con una amplia gama dinámica, que mantiene una precisión ampliada para tramas, y utiliza valores altos de QP en zonas luminosas y valores bajos de QP en zonas oscuras, puede lograr relaciones de compresión elevadas con una codificación perceptualmente perfecta que resulta indistinguible del original.

Por lo tanto, la utilidad de las técnicas de compresión de tipo MPEG se puede ampliar para usarlas en la compresión de imágenes en movimiento con una amplia gama dinámica. A medida que las cámaras, proyectores y otros componentes de sistemas de imagen amplían sus capacidades de gama, esta metodología de compresión se puede aplicar para facilitar una compresión con una alta eficiencia. El sistema de compresión resultante puede ir ampliándose a lo largo de muchas generaciones de futuras mejoras tecnológicas en los sistemas de creación y manipulación de imágenes.

En resumen, un aspecto de los procedimientos ilustrativos incluye la aplicación de una compresión de alta precisión a imágenes con una amplia gama dinámica mediante la ampliación del intervalo de valores de QP. La ampliación puede lograrse aumentando el intervalo de valores de QP directamente, o indirectamente a través de una transformación no lineal (como, por ejemplo, una función o tabla de consulta) que establece una correspondencia entre un pequeño intervalo de códigos de QP y un intervalo más amplio de valores de QP para la división (compresión) y multiplicación (descompresión). Otro aspecto de los procedimientos consiste en la determinación de tales valores de QP de amplio intervalo basados en información zonal, o mediante el análisis de la información disponible durante la descompresión (por ejemplo, coeficientes de la DCT, o el número de bits generados para un número dado de valores de QP candidatos, de los que se selecciona uno que resulte apropiado), o una combinación de los dos procedimientos de determinación.

También se puede aplicar una precisión de procesamiento intermedio ampliada y un intervalo de valores de QP ampliado a la codificación de zonas de una imagen en movimiento con una gama de contraste tanto ampliada como reducida. Por ejemplo, en días neblinosos, es normal que haya un alto contraste en los objetos del primer plano, pero que disminuye con la distancia. Los objetos lejanos a menudo tendrán un contraste muy bajo. Otras situaciones comunes, tales como las escenas que tienen lugar tras las ventanas de un edificio o el parabrisas de un coche, también tienen un contraste reducido debido al cristal y la reflexión del cristal. Las reflexiones también presentan un contraste reducido.

Los principios de la ampliación en la precisión y el intervalo de valores de QP se pueden aplicar a zonas de contraste reducido de una imagen para ampliar la precisión con la que se codifican por compresión las partes de bajo contraste. Al igual que con la ampliación de la gama dinámica, que usa valores bajos de QP para zonas oscuras y valores altos de QP para regiones luminosas, se pueden utilizar valores bajos de QP con zonas de bajo contraste (a menudo, distantes), mientras que para zonas de alto contraste (normalmente, el primer plano) se utilizan valores altos de QP. De este modo, si el sensor de una cámara tiene la suficiente resolución de bits, los objetos distantes situados en el cielo o en el suelo en un día neblinoso se pueden distinguir perfectamente cuando se descomprimen. Se puede aumentar su contraste más tarde de manera artificial, con lo que se revela una imagen nítida con una gama dinámica normal.

Aunque las cámaras y películas actuales están limitadas a aproximadamente a 10 bits de gama dinámica de tipo gamma o logarítmica, es bastante probable que las futuras cámaras cuenten con una mayor precisión. Tal ampliación en la distinción del brillo de la imagen de la cámara resultaría útil para visualizar el detalle en áreas de bajo contraste, además de ampliar la gama dinámica. Al igual que las cámaras, al ampliarse la gama dinámica y el brillo máximo de los proyectores, resulta posible distinguir detalles de bajo contraste dentro de esta gama ampliada. Las variaciones sutiles en el brillo, como, por ejemplo, en el caso de la caída gotas de lluvia, se observan con mucha más facilidad en un proyector con una amplia gama dinámica que en un monitor de visualización con una gama dinámica limitada. Un objeto mostrado por un proyector de amplia gama dinámica se distingue fácilmente debido a que posee una amplia gama de variación de brillo para el observador, mientras que un monitor de ordenador de tipo CRT posee una pequeña gama de variación de brillo. De este modo, a medida que las cámaras y los dispositivos de visualización amplían su gama dinámica y distinción tonal (es decir, añaden más bits de resolución, más allá de las actuales capacidades de 10 bits), resultará deseable ampliar, no solo la gama dinámica, sino también la distinción tonal.

Básicamente las mismas técnicas que permiten una gama dinámica ampliada permiten también una alta codificación de la distinción de zonas de bajo contraste. Concretamente, se aplican valores de QP a coeficientes de CA de la salida de la DCT de una manera distinta al coeficiente de CC, que se suele codificar de forma especial (para mejorar la eficiencia de la codificación del término de CC). Por lo tanto, el escalamiento de los coeficientes de CA se dispone naturalmente alrededor del valor de CC predominante. Por ejemplo, una zona de bajo contraste en una neblina gris tendrá unos coeficientes de CA de baja amplitud alrededor del valor medio de neblina de CC. De este modo, al aplicar valores de QP bajos se conservarán de forma natural las sutiles variaciones de tono dentro de las zonas de bajo contraste. Al igual que con la gama dinámica ampliada, unos valores de QP altos permiten la codificación normal de zonas del primer plano con un alto contraste.

A fin de ajustar los valores de QP para que resulten apropiados para zonas oscuras y zonas neblinosas, y que sigan siendo adecuados para zonas de brillo completo y contraste normal, los valores de QP se deberían determinar de forma zonal con respecto al contraste y el brillo de cada zona de la imagen. Esto también se puede determinar automáticamente si se establecen unos valores de QP para cada macrobloque tales que cada macrobloque de una zona genere aproximadamente el mismo número de bits. Para una imagen que posea una amplia gama dinámica y que incluya zonas oscuras, así como zonas de bajo contraste, al dar a cada macrobloque un número constante de bits se optimizará automáticamente la representación a lo largo de toda la gama de brillo y contraste. No obstante, también resulta deseable proporcionar más bits para las zonas de alto detalle que para las zonas de bajo detalle, y proporcionar más bits a las zonas en movimiento que a las zonas estáticas.

La determinación de un valor de QP para cada macrobloque se puede automatizar analizando las amplitudes relativas de los coeficientes de la DCT de cada macrobloque. A los macrobloques que contienen coeficientes de la DCT que indican detalle y los que indican movimiento se les puede proporcionar más bits que a los macrobloques en los que los pesos relativos de los coeficientes indican un bajo nivel de detalle o un bajo nivel de cambio (movimiento). No obstante, el ruido del sensor de la cámara también se debe tener en cuenta, ya que el ruido tendrá un comportamiento tanto de cambio (movimiento) como de detalle (coeficientes de alta frecuencia). Cuando se usa con una gama dinámica verdaderamente amplia y un sensor de alta distinción con un bajo nivel de ruido que resulte adecuado, las propias medidas relativas del peso del coeficiente de la DCT pueden constituir un indicador apropiado para ajustar automáticamente el valor del QP. Concretamente, los coeficientes de la DCT más grandes, dan lugar a valores de QP más grandes. Por consiguiente, se puede determinar empíricamente una correspondencia o correlación entre coeficientes de la DCT y los correspondientes valores de QP deseados.

Otro procedimiento que se puede usar para determinar (o ayudar a determinar, junto con otros mecanismos) valores de QP apropiados es el de los algoritmos zonales simples, tales como el brillo y contraste máximos de la zona. También se puede proporcionar información adicional mediante algoritmos de medición de amplitud del detalle zonal (estático de alta frecuencia de la imagen). Cada procedimiento posee sus ventajas particulares. No obstante, los coeficientes de la DCT son en sí mismos suficientes para determinar valores de QP en el caso de intramacrobloques. Es decir, los coeficientes de la DCT constituyen una medida del detalle combinado con el movimiento para macrobloques predichos, de manera que el uso de una medida de detalle diferente (como, por ejemplo, una transformada paralela intra-DCT) puede ayudar a aislar los cambios en el detalle del movimiento (como, por ejemplo, las gotas de lluvia o las olas en el agua que se mueven en el horizonte) a partir del detalle del macrobloque de imagen de la trama actual (estático tras la compensación del movimiento, como, por ejemplo, hojas de hierba con una cámara que se mueve lentamente). La sencillez de uso de los propios coeficientes de la DCT para indicar el QP hace que resulte un procedimiento particularmente atractivo para su aplicación práctica.

La fig. 5 es un diagrama de flujo que resume un procedimiento preferido de ampliación de la gama dinámica y/o el contraste durante la compresión de la imagen.

Etapa 500: Comenzar con una imagen de fuente con una amplia gama dinámica o una amplia gama de contraste.

Etapa 502: Si fuera necesario, ampliar el intervalo de valores eficaces del conjunto de códigos del parámetro de cuantificación (QP). Esto se puede realizar, por ejemplo, mediante una de las siguientes técnicas:

1) Ampliar el conjunto de códigos de QP desde un intervalo nominal (típicamente, 32 niveles) hasta un intervalo actual más grande (128, 1024, o 4096 niveles, o lo que resulte apropiado para el intervalo de la imagen). De este modo, los valores nominales representan directamente un intervalo ampliado de posibles valores.

2) Usar una tabla de consulta o función de correspondencia no lineales para correlacionar códigos QP nominales de forma no lineal con un mayor intervalos de valores eficaces. La correspondencia sería típicamente lineal a valores bajos, pero aumentaría de tamaño de paso de multiplicación y división de QP eficaz, ya que los valores aumentan hacia un típico máximo del intervalo. Por ejemplo, se pueden ampliar 32 o 64 códigos usando una función de consulta o correspondencia no lineal para producir un intervalo eficaz más grande y que posee un valor máximo más grande, como, por ejemplo, 128, 1024, 4096, o lo que resulte apropiado para el intervalo de la imagen.

Etapa 504: Determinar el valor de QP que se debería codificar para cada macrobloque de una imagen que sufre una compresión, usando preferentemente uno de los siguientes procedimientos:

1) Determinar un valor de QP apropiado usando algoritmos para determinar el contraste de la zona de imagen local dentro de cada trama, la gama dinámica local dentro de cada trama, las amplitudes de detalle locales dentro de cada trama, y el movimiento local entre una o más tramas secuenciales (tal como se describe anteriormente), a partir de un análisis del flujo de imágenes en movimiento.

2) Determinar un valor de QP basado en una información generada en el procedimiento de compresión, que se basa en el número de bits generados (para un cierto número de valores candidatos de QP), y la amplitud y frecuencia de coeficientes de la DCT previas a la cuantificación.

3) Aplicar una combinación de la información procedente de 1) y 2), determinando un valor de QP para cada macrobloque utilizando tanto información local como información generada a partir del procedimiento de compresión.

Etapa 506: Usar una precisión ampliada para todo el procesamiento intermedio, tal como se describe anteriormente, para comprimir la imagen usando el valor o valores de QP determinados de la etapa 504. La imagen comprimida, junto con los códigos de QP nominales relacionados correspondientes a los valores de QP determinados que se usaron durante la compresión, se puede almacenar o transmitir, según se desee.

Etapa 508: Descomprimir la imagen transmitida o almacenada, usando una descompresión de alta precisión, tal como se describe anteriormente, para obtener una imagen de amplia gama dinámica, amplia gama de contraste y alta resolución para diversas aplicaciones. Los códigos de QP nominales relacionados se vuelven a correlacionar, si fuera necesario, con los correspondientes valores de QP determinados para tal descompresión. Entre dichas aplicaciones, se incluyen presentaciones domésticas y en salas de proyección de películas y deportes, archivado de imágenes almacenadas, usos comerciales de las presentaciones de imágenes en movimiento, aplicaciones gubernamentales (por ejemplo, vigilancia, comando y control militar), etc. Las imágenes descomprimidas se pueden visualizar en dispositivos de visualización de amplia gama dinámica y/o usarse como fuente para el análisis de la imagen usando algoritmos que se aprovechan de (o requieren) imágenes de alta calidad y amplia gama dinámica con el fin de proporcionar un análisis óptimo (tales algoritmos no constituyen el tema de la presente descripción).

Aplicación

La invención se puede aplicar en hardware o software, o en una combinación de ambos (por ejemplo, conjuntos lógicos programables). A menos que se especifique lo contrario, los algoritmos incluidos como parte de la invención no está relacionados intrínsecamente con ningún ordenador en particular o ningún otro aparato. En concreto, se pueden utilizar diversas máquinas de uso general con programas creados de acuerdo con lo expuesto en la presente descripción, o puede resultar más conveniente construir aparatos más especializados (por ejemplo, circuitos integrados) para llevar a cabo las etapas del procedimiento necesarias. De este modo, la invención se puede aplicar a uno o más programas informáticos que se ejecuten en uno o más sistemas informáticos programables, en los que cada uno comprende al menos un procesador, al menos un sistema de almacenamiento de datos (incluidos elementos de memoria volátil y no volátil y/o de almacenamiento), al menos un dispositivo o puerto de entrada, y al menos un dispositivo o puerto de salida. El código del programa se aplica a los datos de entrada para realizar las funciones descritas en la presente descripción y generar información de salida. La información de salida se aplica a uno o más dispositivos de salida, de manera conocida.

Cada uno de tales programas se puede aplicar a cualquier lenguaje informático que se desee (incluidos máquina, ensamblador o lenguajes de programación orientados a objetos, lógicos, procedimentales y de alto nivel) para comunicarse con un sistema informático. En cualquier caso, el lenguaje puede ser un lenguaje compilado o un lenguaje interpretado.

Cada uno de dichos programas informáticos se almacena preferentemente o se descarga en unos medios o dispositivo de almacenamiento (por ejemplo, unos medios o memoria de estado sólido, o medios magnéticos u ópticos) legibles por un ordenador programable de uso general o especial, para configurar y hacer funcionar el ordenador cuando el sistema informático lee los medios o el dispositivo de almacenamiento para realizar los procedimientos descritos en la presente descripción. También se puede considerar la aplicación del sistema de la invención como un medio de almacenamiento legible por ordenador, configurado con un programa informático, en el que el medio de almacenamiento configurado de este modo hace que un sistema informático funcione de una manera específica y predefinida para realizar las funciones descritas en la presente descripción.

Se han descrito varias de las formas de realización de la invención. Sin embargo, se entenderá que se pueden realizar diversas modificaciones sin alejarse del alcance de la invención, según se define en las reivindicaciones. Por ejemplo, algunas de las etapas descritas anteriormente pueden ser independientes del orden, y por ello se pueden realizar en un orden diferente al que se ha descrito.

\vskip1.000000\baselineskip

Referencias citadas en la descripción

Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad al respecto.

Documentos de patente citados en la descripción

\bullet WO 9408427 A [0015]

Documentos no procedentes de patentes citados en la descripción

\bullet Gary Demos. The Use of Logarithmic and Density Units for Pixels. SMPTE conference, and published in in the SMPTE Journal, October 1990, vol. 100 (10 [0032]

\bullet Gary Demos. An Example Representation For Image Color And Dynamic Range Which Is Scalable, Interoperable, and Extensible. SMPTE conference and published in the proceedings and preprints, October 1993 [0032]

\bullet An Example Representation For Image Color And Dynamic Range Which Is Scalable, Interoperable, and Extensible. 1993 SMPTE paper, 1993 [0033]

Claims

1. Procedimiento para comprimir y descomprimir una secuencia de imágenes de vídeo digitalizadas que incluye una secuencia de tramas representadas con una primera precisión de bits en un primer espacio cromático, y el procedimiento se caracteriza por las etapas de

a) transformación de la secuencia de tramas para obtener una representación en un segundo espacio cromático con una segunda precisión de bits superior a la primera precisión de bits;

b) realización de posteriores etapas de codificación con la segunda precisión de bits para generar un flujo de bits comprimido; y

c) realización de posteriores etapas de descodificación con la segunda precisión de bits en el flujo de bits comprimido, y las posteriores etapas de descodificación incluyen la aplicación de una transformada discreta de coseno inversa.

\vskip1.000000\baselineskip

2. El procedimiento de la reivindicación 1, en el que la etapa de realización de las posteriores etapas con la segunda precisión de bits en el flujo de bits comprimido comprende la descodificación del flujo de bits comprimido mediante la:

1) descuantificación del flujo de bits comprimido con la segunda precisión de bits para crear una salida descomprimida;

2) aplicación de una transformada discreta de coseno inversa con la segunda precisión de bits en la salida descuantificada para producir una salida descomprimida; y

3) generación de tramas de imagen con la segunda precisión de bits a partir de la salida descomprimida.

\vskip1.000000\baselineskip

3. El procedimiento de la reivindicación 1 ó 2, en el que las posteriores etapas de codificación incluyen la aplicación de un algoritmo numérico de transformada discreta de coseno inversa, y en el que la descodificación del flujo de bits comprimido incluye la aplicación de un algoritmo numérico de transformada discreta de coseno inversa que concuerde.

4. El procedimiento de la reivindicación 1, 2 ó 3, que además incluye la generación de tramas P con la segunda precisión de bits.

5. El procedimiento de cualquiera de las reivindicaciones 1 a 4, que además incluye la generación de tramas B con la segunda precisión de bits.

6. El procedimiento de cualquiera de las reivindicaciones 1 a 5, en el que cada trama incluye una pluralidad de macrobloques que definen zonas, y el procedimiento incluye la:

i) determinación de un parámetro de cuantificación, QP, que posee códigos que representan una correspondencia directa con posibles valores o bien un intervalo ampliado de posibles valores;

ii) determinación de un valor de QP para cada macrobloque de cada trama;

iii) compresión de cada trama con la segunda precisión de bits para crear una trama comprimida, y tal compresión incluye la aplicación de los valores de QP determinados para que dicha trama reduzca el número de bits necesario para codificar tal trama:

iv) asociación de códigos QP con los valores QP determinados, usados durante la compresión; y

v) la salida de cada una de las tramas comprimidas y los códigos de QP relacionados.

\vskip1.000000\baselineskip

7. El procedimiento de la reivindicación 6, que además incluye la ampliación directa del intervalo de posibles valores de QP mediante el aumento en el número de bits que representan códigos de QP.

8. El procedimiento de la reivindicación 6, que además incluye la ampliación eficaz del intervalo de posibles valores de QP mediante el establecimiento de una correspondencia entre los códigos de QP y un intervalo más grande de posibles valores de QP.

9. El procedimiento de la reivindicación 6, 7 u 8, en el que la determinación de un valor de QP para cada macrobloque de cada trama se basa en la información zonal con respecto a una o más tramas.

10. El procedimiento de la reivindicación 9, en el que la información zonal incluye un contraste de zona de imagen local dentro de cada trama.

11. El procedimiento de la reivindicación 9, en el que la información zonal incluye una gama dinámica local dentro de cada trama.

12. El procedimiento de la reivindicación 9, en el que la información zonal incluye amplitudes de detalle local dentro de cada trama.

13. El procedimiento de la reivindicación 9, en el que la información zonal incluye el movimiento local entre una o más tramas secuenciales.

14. El procedimiento de cualquiera de las reivindicaciones 6 a 13, en el que la determinación de un valor de QP para cada macrobloque de cada trama se basa en la información generada durante la etapa de compresión.

15. El procedimiento de la reivindicación 14, en el que la información generada durante la etapa de compresión incluye amplitudes relativas de coeficientes de la transformada discreta de coseno para cada macrobloque.

16. El procedimiento de la reivindicación 14, en el que la información generada durante la etapa de compresión incluye un número constante de bits asignados para codificar cada macrobloque dentro de una zona de una trama.

17. El procedimiento de cualquiera de las reivindicaciones 6 a 16, que además incluye:

a) para cada trama comprimida, la determinación por segunda vez de un valor de QP para cada código asociado con tal trama comprimida; y

b) la descompresión de cada trama comprimida con la segunda precisión de bits para crear una trama descomprimida que posea al menos una amplia gama dinámica o una amplia gama de contraste, y tal descompresión incluye la aplicación de los valores de QP que se vuelven a determinar para dicha trama.