ES2551561T3

ES2551561T3 - Codecs de alto rango dinámico

Info

Publication number: ES2551561T3
Application number: ES10185996.5T
Authority: ES
Inventors: Alexander Efremov; Rafal Mantiuk; Grzegorz Krawczyk; Karol Myszkowski; Hans-Peter Seidel
Original assignee: Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Current assignee: Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority date: 2006-01-23
Filing date: 2006-09-07
Publication date: 2015-11-19
Anticipated expiration: 2026-09-07
Also published as: EP3197157B1; EP3197157A1; WO2007082562A2; EP2290983B1; US20190052892A1; EP2320653B1; EP2988499A1; CN101742306A; US9544610B2; US20150156506A1; US20100172411A1; US8611421B1; US20170041626A1; US20130322532A1; KR101356548B1; US20180103263A1; JP5249784B2; US20140086321A1; EP2290983A3; EP2988499B1

Abstract

Un método para codificar una imagen de alto rango dinámico (12), comprendiendo el método los pasos de: - obtener una imagen de menor rango dinámico (14) correspondiente a la imagen de alto rango dinámico (12), pudiéndose obtener la imagen de menor rango dinámico (14) a partir de la imagen de alto rango dinámico (12) mediante un proceso de reducción del rango dinámico y que contiene la misma escena que la imagen de alto rango dinámico (12); - generar una función de predicción (19) para predecir una imagen de alto rango dinámico (12) a partir de la imagen de menor rango dinámico (14), en donde la generación de la función de predicción supone: para cada valor de píxel representado en la imagen de menor rango dinámico, identificar el conjunto de estos píxeles en la imagen de menor rango dinámico (14) que tienen dicho valor de píxel; y para cada uno de estos conjuntos, identificar los píxeles en la imagen de alto rango dinámico (12) que se corresponden con los píxeles en el conjunto respectivo, identificando, de ese modo, los valores de píxel en la imagen de alto rango dinámico (12) que se corresponden con cada valor de píxel representado en la imagen de menor rango dinámico (14), y en donde la función de predicción (19) se basa, al menos en parte, en los valores de píxel de los píxeles en la imagen de alto rango dinámico (12), para los cuales los píxeles correspondientes en la imagen de menor rango dinámico (14) tienen todos el mismo valor de píxel, y utiliza las relaciones estadísticas entre los valores de píxel de los píxeles en la imagen de menor rango dinámico y los valores de píxel correspondientes en la imagen de alto rango dinámico (12), determinando, de ese modo, para cada conjunto un valor de píxel previsto en la imagen de alto rango dinámico (12); - aplicar la función de predicción (19) a la imagen de menor rango dinámico (14) para obtener una imagen de alto rango dinámico prevista (29); - obtener una imagen residual (32) a partir de la imagen de alto rango dinámico prevista (29) y de la imagen de alto rango dinámico (12); y - codificar y almacenar los datos que representan la imagen de menor rango dinámico (14), la función de predicción (19) y la imagen residual (32) en un flujo de video, en donde la imagen de alto rango dinámico (12) y la imagen de menor rango dinámico (14), cada una, comprende una trama en una secuencia de video, y la función de predicción (19) se actualiza para cada trama en la secuencia de video.

Description

DESCRIPCIÓN Codecs de alto rango dinámico. Campo técnico

La invención está relacionada con la codificación de datos de imágenes. La invención tiene una aplicación concreta para codificar imágenes o para codificar secuencias de datos de vídeo. 5

Antecedentes

El rango dinámico es una medida de la luminosidad relativa de las partes más luminosas y más oscuras de una imagen. Hasta hace poco tiempo, la mayor parte de los televisores, monitores de ordenador y otros dispositivos de visualización han sido capaces de reproducir rangos dinámicos de únicamente unos pocos cientos a uno. Esto es mucho menos que el rango dinámico que puede ser apreciado por el ojo humano. Los dispositivos de visualización 10 con rangos dinámicos mayores empiezan a estar disponibles. Dichos dispositivos de visualización de alto rango dinámico pueden proporcionar imágenes que son mucho más naturales y realistas que las imágenes producidas por dispositivos de visualización de “bajo rango dinámico”.

Los dispositivos de visualización de alto rango dinámico son apropiados en un amplio espectro de aplicaciones. Por ejemplo, los dispositivos de visualización de alto rango dinámico se pueden utilizar para mostrar imágenes de vídeo 15 realistas que van desde películas y efectos visuales de juegos, a exhibiciones de efectos visuales en simuladores como, por ejemplo, simuladores de vuelo. Los dispositivos de visualización de alto rango dinámico también se pueden aplicar en aplicaciones exigentes en el procesamiento de imágenes como, por ejemplo, el procesamiento de imágenes médicas.

Muchos formatos de datos de imagen actuales especifican los valores de un píxel utilizando 24 o menos bits por 20 píxel. Estos bits especifican tanto la luminosidad como el color del píxel. 24 bits son muy pocos para especificar tanto un rango completo de colores como una luminosidad que puede variar suavemente a lo largo del rango que es capaz de reproducir una pantalla de alto rango dinámico. Con el fin de obtener un beneficio completo de una pantalla de alto rango dinámico es necesario proporcionar datos de imágenes capaces de especificar un amplio rango de valores de píxel. Se han desarrollado o propuesto varios formatos de datos de alto rango dinámico que proporcionan 25 un número mayor de bits por píxel. Dichos formatos de datos de alto rango dinámico no son típicamente compatibles hacia atrás con los formatos anteriores de datos de bajo rango dinámico.

Por ejemplo, la “Perception-motivated HDR Video Encoding (Codificación de Vídeo HDR motivada por la Percepción)” HDRV tal como se describe en R. Mantiuk, G. Krawczyk, K. Myszkowski y H-P. Seidel. Perception-motivated high dynamic range video encoding (Codificación de vídeo de alto rango dinámico motivada por la 30 percepción). ACM Transactions on Graphics (Publicaciones sobre Gráficos de la ACM) (Actas de SIGGRAPH 2004), 23(3):730-38, 2004 es un método de compresión de vídeo HDR con pérdidas, el cual, no ofrece compatibilidad hacia atrás. El método codifica píxeles HDR utilizando 11 bits para la luminancia y 2 por 8 bits para la crominancia. El flujo de vídeo resultante no contiene ninguna información sobre las tramas LDR.

HDR JPEG se describe en Greg Ward y Mariann Simmons. Subband encoding of high dynamic range imagery 35 (Codificación de subbanda de imágenes de alto rango dinámico). En APGV ’04: Proceedings of the 1st Symposium on Applied perception in graphics and visualization (Actas del primer Simposio sobre percepción aplicada en gráficos y visualización), páginas 83-90, Nueva York, NY, EEUU, 2004. ACM Press. Este método supone submuestrear una capa de subbanda, lo cual da lugar a la pérdida de las frecuencias altas. Con el fin de prevenirlo, el método sugiere tres técnicas: una corrección previa de la capa de LDR, con el fin de codificar dentro de esta capa las frecuencias 40 altas que se pueden perder debido al submuestreo; una corrección posterior que intenta restaurar las frecuencias altas que se han perdido en lugar de modificar la imagen LDR y realizar un muestreo completo, lo cual implica que no se lleva a cabo ningún submuestreo.

Por lo tanto subsiste una necesidad de métodos y equipos prácticos para codificar y decodificar imágenes HDR, especialmente imágenes de vídeo HDR. Todavía existe una necesidad concreta para dichos métodos y equipos que 45 proporcionan compatibilidad hacia atrás con el hardware existente para reproducir imágenes de menor rango dinámico.

La Solicitud de Patente de los EE.UU. US 2005/0259729 A1 divulga un método para codificar una secuencia de vídeo escalable de calidad. Una trama de entrada de N bits se convierte en una trama de entrada de M bits, donde M es un entero entre 1 y N. Con el fin de ser compatible hacia atrás en sistemas de vídeo existentes de 8 bits, se 50 puede elegir que M sea 8. La trama de entrada de M bits se codifica para producir un flujo de bits de salida de la capa base. A partir del flujo de bits de salida de la capa base se reconstruye una trama de salida de M bits y se convierte a una trama de salida de N bits. La trama de salida de N bits se compara con la trama de entrada de N bits con el fin de obtener una diferencia de la imagen de N bits que se codifica para producir un flujo de bits de la capa mejorada. 55

Resumen de la invención

Esta invención proporciona métodos y un equipo para codificar datos de imágenes de alto rango dinámico y para decodificar los datos con el fin de proporcionar tanto datos de imágenes de menor rango dinámico como datos de imágenes de mayor rango dinámico. Los métodos y el equipo se pueden aplicar a la codificación datos de vídeo. En algunos modos de realización de la invención los datos de menor rango dinámico se codifican en un formato 5 estándar como, por ejemplo, un formato MPEG (Grupo de Expertos de Imágenes en Movimiento).

Un aspecto de la invención proporciona un método ara codificar una imagen de alto rango dinámico. El método comprende obtener una imagen de menor rango dinámico que se corresponde con la imagen de alto rango dinámico; identificar grupos de píxeles en la imagen de alto rango dinámico para los que los píxeles correspondientes en la imagen de menor rango dinámico tengan todos el mismo valor de píxel; generar una función 10 de predicción basada al menos en parte en los valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de una pluralidad de los grupos; aplicar la función de predicción a la imagen de menor rango dinámico con el fin de obtener una imagen prevista; calcular una imagen residual que representa las diferencias entre los valores de píxel en la imagen prevista y los valores de píxel correspondientes en la imagen de alto rango dinámico; y, codificar y almacenar los datos que representan la imagen de menor rango dinámico, la 15 función de predicción y la imagen residual.

Otros aspectos de la invención proporcionan métodos para decodificar imágenes de alto rango dinámico que se han codificado de acuerdo con la invención y un equipo para codificar y/o decodificar imágenes de alto rango dinámico.

A continuación se describen aspectos adicionales de la invención y características de los modos de realización específicos de la invención. 20

Breve descripción de los dibujos

En los dibujos que ilustran los modos de realización no limitantes de la invención,

la Figura 1 es un diagrama de flujo que ilustra un método de codificación de acuerdo con un modo de realización de la invención;

la Figura 1A es un histograma de valores de píxel de una imagen de alto rango dinámico para la que todos los 25 píxeles correspondientes en una versión de menor rango dinámico de la imagen tienen el mismo valor de píxel;

la Figura 2 es un diagrama de flujo que ilustra un método de decodificación de acuerdo con la invención;

la Figura 3 es un diagrama de flujo que ilustra un método de codificación MPEG de acuerdo con un modo de realización específico;

las Figuras 4A a 4F muestran la relación entre los valores de luma (luminosidad de la imagen) en las imágenes HDR 30 y LDR correspondientes para varios algoritmos de mapeo de tonos;

la Figura 5 muestra un método para filtrar datos de imágenes residuales de acuerdo con un modo de realización de la invención; y,

la Figura 6 es un diagrama que ilustra la tasa de bit como una función del parámetro de calidad de imagen para un prototipo de sistema de codificación. 35

Descripción

A lo largo de la siguiente descripción se establecen detalles específicos con el fin de proporcionar un conocimiento exhaustivo de la invención. No obstante, la invención se puede poner en práctica sin estos detalles. En otros ejemplos, no se muestran o describen en detalle los elementos bien conocidos con el fin de evitar enmascarar la invención de forma innecesaria. En consecuencia, la especificación y los dibujos se deben considerar en sentido 40 ilustrativo en lugar de restrictivo.

La Figura 1 muestra un método 10 para codificar una trama de datos de imágenes de acuerdo con un modo de realización básico de la invención. El método 10 codifica tanto datos de alto rango dinámico (HDR) 12 como datos de menor rango dinámico (LDR) 14 en datos de imagen codificados 38. Tal como se describe a continuación, los datos de imagen codificados 38 se pueden decodificar para reconstruir tanto los datos LDR como los datos HDR. 45

Únicamente a modo de ejemplo, los datos HDR 12 se pueden representar en un espacio de color como, por ejemplo, el espacio de color CIE XYZ (observador estándar 2E) en el que el color y el brillo de cada uno de los píxeles se especifica mediante tres números de coma flotante. Los datos LDR 14 se pueden representar en un espacio de color como, por ejemplo, el espacio de color sRGB en el que el color y el brillo de cada uno de los píxeles se especifica mediante tres bytes. En algunos modos de realización, los datos LDR 14 se obtienen a partir de los 50

datos HDR 12 (o un precursor de los datos HDR 12) mediante un proceso 16 de reducción del rango dinámico apropiado.

La reducción del rango dinámico puede comprender un mapeo de tonos y/o un mapeo de gama de colores, por ejemplo. Se puede utilizar cualquier operador de mapeo de tonos o mapeo de gama de colores. Por ejemplo, se puede seleccionar un operador de mapeo de tonos con el fin de saturar tanto la luminancia como el color, cambiar 5 los valores de color y mejorar el contraste local. Dichos cambios pueden dar lugar a una tasa de compresión menor, pero en el flujo de vídeo resultante se preservarán tanto las tramas LDR como las HDR.

En el bloque 18, el método 10 aplica una función de predicción 19. La función de predicción 19 proporciona como salida un valor de píxel previsto para un píxel en los datos HDR 12 basado en el valor de píxel para el píxel correspondiente en lo datos LDR 14. Como el objetivo es conseguir reproducir los datos HDR 12 y los datos LDR 14 10 a partir de los datos de imagen codificados 38, es preferible basar la función de predicción 19 en una versión de los datos LDR 14 que se pueda reconstruir a partir de los datos de imagen codificados 38.

Cuando se utiliza un algoritmo con pérdidas para codificar y comprimir los datos LDR 14, no es posible garantizar que la versión reconstruida de los datos LDR 14 sea idéntica a los datos LDR 14 originales. Por esta razón, la Figura 1 muestra que el bloque 19 recibe como entrada los datos LDR reconstruidos 26. Los datos LDR reconstruidos 26 se 15 obtienen codificando/comprimiendo los datos LDR 14 en el bloque 20 con el fin de proporcionar datos LDR codificados comprimidos 22 y, a continuación, decodificar/descomprimir los datos LDR codificados comprimidos 22 en el bloque 24. Los datos LDR codificados comprimidos 22 se incluyen en los datos de imagen codificados 38. La línea 15 ilustra una alternativa menos precisa en la que el bloque 18 utiliza directamente los datos LDR 14 para aplicar la función de predicción 19. 20

La función de predicción 19 utiliza preferiblemente las relaciones estadísticas entre los valores de píxel en los datos LDR reconstruidos 26 y los valores de píxel correspondientes en los datos HDR 12. En general, si se toman todos los píxeles en la imagen LDR reconstruida 26 para la que todos los píxeles tienen el mismo valor de píxel específico, los píxeles correspondientes en la imagen de datos HDR 12 no tendrán todos el mismo valor de píxel. Esto es, en general, existe una relación uno a muchos entre los valores de píxel LDR y los valores de píxel HDR. 25

La Figura 1A es un histograma en el que el eje horizontal representa todos los valores de píxel HDR posibles y el eje vertical indica el número de píxeles en los que la imagen representada por los datos de la imagen HDR 12 tienen dicho valor. Puede existir un número significativo de valores de píxel para los que la imagen no tiene ningún píxel que tenga dicho valor. Las barras sombreadas en la Figura 1A representan valores de píxeles en los datos de la imagen HDR 12 para los que todos los píxeles correspondientes en los datos de la imagen LDR reconstruida 26 30 tienen el mismo valor de píxel XLDR. Los valores de píxel HDR que se corresponden con el rango de XLDR de valor de píxel LDR varían entre A y B. Todos los valores de píxel HDR para los píxeles que se corresponden con el mismo valor de píxel en los datos de la imagen LDR reconstruida 26 se puede denominar un contenedor. Es normal, pero no obligatorio, que no se solapen los diferentes contenedores.

Una función de predicción 19 para una imagen se puede obtener a partir de los datos de la imagen HDR 12 y los 35 datos de la imagen LDR reconstruida 26 mediante la agrupación de los valores de píxel HDR en contenedores y el análisis estadístico de cada uno de los contenedores. La agrupación de los valores de píxel HDR en contenedores puede comprender:

 tomar los datos de la imagen LDR reconstruida 26, y para cada uno de los valores de píxel representados en los datos de la imagen LDR reconstruida 26 identificar el conjunto de todos los píxeles que tienen dicho valor de 40 píxel;

 para cada uno de los conjuntos de píxeles identificar los píxeles correspondientes en los datos HDR 12 y determinar los valores de píxel de aquellos píxeles correspondientes para generar un conjunto de todos los valores de píxel HDR que se corresponden con cada uno de los valores de píxel LDR.

La función de predicción 19 se puede obtener mediante cualquiera de las siguientes operaciones: 45

 calcular la media aritmética de los valores de píxel HDR en cada uno de los contenedores;

 calcular la mediana de los valores de píxel HDR en cada uno de los contenedores;

 calcular el promedio de los valores A y B que delimitan el contenedor;

 alguna combinación de los anteriores; o

 similares. 50

Se considera que para muchas aplicaciones la media aritmética proporciona una buena combinación de precisión y eficiencia de cálculo.

Dada una función de predicción 19 únicamente es necesario codificar las diferencias entre los valores previstos por parte de la función de predicción 19 y los valores reales de los datos de la imagen HDR 12. Dichas diferencias son normalmente próximas a cero y por lo tanto se pueden comprimir de forma eficiente en tramas residuales.

La función de predicción 19 necesita estar definida únicamente para los valores de píxel posibles en los datos LDR 14 (256 valores en el caso de que los valores de píxel estén representados por un número de 8 bits). La función de 5 predicción 19 puede comprender una tabla de búsqueda indexada con los valores válidos para los píxeles LDR. La función de predicción 19 se puede implementar como una tabla de búsqueda que tenga un valor de salida correspondiente para cada uno de los valores del índice. Por ejemplo, cuando los píxeles LDR tienen valores de 8 bits, La tabla de búsqueda puede comprender 256 valores diferentes indexados mediante enteros en el rango de 1 a 256. La función de predicción 19 no necesita ser continua ya que su función principal es hacer los valores de las 10 tramas residuales tan pequeños como sea posible. Alternativamente, la función de predicción 19 se puede representar parcial o completamente mediante una curva continua parametrizada de forma apropiada.

En el bloque 28 el método 10 obtiene una imagen HDR prevista mediante la aplicación de la función de predicción 19 a los datos LDR 26 reconstruidos. El valor de píxel para cada uno de los píxeles de los datos LDR 26 reconstruidos se utiliza como una entrada a la función de predicción 19 y el valor de píxel se sustituye por la salida 15 resultante de la función de predicción 19 para generar una imagen HDR prevista 29.

El bloque 30 calcula una diferencia entre la imagen HDR prevista 29 y la imagen de los datos HDR 12 con el fin de proporcionar una imagen residual 32. La imagen residual 32 se codifica/comprime en el bloque 34 y da como resultado los datos de la imagen residual 35 para incluirlos en los datos de imagen codificados 38. El bloque 34 puede comprender filtrado y cuantificación de la imagen residual 32 con el fin de eliminar la información que no 20 tendrá un efecto observable (o, con un filtrado y/o cuantificación más agresivo un efecto excesivamente perjudicial) sobre la fidelidad de una imagen HDR reconstruida a partir de los datos de imagen codificados 38.

La Figura 2 muestra un método 40 para decodificar los datos de imagen codificados 38. Los datos LDR 22 se pueden extraer a partir de los datos de imagen codificados 38 y decodificados/descomprimidos en el bloque 32 con el fin de generar los datos LDR 43 que se obtienen como una salida de datos LDR 44. Si la salida de datos LDR 44 25 es todo lo que se necesita, entonces no es necesario realizar ningún procesamiento adicional.

Si también es necesario una salida de datos HDR 56, entonces en el bloque 46 se transforma una función de predicción 37 con el fin de generar una función de predicción 47 y en el bloque 50 se decodifican/descomprimen unos datos de la imagen residual 35 con el fin de generar la imagen residual 52.

En el bloque 48 se aplica la función de predicción 47 a los datos LDR 43 con el fin de generar una imagen HDR 30 prevista 49. En el bloque 54 la imagen HDR prevista 49 se combina con la imagen residual 52 con el fin de generar la salida de datos HDR 56. Un decodificador que funciona tal como se muestra en la Figura 2 puede ser compatible hacia atrás con los sistemas y dispositivos que necesitan una salida de datos LDR 44 al mismo tiempo que proporciona datos HDR de alta calidad en la salida de datos HDR 56.

Los métodos 10 y 40 se pueden llevar a la práctica mediante: 35

 procesadores de datos programados, los cuales pueden comprender uno o más de los siguientes: microprocesadores, procesadores de señales digitales, alguna combinación de los mismos, o similares que ejecuten software que haga que los procesadores de datos implementen los métodos;

 circuitos de hardware, por ejemplo circuitos que incluyan bloques funcionales que cooperen para implementar el método – los circuitos pueden comprender, por ejemplo, matrices de puertas programables en campo (“FPGA”) 40 o circuitos integrados para aplicaciones específicas (“ASIC”) configurados de forma apropiada; o,

 llevar a cabo algunas partes de los métodos en procesadores de datos programados y otras partes de los métodos en circuitos de hardware apropiados.

La Figura 3 muestra un método 70 de acuerdo con un ejemplo de modo de realización más específico. El método 70 codifica tramas de vídeo de una forma que satisface los estándares establecidos mediante las normas del Grupo de 45 Expertos de Imágenes en Movimiento (MPEG). El método 70 recibe dos flujos de entrada de datos de vídeo. En la entrada 72 se recibe un flujo que contiene tramas HDR 74. En la entrada 78 se recibe un flujo que contiene tramas LDR 76. Las tramas LDR 76 se pueden obtener a partir de las tramas HDR 74 o algún precursor anterior de las tramas HDR 74 de la entrada 78.

Un codificador que funciona tal como se muestra en la Figura 3 produce tres flujos comprimidos: un flujo LDR 80, 50 que puede ser totalmente compatible con MPEG; un flujo residual 82, que contiene las diferencias entre las tramas LDR 76 y las tramas HDR 74 correspondientes; y un flujo auxiliar 84 que contiene datos auxiliares para la reconstrucción de las tramas HDR 74. El mejor rendimiento se puede conseguir cuando el flujo residual 82 y el flujo auxiliar 84 no duplican la información codificada en el flujo LDR 80.

Las tramas LDR 76 se codifican en el bloque 88 utilizando un codificador apropiado. Por ejemplo, el bloque 88 puede utilizar un codificador de vídeo MPEG compatible con el estándar ISO/IEC 14496-2. Alternativamente se pueden utilizar otros codificadores de vídeo. El flujo de vídeo resultante se puede encapsular en un formato contendor de medios apropiado como, por ejemplo, Entrelazado de Audio Vídeo (AVI) o QuickTimeTM, de modo que puede ser reconocido y reproducido por el software existente. 5

En el bloque 90 se decodifican las tramas LDR codificadas con MPEG. Con el fin de minimizar el cálculo, la decodificación del bloque 90 puede ser realizada por el codificador MPEG utilizado en el bloque 88. Los codificadores MPEG típicamente decodifican las tramas internamente para su utilización en los vectores de estimación de movimiento. El bloque 90 puede comprender el acceso a las tramas decodificadas generadas por el codificador MPEG. Alternativamente, el bloque 90 se puede implementar de forma independiente del bloque 88. 10

La salida del bloque 90 será, en general, diferente de la entrada del bloque 88 debido a que MPEG es un método de compresión con pérdidas. Las tramas LDR que se codifican con MPEG y a continuación se decodifican no son exactamente iguales a las tramas LDR originales sino que contienen efectos no deseados de la compresión.

En los bloques 92A y 92B, si es necesario, se transforman los espacios de color de una o ambas tramas LDR 76 y tramas HDR 74 con el fin de proporcionar tramas LDR y tramas HDR que estén representadas en espacios de color 15 mutuamente compatibles. El tipo de transformaciones realizadas en los bloques 92A y 92B, si se realizan, depende de los espacios de color de las tramas LDR 76 y las tramas HDR 74. En algunos casos no son necesarios los bloques 92A y 92B. En otros casos únicamente es necesario el bloque 92A o el 92B.

Los espacios de color de HDR y LDR son compatibles cuando los canales de color de ambos espacios de color LDR y HDR representan aproximadamente la misma información. También es deseable que los espacios de color de 20 HDR y LDR sean perceptivamente uniformes. La uniformidad perceptiva facilita la estimación de las diferencias de color de acuerdo con diferencias perceptibles en lugar de aritméticas. También es deseable que el espacio de color HDR preserve una amplia gama de colores, idealmente la gama completa de colores visibles, incluso aunque la gama completa de colores visibles no se pueda mostrar en las pantallas existentes.

Los inventores consideran que un buen espacio de color para su utilización en la representación de datos de 25 imágenes HDR es una combinación de las Escalas de Cromaticidad Uniforme CIE de 1976 (u0, v0) con la corrección gamma del espacio de color sRGB. También se podrían utilizar otros espacios de color. En un ejemplo, las tramas LDR 76 de entrada se representan en el espacio de color sRGB mientras que las tramas HDR 74 de entrada se representan en el espacio de color CIE XYX (observador estándar 2E). En este caso, el bloque 92A comprende la conversión de píxeles LDR del espacio de color sRGB al espacio lldruldrvldr. Esto se puede realizar calculando las 30 coordenadas de color CIE XYZ y a continuación calcular la luma y las coordenadas de color u’ y v’ a partir de los valores XYZ. Los valores XYZ se pueden determinar utilizando las fórmulas de conversión del sRGB proporcionadas en el documento IEC 61966-2-1:1999. Multimedia systems and equipment – Colour measurement and management – Part 2-1: Colour management – Default RGB colour space - sRGB (Sistemas y equipo multimedia – Medición y gestión del color – Parte 2-1: gestión del color – espacio de color RGB por defecto - sRGB). Comisión Electrotécnica 35 Internacional, 1999. Por ejemplo, para R8-bit la coordenada de color de 8 bits es:

(1)

(2)

Las coordenadas de color G8-bit y B8-bit se pueden convertir igualmente a valores de coma flotante y, a continuación, X, Y y Z se pueden determinar a partir de:

(3)

La matriz de ejemplo en la Ecuación (3) supone el píxel blanco D65. Se puede calcular la luma para cada uno de los píxeles LDR utilizando los valores de color corregidos apropiados. Por ejemplo, la luma se puede calcular mediante: 40

(4): lldr=0,2126xR8-bit+0,7152xG8-bit+0,0722xB8-bit

donde: lldr es el valor de luma para un píxel LDR. La luma es la suma ponderada de los componentes no lineales R’ G’ B’ después de haber aplicado la corrección gamma.

Las cromaticidades u’ y v’ se pueden obtener a partir de:

(5)

y

(6)

A continuación se pueden obtener los números uldr y vldr de 8 bits multiplicando cada uno de los u’ y v’ por un factor de escala apropiado como, por ejemplo

(7): uldr = u’x410

y

(8): vldr = v’x410

En el espacio de color transformado, cada uno de los píxeles de los datos LDR se representa mediante los valores 5 de píxel lldr, vldr, uldr.

El bloque 92B puede transformar los valores de color de las tramas HDR 74 sustancialmente de la misma forma que se ha descrito más arriba para los valores de los píxeles LDR. La corrección gamma normal no se puede utilizar normalmente para el rango de valores de luminancia que se pueden especificar en una trama HDR. Por lo tanto, algunos modos de realización utilizan una representación de luminancia perceptivamente uniforme que se ha 10 obtenido a partir de las medidas de detección de contraste para los observadores humanos. Este espacio tiene propiedades parecidas a un espacio en el que se realiza la corrección gamma a los valores de los píxeles LDR pero se puede codificar todo el rango visible de luminancia (utilizando, por ejemplo, 11-12 bits).

En un ejemplo de modo de realización, la luminancia HDR, y, se transforma en la luma HDR de 12 bits, lldr, mediante la fórmula: 15

(9)

donde las constantes se listan en la Tabla 1 más abajo. La transformación inversa se obtiene mediante:

(10)

donde las distintas constantes utilizadas en las Ecuaciones (9) y (10) se listan en la Tabla 1 más abajo.

TABLA I – Constantes de Ejemplo para las Ecuaciones (9) y 10)

a: b c d e f

17,554: 826,81 0,10013 -884,17 209,16 -731,28

yl: yh

5,6046: 10469

a': b' c' d' e' f'

0,056968: 7,3014e-30 9,9872 884,17 32994 0,00478

ll: lh

98,381: 1204,7

El bloque 94 genera una función de predicción para los datos de la imagen HDR. La función de predicción intenta predecir un valor de píxel para un píxel en los datos de la imagen HDR basándose en un valor de píxel correspondiente para el píxel correspondiente de los datos de la imagen LDR. Idealmente la función de predicción se selecciona para minimizar el número de píxeles en los datos de la imagen HDR que tienen valores que difieren significativamente de los valores predichos por la función de predicción. La función de predicción es preferiblemente 5 no lineal en el dominio logarítmico.

En los casos en los que los valores de píxel que representan la cromaticidad en los datos HDR sean prácticamente iguales que los valores de píxel correspondientes en los datos de la imagen LDR, no es necesario calcular una función de predicción para los valores de píxel de cromaticidad (por ejemplo u’ y v’). En dichos casos, únicamente es necesario proporcionar una función de predicción para los valores de brillo (por ejemplo luma, luminancia o 10 similares).

Como las tramas LDR 76 y las tramas HDR 74 contienen una información parecida, estas tramas se encuentran fuertemente correlacionadas. Cuando se obtienen las tramas LDR 76 mediante la aplicación de un algoritmo de mapeo de tonos a las tramas HDR 74, la naturaleza concreta de la correlación depende del algoritmo de mapeo de tonos que se haya utilizado. 15

Las Figuras 4A a 4F muestran cómo están relacionados los valores de luma de una trama LDR con los valores de luma de la trama HDR correspondiente. Cada una de estas Figuras se aplica a una función de mapeo de tonos diferente para obtener una imagen LDR a partir de una imagen HDR de ejemplo. Estas funciones de mapeo de tonos proporcionan, en general, una relación lineal entre lldr y lhdr para valores pequeños. Existe una mayor variación entre las funciones de mapeo de tonos para valores de luminancia mayores. En cada una de las Figuras 4A a 4D, 20 los valores de luma LDR se representan sobre el eje horizontal y los valores de luma HDR se representan sobre el eje vertical. Los puntos marcados con una X indican los valores de píxel de los píxeles correspondientes en las imágenes LDR y HDR.

Las Figuras 4A a 4F se corresponden respectivamente con las funciones de mapeo de tonos divulgadas en:

 S. Pattanaik, J. E. Tumblin, H. Yee y D. P. Greenberg. Time dependent visual adaptation for realistic image 25 display (Adaptación visual en función del tiempo para mostrar imágenes realistas). En las Actas de SIGGRAPH 2000 de la ACM, Computer Graphics Proceedings (Actas de Gráficos por Ordenador), Series de Conferencias Anuales, páginas 47-54, julio de 2000.

 Erik Reinhard, Michael Stark, Peter Shirley y Jim Ferwerda. Photographic tone reproduction for digital images (Reproducción de tonos fotográficos para imágenes digitales). Publicaciones de ACM sobre Gráficos, 21(3):267-30 266, 2002.

 Frédo Durand y Julie Dorsey. Fast bilateral filtering for the display of high-dynamic-range images (Filtrado bilateral rápido para la visualización de imágenes de alto rango dinámico). Publicaciones de ACM sobre Gráficos, 21(3):257-266, 2002.

 Raanan Fattal, Dani Lischinski y Michael Werman. Gradient domain high dynamic range compression 35 (Compresión de alto rango dinámico en el dominio de gradiente). Publicaciones de ACM sobre Gráficos, 21(3):249-256, 2002.

 Frédéric Drago, Karol Myszkowski, Thomas Annen y Norishige Chiba. Adaptative logarithmic mapping for displaying high contrast scenes (Mapeo adaptativo logarítmico para mostrar escenas de alto contraste). Foro de Gráficos por Ordenador, publicaciones de Eurographics 2003, 22(3):419-426, 2003. 40

 Rafal Mantiuk, Karol Myszkowski y Hans-Peter Seidel. A perceptual framework for contrast processing of high dynamic range images (Un marco perceptivo para el procesamiento del contraste de imágenes de alto rango dinámico). En APGV ’05: Publicaciones del 2º Simposio sobre Percepción Aplicada en Gráficos y Visualización, páginas 87-94, Nueva York, NY, EEUU, 2005. ACM Press.

La función de predicción se puede generar tal como se ha descrito más arriba. En los casos en los que la función de 45 predicción se define como la media aritmética de los valores de todos los píxeles HDR que se encuentran en un determinado contenedor, la predicción se puede realizar mediante:

(11)

donde i= {i=1…N* lldr(i)=l}, l=0…255;

N es el número de píxeles en una trama y lldr(i) y lhdr(I) son los valores de luma para el píxel i-ésimo de las tramas

LDR y HDR, respectivamente. La función de predicción se actualiza preferiblemente para cada una de las tramas.

En las Figuras 4A a 4F, las funciones de predicción se muestran como líneas sólidas. Las funciones de predicción dependerán del contenido de la imagen así como de la función de mapeo de tonos utilizada. Las Figuras 4A a 4F muestran unas funciones de predicción para imágenes HDR típicas. Las Figuras 4A a 4F muestran que las funciones de predicción típicas tienden a cambiar de forma lenta con una pendiente que aumenta sobre partes 5 significativas de su rango. Por lo tanto, en algunos modos de realización, en lugar de codificar los valores de la función de predicción para cada uno de los contenedores, se codifican las diferencias de los valores de la función de predicción para dos contenedores consecutivos. Estas diferencias se pueden comprimir con el fin de reducir aún más el número de bits, por ejemplo, utilizando un algoritmo de Huffman adaptativo tal como se indica en el bloque 95. En algunos modos de realización el tamaño del flujo de datos auxiliar 84 es el 1% o menos del total del tamaño 10 del flujo. De este modo, la sobrecarga de almacenamiento de una función de predicción puede ser prácticamente insignificante. Las funciones de predicción o partes de las funciones de predicción también se pueden representar de otras formas, por ejemplo, como curvas polinómicas parametrizadas, curvas spline (polinómicas suavizadas básicas), u otras funciones parametrizadas.

En el bloque 96 se calculan las tramas residuales. Cada uno de los valores de píxel en la trama residual representan 15 la diferencia entre el valor de píxel para el píxel correspondiente de la trama HDR y el valor de píxel para el píxel predicho mediante la aplicación de la función de predicción al valor de píxel del píxel correspondiente de la trama LDR. El bloque 96 se puede ejecutar de forma independiente para cada uno de los valores de píxel (l, u y v en este ejemplo). Para los valores de luminancia, cada uno de los píxeles rl(i) de la trama residual se puede calcular mediante 20

(12): rl(i)= lhdr(i)-RF(lldr(i))

para los valores cromáticos, la función de predicción puede ser una función identidad, en cuyo caso:

(13): ru(i)= uhdr(i)-uldr(i)

y

(14): rv(i)= vhdr(i)-vldr(i)

Una función de predicción seleccionada de forma apropiada puede reducir significativamente la cantidad de datos que codifican las tramas HDR. Con independencia de este ahorro, las tramas residuales pueden seguir conteniendo una cantidad significativa de ruido que no mejora de forma visible la calidad de las imágenes HDR reconstruidas. La 25 relación de compresión se puede mejorar sin provocar una reducción apreciable en la calidad de la imagen mediante el filtrado de las tramas residuales con el fin de reducir o eliminar este ruido. El bloque 98 filtra las tramas residuales. La señal en las tramas residuales a menudo se encuentra relativamente próxima al umbral de visibilidad. Por lo tanto, el filtrado puede dar lugar a una reducción de datos significativa sin una degradación significativa de la calidad de las imágenes HDR reconstruidas a partir de los datos. 30

Una salida del bloque 98 es una trama residual en la que se han atenuado las altas frecuencias en aquellas regiones en las que no son visibles. La Figura 5 muestra un método 110 que se puede aplicar para filtrar las tramas residuales. El método 110 se puede poner en práctica en el contexto de un método de codificación de acuerdo con la invención pero también se puede aplicar en otros contextos en los que se desea reducir la cantidad de datos que representan una imagen sin introducir en la misma efectos visibles no deseados. 35

La descripción realizada a continuación describe el procesamiento que se realiza sobre un canal de luma. También se puede aplicar el mismo procesamiento a los canales de croma. Con el fin de reducir el procesamiento, los canales de croma se pueden submuestrear, por ejemplo, a la mitad de su resolución original. Esta reducción explica aproximadamente las diferencias en la CSF de luminancia y crominancia.

El método 110 recibe una trama residual 112 y una trama HDR 114 que enmascara la trama residual. En los bloques 40 116 y 118 se aplica una Transformada Wavelet (de Ondículas) Discreta (DWT) para dividir la trama 114 de enmascaramiento y la trama residual 112 en varios canales selectivos de frecuencia y orientación. En lugar de la DWT se pueden utilizar otras transformadas apropiadas como, por ejemplo, la transformada de cortex descrita en A. B. Watson. The cortex transform: rapid computation of simulated neural images (La transformada de cortex: cálculo rápido de imágenes neuronales simuladas). Computer Vision Graphics and Image Processing (Gráficos de Visión 45 por Ordenador y Procesamiento de imágenes), 39:311-327, 1987. La transformada de cortex puede ser muy intensiva en cálculo por lo que únicamente resulta práctica si existen suficientes recursos de cálculo.

Un modo de realización de un prototipo se basa en la wavelet discreta CDF 9/7 (la cual también se utiliza para la compresión de imágenes con pérdidas de acuerdo con el estándar JPEG-2000). La base de wavelet ofrece una buena relación entre suavidad y eficiencia de cálculo. En el prototipo, únicamente se utilizan las tres escalas más 50 finas de la descomposición de wavelet ya que el filtrado de frecuencias espaciales menores en escalas más gruesas

podría provocar efectos no deseados perceptibles.

En el bloque 120 se aplica una función como, por ejemplo, una función de sensibilidad al contraste (CSF) para responder a la menor sensibilidad del sistema visual humano para las frecuencias espaciales altas. La aplicación de la CSF supone ponderar con un valor constante cada una de las bandas de los coeficientes de la wavelet. En la Tabla 2 se ofrecen ejemplos de factores de ponderación para una distancia de observación de 1700 píxeles. 5

TABLA 2 – coeficientes de CSF

Escala: LH HL HH

1: 0,275783 0,275783 0,090078

2: 0,837755 0,837755 0,701837

3: 0,999994 0,999994 0,999988

Los canales de visión humanos tienen una limitada sensibilidad de fase. Esto proporciona una oportunidad adicional para descartar información sin obtener una degradación perceptible de las imágenes reconstruidas. Una señal de enmascaramiento no afecta únicamente a las regiones en las que los valores de los coeficientes de wavelet son los mayores, sino que también afecta a las regiones vecinas. Una incertidumbre de fase también reduce el efecto de enmascaramiento en las fronteras, a diferencia de las texturas que muestran mayores cantidades de 10 enmascaramiento.

La incertidumbre de fase se puede modelar con la norma L0,2, que también se utiliza en la compresión de imágenes JPEG-2000. La norma L0,2 viene dada por:

(15)

y sus equivalentes matemáticos en donde l representa el entorno de un coeficiente (en la implementación del prototipo se utiliza una caja 13H13 como el entorno), LCSF es un coeficiente de wavelet que se ha ponderado 15 mediante la aplicación de un factor CSF y es el coeficiente de wavelet ponderado mediante CSF después de tener en cuenta la incertidumbre de fase.

El bloque 124 predice cómo cambia el contraste de umbral en presencia de la señal de enmascaramiento de la trama HDR 114 original. Con el fin de modelar el enmascaramiento del contraste, se puede utilizar una función de elevación de umbral. La función de elevación del umbral puede, por ejemplo, tener la forma: 20

(16)

En el modo de realización del prototipo, las constantes de la Ecuación (16) son a=0,093071, b=1,0299 y c=11,535.

Cada uno de los coeficientes ponderados por la CSF para la trama residual, RCSF, se compara con el valor de la elevación de umbral Te correspondiente calculado a partir de la trama HDR 114 original. Si RCSF es más pequeña que la elevación de umbral Te de la Ecuación (16), al coeficiente se le puede asignar el valor cero sin introducir cambios que sean perceptibles en la eventual imagen reconstruida. Esto se puede expresar mediante: 25

(17)

Por último, los coeficientes de wavelet filtrados, Rfilt se vuelven a transformar al dominio de la imagen. El método de filtrado previo presentado más arriba puede reducir de forma sustancial el tamaño del flujo residual. El filtrado es un equilibrio razonable entre eficiencia de cálculo y precisión del modelo visual. El filtrado tal como el que se ha descrito en la presente solicitud aumenta típicamente el tiempo de codificación en no más de aproximadamente el 80%. El filtrado durante la codificación no aumenta los tiempos de decodificación. 30

Volviendo a la Figura 3, el bloque 100 cuantifica las tramas residuales filtradas. Aunque las magnitudes de las diferencias codificadas en las tramas residuales son normalmente pequeñas, pueden tomar valores dentro del rango de !4095 a 4095 (para una codificación de luma HDR de 12 bits). Obviamente, dichos valores no se pueden codificar utilizando un codificador MPEG de 8 bits. Aunque el estándar de MPEG proporciona una extensión para codificar los valores de luma en 12 bits, dicha extensión se implementa con poca frecuencia, especialmente en hardware. 35

El bloque 100 de cuantificación permite reducir la magnitud de los valores residuales, preferiblemente de forma

suficiente para que dichos valores se puedan codificar utilizando un codificador MPEG estándar de 8 bits. Se pueden utilizar varios esquemas de cuantificación. Por ejemplo, algunos modos de realización aplican una cuantificación no lineal, en la que se cuantifican fuertemente los valores absolutos grandes del residuo, mientras que los valores pequeños se mantienen con la máxima precisión. Como existen muy pocos píxeles que contengan un residuo con una magnitud grande, la mayoría de los píxeles no se ven afectados por la fuerte cuantificación. 5

Una fuerte cuantificación puede provocar que algunas imágenes tengan una calidad visual pobre. Esto se debe a que incluso aunque sean pocos los píxeles que tienen errores de cuantificación grandes, estos pueden sobresalir de modo que disminuya la calidad de la imagen percibida.

Una simple acotación de los valores residuales (por ejemplo a un rango de 8 bits) puede producir resultados visualmente mejores con el coste de perder detalles en regiones muy brillantes u oscuras. Además, en imágenes 10 típicas, con funciones de predicción elegidas de forma apropiada, únicamente unos pocos píxeles tienen valores residuales que exceden un rango de 8 bits.

En algunos modos de realización, con el fin de reducir la limitación al coste de una cuantificación más fuerte, los valores residuales se dividen por un factor de cuantificación constante. El factor se puede elegir basándose en un equilibrio entre errores debidos a la acotación y errores debidos a la cuantificación. Dichos factores de cuantificación 15 se pueden establecer de forma separada para cada uno de los contenedores, en función de la magnitud máxima del residuo de todos los píxeles que pertenecen a dicho contenedor. Por lo tanto, los valores residuales después de la cuantificación se pueden calcular mediante:

(18)

donde:

 El operador [·]-127+127 redondea el valor dentro de los corchetes al número entero más cercano y a continuación 20 acota el valor si es mayor que 127 o menor que -127;

 q(l) es un factor de cuantificación que se selecciona por separado para cada uno de los contenedores k.

El factor de cuantificación viene dado por

(19)

donde qmin es un factor de cuantificación mínimo que puede ser, por ejemplo, 1 ó 2.

Los factores de cuantificación q(l) se pueden almacenar junto con la función de predicción en el flujo de datos 25 auxiliar 84. Estos datos se pueden comprimir en primer lugar como en el bloque 95. En la mayoría de los casos, la mayoría de los factores de cuantificación q(l) tendrán el valor qmin. De este modo, la codificación por longitud de serie seguida de la codificación Huffman es un modo efectivo de comprimir los datos que representan los factores de cuantificación.

En el bloque 102 se codifican los valores residuales. Cuando los valores residuales son valores de 8 bits se pueden 30 codificar utilizando una compresión MPEG normal (por ejemplo una compresión MPEG-4). En un modo de realización del prototipo, los valores residuales cuantificados, , y los valores residuales de croma ru y rv se codifican con MPEG después de redondearlos al valor entero más próximo. Téngase en cuenta que las operaciones aplicadas con el fin de obtener los valores residuales son aproximadamente lineales en los casos en los que la función de predicción es casi lineal y el efecto de la cuantificación adaptativa de la Ecuación (18) es mínima. En 35 dichos casos, la información visual de una trama residual se encuentra en las mismas bandas de frecuencia que la trama HDR original, y la cuantificación DCT del residuo tiene un efecto parecido que para los valores de los píxeles HDR originales. Por lo tanto, se puede utilizar una matriz de cuantificación DCT estándar para codificar las tramas residuales.

Como la codificación MPEG en los bloques 88 y 102 es independiente, es posible configurar por separado los 40 parámetros de calidad MPEG para cada uno de los bloques 88 y 102. En la mayoría de las aplicaciones, no es ni intuitivo ni apropiado configurar dos conjuntos de parámetros de calidad MPEG. En los modos de realización preferidos, un único control de calidad configura los parámetros de calidad para ambos bloques 88 y 102. Se ha encontrado que, en general, el configurar que los parámetros de calidad en los bloques 88 y 102 sean iguales entre sí proporciona resultados satisfactorios. 45

Algunas configuraciones de calidad para los bloques 88 y 102 proporcionan mejores resultados de compresión que

otras. Con el fin de conseguir las imágenes HDR de la mejor calidad, el bloque 102 debería comprender una codificación que utilizara la mejor calidad. Las configuraciones de calidad en el bloque 88 afectan principalmente a la calidad de las imágenes LDR reconstruidas a partir del flujo 80 pero también pueden tener algún impacto en las imágenes HDR.

Algunos modos de realización de la invención utilizan el hecho de que ambas tramas LDR y HDR contienen las 5 mismas escenas. De este modo el flujo óptico debería ser el mismo para ambas. En dichos modos de realización, para las tramas residuales se utilizan los mismos vectores de movimiento que se han calculado para las tramas LDR. La estructura de datos 38 puede incluir únicamente un conjunto de vectores de movimiento. En modos de realización alternativos de la invención, los vectores de movimiento se calculan por separado para las tramas LDR y residual y ambos conjuntos de vectores de movimiento se almacenan en los datos 38 de la imagen codificada. 10

El software para poner en práctica los métodos de acuerdo con la invención se puede implementar de varias formas. En un modo de realización del prototipo, el software se implementa como una librería dinámica con el fin de simplificar la integración con software externo. Un conjunto independiente de herramientas de la línea de comandos permite la codificación y decodificación de flujos de vídeo desde y hasta archivos de imágenes HDR.

Como la reproducción de vídeo HDR supone la decodificación de dos flujos MPEG 80 y 82, constituye un reto mayor 15 conseguir una tasa de tramas aceptable que en el caso de la reproducción de vídeo LDR normal. La tasa de tramas de reproducción se puede aumentar ejecutando algunas partes del proceso de decodificación utilizando hardware para gráficos. Por ejemplos, tanto la conversión del espacio de color como el sobremuestreo de canales de color puede ser costoso en capacidad de cálculo cuando se ejecuta en una CPU y sin embargo se puede ejecutar de forma extremadamente eficiente en un procesador gráfico (GPU) como módulos de programa. Además, algunas 20 funciones de conversión del color se pueden acelerar de forma significativa con la utilización de aritmética en coma fija y tablas de búsqueda.

La Figura 6 ilustra el rendimiento del modo de realización del prototipo como una función de la configuración de la calidad. Los puntos inferiores se corresponden con el flujo LDR 80 mientras que los puntos superiores se corresponden con la suma el flujo LDR 80 y el flujo residual 82. Se puede observar que para los valores inferiores 25 del parámetro de calidad qscale (esto es para imágenes de mayor calidad) el porcentaje del flujo de datos global compuesto por el flujo residual 82 es menor que para los valores más altos del parámetro de calidad (correspondientes a las imágenes LDR de menor calidad).

Los codec tal como se han descrito en la presente solicitud se pueden utilizar para codificar y decodificar tanto imágenes individuales como secuencias de vídeo. Dichos codec se pueden utilizar para codificar y decodificar 30 películas para ser almacenadas en medios como DVD u otros medios de almacenamiento que puedan ser comunes en el futuro para el almacenamiento de películas.

Algunos aspectos de la invención proporcionan reproductores de medios que incluyen una salida para imágenes HDR a los que se conecta o se puede conectar un dispositivo de visualización HDR. Los reproductores de medios incluyen hardware, software o una combinación de hardware y software que implementan los métodos de 35 decodificación como los que, por ejemplo, se muestran en la Figura 2.

Algunas implementaciones de la invención comprenden procesadores de ordenador que ejecutan instrucciones de software que provocan que los procesadores pongan en práctica un método de la invención. Por ejemplo, uno o más procesadores en un sistema de procesamiento de datos pueden implementar los métodos de codificación de las Figuras 1 ó 3 o el método de decodificación de la Figura 2 mediante la ejecución de instrucciones de software 40 almacenadas en una memoria accesible a los procesadores. La invención también se puede proporcionar en forma de un producto en forma de programa. El producto en forma de programa puede comprender cualquier medio que incluya un conjunto de señales legibles por un ordenador que comprenda instrucciones, las cuales, cuando sean ejecutadas por un procesador de datos, den lugar a que el procesador de datos ejecute un método de la invención. Los productos en forma de programa de acuerdo con la invención pueden ser de cualquiera de una amplia variedad 45 de formas. El producto en forma de programa puede comprender, por ejemplo, un medio físico como, por ejemplo, un medio de almacenamiento de datos magnético incluyendo discos flexibles, discos duros, medios ópticos de almacenamiento de datos incluyendo CD ROM, DVD, medios electrónicos de almacenamiento de datos incluyendo ROM, flash, RAM, o similares. Las señales legibles por un ordenador del producto en forma de programa se pueden encontrar, alternativamente, comprimidas o cifradas. 50

A menos que se indique lo contrario, cuando más arriba se menciona un componente (por ejemplo un módulo software, un procesador, un montaje, un dispositivo, un circuito, etc.), la referencia a dicho componente (incluyendo una referencia a “medios”) se debe interpretar que incluye como equivalentes de dicho componente a cualquier componente que lleve a cabo la función del componente descrito (esto es, que es equivalente funcionalmente), incluyendo los componentes que no sean estructuralmente equivalentes a la estructura divulgada que lleve a cabo la 55 función en los ejemplos de modos de realización ilustrados en la invención.

Modos de realización adicionales de la invención:

1. Un método para codificar una imagen de alto rango dinámico, comprendiendo el método:

obtener una imagen de un rango dinámico menor que se corresponde con la imagen de alto rango dinámico; 5

identificar grupos de píxeles en la imagen de alto rango dinámico para los que todos los píxeles correspondientes en la imagen de menor rango dinámico tienen el mismo valor de píxel;

generar una función de predicción basada al menos parcialmente en valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de una pluralidad de los grupos;

aplicar la función de predicción a la imagen de menor rango dinámico con el fin de obtener una imagen 10 prevista;

calcular una imagen residual que represente las diferencias entre los valores de los píxeles en la imagen prevista y los valores de los píxeles correspondientes en la imagen de alto rango dinámico; y,

codificar y almacenar los datos que representan la imagen de menor rango dinámico, la función de predicción y la imagen residual. 15

2. Un método en el que la obtención de la imagen de menor rango dinámico comprende codificar la imagen de menor rango dinámico y decodificar la imagen de menor rango dinámico.

3. Un método que comprende transformar la imagen de alto rango dinámico, la imagen de menor rango dinámico o tanto la imagen de alto rango dinámico como la imagen de menor rango dinámico entre espacios de color antes de establecer la función de predicción. 20

4. Un método en el que inmediatamente antes de generar la función de predicción, tanto la imagen de menor rango dinámico como la imagen de alto rango dinámico se expresan en espacios de color que incluyen un valor de luma o luminancia de los píxeles y dos o más valores de cromaticidad de los píxeles.

5. Un método en el que la imagen de menor rango dinámico está representada en un espacio de color que comprende un valor de intensidad de los píxeles y dos o más valores de croma de los píxeles. 25

6. Un método en el que la función de predicción es no lineal en el dominio logarítmico.

7. Un método en el que la generación de la función de predicción comprende calcular una media aritmética de los valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de la pluralidad de los grupos.

8. Un método en el que la generación de la función de predicción comprende calcular una media de los valores 30 de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de la pluralidad de los grupos.

9. Un método que genera la función de predicción que comprende calcular un promedio de los valores de píxel más altos y más bajos de los valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de la pluralidad de los grupos. 35

10. Un método en el que la generación de la función de predicción comprende uno o más de los siguientes:

calcular una media aritmética de los valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de la pluralidad de los grupos;

calcular una mediana de los valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de la pluralidad de los grupos; 40

calcular un promedio de los valores de los píxeles más alto y más bajo de los valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de la pluralidad de los grupos;

calcular un centroide de un subconjunto de los valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de la pluralidad de los grupos; y,

combinaciones de los mismos. 45

11. Un método en el que la imagen de menor rango dinámico y la imagen de alto rango dinámico comprenden

cada una trama en una secuencia de vídeo.

12. Un método que comprende la generación de una nueva función de predicción para cada una de las tramas en la secuencia de vídeo.

13. Un método que comprende monitorizar una diferencia entre tramas sucesivas en la secuencia de vídeo y generar una nueva función de predicción cada vez que la diferencia indique que la trama actual es 5 significativamente distinta de una trama anterior.

14. Un método en el que los valores de los píxeles son valores de intensidad de los píxeles.

15. Un método en el que los valores de intensidad de los píxeles comprenden valores de luminancia, valores de luma o valores de radiancia.

16. Un método que comprende generar una función de predicción de croma para cada uno o más valores de 10 croma y para cada uno de los uno o más valores de croma:

aplicar la función de predicción de croma correspondiente a los valores de croma correspondientes para los píxeles en la imagen de menor rango dinámico con el fin de obtener una imagen prevista;

calcular una imagen de croma residual que represente las diferencias entre los valores de croma para los píxeles en las imágenes previstas y de alto rango dinámico; y, 15

codificar y almacenar los datos que representan las funciones de predicción de croma y las imágenes residuales de croma.

17. Un método que comprende submuestrear la imagen residual antes de almacenar los datos que representan la imagen residual.

18. Un método que comprende filtrar la imagen residual con el fin de eliminar el ruido antes de almacenar los 20 datos que representan la imagen residual.

19. Un método en el que el filtrado de la imagen residual comprende:

aplicar una transformada wavelet discreta a la imagen residual y a la imagen de alto rango dinámico para obtener una imagen residual transformada y una imagen de alto rango dinámico transformada;

establecer valores umbral para los coeficientes en la imagen residual transformada en función de los 25 valores de los coeficientes en la imagen de alto rango dinámico transformada; y,

asignar el valor cero a los coeficientes en la imagen residual transformada si los coeficientes tienen valores que no exceden los umbrales correspondientes.

20. Un método en el que el establecimiento de los valores umbral comprende aplicar una función de elevación de umbral a los coeficientes en la imagen de alto rango dinámico transformada. 30

21. Un método en el que la función de elevación de umbral comprende elevar los coeficientes a una potencia constante predeterminada.

22. Un método en el que la función de elevación de umbral comprende multiplicar los coeficientes por un número constante predeterminado.

23. Un método de acuerdo con una cualquiera de las reivindicaciones 20 a 22 en la que la función de elevación 35 viene dada por:

o un equivalente matemático de la misma.

24. Un método que comprende aplicar una función de sensibilidad al contraste predeterminada que pondere los factores de los coeficientes de la imagen de alto rango dinámico transformada antes de aplicar a los 40 coeficientes la función de elevación de umbral.

25. Un método que comprende aplicar una función de incertidumbre de fase a los coeficientes de la imagen de alto rango dinámico transformada antes de aplicar a los coeficientes la función de elevación de umbral.

26. Un método en el que la función de incertidumbre de fase viene dada por:

o un equivalente matemático de la misma, donde l representa el entorno de un coeficiente, LCSF es un coeficiente de wavelet y es el coeficiente de wavelet después de aplicar la función de incertidumbre de fase.

27. Un equipo para codificar una imagen de alto rango dinámico, comprendiendo el equipo un procesador de 5 datos que ejecuta instrucciones que hacen que el procesador de datos:

obtenga una imagen de un menor rango dinámico que el correspondiente a la imagen de alto rango dinámico;

identifique grupos de píxeles en la imagen de alto rango dinámico para los que todos los píxeles correspondientes en la imagen de menor rango dinámico tienen el mismo valor de píxel; 10

genere una función de predicción basada al menos parcialmente en valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de una pluralidad de los grupos;

aplique la función de predicción a la imagen de menor rango dinámico con el fin de obtener una imagen prevista;

calcule una imagen residual que represente las diferencias entre valores de los píxeles en la imagen 15 prevista y valores de los píxeles correspondientes en la imagen de alto rango dinámico; y,

codifique y almacene los datos que representan la imagen de menor rango dinámico, la función de predicción y la imagen residual.

28. Un equipo para codificar una imagen de alto rango dinámico, comprendiendo el equipo:

unos medios para obtener una imagen de un menor rango dinámico correspondiente a la imagen de 20 alto rango dinámico;

unos medios para identificar grupos de píxeles en la imagen de alto rango dinámico para los que todos los píxeles correspondientes en la imagen de menor rango dinámico tienen el mismo valor de píxel;

unos medios para generar una función de predicción basada al menos parcialmente en valores de píxel de los píxeles en la imagen de alto rango dinámico que pertenecen a cada uno de una pluralidad de los 25 grupos;

unos medios para aplicar la función de predicción a la imagen de menor rango dinámico con el fin de obtener una imagen prevista;

unos medios para calcular una imagen residual que represente las diferencias entre valores de los píxeles en la imagen prevista y valores de los píxeles correspondientes en la imagen de alto rango dinámico; 30 y,

unos medios para codificar y almacenar los datos que representan la imagen de menor rango dinámico, la función de predicción y la imagen residual.

29. Un equipo para decodificar una imagen de alto rango dinámico, comprendiendo el equipo un procesador de datos que ejecute instrucciones que hagan que el procesador de datos: 35

recupere los datos que representan una imagen de menor rango dinámico correspondiente a la imagen de alto rango dinámico, una función de predicción y una imagen residual;

aplique la función de predicción a la imagen de menor rango dinámico con el fin de obtener una imagen de alto rango dinámico prevista; y,

combine la imagen residual con la imagen de alto rango dinámico prevista con el fin de obtener la 40 imagen de alto rango dinámico.

30. Un equipo para decodificar una imagen de alto rango dinámico, comprendiendo el equipo:

medios para recuperar los datos que representan una imagen de menor rango dinámico correspondiente a la imagen de alto rango dinámico, una función de predicción y una imagen residual;

medios para aplicar la función de predicción a la imagen de menor rango dinámico con el fin de obtener una imagen de alto rango dinámico prevista; y,

medios para combinar la imagen residual con la imagen de alto rango dinámico prevista con el fin de obtener la imagen de alto rango dinámico.

5

Claims

REIVINDICACIONES

1. Un método para codificar una imagen de alto rango dinámico (12), comprendiendo el método los pasos de:

- obtener una imagen de menor rango dinámico (14) correspondiente a la imagen de alto rango dinámico (12), pudiéndose obtener la imagen de menor rango dinámico (14) a partir de la imagen de alto rango dinámico (12) 5 mediante un proceso de reducción del rango dinámico y que contiene la misma escena que la imagen de alto rango dinámico (12);

- generar una función de predicción (19) para predecir una imagen de alto rango dinámico (12) a partir de la imagen de menor rango dinámico (14), en donde la generación de la función de predicción supone:

para cada valor de píxel representado en la imagen de menor rango dinámico, identificar el conjunto de estos 10 píxeles en la imagen de menor rango dinámico (14) que tienen dicho valor de píxel; y

para cada uno de estos conjuntos, identificar los píxeles en la imagen de alto rango dinámico (12) que se corresponden con los píxeles en el conjunto respectivo, identificando, de ese modo, los valores de píxel en la imagen de alto rango dinámico (12) que se corresponden con cada valor de píxel representado en la imagen de menor rango dinámico (14), y 15

en donde la función de predicción (19) se basa, al menos en parte, en los valores de píxel de los píxeles en la imagen de alto rango dinámico (12), para los cuales los píxeles correspondientes en la imagen de menor rango dinámico (14) tienen todos el mismo valor de píxel, y utiliza las relaciones estadísticas entre los valores de píxel de los píxeles en la imagen de menor rango dinámico y los valores de píxel correspondientes en la imagen de alto rango dinámico (12), determinando, de ese modo, para cada conjunto un valor de píxel previsto en la imagen de alto 20 rango dinámico (12);

- aplicar la función de predicción (19) a la imagen de menor rango dinámico (14) para obtener una imagen de alto rango dinámico prevista (29);

- obtener una imagen residual (32) a partir de la imagen de alto rango dinámico prevista (29) y de la imagen de alto rango dinámico (12); y 25

- codificar y almacenar los datos que representan la imagen de menor rango dinámico (14), la función de predicción (19) y la imagen residual (32) en un flujo de video,

en donde la imagen de alto rango dinámico (12) y la imagen de menor rango dinámico (14), cada una, comprende una trama en una secuencia de video, y la función de predicción (19) se actualiza para cada trama en la secuencia de video. 30
2. Un método de acuerdo con cualquiera de la reivindicación 1, en donde generar la función de predicción (19) comprende uno o más de:

(a) generar una función que es no lineal en el dominio logarítmico;

(b) calcular una media aritmética de los valores de píxel de los píxeles en el alto rango dinámico (12) que pertenecen a cada uno de la pluralidad de los grupos; 35

(c) calcular una mediana de los valores de píxel de los píxeles en la imagen de alto rango dinámico (12) que pertenecen a cada uno de la pluralidad de los grupos;

(d) calcular un promedio de los valores de píxel más alto y más bajo de los píxeles en la imagen de alto rango dinámico (12) que pertenecen a cada uno de la pluralidad de los grupos; y

(f) combinaciones de estos. 40
3. Un método de acuerdo con cualquiera de las reivindicaciones 1 a 2, en donde la función de predicción (19) comprende una relación de uno a muchos entre los píxeles de la imagen de menor rango dinámico (14), que tiene un mismo valor de píxel y píxeles correspondientes que la imagen prevista.
4. Un método de acuerdo con una cualquiera de las reivindicaciones 1 a 3 que comprende filtrar la imagen residual (32) con el fin de eliminar el ruido antes de almacenar los datos que representan la imagen residual (32). 45
5. Un método de acuerdo con la reivindicación 4 en el que el filtrado de la imagen residual (32) comprende:

aplicar una transformada wavelet (de ondículas) discreta a la imagen residual (32) y a la imagen de alto rango

dinámico (12) con el fin de obtener una imagen residual transformada y una imagen de alto rango dinámico transformada;

asignar el valor cero a los valores umbral para los coeficientes en la imagen residual transformada basados en valores de coeficientes en la imagen residual transformada si los coeficientes tienen valores que no exceden los umbrales correspondientes. 5
6. Un método de acuerdo con la reivindicación 5 en el que el establecimiento de los valores umbral comprende aplicar una función de evaluación de umbral a los coeficientes en la imagen de alto rango dinámico transformada.
7. Un método de acuerdo con la reivindicación 6 en el que la función de elevación de umbral comprende uno o más de los siguientes: 10

(a) elevar los coeficientes a una potencia constante predeterminada;

(b) multiplicar los coeficientes por un número constante predeterminado;

(c) una función dada por

o un equivalente matemático de los mismos. 15
8. Un método de acuerdo con una cualquiera de las reivindicaciones 6 a 7 que comprende aplicar factores de ponderación de una función de sensibilidad al contraste predeterminada a los coeficientes de la imagen de alto rango dinámico transformada antes de aplicar la función de elevación de umbral a los coeficientes.
9. Un método de acuerdo con una cualquiera de las reivindicaciones 6 a 8 que comprende aplicar una función de incertidumbre de fase a los coeficientes de la imagen de alto rango dinámico transformada antes de aplicar la 20 función de elevación de umbral a los coeficientes.
10. Un codificador de imágenes para codificar una imagen de alto rango dinámico (12), comprendiendo un procesador configurado para ejecutar instrucciones que hagan que el procesador:

- obtenga una imagen de menor rango dinámico (14) correspondiente a la imagen de alto rango dinámico (12), pudiéndose obtener la imagen de menor rango dinámico (14) a partir de la imagen de alto rango dinámico (12) 25 mediante un proceso de reducción del rango dinámico y que contiene la misma escena que la imagen de alto rango dinámico (12);

- genere una función de predicción (19) para predecir una imagen de alto rango dinámico (12) a partir de la imagen de menor rango dinámico (14), en donde la generación de la función de predicción (19) supone:

para cada valor de píxel representado en la imagen de menor rango dinámico, identificar el conjunto de estos 30 píxeles en la imagen de menor rango dinámico (14) que tienen dicho valor de píxel; y

para cada uno de estos conjuntos, identificar los píxeles en la imagen de alto rango dinámico (12) que se corresponden con los píxeles en el conjunto respectivo, identificando, de ese modo, los valores de píxel en la imagen de alto rango dinámico (12) que se corresponden con cada valor de píxel representado en la imagen de menor rango dinámico (14), y 35

en donde la función de predicción (19) se basa, al menos en parte, en los valores de píxel de los píxeles en la imagen de alto rango dinámico, para los cuales los píxeles correspondientes en la imagen de menor rango dinámico (14) tienen todos el mismo valor de píxel, y utiliza las relaciones estadísticas entre los valores de píxel de los píxeles en la imagen de menor rango dinámico y los valores de píxel correspondientes en la imagen de alto rango dinámico (12), determinando, de ese modo, para cada conjunto un valor de píxel previsto en la imagen de alto rango dinámico 40 (12);

- aplique la función de predicción (19) a la imagen de menor rango dinámico (14) con el fin de obtener una imagen de alto rango dinámico prevista (29);

- obtenga una imagen residual (32) a partir de la imagen de alto rango dinámico prevista (29) y la imagen de alto rango dinámico (12); y 45

- codifique y almacene los datos que representan la imagen de menor rango dinámico (14), la función de predicción (19) y la imagen residual (32) en un flujo de video,

en donde la imagen de alto rango dinámico (12) y la imagen de menor rango dinámico (14), cada una, comprende una trama en una secuencia de video, y la función de predicción (19) se actualiza para cada trama en la secuencia de video.
11. Un equipo para decodificar una imagen de alto rango dinámico, comprendiendo el equipo:

- medios para recuperar los datos que representan una imagen de menor rango dinámico (22) 5 correspondiente a la imagen de alto rango dinámico y a una imagen residual (35);

- medios para recuperar los datos que representan una función de predicción (37), siendo transmitidos los datos desde un codificador;

- medios para aplicar la función de predicción a la imagen de menor rango dinámico con el fin de obtener una imagen de alto rango dinámico prevista; y 10

- medios para combinar la imagen residual con la imagen de alto rango dinámico prevista con el fin de obtener la imagen de alto rango dinámico,

en donde la función de predicción se basa, al menos en parte, en los valores de píxel de los píxeles en la imagen de alto rango dinámico, para los cuales los píxeles correspondientes en la imagen de menor rango dinámico (22) tienen todos el mismo valor de píxel, y utiliza las relaciones estadísticas entre los valores de píxel de los píxeles 15 en la imagen de menor rango dinámico (22) y los valores de píxel correspondientes en la imagen de alto rango dinámico;

en donde para cada valor de píxel representado en la imagen de menor rango dinámico (22), los valores de píxel correspondientes en la imagen de alto rango dinámico son los valores de píxel de aquellos píxeles en la imagen de alto rango dinámico que se corresponden con los píxeles en un conjunto respectivo de píxeles en la 20 imagen de menor rango dinámico (22) en el que tienen todos el valor de píxel respectivo en la imagen de menor rango dinámico;

en donde la imagen de menor rango dinámico (22) se puede obtener a partir de la imagen de alto rango dinámico mediante un proceso de reducción del rango dinámico y contiene la misma escena que la imagen de alto rango dinámico; y 25

en donde la imagen de alto rango dinámico (12) y la imagen de menor rango dinámico (14), cada una, comprende una trama en una secuencia de video, y la función de predicción (19) se actualiza para cada trama en la secuencia de video.
12. Un método para decodificar una imagen de alto rango dinámico en un decodificador, comprendiendo el método: 30

- recuperar los datos que representan una imagen de menor rango dinámico (22) correspondiente a la imagen de alto rango dinámico y una imagen residual (35);

- recuperar los datos que representan una función de predicción (37), donde los datos se transmiten desde un codificador;

- aplicar la función de predicción a la imagen de menor rango dinámico con el fin de obtener una imagen de 35 alto rango dinámico prevista; y

- combinar la imagen residual con la imagen de alto rango dinámico prevista con el fin de obtener la imagen de alto rango dinámico,

en donde la función de predicción se basa, al menos en parte, en los valores de píxel de los píxeles en la imagen de alto rango dinámico, para los cuales los píxeles correspondientes en la imagen de menor rango dinámico 40 (22) tienen todos el mismo valor de píxel, y utiliza las relaciones estadísticas entre los valores de píxel de los píxeles en la imagen de menor rango dinámico (22) y los valores de píxel correspondientes en la imagen de alto rango dinámico;

en donde para cada valor de píxel representado en la imagen de menor rango dinámico (22), los valores de píxel correspondientes en la imagen de alto rango dinámico son los valores de píxel de aquellos píxeles en la 45 imagen de alto rango dinámico que se corresponden con los píxeles en un conjunto respectivo de píxeles en la imagen de menor rango dinámico (22) en el que tienen todos el valor de píxel respectivo en la imagen de menor rango dinámico;

en donde la imagen de menor rango dinámico (22) se puede obtener a partir de la imagen de alto rango dinámico mediante un proceso de reducción del rango dinámico y contiene la misma escena que la imagen de alto 50

rango dinámico; y

- en donde la imagen de alto rango dinámico (12) y la imagen de menor rango dinámico (14), cada una, comprende una trama en una secuencia de video, y la función de predicción (19) se actualiza para cada trama en la secuencia de video.