ES2670504T3

ES2670504T3 - Predictor de canal de color cruzado por tramos

Info

Publication number: ES2670504T3
Application number: ES13703222.3T
Authority: ES
Inventors: Guan-Ming Su; Sheng Qu; Peng Yin
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-01-24
Filing date: 2013-01-23
Publication date: 2018-05-30
Anticipated expiration: 2033-01-23
Also published as: WO2013112532A3; EP2945377B1; PL2807823T3; PL2945377T3; WO2013112532A2; EP2807823B1; EP2807823A2; HK1204741A1; EP2945377A1; HK1214049A1

Abstract

Un procedimiento, que comprende: acceder a una primera imagen y una segunda imagen que representan la misma escena, comprendiendo cada una de las imágenes uno o varios canales de color, comprendiendo cada una de las imágenes una serie de píxeles, teniendo cada píxel un respectivo valor de píxel para cada uno de dichos uno o varios canales de color, en el que la segunda imagen tiene un rango dinámico que es mayor que el rango dinámico de la primera imagen; segmentar por lo menos un canal de color de la primera imagen en dos o más segmentos de canal de color sin solapamiento, utilizando un conjunto de puntos límite, en el que cada segmento de canal de color corresponde a dos puntos límite consecutivos, y en el que los valores de píxel del canal de color que están entre dos puntos límite consecutivos son asignados al correspondiente segmento de canal de color; y para un segmento de canal de color de la primera imagen: definir un modelo de predicción de color cruzado de primer orden como mínimo, que expresa un valor de píxel predicho de un píxel de la segunda imagen en un canal de color como una combinación de por lo menos los valores de píxel respectivos para todos los canales de color del píxel dentro de la primera imagen que tiene las mismas coordenadas de píxel que el píxel de la segunda imagen, en el que el modelo de predicción de color cruzado comprende una matriz de parámetros de predicción que transforma un vector de entrada en un segmento de canal de salida, en el que el vector de entrada comprende, para cada píxel del segmento de canal de color de la primera imagen, un componente del vector de entrada de primer orden como mínimo, en el que los componentes del vector de entrada de primer orden comprenden productos de los respectivos valores de píxel para dos o más de los canales de color del píxel dentro de la primera imagen, y en el que el segmento de canal de salida comprende, para cada píxel del segmento de canal de color de la primera imagen, un valor de píxel predicho para un píxel de la segunda imagen en el canal de color que tiene las mismas coordenadas de píxel que el píxel de la primera imagen; calcular los parámetros de la matriz de parámetros de predicción minimizando el error cuadrático medio entre los valores de píxel predichos del segmento de canal de color de salida y los correspondientes valores de píxel de la segunda imagen; calcular el segmento de canal de color de salida transformando el vector de entrada con la matriz de parámetros de predicción; y entregar los parámetros de la matriz de parámetros de predicción para ser utilizados por un descodificador.

Description

5

10

15

20

25

30

35

40

45

50

55

DESCRIPCION

Predictor de canal de color cruzado por tramos REFERENCIA CRUZADA A SOLICITUDES RELACIONADAS

La presente invención puede estar relacionada asimismo con la solicitud provisional de EE.UU. número de serie 61/475 359, presentada el 14 de abril de 2011, titulada "Múltiple color channel múltiple regression predictor', que se presentó asimismo como solicitud PCT número de serie PCT/US2012/033605 el 13 de abril de 2012. Esta solicitud reivindica la prioridad de la solicitud de patente provisional de Estados Unidos número de serie 61/590 175, presentada el 24 de enero 2012.

TECNOLOGÍA

La presente invención se refiere, en general, a imágenes. Más particularmente, una realización de la presente invención se refiere a un predictor de canal de color cruzado por tramos, de imágenes de alto rango dinámico, utilizando imágenes de rango dinámico estándar.

ANTECEDENTES

Tal como se utiliza en la presente memoria, el término 'rango dinámico ' (DR, dynamic range) se puede referir a la capacidad del sistema psicovisual humano (HVS, human psychovisual system) para percibir un rango de intensidad (por ejemplo, luminancia, luma) en una imagen, por ejemplo, desde las oscuridades más oscuras hasta los brillos más brillantes. En este sentido, DR se refiere a una intensidad 'referida a la escena'. DR se puede referir asimismo a la capacidad de un dispositivo de visualización para representar adecuada o aproximadamente un rango de intensidad de una amplitud particular. En este sentido, DR se refiere a una intensidad 'referida a la pantalla'. Salvo que se especifique explícitamente un sentido particular para obtener un significado particular en algún punto de la descripción en la presente memoria, se deberá deducir que el término puede ser utilizado en ambos sentidos, por ejemplo, de forma intercambiable.

Tal como se utiliza en la presente memoria, el término alto rango dinámico (HDR, high dynamic range) se refiere a una amplitud de DR que abarca los aproximadamente 14-15 órdenes de magnitud del sistema visual humano (HVS, human visual system). Por ejemplo, los humanos bien adaptados con esencialmente normales (por ejemplo, en uno o varios de un sentido estadístico, biométrico u oftalmológico) tienen un rango de intensidad que abarca aproximadamente 15 órdenes de magnitud. Los humanos adaptados pueden percibir fuentes de luz tenue de tan sólo un puñado de fotones. Sin embargo, los mismos humanos pueden percibir la casi dolorosa intensidad brillante del sol del mediodía en el desierto, el mar o la nieve (o incluso mirar al sol, aunque brevemente para evitar daños). Pero este espectro está disponible para humanos 'adaptados', por ejemplo, aquellos cuyo HVS tiene un periodo de tiempo para restablecerse y ajustarse.

En cambio, el DR sobre el que un humano puede percibir simultáneamente una amplitud extensa en el rango de intensidad puede estar algo truncado en relación con el HDR. Tal como se utilizan en la presente memoria, los términos 'rango dinámico visual' o 'rango dinámico variable' (VDR, variable dynamic range) se pueden referir de manera individual o intercambiable al DR que es simultáneamente perceptible por un HVS. Tal como se utiliza en la presente memoria, un VDR se puede referir a un DR que abarca de 5 a 6 órdenes de magnitud. Por lo tanto, aunque quizás algo más estrecho con respecto a un verdadero HDR referido a una escena, el VDR representa sin embargo una amplitud DR extensa. Tal como se utiliza en la presente memoria, el término 'rango dinámico simultáneo' se puede referir a un VDR.

Hasta hace muy poco, las pantallas han tenido un DR significativamente más estrecho que el HDR o el VDR. Los aparatos de televisión (TV) y de monitores informáticos que utilizan habitualmente un tubo de rayos catódicos (CRT, cathode ray tube), una pantalla de cristal líquido (LCD, liquid crystal display) con iluminación fluorescente en blanco y negro, o tecnología de pantalla de plasma pueden estar limitados en su capacidad de representación de DR a aproximadamente tres órdenes de magnitud. Por lo tanto, dichas pantallas convencionales representan un bajo rango dinámico (LDR, low dynamic range), denominado asimismo un rango dinámico estándar (SDR, standard dynamic range), en relación con el VDR y el HDR.

Sin embargo, los avances en su tecnología subyacente permiten a los diseños de pantalla más modernos representar contenido de imagen y video con mejoras significativas en diversas características de calidad, sobre el mismo contenido representado en pantallas menos modernas. Por ejemplo, los dispositivos de pantalla modernos pueden ser capaces de representar contenido de alta definición (HD, high definition) y/o contenido que se puede graduar según diversas capacidades de visualización, tal como un elemento escalador de imágenes. Además, algunas pantallas más modernas pueden representar contenido con un DR que es mayor que el SDR de las pantallas convencionales.

Por ejemplo, algunas pantallas LCD modernas tienen una unidad de retroiluminación (BLU, backlight unit) que comprende un conjunto de diodos emisores de luz (LED, light emitting diode). Los LED del conjunto de BLU se pueden modular independientemente de la modulación de los estados de polarización de los elementos LCD

5

10

15

20

25

30

35

40

45

50

55

activos. Este enfoque de doble modulación es extensible (por ejemplo, a N capas de modulación, donde N comprende un entero mayor que dos), tal como con capas intermedias controlables entre el conjunto de BLU y los elementos de pantalla LCD. Sus BLU basados en conjuntos de LED y su modulación doble (o N-ésima) aumenta de manera efectiva el DR referido a la pantalla de los monitores LCD que tienen dichas características.

Dichas "pantallas HDR" tal como se denominan a menudo (aunque realmente sus capacidades se pueden aproximar más estrechamente al rango de VDR) y la extensión DR de la que son capaces en relación con las pantallas SDR convencionales, representan un avance significativo en la capacidad de representar imágenes, contenido de video y otra información visual. La gama de colores que dicha pantalla HDR puede representar puede asimismo superar significativamente la gama de colores de las pantallas más convencionales, incluso hasta el extremo de representar fielmente una amplia gama de colores (WCG, wide color gamut). El contenido de imágenes WCG y de VDR o HDR relacionado con la escena, tal como puede ser generado por las cámaras de cine y de TV de la "siguiente generación", se puede ahora visualizar con mayor fidelidad y eficacia con las pantallas "HDR" (denominadas a continuación 'pantallas HDR'). En relación con las tecnologías de codificación de video escalable y HDTV, ampliar el DR de la imagen implica habitualmente un enfoque bifurcado. Por ejemplo, un contenido HDR referido a la escena que se captura con una cámara moderna capacitada para HDR puede ser utilizado para generar una versión SDR del contenido, que puede ser visualizada en pantallas SDR convencionales. En un enfoque, generar la versión SDR a partir de la versión VDR capturada puede involucrar aplicar un operador de mapeo tonal (TMO, tone mapping operator) global a valores de píxel relacionados con la intensidad (por ejemplo, luminancia, luma) en el contenido HDR. En un segundo enfoque, tal como se describe en la solicitud de patente PCT/US2011/048861 titulada "Extending Image Dynamic Range", de W. Gish et al., generar una imagen SDR puede involucrar aplicar un operador (o predictor) invertible sobre los datos VDR. Para conservar el ancho de banda o por otras razones, la transmisión de tanto el contenido VDR capturado real como de una correspondiente versión SDR puede no ser el mejor enfoque.

Por lo tanto, se puede aplicar un operador de mapeo tonal inverso (iTMO, inverse tone mapping operator), invertido en relación con el TMO original, o un operador inverso en relación con el predictor original, a la versión de contenido SDR que se generó, lo que permite predecir una versión del contenido vDr. La versión predicha de contenido VDR se puede comparar con el contenido HDR capturado originalmente. Por ejemplo, restar la versión VDR predicha de la versión VDR original puede generar una imagen residual. Un codificador puede enviar el contenido SDR generado como una capa de base (BL, base layer), y empaquetar la versión de contenido SDR generada, cualquier imagen residual, y el iTMO u otros predictores como una capa de mejora (EL, enhancement layer) o como metadatos.

Enviar en un flujo de bits la EL y los metadatos, con su contenido SDR, residuo y predictores consume habitualmente menos ancho de banda del que se consumiría enviando directamente los contenidos HDR y SDR en el flujo de bits. Los descodificadores compatibles que reciben el flujo de bits enviado por el codificador pueden descodificar y representar el SDR en pantallas convencionales. Sin embargo, los descodificadores compatibles pueden asimismo utilizar la imagen residual, los predictores iTMO o los metadatos para calcular una versión predicha del contenido HDR a partir de los mismos, con el fin de utilizarla en pantallas más capaces. El objetivo de esta invención es dar a conocer nuevos procedimientos para generar predictores que permitan la codificación, transmisión y descodificación eficientes de datos VDR utilizando datos SDR correspondientes.

En el documento WO 2010/105036 se obtienen valores de píxel luma HDR como una función de los correspondientes valores de píxel luma LDR, donde los parámetros de la función dependen de los valores de píxel luma LDR. Sin embargo, el documento WO 2010/102036 no considera la utilización de otros canales de color cuando obtiene el valor de píxel HDR del componente luma.

Los enfoques descritos en esta sección son enfoques que se podrían adoptar, pero no necesariamente enfoques que hayan sido concebidos o adoptados anteriormente. Por lo tanto, salvo que se indique lo contrario, no se deberá asumir que ninguno de los enfoques descritos en esta sección se cualifica como técnica anterior tan sólo en virtud de su inclusión en esta sección. De manera similar, no se deberá suponer que los problemas identificados con respecto a uno o varios enfoques han sido, en función de esta sección, reconocidos en la técnica anterior, salvo que se indique lo contrario.

La invención se expone en el conjunto adjunto de reivindicaciones.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Se muestra una realización de la presente invención a modo de ejemplo, y no de limitación, en las figuras de los dibujos adjuntos y en las cuales los numerales de referencia similares se refieren a elementos similares, y en las que:

la figura 1 representa un ejemplo de flujo de datos para un sistema VDR-SDR, de acuerdo con una realización de la presente invención;

la figura 2 representa un ejemplo de sistema de codificación VDR, de acuerdo con una realización de la presente invención;

5

10

15

20

25

30

35

40

45

50

55

la figura 3 representa un ejemplo de proceso de predicción de canal de color cruzado por tramos, de acuerdo con una realización de la presente invención;

la figura 4 representa un ejemplo de descodificador de imágenes con un predictor que funciona de acuerdo con las realizaciones de esta invención.

DESCRIPCIÓN DE REALIZACIONES DE EJEMPLO

En la presente memoria se describe una predicción de canal de color cruzado por tramos. Dado un par de imágenes VDR y SDR correspondientes, es decir, imágenes que representan la misma escena pero a diferentes niveles de rango dinámico, esta sección describe procedimientos que permiten que un codificador aproxime la imagen VDR en términos de la imagen SDR y de un predictor de canal de color cruzado por tramos (PCCC, piecewise cross-color channel). En la siguiente descripción, con propósitos explicativos, se exponen numerosos detalles específicos para proporcionar una comprensión exhaustiva de la presente invención. En otros casos, no se describen con detalles exhaustivos estructuras y dispositivos bien conocidos, para evitar ocultar, oscurecer u ofuscar innecesariamente la presente invención.

VISIÓN GENERAL

Las realizaciones de ejemplo descritas en la presente memoria se refieren a la codificación de imágenes con alto rango dinámico. En una realización, una secuencia de imágenes de rango dinámico visual (VDR) se puede codificar utilizando una capa de base de rango dinámico estándar (SDR) y una o varias capas de mejora. Se genera una imagen de predicción utilizando predicción de canal de color cruzado por tramos (PCCC, piecewise cross-color channel prediction), donde un canal de color en la entrada SDR se puede segmentar en dos o más segmentos de canal de color, y cada segmento se asigna a su propio predictor de canal de color cruzado para entregar una imagen VDR predicha. Los modelos de predicción PCCC para cada segmento pueden incluir parámetros de primer orden, de segundo orden o de orden superior. Utilizando un criterio de mínimo error cuadrático medio, se presenta una solución de forma cerrada para los parámetros de predicción para un modelo PCCC de segundo orden. Se presentan asimismo algoritmos para segmentar los canales de color en múltiples segmentos de canal de color. Los parámetros relacionados con la predicción pueden ser transmitidos a un descodificador utilizando datos auxiliares, tales como metadatos.

En otra realización, un descodificador accede a una capa SDR de base, a una capa residual y a metadatos relacionados con modelización de predicción PCCC. El descodificador genera una imagen de predicción de salida utilizando la capa de base y el parámetro de predicción PCCC, que pueden utilizarse conjuntamente con la capa residual para generar una imagen VDR de salida.

SISTEMA VDR-SDR DE EJEMPLO

La figura 1 representa un flujo de datos de ejemplo en un sistema VDR-SDR 100, de acuerdo con una realización de la presente invención. Una secuencia de video o imagen HDR es capturada utilizando una cámara HDR 110 u otros medios similares. Después de la captura, la imagen o el video capturado se procesa mediante un proceso de masterización para crear una imagen VDR objetivo 125. El proceso de masterización puede incorporar diversas etapas de procesamiento, tales como: edición, corrección de color primario y secundario, transformación de color y filtrado de ruido. La salida VDR 125 de este proceso representa habitualmente la intención del director sobre cómo la imagen capturada será visualizada en una pantalla vDr objetivo.

El proceso de masterización puede asimismo entregar una correspondiente imagen SDR 145, que representa la intención del director sobre cómo será visualizada la imagen capturada en una pantalla SDR heredada. La salida SDR 145 puede ser proporcionada directamente desde el circuito de masterización 120 o puede ser generada con un convertidor VDR a sDr 140 independiente.

En esta realización de ejemplo, las señales VDR 125 y SDR 145 son introducidas en un codificador 130. El objetivo del codificador 130 es crear un flujo de bits codificado que reduzca el ancho de banda necesario para transmitir las señales VDR y SDR, pero asimismo permita que un correspondiente descodificador 150 descodifique y represente cualquiera de las señales SDR o VDR. En una implementación de ejemplo, el codificador 130 puede ser un codificador por capas, tal como uno de los definidos en los estándares de codificación MPEG-2 y H.264, que representa su salida como una capa de base, una capa de mejora opcional y metadatos. Tal como se utiliza en la presente memoria, el término "metadatos" se refiere a cualquier información auxiliar que se transmita como parte del flujo de bits codificado y ayude a un descodificador a representar una imagen descodificada. Dichos metadatos pueden incluir, de forma no limitativa, datos tales como: espacio de color o información de gama, información de rango dinámico, información de mapa tonal u operadores de predictor, tales como los descritos en la presente memoria.

En el receptor, un descodificador 150 utiliza flujos de bits codificados y metadatos recibidos para representar una imagen sDr 157 o bien una imagen VDR 155, según las capacidades de la pantalla objetivo. Por ejemplo, una pantalla SDR puede utilizar solamente la capa de base y los metadatos para representar una imagen SDR. En

5

10

15

20

25

30

35

40

45

50

55

cambio, una pantalla VDR puede utilizar información de todas las capas de entrada y los metadatos, para representar una señal VDR.

La figura 2 muestra en mayor detalle una implementación de ejemplo del codificador 130, que incorpora los procedimientos de esta invención. En la figura 2, una señal SDR ' opcional 207 indica una señal SDR mejorada. Habitualmente, el video SDR actual son datos 4:2:0, ITU Rec. 709, de 8 bits.. SDR ' puede tener el mismo espacio de color (primarios y punto blanco) que SDR, pero puede utilizar alta precisión, digamos 12 bits por píxel, con todos los componentes de color a plena resolución espacial (por ejemplo, 4:4:4 RGB). Por la figura 2, se puede obtener una SDR a partir de una señal SDR ' utilizando un conjunto de transformadas directas que pueden incluir cuantificación, digamos de 12 bits por píxel a 8 bits por píxel, transformación de color, digamos de RGB a YUV, y submuestreo de color, digamos de 4:4:4 a 4:2:0. La salida SDR del convertidor 210 se aplica al sistema de compresión 220. Dependiendo de la aplicación, el sistema de compresión 220 puede ser con pérdidas, tal como H.264 o MPEG-2, o sin pérdidas, tal como JPEG2000. La salida del sistema de compresión 220 puede ser transmitida como una capa de base 225. Para reducir la deriva entre las señales codificada y descodificada, no es infrecuente que en el codificador 130 el proceso de compresión 220 esté seguido por un correspondiente proceso de descompresión 230 y por transformadas inversas 240 correspondientes a las transformadas directas de 210. De este modo, el predictor 250 puede tener las entradas siguientes: la entrada VDR 205 y cualquiera de la señal SDR ' (o SDR) comprimida-descomprimida 245, que corresponde a la señal SDR ' (o SDR) tal como será recibida por un correspondiente descodificador 150, o la sDr ' de entrada original 207. El predictor 250, utilizando datos de entrada VDR y SDR ' (o SDR) creará la señal 257, que representa una aproximación o estimación del VDR de entrada 205. El sumador 260 resta el VDR predicho 257 del VDR original 205 para formar la señal residual de salida 265. A continuación (no mostrado), el residuo 265 puede asimismo ser codificado mediante otro codificador con pérdidas o sin pérdidas, y puede ser transmitido al descodificador como una capa de mejora. En algunos ejemplos, la unidad de compresión 220 puede recibir directamente una entrada SDR 215. En dichos ejemplos, las unidades de transformadas directas 210 y de transformadas inversas 240 pueden ser opcionales.

El predictor 250 puede proporcionar asimismo los parámetros de predicción que se utilizan en el proceso de predicción, como metadatos 255. Dado que los parámetros de predicción pueden cambiar durante el proceso de codificación, por ejemplo, cuadro a cuadro, o escena a escena, estos metadatos pueden ser transmitidos al descodificador como parte de los datos que incluyen asimismo la capa de base y la capa de mejora.

Dado que tanto la VDR 205 como la SDR ' 207 (o SDR 215) representan la misma escena, pero están dirigidas a diferentes pantallas con características diferentes, tales como el rango dinámico y la gama de color, se espera que exista una correlación muy estrecha entre estas dos señales. En la solicitud provisional U.S.A. número 61/475 359, de propiedad en común con la presente, presentada el 14 de abril de 2011 (actual solicitud PCT número de serie PCT/US2012/033605, presentada el 13 de abril de 2012, titulada "Múltiple color channel múltiple regression predictor', en adelante denominada solicitud '359, se dio a conocer un nuevo modelo de predicción de variables múltiples, regresión múltiple (MMR, multivariate, multi-regression) que permite predecir la señal VDR de entrada utilizando su correspondiente señal SDR ' (o SDR) y un operador MMR.

El predictor MMR de la solicitud '359 se puede considerar un predictor de color cruzado "global", dado que se puede aplicar a todos los píxeles de un cuadro, independientemente de sus valores de color individuales. Sin embargo, cuando se traduce una secuencia de video VDR a una secuencia de video SDR existen diversos factores operativos que pueden degradar la eficiencia de los predictores globales, tales como recorte de color y la corrección de color secundario.

Bajo recorte de color, los valores de algunos píxeles en un canal o componente de color (por ejemplo, el canal rojo), se pueden recortar más severamente que los valores de algunos píxeles en otros canales (digamos, por ejemplo, los canales verde o azul). Dado que las operaciones de recorte son operaciones no lineales, los valores predichos de estos píxeles pueden no seguir las hipótesis de mapeo globales, produciendo por lo tanto grandes errores de predicción.

Otro factor que puede afectar a la predicción SDR a VDR es la corrección de color secundario. En la corrección de color secundario, el colorista puede dividir adicionalmente cada canal de color en segmentos, tales como: brillos, tonos medios y sombras. Estos límites de color pueden ser controlados y personalizados durante el proceso de corrección de color. Estimar estos límites de color puede mejorar la predicción global y reducir artefactos de color en el video descodificado.

MODELOS DE PREDICCIÓN DE EJEMPLO

Notación y nomenclatura de los ejemplos

Sin pérdida de generalidad, se considera una realización de un predictor de canal de color cruzado por tramos (PCCC) con dos entradas: una entrada SDR (o SDR ') s y una entrada VDR v. Cada una de estas entradas comprende múltiples canales de color, también denominados normalmente componentes de color (por ejemplo, RGB, YCbCr, xYz, y similares). Sin pérdida de generalidad, independientemente de la profundidad de bits, los valores de píxel a través de cada componente de color se pueden normalizar a [0,1).

5

10

15

20

25

30

35

Asumiendo que todas las entradas y salidas se expresan utilizando tres componentes de color, se indican los tres componentes de color del píxel i-ésimo en la imagen SDR como

se indican los tres componentes de color de el píxel i-ésimo en la entrada VDR como

v;=ki vi7 (2)

y se indican los tres componentes de color predichos del píxel i-ésimo en el VDR predicho como

v;=[y;i vn_ yi3]

(3)

imagen1

Cada canal de color, digamos el c-ésimo, se puede dividir en un conjunto de múltiples segmentos de color, sin solapamiento, utilizando un conjunto de puntos límite (por ejemplo, uc1, uc2, ..., ucU), de tal modo que dentro de dos segmentos consecutivos (por ejemplo, u y u+1), 0 < ucu< uc(U+1) < 1. Por ejemplo, en una realización, cada canal de color se puede subdividir en tres segmentos que representan sombras, tonos medios y brillos, utilizando dos puntos límite, Uci y Uc2. A continuación, se definirán las sombras en el rango [0, uci), se definirán los tonos medios en el rango [uci, ud) y se definirán los brillos en el rango [uc2, 1).

El conjunto de píxeles que tienen valores dentro del segmento u-ésimo en el c-ésimo canal de color se indica como cb“ n" <J)H

¡ndica el numero de píxeles en c ■ Para facilitar la discusión y simplificar la notación, se describe el procedimiento para el segmento u-ésimo en el canal de color c-ésimo, y se puede repetir para todos los segmentos en todos los canales de color. La modelización PCCC propuesta se puede combinar con otros modelos basados en color cruzado, tales como los descritos en la solicitud '359. Como un ejemplo, y sin pérdida de generalidad, se describe un modelo PCCC de segundo orden; sin embargo, los procedimientos pueden asimismo extenderse fácilmente a otros modelos de predicción.

Ejemplo de modelo PCCC de segundo orden

Optimización de la predicción para un segmento de un canal de color

cj>"

Para la señal SDR, los tres componentes de color del i-ésimo píxel en c se indican como

=[*

s;.

(4)

<j>M

Para cada píxel SDR en c indicado como

se puede encontrar el correspondiente píxel VDR localizado en el mismo sitio,

imagen2

Tal como se utiliza en la presente memoria, el término 'correspondientes píxeles SDR y VDR localizados en el mismo sitio' indica dos píxeles, uno en la imagen SDR y uno en la imagen VDR, que pueden tener rangos dinámicos diferentes pero que tienen las mismas coordenadas de píxel dentro de cada imagen. Por ejemplo, para un píxel SDR s(10,20), el correspondiente píxel VDR relocalizado conjuntamente es v(10,20).

Se indica el valor predicho del componente de color c-ésimo para este píxel VDR, como

imagen3

Reuniendo todos los píxeles

imagen4

en

imagen5

se pueden generar las siguientes expresiones vectoriales

imagen6

1 o <>> 1____: ’ c“ °c0 1 < C) s o ____1

\u y el: 9 ^C - S“ , y los datos VDR originales V“ = \u yc 1

1 *<> O K 1_____: \U u L CPc-l_\

Dada la señal de entrada SDR s, se puede definir un modelo de predicción que comprende datos de entrada SDR de primer orden y de segundo orden (o superior), tal como:

se

=k-‘

■Si2-SB\

(8)

5

10

15

20

25

30

35

SC

i 2 [2 2

s7*

9 9 9 1

*¡rs¡2-sj

y

imagen7

(9)

(10)

Estos datos vectoriales se pueden combinar para formar el vector de entrada para un modelo PCCC de segundo orden:

Dadas las ecuaciones (4) a (11), el problema de predicción VDR se puede expresar como

imagen8

imagen9

M“

donde c indica una matriz de parametros de predicción para el segmento u-esimo dentro del componente de color c-ésimo. Se debe observar que éste es un modelo de predicción de canal de color cruzado. En la ecuación (12), el componente de color c-ésimo de la salida predicha se expresa como una combinación de todos los componentes de color en la entrada. En otras palabras, a diferencia de otros predictores de color de un solo canal, donde cada canal de color es procesado por sí mismo e independientemente de los otros, este modelo puede tener en cuenta todos los componentes de color de un píxel y por lo tanto puede aprovechar totalmente cualquier correlación y redundancia entre colores.

Pu

Reuniendo todos los pixeles ^c juntos, se puede formar la correspondiente matriz de datos

imagen10

(2)

p“-1

(13)

Entonces, la operación de predicción se puede expresar en forma matricial como

imagen11

En una realización, se puede obtener un predictor solución utilizando técnicas de optimización de error de

M“

mínimos cuadrados, donde los elementos de c se seleccionan de tal modo que minimicen el error cuadratico medio (MSE) entre el VDR original y el VDR predicho.

imagen12

Bajo el criterio MSE, una solución óptima la ecuación (15) se puede expresar como

M:=(scf)rsc:(Vsc:(2)\“. (i6)

La fórmula anterior obtiene un predictor para un segmento específico dentro de uno de los canales de color, asumiendo que se conocen los límites de estos segmentos dentro de un canal de color. Sin embargo, en la práctica, los puntos límite específicos de cada segmento de canal pueden no estar disponibles, y puede ser necesario obtenerlos durante el proceso de codificación.

La figura 3 representa un ejemplo de proceso de predicción, de acuerdo con una realización de esta invención. En la etapa 310, un predictor accede a señales VDR y SDR de entrada. En la etapa 320, cada canal de color en la señal SDR de entrada se puede segmentar en dos o más segmentos sin solapamiento. Los límites de estos segmentos se pueden recibir como parte de los datos de entrada, digamos a partir del proceso de corrección de color VDR a SDR, o se pueden determinar a partir de los datos de entrada utilizando técnicas tales como las descritas en la siguiente sección. En la etapa 330, para cada segmento de color en cada uno de los canales de color, utilizando un modelo de predicción de color cruzado, por ejemplo el modelo PCCC de segundo orden de las ecuaciones (4) a (14), y un criterio de optimización, tal como minimizar la predicción MSE, se determina una matriz de parámetros de predicción

(por ejemplo, iTie)- En la etapa 340, se calcula una salida VDR predicha. Ademas, para calcular una imagen VDR

5

10

15

20

25

30

predicha, la matriz de parámetros de predicción puede ser comunicada a un descodificador utilizando datos auxiliares, tales como metadatos

Optimización de la predicción para todo el canal de color

Se considera el problema de optimizar la predicción para todos los píxeles a través de todos los segmentos dentro de c-ésimo canal de color. Para todos los píxeles p dentro de este canal, se indica el VDR predicho como

imagen13

y se indican los datos VDR originales como

(17)

imagen14

El problema de optimización para el canal de color c-ésimo se puede formular como un problema de minimización MSE para encontrar

imagen15

Dado un conjunto de puntos límite ud, el problema de optimización de parámetros para todo el canal se puede descomponer en varios problemas secundarios, uno para cada segmento del canal de color c-ésimo, y se puede obtener una solución para cada problema secundario utilizando la ecuación (16). Más específicamente, dado un conjunto de U segmentos de color, la ecuación (19) se puede expresar como

minllv -V II2 = minY||y; - Vc“(Muc )t . (20)

II II ÍM“}^ II II

Sea

- U II - ¡i 2

{M “} = arg min ^ V“ - V“ (M “) . (21)

{M“} M=l" "

Dado un conjunto de puntos límite uci, la distorsión total para un conjunto de parámetros de predicción se puede expresar como:

imagen16

Cuando cambia el valor de cualquiera de los puntos límite, cambia también la distorsión global anterior. Por lo tanto, el objetivo es identificar los puntos límite para los que la distorsión global en el canal c-ésimo se minimiza.

imagen17

Soluciones de ejemplo

Canal de color con solamente dos segmentos

Dado que la mayor parte del contenido SDR está limitado normalmente a 8 bits, si se excluyen los valores 0 y 255, el número total de puntos límite está limitado a 28-2 =254. Si un canal de color comprende solamente dos segmentos de color, entonces es necesario identificar un único límite (uc1) dentro del rango [1, 255). En un ejemplo, una búsqueda completa puede calcular J({uc1}) para todos los posibles 254 puntos límite, y seleccionar a continuación como punto límite uc1 el punto límite para el que J({uc1}) es mínimo.

En una realización, se puede obtener el mejor punto límite utilizando una técnica de búsqueda heurística, iterativa, que puede acelerar el tiempo de búsqueda pero puede no necesariamente producir valores límite óptimos. Por ejemplo, en una realización, el rango SDR original se puede subdividir en K segmentos (por ejemplo, K = 8). A

continuación, suponiendo que el límite Uci está aproximadamente a la mitad de cada uno de estos sedimentos, se puede calcular la ecuación (22) K veces. Se indica con kc el segmento con el error de predicción mínimo entre todos los K segmentos. Entonces, dentro del segmento kc, se puede llevar a cabo una búsqueda completa o bien búsquedas jerárquicas similares, para identificar un punto límite localmente óptimo. Las etapas de este algoritmo de 5 búsqueda en dos etapas se resumen en pseudocódigo en la tabla 1.

Tabla 1. Algoritmo de búsqueda en dos etapas

Dividir rango de espacio de color en K segmentos //Primera etapa

(a) Para cada segmento k, calcular el error de predicción Jk({uc-i}) suponiendo que el punto límite uc1 está situado aproximadamente en el centro del segmento k-ésimo.

(b) Determinar el segmento, digamos kc, para el que Jk({uc-i}) es mínimo //Segunda etapa

(a) Dentro del segmento kc, utilizar búsqueda completa o repetir este algoritmo en dos etapas para encontrar uc1 que minimiza el error de predicción.

Este algoritmo de búsqueda en dos etapas se puede modificar fácilmente para ejemplos alternativos. Por ejemplo, en lugar de suponer que el punto límite está situado aproximadamente en el centro del segmento k-ésimo, se puede 10 suponer que el punto límite está situado al inicio, al término o en cualquier otra posición del segmento.

Para espacios de color con más de dos segmentos, se pueden aplicar asimismo técnicas de búsqueda heurísticas e iterativas similares. Por ejemplo, para datos SDR de 8 bits, después de identificar el primer punto límite uc1 en el rango (1, 255), se puede intentar identificar dos candidatos para un segundo punto límite: un candidato en los subrangos (0, u^) y el otro en el subrango (uc1, 255). Calculando la distorsión global J({ud}) para cada uno de estos 15 dos candidatos, se puede definir a continuación el segundo punto límite (uc2) como el que produce el menor error de predicción (por ejemplo, utilizando la ecuación (22)) entre las dos soluciones candidatas.

Dado que la corrección de color de los cuadros de video está muy correlacionada, especialmente para todos los cuadros dentro de la misma escena, la búsqueda de puntos límite para el cuadro n-ésimo puede asimismo tener en cuenta resultados conocidos a partir de cuadros anteriores dentro de la misma escena. Alternativamente, se pueden 20 calcular puntos límite solamente una vez para toda la escena. En la tabla 2 se describe en pseudocódigo un ejemplo de un algoritmo de búsqueda basado en escena. En esta realización, después de identificar un punto límite para al primer cuadro utilizando el rango dinámico completo de un canal de color, los cuadros subsiguientes lo utilizan como punto inicial para definir un punto límite dentro de un segmento mucho menor del espacio de color.

Tabla 2. Algoritmo de búsqueda basado en escena

Para el primer en cuadro una escena

(1) ejecutar un algoritmo en dos etapas para identificar un punto límite dentro de un canal de color Para el resto de los cuadros en la misma escena

(2) utilizar el punto límite del cuadro anterior para definir un segmento a utilizar como el punto inicial de la segunda etapa en la búsqueda en dos etapas (ver la tabla 1).

25

Se deberá apreciar que las etapas de este algoritmo se pueden implementar de varias maneras alternativas. Por ejemplo, en la etapa (1), en lugar de utilizar un algoritmo de búsqueda en dos etapas para identificar un punto límite, se puede utilizar una búsqueda completa, o cualquier otro tipo de algoritmo de búsqueda. Como otro ejemplo, en la etapa (2), dado un punto inicial, el punto inicial se puede considerar el punto medio aproximado de un segmento de 30 una longitud predefinida. Alternativamente, se puede considerar el punto inicial de un segmento, el punto final de un segmento o cualquier posición predefinida en un segmento.

La metodología descrita en la presente memoria se puede aplicar asimismo para obtener otros modelos PCCC. Por ejemplo, se puede obtener un modelo PCCC de primer orden utilizando solamente los primeros tres términos de la ecuación (11), utilizando las ecuaciones

35

imagen18

imagen19

(24)

5

10

15

20

25

30

35

40

45

50

55

v“. =s“.(1)M“ . (25)

Análogamente, los vectores de datos en las ecuaciones (8)-(11) se pueden extender para definir modelos PCCC de tercer orden o de orden superior.

DESCODIFICACIÓN DE IMÁGENES

Las realizaciones de la presente invención se pueden implementar en un codificador de imágenes o bien en un descodificador de imágenes. La figura 4 muestra un ejemplo de implementación de descodificador 150 de acuerdo con una realización de esta invención.

El sistema de descodificación 400 recibe un flujo de bits codificado que puede combinar una capa de base 490, una capa de mejora (o residuo) opcional 465 y metadatos 445, que son extraídos después de la descompresión 430 y de diversas transformadas inversas opcionales 440. Por ejemplo, en un sistema VDR-SDR, la capa de base 490 puede representar la representación SdR de la señal codificada y los metadatos 445 pueden incluir información sobre el modelo de predicción PCCC que se utilizó en el predictor 250 del codificador y los correspondientes parámetros de predicción. En un ejemplo de implementación, cuando el codificador utiliza un predictor PCCC acorde con los procedimientos de esta invención, los metadatos pueden incluir los valores límite que identifican cada segmento de color dentro de cada canal de color, la identificación del modelo que se esté utilizando (por ejemplo, PCCC de primer orden, PCCC de segundo orden y similares) y todos los coeficientes de la matriz de parámetros de predicción asociada con dicho modelo específico. Dada la capa de base 490 s y los parámetros de predicción extraídos de los metadatos 445, el predictor 450 puede calcular el v predicho 480 utilizando cualquiera de las ecuaciones correspondientes descritas en la presente memoria (por ejemplo, la ecuación (14)). Si no hay residuo, o el residuo es despreciable, el valor predicho 480 se puede entregar directamente como la imagen VDR final. De lo contrario, en el sumador 460 la salida del predictor (480) se suma al residuo 465 para entregar la señal VDR 470.

EJEMPLO DE IMPLEMENTACIÓN DE SISTEMA INFORMÁTICO

Las realizaciones de la presente invención se pueden implementar con un sistema informático, sistemas configurados en componentes y circuitos electrónicos, un dispositivo de circuito integrado (IC, integrated circuit) tal como un microcontrolador, una matriz de puertas programable in situ (FPGA, field programmable gate array) u otro dispositivo lógico programable (PLD, programmable logic device) o configurable, un procesador de señal digital (dSp, digital signal processor) o temporal discreta, un IC de aplicación específica (ASIC, application specific IC) y/o un aparato que incluya uno o varios de dichos sistemas, dispositivos o componentes. El ordenador y/o IC puede llevar a cabo, controlar o ejecutar instrucciones relacionadas con predicción basada en PCCC, tales como las descritas en la presente memoria. El ordenador y/o IC puede calcular cualquiera de una serie de parámetros o valores relacionados con la predicción PCCC, tal como se describe en la presente memoria. Las realizaciones de extensión del rango dinámico de imagen y de video se pueden implementar en hardware, software, software inalterable y diversas combinaciones de los mismos.

Determinadas implementaciones de la invención comprenden procesadores informáticos que ejecutan instrucciones de software que hacen que los procesadores lleven a cabo un procedimiento de la invención. Por ejemplo, uno o varios procesadores en una pantalla, codificador, descodificador, transcodificador o similar pueden implementar procedimientos de predicción basados en PCCC tal como los descritos anteriormente, mediante la ejecución de instrucciones de software en una memoria de programa accesible para los procesadores. La invención se puede disponer asimismo en forma de producto de programa. El producto de programa puede comprender cualquier medio que transporte un conjunto de señales legibles por ordenador que comprendan instrucciones que, cuando sean ejecutadas por un procesador de datos, hagan que el procesador de datos ejecute un procedimiento de la invención. Los productos de programa según la invención pueden ser de cualquiera de una amplia variedad de formas. El producto de programa puede comprender, por ejemplo, medios físicos, tales como medios magnéticos de almacenamiento de datos que incluyen disquetes flexibles, unidades de disco duro, medios ópticos de almacenamiento de datos que incluyen CD-ROM, DVD, medios electrónicos de almacenamiento de datos que incluyen ROM, RAM flash, o similares. Las señales legibles por ordenador en el producto de programa pueden opcionalmente estar comprimidas o cifradas.

Cuando anteriormente se hace referencia a un componente (por ejemplo, un módulo de software, procesador, conjunto, dispositivo, circuito, etc.), salvo que se indique lo contrario, se deberá interpretar que la referencia a dicho componente (incluyendo una referencia a un "medio") incluye, como equivalentes de dicho componente, cualquier componente que lleve a cabo la función del componente descrito (por ejemplo, que sea de funcionalidad equivalente), incluyendo componentes que no son estructuralmente equivalentes a la estructura dada a conocer que lleva a cabo la función en las realizaciones mostradas de ejemplo de la invención.

EQUIVALENTES, EXTENSIONES, ALTERNATIVAS Y MISCELÁNEA

Se han descrito por lo tanto realizaciones que se refieren a la aplicación de predicción PCCC en la codificación de imágenes VDR y SDR. En la especificación anterior, se han descrito realizaciones de la presente invención haciendo referencia a numerosos detalles específicos que pueden variar de una implementación a otra. Por lo tanto, el indicador único y exclusivo de qué es la invención, y de qué está previsto por los solicitantes que sea la invención,

es el conjunto de reivindicaciones que surgen de esta solicitud, en la forma específica en la que dichas reivindicaciones surgen, incluyendo cualquier subsiguiente corrección. Cualesquiera definiciones expuestas expresamente en la presente memoria para los términos contenidos en dichas reivindicaciones regirán el significado de dichos términos que se utilizan en las reivindicaciones. Por lo tanto, ninguna limitación, elemento, propiedad, 5 característica, ventaja o atributo que no esté enunciado expresamente en una reivindicación, deberá limitar en modo alguno el alcance de dicha reivindicación. Por consiguiente, la especificación y los dibujos se deben considerar en sentido ilustrativo y no limitativo.

Claims

5

10

15

20

25

30

35

40

45

50

REIVINDICACIONES

1. Un procedimiento, que comprende:

acceder a una primera imagen y una segunda imagen que representan la misma escena, comprendiendo cada una de las imágenes uno o varios canales de color, comprendiendo cada una de las imágenes una serie de píxeles, teniendo cada píxel un respectivo valor de píxel para cada uno de dichos uno o varios canales de color, en el que la segunda imagen tiene un rango dinámico que es mayor que el rango dinámico de la primera imagen;

segmentar por lo menos un canal de color de la primera imagen en dos o más segmentos de canal de color sin solapamiento, utilizando un conjunto de puntos límite, en el que cada segmento de canal de color corresponde a dos puntos límite consecutivos, y en el que los valores de píxel del canal de color que están entre dos puntos límite consecutivos son asignados al correspondiente segmento de canal de color; y

para un segmento de canal de color de la primera imagen:

definir un modelo de predicción de color cruzado de primer orden como mínimo, que expresa un valor de píxel predicho de un píxel de la segunda imagen en un canal de color como una combinación de por lo menos los valores de píxel respectivos para todos los canales de color del píxel dentro de la primera imagen que tiene las mismas coordenadas de píxel que el píxel de la segunda imagen,

en el que el modelo de predicción de color cruzado comprende una matriz de parámetros de predicción que transforma un vector de entrada en un segmento de canal de salida,

en el que el vector de entrada comprende, para cada píxel del segmento de canal de color de la primera imagen, un componente del vector de entrada de primer orden como mínimo, en el que los componentes del vector de entrada de primer orden comprenden productos de los respectivos valores de píxel para dos o más de los canales de color del píxel dentro de la primera imagen, y

en el que el segmento de canal de salida comprende, para cada píxel del segmento de canal de color de la primera imagen, un valor de píxel predicho para un píxel de la segunda imagen en el canal de color que tiene las mismas coordenadas de píxel que el píxel de la primera imagen;

calcular los parámetros de la matriz de parámetros de predicción minimizando el error cuadrático medio entre los valores de píxel predichos del segmento de canal de color de salida y los correspondientes valores de píxel de la segunda imagen;

calcular el segmento de canal de color de salida transformando el vector de entrada con la matriz de parámetros de predicción; y

entregar los parámetros de la matriz de parámetros de predicción para ser utilizados por un descodificador.
2. El procedimiento según la reivindicación 1,

en el que cada una de la primera imagen y la segunda imagen comprende tres canales de color, y

en el que la etapa de segmentación se lleva a cabo para cada uno de los tres canales de color de la primera imagen.
3. El procedimiento según la reivindicación 1 o la reivindicación 2, en el que la etapa de segmentación comprende identificar por lo menos un punto límite de un segmento de canal de color utilizando un algoritmo de búsqueda en dos etapas.
4. El procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que la primera imagen es una imagen de rango dinámico estándar (SDR) y la segunda imagen tiene un rango dinámico que abarca por lo menos 14-15 órdenes de magnitud.
5. El procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que la primera imagen es una primera imagen SDR en una secuencia de imágenes SDR que comprende una segunda imagen SDR diferente, comprendiendo además el procedimiento:

ejecutar un algoritmo de búsqueda en dos etapas para identificar un primer punto límite para un segmento de canal de color en la primera imagen SDR; y

utilizar un primer punto límite como un punto inicial en una segunda etapa de un algoritmo de búsqueda en dos etapas, para identificar un punto límite de un segmento de canal de color en la segunda imagen SDR.
6. El procedimiento según la reivindicación 1, en el que los componentes de segundo orden del vector de entrada comprenden cuadrados de los respectivos valores de píxel para todos los canales de color del píxel que tiene las mismas coordenadas de píxel dentro de la primera imagen, o productos de cuadrados de los respectivos valores de píxel para dos o más de los canales de color del píxel dentro de la primera imagen.

5

10

15

20

25

30
7. El procedimiento según cualquiera de las reivindicaciones 1 a 6, que se ejecuta para cada segmento de canal de color de la primera imagen.
8. El procedimiento según cualquiera de las reivindicaciones 1 a 7, que comprende además generar una imagen de predicción de salida que comprende el segmento de canal de color de salida.
9. El procedimiento según la reivindicación 8, que comprende además: comprimir la primera imagen en una señal de capa de base codificada; y

comprimir una imagen obtenida a partir de la segunda imagen y la imagen de predicción, en una o varias señales de capa de mejora codificadas; y

en el que los parámetros de la matriz de parámetros de predicción son transmitidos a un descodificador como metadatos.
10. El procedimiento según cualquiera de las reivindicaciones 1 a 9, en el que minimizar el error cuadrático medio comprende además

aplicar procedimientos numéricos que minimizan el error cuadrático medio entre los valores de píxel predichos del segmento de canal de color de salida y los correspondientes valores de píxel de la segunda imagen.
11. Un procedimiento de descodificación de imágenes, que comprende:

acceder a metadatos que comprenden datos para un modelo de predicción, en el que los metadatos son generados y transmitidos mediante el procedimiento de la reivindicación 9;

descomprimir la señal de capa de base para obtener una imagen descomprimida; y

generar un segmento de canal de color de salida en base a los datos de la imagen descomprimida y los datos para el modelo de predicción de color cruzado definido.
12. El procedimiento según la reivindicación 11, que comprende además calcular una imagen de predicción de salida que comprende el segmento de canal de color de salida; y comprende además:

acceder a una imagen residual;

combinar la imagen residual y la imagen de predicción de salida para generar una imagen descodificada, en el que la imagen descodificada tiene un rango dinámico que es mayor que el rango dinámico de la primera imagen.
13. Un aparato que comprende un procesador y está configurado para llevar a cabo cualquiera de los procedimientos expuestos en cualquiera de las reivindicaciones 1 a 12.
14. Un medio de almacenamiento legible por ordenador, que comprende instrucciones ejecutables por ordenador que, cuando son ejecutadas por un ordenador, hacen que el ordenador lleve a cabo el procedimiento de cualquiera de las reivindicaciones 1 a 12.