ES2750234T3

ES2750234T3 - Predictor de regresión múltiple de múltiples canales de color

Info

Publication number: ES2750234T3
Application number: ES17204552T
Authority: ES
Inventors: Guan-Ming Su; Sheng Qu; Hubert Koepfer; Yufei Yuan; Samir N Hulyalkar
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-04-14
Filing date: 2012-04-13
Publication date: 2020-03-25
Anticipated expiration: 2032-04-13
Also published as: US9699483B2; PL3324622T3; US20160269756A1; CN106878707A; ES2659961T3; US20180278930A1; JP5744318B2; PL2782348T3; CN107105229B; US20140029675A1; JP6490178B2; JP2016167834A; US20170264898A1; JP2015165665A; HK1193688A1; US10021390B2; EP3324622B1; US9386313B2; US20140307796A1; US10237552B2

Abstract

En un sistema de video de codificación o decodificación, un método de predicción de imagen con un procesador, comprendiendo el método: recibir una primera imagen; recibir parámetros de predicción para un modelo de predicción de regresión múltiple multicanal (MMR), en el que el modelo de MMR se utiliza para predecir una segunda imagen a partir de una primera imagen, en el que la segunda imagen representa la misma escena que la primera imagen, y en el que un rango dinámico de la primera imagen es menor que un rango dinámico de la segunda imagen; y aplicar la primera imagen y los parámetros de predicción al modelo de predicción de MMR para generar una imagen de salida que se aproxime a la segunda imagen, en el que los valores de píxel de al menos una componente de color de la imagen de salida se calculan en base a los valores de píxel de al menos dos componentes de color en la primera imagen, en el que, para generar un valor de píxel de salida predicho (v, i) para una componente de luma y/o croma, el modelo de MMR comprende un modelo de MMR de primer orden con multiplicaciones cruzadas que comprenden: un valor constante (n), al menos una combinación lineal de valores de píxel de dos componentes de color diferentes y, al menos, un término de la multiplicación de valores de píxel de dos componentes de color diferentes.

Description

DESCRIPCIÓN

Predictor de regresión múltiple de múltiples canales de color

Referencia a solicitudes relacionadas

Esta solicitud es una solicitud divisional europea de la solicitud de patente europea EP 14171538.3 (referencia: D11020EP02), para la que su Formulario EPO 1001 fue presentado el 6 de junio de 2014. La propia EP 14171538.3 es una solicitud divisional europea de la solicitud de patente Euro-PCT EP 12717990.1 (referencia: D11020EP01), presentada el 13 de abril de 2012 y concedida como EP 2697971 el 8 de julio de 2015.

Tecnología

La presente invención se refiere, en general, a las imágenes. Más particularmente, una realización de la presente invención se refiere a un predictor de regresión múltiple, de múltiples canales de color entre imágenes de alto rango dinámico e imágenes de rango dinámico estándar.

Antecedentes

Tal como se utiliza en el presente documento, el término “rango dinámico” (DR - Dynamic Range, en inglés) puede referirse a una capacidad del sistema psicovisual humano (HVS - Human psychoVisual System, en inglés) para percibir un rango de intensidad (p. ej., luminancia, luma) en una imagen, p. ej., desde los oscuros más oscuros hasta los claros más claros. En este sentido, el DR se refiere a una intensidad “referida a la escena”. El DR también se puede relacionar con la capacidad de un dispositivo de visualización para presentar de manera adecuada o aproximada un rango de intensidad de una amplitud particular. En este sentido, el DR se refiere a una intensidad “referida a la visualización”. A menos que se especifique explícitamente que un sentido particular tiene un significado particular en cualquier punto de la descripción en el presente documento, se debe inferir que el término puede utilizarse en cualquier sentido, p. ej. indistintamente.

Tal como se utiliza en el presente documento, el término alto rango dinámico (HDR - High Dynamic Range, en inglés) se refiere a una amplitud de DR que abarca los aproximadamente 14-15 órdenes de magnitud del sistema visual humano (HVS). Por ejemplo, las personas bien adaptadas con esencialmente normal (p. ej., en uno o más de un sentido estadístico, biométrico u oftalmológico) tienen un rango de intensidad que abarca, aproximadamente, 15 órdenes de magnitud. Las personas adaptadas pueden percibir fuentes de luz tenue de tan solo algunos fotones. Sin embargo, estas mismas personas pueden percibir la intensidad casi dolorosa del sol del mediodía en el desierto, el mar o la nieve (o incluso mirar al sol, aunque sea brevemente para evitar daños). Sin embargo, este rango está disponible para personas “adaptadas” p. ej., cuyo HVS tiene un período de tiempo en el cual se reinicia y ajusta. Por el contrario, el DR a través del cual una persona puede percibir simultáneamente una amplitud extensa en el rango de intensidad puede verse de alguna manera truncado en relación con e1HDR. Tal como se utilizan en el presente documento, los términos “rango dinámico visual” o “rango dinámico variable” (VDR - Variable Dynamic Range, en inglés) pueden referirse de manera individual o indistintamente al DR que es perceptible simultáneamente por un HVS. Tal como se utiliza en el presente documento, el VDR puede relacionarse con un DR que abarca 5-6 órdenes de magnitud. Por lo tanto, aunque quizá un poco más estrecho en relación con e1HDR referido a la escena real, el VDR representa, no obstante, una extensa amplitud de DR. Tal como se utiliza en el presente documento, el término “rango dinámico simultáneo" puede referirse al VDR.

Hasta hace relativamente poco, las pantallas han tenido un DR significativamente más estrecho que e1HDR o el VDR. Los aparatos de televisión (TV) y los monitores de ordenadores que utilizan un tubo de rayos catódicos (CRT -Cathode Ray Tube, en inglés) típico, pantallas de cristal líquido (LCD - Liquid Crystal Display, en inglés) con iluminación de fondo blanca, fluorescente, constante, o tecnología de pantalla de plasma, pueden verse limitados en su capacidad de representación de DR a aproximadamente tres órdenes de magnitud. Tales pantallas convencionales tipifican, por lo tanto, un rango dinámico bajo (LDR - Low Dynamic Range, en inglés), también denominado rango dinámico estándar (SDR - Standard Dynamic Range, en inglés), en relación con el VDR y el HDR.

Sin embargo, los avances en su tecnología subyacente permiten a los diseños de visualización más modernos representar contenido de imagen y video con mejoras significativas en diversas características de calidad sobre el mismo contenido, que cuando se representa en pantallas menos modernas. Por ejemplo, los dispositivos de visualización más modernos pueden ser capaces de representar contenido de alta definición (HD - High Definition, en inglés) y/o contenido que puede escalarse de acuerdo con diversas capacidades de visualización, tales como un escalador de imágenes. Además, algunas pantallas más modernas son capaces de representar contenido con un DR que es más alto que el SDR de las pantallas convencionales.

Por ejemplo, algunas pantallas LCD modernas tienen una unidad de retroiluminación (BLU - BackLight Unit, en inglés) que comprende un conjunto de diodos emisores de luz (LED - Light Emitting Diode, en inglés). Los LED del conjunto de BLU pueden ser modulados por separado de la modulación de los estados de polarización de los elementos LCD activos. Este enfoque de modulación dual es extensible (p. ej., a N capas de modulación, en las que N comprende un número entero mayor que dos), tal como con capas intermedias controlables entre el conjunto de BLU y los elementos de pantalla lCd . Sus BLU a base de conjuntos de LED y modulación dual (o N-) aumenta eficazmente el DR referido a la visualización de los monitores LCD que tienen tales características.

Tales “pantallas HDR” como a menudo se llaman (aunque en realidad, sus capacidades pueden aproximarse más al rango de VDR) y la extensión de DR de la que son capaces, en relación con las pantallas SDR convencionales representan un avance significativo en la capacidad de visualizar contenido de imágenes, video y otra información visual. La gama de colores que tal pantalla HDR puede representar también puede exceder significativamente la gama de colores de las pantallas más convencionales, incluso hasta el punto de representar una amplia gama de colores (WCG). El contenido de imágenes de HDR o VDR y WCG relacionado con escenas, tal como el que puede ser generado por cámaras cinematográficas y de TV de "próxima generación", ahora se pueden mostrar más fiel y eficazmente con las pantallas “HDR” (en adelante referidas como “pantallas HDR”).

Al igual que con las tecnologías de codificación de video escalable y de HDTV, extender el DR de la imagen normalmente implica un enfoque bifurcado. Por ejemplo, el contenido HDR referido a la escena que se captura con una cámara con capacidad HDR moderna se puede utilizar para generar una versión de SDR del contenido, que puede mostrarse en pantallas SDR convencionales. En un enfoque, generar la versión SDR a partir de la versión VDR capturada puede implicar la aplicación de un operador de mapeo tonal (TMO - Tone Mapping Operator, en inglés) global a los valores de píxel relacionados con la intensidad (p. ej., luminancia, luma) en el contenido HDR. En un segundo enfoque, tal como se describe en la Solicitud de Patente Internacional N° PCT/US2011/048861 presentada el 23 de agosto de 2011, incorporada en el presente documento como referencia para todos los fines, generar una imagen SDR puede implicar la aplicación de un operador (o predictor) invertible en los datos VDR. Para conservar el ancho de banda o debido a otras consideraciones, la transmisión del contenido de VDR capturado real puede no ser el mejor enfoque.

Por lo tanto, un operador de mapeo tonal inverso (iTMO - inverse Tone Mapping Operator, en inglés), invertido en relación con el TMO original, o un operador inverso en relación con el predictor original, puede aplicarse a la versión del contenido SDR que se generó, lo que permite predecir una versión del contenido de VDR. La versión del contenido VDR prevista se puede comparar con el contenido HDR capturado originalmente. Por ejemplo, sustraer la versión VDR prevista de la versión VDR original puede generar una imagen residual. Un codificador puede enviar el contenido SDR generado como una capa base (BL - Base Layer, en inglés), y empaquetar la versión del contenido SDR generado, cualquier imagen residual y el iTMO u otros predictores como una capa de mejora (EL -Enhancement Layer, en inglés) o como metadatos.

Enviar la EL y los metadatos, con su contenido SDR, residuo y predictores, en un flujo de bits normalmente consume menos ancho de banda del que se consumiría al enviar ambos contenidos HDR y SDR directamente en el flujo de bits. Los decodificadores compatibles que reciben el flujo de bits enviado por el codificador pueden decodificar y representar el SDR en pantallas convencionales. Sin embargo, los decodificadores compatibles también pueden utilizar la imagen residual, los predictores iTMO o los metadatos para calcular una versión prevista del contenido HDR a partir de los mismos, para la utilización en pantallas de mayor capacidad. El objeto de esta invención es proporcionar métodos novedosos para generar predictores que permiten la codificación, transmisión y decodificación eficaz de datos VDR utilizando los datos SDR correspondientes.

Los enfoques descritos en esta sección son enfoques que podrían aplicarse, pero no necesariamente enfoques que hayan sido previamente concebidos o aplicados. Por lo tanto, a menos que se indique lo contrario, no debe suponerse que cualquiera de los enfoques descritos en esta sección se califican como de la técnica anterior, meramente en virtud de su inclusión en esta sección. De manera similar, no se debe suponer que las cuestiones identificadas con respecto a uno o más enfoques han sido reconocidos en cualquier técnica anterior en base a esta sección, a menos que se indique otra cosa.

El documento EP 2009921 A2 da a conocer métodos para codificar y decodificar una secuencia de imágenes con profundidades de bit escalables. En particular, los métodos llevan a cabo una asignación tonal inversa de las imágenes.

El documento EP 2144444 A1 da a conocer métodos de compresión de una secuencia de datos de un fotograma de video, en los que se determinan funciones de mapeo tonal. Dichas funciones de mapeo tonal son diferentes de otra para fotogramas relativos a diferentes escenas, y las funciones de mapeo tonal están alteradas por fotogramas de la secuencia relativa a la misma escena.

El documento US 2009/097561 A1 da a conocer métodos relativos a la mejora de la profundidad de bits para codificación de video escalable.

El documento “Bit Depth”, 26. JVT MEETING; 83. MPEG MEETING; 13-1-2008-18-1-2008, ANTALYA, n° JVT-Z045, de YU Y ET AL, presentado el 22 de enero de 2008 describe un trabajo de investigación sobre la SVC de profundidad de bits. En particular, aplicando un filtro a la imagen reconstruida a partir de la capa inferior, se puede conseguir una media de 6,0 % BD^bR o una media de 0,20 dB BDPSNR.

El documento 2008/128898 A1 da a conocer métodos para codificar / decodificar datos de video para el caso en que dos o más versiones del video con diferentes profundidades de bits de color utilicen diferente codificación de video. BREVE DESCRIPCIÓN DE LOS DIBUJOS

Una realización de la presente invención se ilustra a modo de ejemplo, y no a modo de limitación, en las figuras de los dibujos adjuntos, y en los que los mismos números de referencia se refieren a elementos similares, y en los que: la FIG. 1 representa un flujo de datos de ejemplo para un sistema VDR-SDR, de acuerdo con una realización de la presente invención;

la FIG. 2 representa un sistema de codificación VDR de ejemplo, de acuerdo con una realización de la presente invención;

la FIG. 3 representa las interfaces de entrada y salida de un predictor de regresión múltiple multivariante, de acuerdo con una realización de la presente invención;

la FIG. 4 representa un proceso de predicción de regresión múltiple multivariante de ejemplo, de acuerdo con una realización de la presente invención;

la FIG. 5 representa un proceso de ejemplo para decidir sobre el modelo de un predictor de regresión múltiple multivariante, de acuerdo con una realización de la presente invención;

la FIG. 6 representa un decodificador de imagen de ejemplo con un predictor que funciona de acuerdo con las realizaciones de esta invención.

Descripción de las realizaciones de ejemplo

La predicción de imagen entre colores basada en el modelado de regresión múltiple multivariante se describe en el presente documento. Dado un par de imágenes VDR y SDR correspondientes, es decir, imágenes que representan la misma escena, pero a diferentes niveles de rango dinámico, esta sección describe los métodos que permiten a un codificador aproximar la imagen VDR en términos de la imagen SDR, y de un predictor de regresión múltiple multivariante (MMR - Multivariante Multi-Regression, en inglés). En la siguiente descripción, para los fines de la explicación, se exponen numerosos detalles específicos para proporcionar una comprensión completa de la presente invención. Sin embargo, será evidente que la presente invención se puede poner en práctica sin estos detalles específicos. En otros casos, las estructuras y dispositivos bien conocidos no se describen exhaustivamente, para evitar ocluir, enmascarar u oscurecer innecesariamente la presente invención.

RESUMEN

Las realizaciones de ejemplo descritas en el presente documento se refieren a imágenes de codificación con alto rango dinámico. Una realización crea un predictor de MMR que permite expresar una imagen VDR en relación con su representación SDR correspondiente.

Sistema vdr-sdr de ejemplo

La FIG. 1 representa un flujo de datos de ejemplo en un sistema VDR-SDR 100 de acuerdo con una realización de la presente invención. Se captura una imagen o secuencia de video HDR utilizando la cámara HDR 110. Después de la captura, la imagen o video capturado se procesa mediante un proceso de masterización para crear una imagen VDR objetivo 125. El proceso de masterización puede incorporar una variedad de pasos de procesamiento, tales como: edición, corrección de color primaria y secundaria, transformación de color y filtrado de ruido. La salida VDR 125 de este proceso representa la intención del director sobre cómo se visualizará la imagen capturada en una pantalla VDR de destino.

El proceso de masterización también puede generar una imagen SDR 145 correspondiente, que representa la intención del director de cómo se visualizará la imagen capturada en una pantalla de SDR tradicional. La salida SDR 145 puede proporcionarse directamente desde el circuito de masterización 120 o puede generarse con un convertidor de VDR a SDR 140 separado.

En esta realización de ejemplo, las señales VDR 125 y SDR 145 se introducen en un codificador 130. El objetivo del codificador 130 es crear un flujo de bits codificado que reduzca el ancho de banda requerido para transmitir las señales VDR y SDR, pero también permite a un decodificador 150 correspondiente decodificar y representar cualquiera de las señales SDR o VDR. En una implementación de ejemplo, el codificador 130 puede ser un codificador en capas, tal como uno de los definidos por los estándares de codificación MPEG-2 y H.264, que representa su salida como una capa base, una capa de mejora opcional y metadatos. Tal como se utiliza en el presente documento, el término "metadatos" se refiere a cualquier información auxiliar que se transmite como parte del flujo de bits codificado y ayuda a un decodificador a representar una imagen decodificada. Tales metadatos pueden incluir, pero no están limitados a, datos tales como: espacio de color o información de gama, información de rango dinámico, información de mapeo tonal, u operadores de predictor de MMR, tales como los descritos en el presente documento.

En el receptor, un decodificador 150, utiliza los flujos de bits codificados recibidos y los metadatos para representar una imagen SDR o una imagen VDR, de acuerdo con las capacidades de la pantalla de destino. Por ejemplo, una pantalla SDR puede utilizar solo la capa base y los metadatos para representar una imagen SDR. Por el contrario, una pantalla VDR puede utilizar información de todas las capas de entrada y los metadatos para representar una señal VDR.

La FIG. 2 muestra más en detalle una implementación de ejemplo del codificador 130 que incorpora los métodos de esta invención. En la FIG. 2, SDR’ denota una señal SDR mejorada. Hoy, el video SDR es de datos de 8 bits, 4:2:0, ITU Rec. 709. El SDR’ puede tener el mismo espacio de color (primarios y punto blanco) que el SDR, pero puede utilizar alta precisión, digamos, 12 bits por píxel, con todas las componentes de color a resolución espacial completa (p. ej., RGB 4:4:4). De la FIG. 2, el SDR puede derivarse fácilmente a partir de una señal SDR’ utilizando un conjunto de transformadas directas que pueden incluir cuantificación, digamos, de 12 bits por píxel a 8 bits por píxel, transformación de color, digamos, de RGB a YUV, y submuestreo de color, digamos, de 4:4:4 a 4:2:0. La salida SDR del convertidor 210 se aplica al sistema de compresión 220. Dependiendo de la aplicación, el sistema de compresión 220 puede ser con pérdidas, tal como H.264 o MPEG-2, o sin pérdidas. La salida del sistema de compresión 220 puede transmitirse como una capa base 225. Para reducir la desviación entre las señales codificadas y decodificadas, no es inusual que el codificador 130 siga al proceso de compresión 220 con un proceso de descompresión 230 correspondiente y las transformadas inversas 240, correspondientes a las transformadas directas de 210. Por lo tanto, el predictor 250 puede tener las siguientes entradas: entrada VDR 205 y cualquier señal SDR’ 245, que corresponde a la señal SDR’ tal como será recibida por un decodificador correspondiente, o entrada SDR’ 207. El predictor 250, utilizando los datos VDR y SDR’ de entrada, creará la señal 257 que representa una aproximación o estimación de la entrada VDR 205. El sumador 260 sustrae el VDR previsto 257 del VDR original 205 para formar la señal residual 265 de salida. Posteriormente (no mostrado), la señal residual 265 también puede ser codificada por otro codificador con pérdidas o sin pérdidas, y puede ser transmitida al decodificador como una capa de mejora.

El predictor 250 también puede proporcionar los parámetros de predicción que se utilizan en el proceso de predicción como metadatos 255. Dado que los parámetros de predicción pueden cambiar durante el proceso de codificación, por ejemplo, fotograma por fotograma o escena por escena, estos metadatos pueden transmitirse al decodificador como parte de los datos que también incluyen la capa base y la capa de mejora.

Dado que tanto el VDR 205 como el SDR’207 representan la misma escena, pero están dirigidos a diferentes pantallas con diferentes características, tales como el rango dinámico y la gama de colores, se espera que haya una correlación muy estrecha entre estas dos señales. En una realización de ejemplo de esta invención, se desarrolla un predictor de regresión múltiple (MMR), multivariante 250 novedoso que permite predecir la señal VDR de entrada utilizando su señal SDR’ correspondiente y un operador de MMR multivariante.

EJEMPLO DE MODELOS DE PREDICCIÓN

La FIG. 3 muestra las interfaces de entrada y salida de un predictor de MMR 300 de acuerdo con una implementación de ejemplo de esta invención. De la FIG. 3, el predictor 330 recibe los vectores de entrada v 310 y s 320, que representan los datos de imagen VDR y SDR, respectivamente, y da salida al vector v 340, que representa el valor previsto de la entrada v .

Notación y Nomenclatura de Ejemplo

Denotar las tres componentes de color del i-ésimo pixel en la imagen SDR 320 como

S* = k ^{Si2 Si3.} (1)

Denotar las tres componentes de color del i-ésimo pixel en la entrada VDR 310 como

Denotar las tres componentes de color previstas del /-ésimo pixel en el VDR previsto 340 como

Denotar el número total de píxeles en una componente de color como p.

En las ecuaciones (1-3), los píxeles de color pueden estar en RGB, YUV, YCbCr, XYZ o cualquier otra representación de color. Mientras las ecuaciones (1-3) suponen una representación de tres colores para cada uno de los píxeles en una imagen o fotograma de video, como también se muestra más adelante, los métodos descritos en el presente documento pueden extenderse fácilmente a representaciones de imágenes y videos con más de tres componentes de color por píxel, o a la representación de imágenes donde una de las entradas puede tener píxeles con un número diferente de representaciones de color que la otra entrada.

Modelo de primer orden (MMR-1)

Utilizando un modelo de regresión múltiple multivariante (MMR), el modelo de predicción de primer orden se puede expresar como:

donde MI(1) es una matriz de 3x3 y n es un vector de 1x3 definido como:

Destacar que este es un modelo de predicción de múltiples canales de color. En v¡ de la ecuación (4), cada una de las componentes de color se expresa como una combinación lineal de todas las componentes de color en la entrada. En otras palabras, a diferencia de otros predictores de color de un solo canal, donde cada uno de los canales de color se procesa por sí mismo e independientemente el uno del otro, para cada uno de los píxeles de salida, este modelo toma en consideración todas las componentes de color de un píxel y, así, aprovecha al máximo cualquier correlación entre colores y redundancia.

Al recopilar todos los píxeles p de un fotograma (u otra porción o partición adecuada de una entrada) juntos, se puede tener la siguiente expresión de matriz,

representan los datos de entrada y de salida previstos, S’’ es una matriz de datos de px4, V es una matriz de px3, y M(1) es una matriz de 4x3. Tal como se utiliza en el presente documento, M(1) se puede referir, indistintamente, como un operador multivariante o como una matriz de predicción.

Basado en este sistema lineal de ecuaciones (8), se puede formular este sistema de MMR como dos problemas diferentes: (a) un problema de mínimos cuadrados, o (b) un problema de mínimos cuadrados totales; ambos pueden resolverse utilizando métodos numéricos bien conocidos. Por ejemplo, utilizando un enfoque de mínimos cuadrados, el problema de resolver M puede formularse como minimizar el error cuadrático medio residual o de predicción, o

m n l v - v l , (10)

M111 II II

donde V es una matriz de px3 formada utilizando los datos de entrada VDR correspondientes.

Dadas las ecuaciones (8) y (10), la solución óptima para M(1) viene dada por

(11)

donde, S’T denota la transposición de S’, y S’TS’ es una matriz de 4x4.

Si S’ tiene rango de columna completo, p. ej.,

entonces M(1) también se puede resolver utilizando una variedad de técnicas numéricas alternativas, que incluyen descomposiciones SVD, QR o LU.

Modelo de segundo orden (MMR-2)

La ecuación (4) representa un modelo de predicción de MMR de primer orden. También se puede considerar adoptar un orden superior de predicción tal como se describe a continuación.

El modelo de predicción de MMR de segundo orden se puede expresar como:

donde MI(2) es una matriz de 3x3,

Al recopilar todos los píxeles p juntos, se puede definir la siguiente expresión de matriz:

(17)

donde

La ecuación (14) puede resolverse utilizando la misma optimización y soluciones que se describieron en la sección anterior. La solución óptima para M(2) para el problema de mínimos cuadrados es

M (2)=(S(2)rS(2))“1S(2)ry , (19)

donde S(2)TS(2) es ahora una matriz de 7x7.

Los modelos de MMR de tercer orden o superiores también se pueden construir de una manera similar.

Modelo de primer orden con producto cruzado (MMR-1C)

En un modelo de MMR alternativo, el modelo de predicción de primer orden de la ecuación (4) se puede mejorar para incorporar multiplicaciones cruzadas entre las componentes de color de cada uno de los píxeles, como en:

y, =sc¿C(1)+s¿M (1)+n (20)

donde MI(1) es una matriz de 3x3 y n es un vector de 1x3, ambos tal como se define en la ecuación (5), y.

Siguiendo el mismo enfoque que antes, el modelo de MMR-1C de la ecuación (20) se puede simplificar utilizando una única matriz de predicción MC, tal como en:

donde

Al recopilar todos los píxeles p juntos, se puede derivar una expresión de matriz simplificada, como en

y = SC-MC(1) , (25)

donde

SC es una matriz de px(1 7 ) y la ecuación (25) se puede resolver utilizando la misma solución de mínimos cuadrados descrita anteriormente.

Modelo de segundo orden con productos cruzados (MMR-2C)

El modelo de primer orden MMR-1C puede extenderse para incluir también datos de segundo orden. Por ejemplo,

v¿ =sc;iCl‘J sijM í2) -t-scj:C'" siM 1I) n , (27)

donde

y las componentes de la ecuación (27) restantes son los mismas que las definidas anteriormente en las ecuaciones (5-26).

Como antes, la ecuación (27) puede simplificarse utilizando una matriz de predicción simple MC(2),

donde

y

sc|2)-[l s; sc; s2 se2]. (31)

Al recopilar todos los píxeles p juntos, se puede tener una expresión de matriz simplificada

donde

y SC(2) es una matriz de px(1 2 * 7) y se pueden aplicar las mismas soluciones de mínimos cuadrados tal como se ha descrito anteriormente.

Los modelos de tercer orden o superiores con parámetros de productos cruzados también se pueden construir de forma similar. Alternativamente, tal como se describe en el Capítulo 5.4.3 de “Digital Color Imaging Handbook’, CRC Press, 2002, editado por Gaurav Sharma, una representación de orden K del modelo de productos cruzados MMR también puede describirse utilizando la siguiente formulación:

(34)

(35)

y

K K K

% = £ £ £ nh * .v X s2s¡ > (36)

v-0.1-0 ;-0

donde K denota el orden más alto del predictor de MMR.

Extensión espacial basada en MMR (MMR-C-S)

En todos los modelos de MMR descritos hasta ahora, el valor de un píxel v, previsto solo depende de los valores de entrada correspondientes, colocados normalmente, de Si. Según la predicción basada en MMR, también se puede obtener beneficio tomando en consideración los datos de los píxeles vecinos. Este enfoque corresponde a la integración en el modelo de MMR de cualquier tipo de procesamiento lineal de las entradas en el dominio espacial, tal como el filtrado tipo FIR.

Si en una imagen se consideran los ocho píxeles vecinos posibles, este enfoque puede agregar hasta ocho variables de primer orden más por componente de color en nuestra matriz de predicción M. En la práctica, sin embargo, suele ser adecuado agregar solo las variables de predicción correspondientes a los dos píxeles vecinos horizontales y verticales, e ignorar los vecinos diagonales. Esto agregará hasta cuatro variables por componente de color en la matriz de predicción, es decir, aquellas correspondientes a los píxeles superior, izquierdo, inferior y derecho. De manera similar, también se pueden agregar los parámetros correspondientes al orden superior de los valores del píxel vecino.

Para simplificar los requisitos de complejidad y cálculo de dicho modelo de MMR espacial, se puede considerar agregar extensiones espaciales a los modelos tradicionales solo para una componente de color única, tal como la componente de luminancia (como en una representación Luma-Chroma) o la componente Verde (como en una representación RGB). Por ejemplo, suponiendo que se agrega la predicción de píxeles basada en el espacio para la componente de color solo verde, a partir de las ecuaciones (34-36), una expresión general para predecir un valor de píxel de salida verde sería

vg ( i , j ) = YJx=oZy=o 'Zz=o 'rng ,x ,y ,z S ? (¿ , j )S g ( i , j ) s % ( i , j )

Modelo de primer orden con extensión espacial (MMR-1-S)

Como otra implementación de ejemplo, se puede considerar nuevamente el modelo de MMR de primer orden (MMR-1) de la ecuación (4), pero ahora mejorado para incorporar extensiones espaciales en una o más de las componentes de color; Por ejemplo, cuando se aplica a cuatro píxeles vecinos de cada uno de los píxeles en la primera componente de color:

donde Ml(1) es una matriz de 3x3 y n es un vector de 1x3, ambos tal como se definen en la ecuación (5),

md\\) 0 0

jyn = mdl2i 0 0

m d f’ 0 0 ’

m d ^ 0 0_

y

s d ¿ = [5 ( i - l ) l s ( í l ) l S (¿-J?1)1 5 ( i+ m ) l ] , ( 39 )

donde m en la ecuación (39) denota el número de columnas en un fotograma de entrada con m columnas y n filas, o m x n = p píxeles totales. La ecuación (39) se puede extender fácilmente para aplicar estos métodos tanto a otras componentes de color como a configuraciones de píxeles vecinos alternativas.

Siguiendo los mismos enfoques que antes, la ecuación (38) se puede formular fácilmente como un sistema de ecuaciones lineales

V - SD ■ MD(1) , (40)

que se puede resolver tal como se ha descrito anteriormente.

Aplicación a señales VDR con más de tres colores primarios

Todos los modelos de predicción de MMR propuestos pueden extenderse fácilmente a espacios de señal con más de tres colores primarios. Como ejemplo, se puede considerar el caso en el que una señal SDR tiene tres colores primarios, digamos, RGB, pero la señal VDR se define en el espacio de color P6, con seis colores primarios. En este caso, las ecuaciones (1-3) se pueden reescribir como

Como antes, denótese el número de píxeles en una componente de color como p. Considerando ahora el modelo de predicción de MMR de primer orden (MMR-1) de la ecuación (4),

La ecuación (41) se puede expresar utilizando una única matriz de predicción M(1) tal como

donde

Al recopilar todos los píxeles p juntos, este problema de predicción se puede describir como

V - SMU) (49)

Los modelos de predicción de MMR de orden superior también se pueden extender de manera similar y las soluciones para las matrices de predicción se pueden obtener a través de los métodos presentados anteriormente. PROCESO DE EJEMPLO PARA LA PREDICCION DE REGRESION MULTIPLE MULTICANAL

La FIG. 4 muestra un proceso de ejemplo para la predicción de regresión múltiple multicanal de acuerdo con una implementación de ejemplo de nuestra invención.

El proceso comienza en el paso 410, en donde un predictor, tal como el predictor 250, recibe las señales VDR y SDR de entrada. Dadas las dos entradas, en el paso 420, el predictor decide qué modelo de MMR seleccionar. Tal como se ha descrito anteriormente, el predictor puede seleccionar entre una variedad de modelos de MMR, que incluyen (pero no necesariamente se limitan a): primer orden (MMR-1), segundo orden (MMR-2), tercer orden o superior, primer orden con producto cruzado (MMR-1C), segundo orden con producto cruzado (MMR-2C), tercer orden o superior con producto cruzado, o cualquiera de los modelos anteriores con extensiones espaciales agregadas.

La selección del modelo de MMR se puede realizar utilizando una variedad de métodos que tienen en cuenta una serie de criterios, que incluyen: conocimiento previo sobre las entradas SDR y VDR, recursos de cálculo y de memoria disponibles, y eficiencia de codificación objetivo. La FIG. 5 muestra una implementación de ejemplo del paso 420 en base al requisito de que la residual sea inferior a un umbral predeterminado.

Tal como se ha descrito anteriormente, cualquier modelo de MMR se puede representar como un conjunto de ecuaciones lineales de la forma

V - SM , (50)

donde M es una matriz de predicción.

En el paso 430, M puede resolverse utilizando una variedad de métodos numéricos. Por ejemplo, bajo la restricción de minimizar el cuadrado medio de la residual entre V y su estimación V ,

M =(SÍ S)^ 1SI V. (51)

Finalmente, en el paso 440, utilizando la ecuación (50), el predictor da salida a V ya M.

La FIG. 5 muestra un proceso 420 de ejemplo para seleccionar un modelo de MMR durante la predicción. El predictor 250 puede comenzar en el paso 510 con un modelo de MMR inicial, tal como el que se ha utilizado en un fotograma o escena anterior, por ejemplo, el modelo de segundo orden (MMR-2), o el modelo más simple posible, tal como el MMR-1. Después de resolver M, en el paso 520 el predictor calcula el error de predicción entre la entrada V y su valor previsto. En el paso 530, si el error de predicción es menor que un umbral dado, entonces el predictor selecciona el modelo existente y se detiene el proceso de selección (540), de lo contrario, en el paso 550, estudia si utiliza un modelo más complejo. Por ejemplo, si el modelo actual es MMR-2, el predictor puede decidir utilizar MMR-2-C o MMR-2-CS. Tal como se ha descrito anteriormente, esta decisión puede depender de una variedad de criterios, incluyendo el valor del error de predicción, los requisitos de procesamiento de potencia y la eficiencia de codificación objetivo. Si es factible utilizar un modelo más complejo, se selecciona un nuevo modelo en el paso 560 y el proceso vuelve de nuevo al paso 520. De lo contrario, el predictor utilizará el modelo existente (540).

El proceso de predicción 400 se puede repetir en una variedad de intervalos que se consideren necesarios para mantener la eficiencia de codificación mientras se utilizan los recursos de cálculo disponibles. Por ejemplo, cuando se codifican señales de vídeo, el proceso 400 se puede repetir por tamaño de segmento de vídeo predefinido, para cada uno de los fotogramas, un grupo de fotogramas, o siempre que el residuo de predicción exceda un umbral particular.

El proceso de predicción 400 también puede utilizar todos los píxeles de entrada disponibles o una submuestra de esos píxeles. En una implementación de ejemplo, se pueden utilizar píxeles sólo de cada k-ésima fila de píxeles y de cada k-ésima columna de píxeles de los datos de entrada, donde k es un número entero igual o mayor que dos. En otra implementación de ejemplo se puede decidir saltarse píxeles de entrada que están por debajo de un cierto umbral de recorte (por ejemplo, muy cerca de cero) o píxeles que están por encima de un cierto umbral de saturación (por ejemplo, para datos de n bits, los valores de los píxeles que están muy cerca de 2n - 1). En otra implementación más, se puede utilizar una combinación de tales técnicas de submuestreo y de umbralización con el fin de reducir el tamaño de la muestra de píxeles y admitir las limitaciones de cálculo de una implementación particular.

DECODIFICACIÓN DE IMAGEN

Las realizaciones de la presente invención se pueden implementar ya sea en un codificador de imagen o en un decodificador de imagen. La FIG. 6 muestra una implementación de ejemplo del decodificador 150 de acuerdo con una realización de esta invención.

El sistema de decodificación 600 recibe un flujo de bits codificado que puede combinar una capa base 690, una capa de mejora (o residual) 665 opcional y los metadatos 645, que se extraen después de la descompresión 630 y de diversas transformadas inversas 640. Por ejemplo, en un sistema VDR-SDR, la capa base 690 puede representar la representación SDR de la señal codificada y los metadatos 645 pueden incluir la información sobre el modelo de predicción de MMR que se utilizó en el predictor codificador 250 y los correspondientes parámetros de predicción. En una implementación de ejemplo, cuando el codificador utiliza un predictor de MMR de acuerdo con los métodos de esta invención, los metadatos pueden incluir la identificación del modelo que se utiliza (por ejemplo, MMR-1, MMR-2, MMR-2C y similares) y todos los coeficientes de la matriz asociados con ese modelo específico. La capa base 690 s dada y los parámetros de color relacionados con MMR extraídos de los metadatos 645, el predictor 650 puede calcular el V 680 previsto utilizando cualquiera de las ecuaciones correspondientes descritas en el presente documento. Por ejemplo, si el modelo identificado es MMR-2C, entonces V 680 se puede calcular utilizando la ecuación (32). Si no hay residual, o la residual es insignificante, al valor 680 previsto se le puede dar salida directamente como la imagen VDR final. De lo contrario, en el sumador 660, la salida del predictor (680) se añade a la residual 665 para dar salida a la señal VDR 670.

IMPLEMENTACIÓN DEL SISTEMA INFORMÁTICO DE EJEMPLO

Las realizaciones de la presente invención pueden implementarse con un sistema informático, sistemas configurados en circuitería y componentes electrónicos, un dispositivo de circuito integrado (IC - Integrated Circuit, en inglés), tal como un microcontrolador, una matriz de puertas programables en campo (FPGA - Field Programmable Gate Array, en inglés), u otro dispositivo lógico configurable o programable (PLD - Programmable Logic Device, en inglés), un procesador de tiempo discreto o de señal digital (DSP - Digital Signal Processor, en inglés), un IC de aplicación específica (ASIC - Application Specific IC), y/o aparato que incluye uno o más de tales sistemas, dispositivos o componentes. El ordenador y/o IC puede realizar, controlar o ejecutar las instrucciones relativas a la predicción basada en MMR, tales como las descritas en el presente documento. El ordenador y/o IC puede calcular, cualquiera de una variedad de parámetros o valores que se refieren a la predicción de m Mr tal como se describe en el presente documento. Las realizaciones de extensión de rango dinámico de imagen y de vídeo pueden implementarse en hardware, software, firmware y diversas combinaciones de los mismos.

Ciertas implementaciones de la invención comprenden procesadores informáticos que ejecutan instrucciones de software que hacen que los procesadores realicen un método de la invención. Por ejemplo, uno o más procesadores en una pantalla, un codificador, un decodificador, un transcodificador o similares pueden implementar métodos de predicción basados en MMR tal como se ha descrito anteriormente mediante la ejecución de instrucciones de software en una memoria de programa accesible para los procesadores. La invención también se puede proporcionar en forma de un producto de programa. El producto de programa puede comprender cualquier medio que transporta un conjunto de señales legibles por ordenador que comprenden instrucciones que, cuando se ejecutan por un procesador de datos, hacen que el procesador de datos ejecute un método de la invención. Los productos de programa de acuerdo con la invención pueden estar en cualquiera de una amplia variedad de formas. El producto de programa puede comprender, por ejemplo, medios físicos tales como medios de almacenamiento de datos magnético que incluyen disquetes, discos duros, medios de almacenamiento de datos ópticos que incluyen CD-ROM, DVD, medios de almacenamiento de datos electrónicos que incluyen ROM, RAM flash o similares. Las señales legibles por ordenador en el producto de programa pueden estar opcionalmente comprimidas o codificadas. Cuando un componente (p. ej. un módulo de software, procesador, conjunto, dispositivo, circuito, etc.) se refiere a lo anterior, a menos que se indique lo contrario, la referencia a ese componente (incluyendo una referencia a un "medio") debe interpretarse como incluyendo como equivalentes de ese componente cualquier componente que realiza la función del componente descrito (p. ej., que es equivalente funcionalmente), incluyendo componentes que no son equivalentes estructuralmente a la estructura dada a conocer que realiza la función en las realizaciones de ejemplo ilustradas de la invención.

EQUIVALENTES, EXTENSIONES, ALTERNATIVAS Y VARIOS

Las realizaciones de ejemplo que se refieren a aplicar la predicción de MMR en la codificación de imágenes VDR y SDR se describen así. En la memoria descriptiva anterior, las realizaciones de la presente invención se han descrito con referencia a numerosos detalles específicos que pueden variar de implementación a implementación. Por lo tanto, el único y exclusivo indicador de lo que es la invención, y se pretende por los solicitantes para ser la invención, es el conjunto de reivindicaciones que se facilitan de esta solicitud, en la forma específica en la cual se facilitan tales reivindicaciones, incluyendo cualquier corrección posterior. Definiciones cualesquiera expresamente establecidas en el presente documento para los términos contenidos en tales reivindicaciones regirán el significado de tales términos tal como se utilizan en las reivindicaciones. Por lo tanto, ninguna limitación, elemento, propiedad, característica, ventaja o atributo que no se cite expresamente en una reivindicación, de ninguna manera debe limitar el alcance de dicha reivindicación. La memoria descriptiva y los dibujos deben ser considerados, por consiguiente, en un sentido ilustrativo, en vez de restrictivo.

Claims

REIVINDICACIONES

1. En un sistema de video de codificación o decodificación, un método de predicción de imagen con un procesador, comprendiendo el método:

recibir una primera imagen;

recibir parámetros de predicción para un modelo de predicción de regresión múltiple multicanal (MMR), en el que el modelo de MMR se utiliza para predecir una segunda imagen a partir de una primera imagen, en el que la segunda imagen representa la misma escena que la primera imagen, y en el que un rango dinámico de la primera imagen es menor que un rango dinámico de la segunda imagen; y

aplicar la primera imagen y los parámetros de predicción al modelo de predicción de MMR para generar una imagen de salida que se aproxime a la segunda imagen, en el que los valores de píxel de al menos una componente de color de la imagen de salida se calculan en base a los valores de píxel de al menos dos componentes de color en la primera imagen, en el que, para generar un valor de píxel de salida predicho (v,) para una componente de luma y/o croma, el modelo de MMR comprende un modelo de MMR de primer orden con multiplicaciones cruzadas que comprenden:

un valor constante (n), al menos una combinación lineal de valores de píxel de dos componentes de color diferentes y, al menos, un término de la multiplicación de valores de píxel de dos componentes de color diferentes.

2. El método de la reivindicación 1, en el que el modelo de MMR calcula el valor del píxel de salida predicho (v,) de acuerdo con la fórmula:

mc\ ⁽ⁱ⁾ Js i±si2s i3,

(i) donde s*, k = 1, 2 y 3, denotan las tres componentes de color del píxel i-ésimo de la primera imagen, y mk (para k = 1,2 y 3), n y i (J = 1, 2, 3, 4) denotan los parámetros de predicción del modelo de MMR.

3. El método de la reivindicación 1, en el que la primera imagen comprende una imagen de rango dinámico estándar y la segunda imagen comprende una imagen de alto rango dinámico.

4. El método de la reivindicación 1, en el que el modelo de MMR comprende, además, al menos un cuadrado del valor de píxel de una de las componentes de color y al menos un cuadrado de una multiplicación de valores de píxel de dos componentes de color diferentes para formar un segundo modelo de MMR con multiplicaciones cruzadas.

5. El método de la reivindicación 4, en el que el modelo de MMR calcula el valor de píxel de salida predicho (v,) de acuerdo con la fórmula:

.ij s ;is ¿2 i me2 (i; s n + , ntCg UJ si₂Si3 , mc^ (1) s¿1s¿2s¿3

m c22 )<>¡iSÉ3)2 m c ¡ v ( s i zs a ) 2 m c f ) ( s i l s i2 í i3 ] 2,

donde mk y mci para k = 1, 2, 3, yy = 1, 2, 3, 4 denotan parámetros adicionales del modelo de MMR.

6. Un sistema de video, comprendiendo el sistema:

una entrada, para recibir una primera imagen y parámetros de predicción para un modelo de predicción de regresión múltiple multicanal (MMR), en el que el modelo de MMR se utiliza para predecir una segunda imagen a partir de una primera imagen, en el que la segunda imagen representa la misma escena que la primera imagen, y en el que un rango dinámico de la primera imagen es menor que un rango dinámico de la segunda imagen; y

un procesador, para aplicar la primera imagen y los parámetros de predicción al modelo de predicción de MMR para generar una imagen de salida que se aproxime a la segunda imagen, en el que los valores de píxel de al menos una componente de color de la imagen de salida se calculan en base a los valores de píxel de al menos dos componentes de color en la primera imagen, en el que, para generar un valor de píxel de salida predicho (v,) para una componente de luma y/o croma, el modelo de MMR comprende un modelo de MMR de primer orden con multiplicaciones cruzadas que comprenden: un valor constante (n), al menos una combinación lineal de valores de píxel de dos componentes de color diferentes y, al menos, un término de la multiplicación de valores de píxel de dos componentes de color diferentes.

7. El sistema de la reivindicación 6, en el que el modelo de MMR calcula el valor del píxel de salida predicho (v,) de acuerdo con la fórmula:

donde s*, k = 1, 2 y 3, denotan las tres componentes de color del píxel i-ésimo de la primera imagen, y mx (para k „ ,(.o)

=1,2 y 3), ny i (J = 1, 2, 3, 4) denotan los parámetros de predicción del modelo de MMR.

8. El sistema de la reivindicación 6, en el que la primera imagen es una imagen de rango dinámico estándar y la segunda imagen es una imagen de alto rango dinámico.

9. El método de la reivindicación 6, en el que el modelo de MMR comprende, además, al menos un cuadrado del valor de píxel de una de las componentes de color y al menos un cuadrado de una multiplicación de valores de píxel de dos componentes de color diferentes.

10. El sistema de la reivindicación 9, en el que el modelo de MMR calcula el valor del píxel de salida predicho (v,) de acuerdo con la fórmula:

donde mk y mci para k = 1, 2, 3, y_/'= 1, 2, 3, 4 denotan parámetros adicionales del modelo de MMR.

11. Un medio de almacenamiento no transitorio, legible por ordenador, que tiene almacenadas en el mismo instrucciones ejecutables por ordenador para ejecutar con uno o más procesadores un método de acuerdo con cualquiera de las reivindicaciones 1-5.