ES2996933T3

ES2996933T3 - Block-based content-adaptive reshaping for high dynamic range images

Info

Publication number: ES2996933T3
Application number: ES17154335T
Authority: ES
Inventors: Amin KHERADMAND; Guan-Ming Su; Cheng-Chi Li
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2016-02-02
Filing date: 2017-02-02
Publication date: 2025-02-13
Anticipated expiration: 2037-02-02
Also published as: EP3203442B1; US10032262B2; EP3203442A1; US20170221189A1

Abstract

Un procesador para la remodelación de señales recibe una imagen de entrada con una profundidad de bits de entrada. Se calculan las desviaciones estándar basadas en bloques. Las palabras de código de entrada se dividen en contenedores de palabras de código y a cada contenedor se le asigna un valor de desviación estándar. Para cada contenedor, se aplica una función de desviación estándar a la profundidad de bits a los valores del contenedor para generar valores de profundidad de bits mínimos para cada contenedor de palabras de código. Se genera una función de mapeo de palabras de código de salida en función de la profundidad de bits de entrada, una profundidad de bits de destino y los valores de profundidad de bits mínimos. La función de mapeo de palabras de código se aplica a la imagen de entrada para generar una imagen de salida en la profundidad de bits de destino. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Remodelación adaptable al contenido basada en bloques para imágenes de alto rango dinámico

Referencia cruzada a solicitudes relacionadas

Esta solicitud reivindica el beneficio de las solicitudes de patente provisionales de EE.UU. N°. 62/290,399, presentada el 2 de febrero de 2016, y N°. 62/334,099, presentada el 10 de mayo de 2016.

Tecnología

La presente invención se refiere en general a imágenes. Más particularmente, una realización de la presente invención se refiere a la remodelación adaptable al contenido basada en bloques de imágenes con alto rango dinámico.

Antecedentes

Tal como se usa en el presente documento, el término "rango dinámico" (DR) puede referirse a una capacidad del sistema visual humano (HVS) de percibir un rango de intensidad (por ejemplo, luminancia, luma) en una imagen, por ejemplo, desde los grises más oscuros (negros) a los blancos más brillantes (“iluminaciones”, del ingléshighlights).En este sentido, el DR se refiere a una intensidad 'referida a la escena'. El DR también puede referirse a la capacidad de un dispositivo de visualización de renderizar de forma adecuada o aproximada un rango de intensidad de una amplitud particular. En este sentido, el DR se refiere a una intensidad 'referida al dispositivo de visualización'. A menos que se especifique explícitamente que un sentido particular tiene una importancia particular en cualquier punto de la descripción en el presente documento, debería inferirse que el término puede usarse en cualquier sentido, por ejemplo, de manera intercambiable.

Tal como se usa en el presente documento, el término alto rango dinámico (HDR) se refiere a una amplitud de DR que abarca los aproximadamente 14-15 órdenes de magnitud del sistema visual humano (HVS). En la práctica, el DR sobre el que un ser humano puede percibir simultáneamente una extensa amplitud de rango de intensidad puede estar algo truncado, en relación con el HDR. Tal como se usan en el presente documento, los términos rango dinámico mejorado (EDR) o rango dinámico visual (VDR) pueden referirse individualmente o de manera intercambiable al DR que puede ser percibido dentro de una escena o imagen por un sistema visual humano (HVS) que incluye movimientos oculares, permitiendo algunos cambios de adaptación a la luz a través de la escena o imagen. Tal como se usa en el presente documento, EDR puede referirse a un DR que abarca de 5 a 6 órdenes de magnitud. Por lo tanto, aunque quizás algo más estrecho en relación con el HDR verdadero referido a la escena, el EDR representa sin embargo una gran amplitud de DR y también puede denominarse HDR.

En la práctica, las imágenes comprenden uno o más componentes de color (por ejemplo, luma Y y croma Cb y Cr) donde cada componente de color se representa mediante una precisión de n bits por píxel (por ejemplo, n=8). Usando codificación de luminancia lineal, las imágenes en las quen <8 (por ejemplo, imágenes JPEG en color de 24 bits) se consideran imágenes de rango dinámico estándar, mientras que las imágenes en las quen> 8 pueden considerarse imágenes de rango dinámico mejorado. Las imágenes EDR y HDR también pueden almacenarse y distribuirse usando formatos de punto flotante de alta precisión (por ejemplo, de 16 bits), como el formato de archivos OpenEXR desarrollado por Industrial Light and Magic.

Una función de transferencia electro-óptica (EOTF) de referencia para un dispositivo de visualización dado caracteriza la relación entre valores de color (por ejemplo, luminancia) de una señal de vídeo de entrada para proporcionar como salida valores de color de pantalla (por ejemplo, luminancia de pantalla) producidos por el dispositivo de visualización. Por ejemplo, ITU Rec. ITU-R BT. 1886, “Reference electro-optical transfer function for flat panel displays used in HDTC studio production”, (03/2011), que se incluye en el presente documento por referencia en su totalidad, define la EOTF de referencia para dispositivos de visualización planos en base a características medidas del tubo de rayos catódicos (CRT). Dado un flujo de vídeo, la información acerca de su EOTF está embebida típicamente en el flujo de bits como metadatos. Tal como se usa en el presente documento, el término "metadatos" se refiere a cualquier información auxiliar que se transmite como parte del flujo de bits codificado y que ayuda a un decodificador a renderizar una imagen decodificada. Dichos metadatos pueden incluir, pero no están limitados a, información de espacio o gama de color, parámetros de visualización de referencia y parámetros de señal auxiliares, como los descritos en el presente documento.

La mayoría de los dispositivos de visualización de escritorio comerciales soportan actualmente una luminancia de 200 a 300 cd/m2 o nits. La mayoría de las HDTV comerciales varían de 300 a 500 nits, con los nuevos modelos alcanzando 1000 nits (cd/m2). Estos dispositivos de visualización convencionales tipifican así un rango dinámico inferior (LDR), también denominado rango dinámico estándar (SDR), en relación con el HDR o el EDR. A medida que crece la disponibilidad de contenido HDR debido a los avances tanto en los equipos de captura de imágenes (por ejemplo, las cámaras) como en los dispositivos de visualización HDR (por ejemplo, el monitor de referencia profesional PRM-4200 de Dolby Laboratories), el contenido HDR puede ser sometido a gradación de color y visualizado en dispositivos de visualización HDR que soportan rangos dinámicos más altos (por ejemplo, de 1000 nits a 5000 nits o más). Tales visualizaciones pueden definirse usando EOTF alternativas que soportan alta capacidad de luminancia (por ejemplo, de 0 a 10000 nits). Un ejemplo de una EOTF de este tipo se define en SMPTE<S t>2084:2014 "High Dynamic Range EOTF of Mastering Reference Displays", que se incorpora en el presente documento por referencia en su totalidad. En general, sin limitación, los métodos de la presente divulgación se refieren a cualquier rango dinámico mayor que el SDR.

Tal como se usa en el presente documento, el término "remodelación hacia delante" denota el proceso de mapear (o cuantificar) una imagen HDR desde su profundidad de bits original a una imagen de una profundidad de bits menor o igual para permitir comprimir la imagen usando estándares o dispositivos de codificación existentes. En un receptor, después de descomprimir la señal remodelada, el receptor puede aplicar una función de remodelación inversa para restaurar la señal a su alto rango dinámico original. Como apreciaron los inventores en este caso, se desean técnicas mejoradas para la remodelación de imágenes de alto rango dinámico.

El documento WO 2014/204865 A1 describe un codificador que recibe una imagen de rango dinámico mejorado (EDR) de entrada para que sea codificada en una representación en capas. Las imágenes de entrada pueden ser gammacodificadas o perceptualmente-codificadas usando un formato de profundidad de bits no soportado por uno o más codificadores de vídeo. La imagen de entrada se re-mapea a una o más capas cuantificadas para generar palabras de código de salida adecuadas para su compresión usando los codificadores de vídeo disponibles. Se presentan algoritmos para determinar parámetros de función óptimos para funciones de mapeo lineales y no lineales. Dada una función de mapeo, la función de mapeo inversa puede transmitirse a un decodificador como una tabla de consulta o puede aproximarse usando una aproximación polinómica por tramos. También se presenta una técnica de aproximación polinómica para representar funciones de mapeo inverso y esquemas de traducción de cromaticidad para reducir las variaciones de color.

Las estrategias descritas en esta sección son estrategias que podrían seguirse, pero no necesariamente estrategias que se hayan concebido o se hayan seguido anteriormente. Por lo tanto, a menos que se indique lo contrario, no debería asumirse que ninguna de las estrategias descritas en esta sección reúne los requisitos para ser considerada técnica anterior solamente en virtud de su inclusión en esta sección. De manera similar, en base a esta sección no debería asumirse que los problemas identificados con respecto a una o más estrategias hayan sido reconocidos en ninguna técnica anterior, a menos que se indique lo contrario.

Compendio de la invención

La presente invención se define mediante las reivindicaciones independientes adjuntas. Las reivindicaciones dependientes se refieren a rasgos opcionales de algunas realizaciones de la presente invención.

Breve descripción de los dibujos

Una realización de la presente invención se ilustra a modo de ejemplo, y no a modo de limitación, en las figuras de los dibujos adjuntos, en los cuales números de referencia similares se refieren a elementos similares, y en los cuales:

La FIG. 1A representa un proceso de ejemplo para un canal de entrega de vídeo;

La FIG. 1B representa un proceso de ejemplo para compresión de datos usando cuantificación o remodelación adaptable al contenido según una realización de esta invención;

La FIG. 2 representa un proceso de ejemplo para remodelación adaptable al contenido, basada en bloques, según una realización de esta invención;

La FIG. 3 representa un ejemplo de una función de mapeo que mapea valores de desviación estándar media con profundidad de bits de señal requerida según una realización de esta invención;

La FIG. 4 representa ejemplos de asignaciones de palabras de código normalizadas calculadas según realizaciones de esta invención; y

La FIG. 5 representa un ejemplo de una función de remodelación hacia delante calculada según una realización de esta invención.

Descripción de realizaciones de ejemplo

En el presente documento se describen técnicas adaptables al contenido, basadas en bloques, para remodelación de imágenes de alto rango dinámico (HDR). En la siguiente descripción, con fines explicativos, se exponen numerosos detalles específicos con el fin de proporcionar una comprensión exhaustiva de la presente invención. Sin embargo, será evidente que la presente invención puede llevarse a la práctica sin estos detalles específicos. En otros casos, estructuras y dispositivos bien conocidos no se describen con un detalle exhaustivo, para evitar ocluir, ocultar u ofuscar innecesariamente la presente invención.

Descripción general

Las realizaciones de ejemplo descritas en el presente documento se refieren a remodelación de imágenes basada en bloques de imágenes HDR. Un procesador para la remodelación de la señal recibe una imagen de entrada con una profundidad de bits de entrada. La imagen se divide en bloques y se calcula una métrica de complejidad de cada bloque (por ejemplo, su desviación estándar). Las palabras de código de entrada se dividen en contenedores(bins)de palabras de código y a cada contenedor se le asigna una métrica de valor de complejidad. Para cada contenedor, una función de métrica de complejidad a profundidad de bits se aplica a los valores del contenedor para generar valores de profundidad de bits mínima para cada contenedor de palabras de código. Se genera una función de mapeo de palabras de código de salida en base a la profundidad de bits de entrada, a una profundidad de bits objetivo y a los valores de profundidad de bits mínima. La función de mapeo de palabras de código se aplica a la imagen de entrada para generar una imagen de salida en la profundidad de bits objetivo.

La medida de complejidad comprende calcular la desviación estándar de los bloques de imagen.

Canal de procesamiento de entrega de vídeo de ejemplo

La FIG. 1A representa un proceso de ejemplo de un canal de entrega de vídeo (100) convencional que muestra diferentes etapas desde la captura de vídeo hasta la visualización del contenido de vídeo. Usando el bloque de generación de imágenes (105) se captura o se genera una secuencia de fotogramas de vídeo (102). Los fotogramas de vídeo (102) pueden capturarse digitalmente (por ejemplo, mediante una cámara digital) o generarse mediante un ordenador (por ejemplo, usando animación por ordenador) para proporcionar datos de vídeo (107). Alternativamente, los fotogramas de vídeo (102) pueden capturarse en película mediante una cámara de película. La película se convierte a un formato digital para proporcionar datos de vídeo (107). En una fase de producción (110), se editan los datos de vídeo (107) para proporcionar un flujo de producción de vídeo (112).

Los datos de vídeo del flujo de producción (112) se proporcionan a continuación a un procesador en el bloque (115) para edición de posproducción. La edición de posproducción en el bloque (115) puede incluir ajustar o modificar colores o brillo en áreas particulares de una imagen para mejorar la calidad de la imagen o lograr una apariencia particular para la imagen de acuerdo con la intención creativa del creador de vídeo. Esto se denomina a veces "temporización de color” o "gradación de color". En el bloque (115) se puede realizar otra edición (por ejemplo, selección y secuenciación de escenas, recorte de imágenes, adición de efectos especiales visuales generados por ordenador, etc.) para producir una versión final (117) de la producción para su distribución. Durante la edición de posproducción (115), las imágenes de vídeo se ven en un dispositivo de visualización de referencia (125).

Después de la posproducción (115), los datos de vídeo de la producción final (117) pueden ser entregados al bloque de codificación (120) para su entrega aguas abajo a dispositivos de decodificación y reproducción tales como aparatos de televisión, decodificadores, salas de cine y similares. En algunas realizaciones, el bloque de codificación (120) puede incluir codificadores de audio y de vídeo, tales como los definidos por ATSC, DVB, DVD, Blu-Ray y otros formatos de entrega, para generar un flujo de bits codificado (122). En un receptor, el flujo de bits codificado (122) es decodificado por la unidad de decodificación (130) para generar una señal decodificada (132) que representa una aproximación idéntica o parecida de la señal (117). El receptor puede estar unido a un dispositivo de visualización de destino (140) que puede tener características completamente diferentes al dispositivo de visualización de referencia (125). En ese caso, se puede usar un bloque de gestión de visualización (135) para mapear el rango dinámico de la señal decodificada (132) a las características del dispositivo de visualización de destino (140) generando una señal mapeada al dispositivo de visualización (137).

Remodelación de señal

Actualmente, la mayoría de las interfaces digitales para la entrega de vídeo, tales como la Interfaz Digital Serie (SDI) están limitadas a 12 bits por píxel y por componente. Además, la mayoría de los estándares de compresión, tales como H.264 (o AVC) y H.265 (o HEVC), están limitados a 10 bits por píxel y por componente. Por lo tanto, se requiere una codificación y/o una cuantificación eficiente(s) para soportar contenido HDR, con rango dinámico de aproximadamente 0,001 a 10000 cd/m2 (o nits), dentro de las infraestructuras y estándares de compresión existentes.

El término "PQ", tal como se usa en el presente documento, se refiere a la cuantificación perceptual de la amplitud de luminancia. El sistema visual humano responde a niveles de luz crecientes de una manera muy no lineal. La capacidad de un ser humano para ver un estímulo se ve afectada por la luminancia de ese estímulo, el tamaño del estímulo, las frecuencias espaciales que constituyen el estímulo, y el nivel de luminancia al que los ojos se han adaptado en el momento particular en que se está viendo el estímulo. En una realización preferida, una función cuantificadora perceptual mapea niveles de gris de entrada lineal a niveles de gris de salida que coinciden mejor con los umbrales de sensibilidad de contraste en el sistema visual humano. Una función de mapeo de PQ de ejemplo se describe en SMPTE ST 2084:2014 "High Dynamic Range EOTF of Mastering Reference Displays", que se incorpora en el presente documento por referencia en su totalidad, donde dado un tamaño de estímulo fijo, para cada nivel de luminancia (es decir, el nivel de estímulo), se selecciona un paso de contraste visible mínimo en ese nivel de luminancia según el nivel de adaptación más sensible y la frecuencia espacial más sensible (de acuerdo con modelos del HVS). En comparación con la curva gamma tradicional, que representa la curva de respuesta de un dispositivo de tubo de rayos catódicos (CRT) físico y que casualmente puede tener una similitud muy basta con la forma en que responde el sistema visual humano, una curva de PQ imita la respuesta visual verdadera del sistema visual humano usando un modelo funcional relativamente sencillo.

Por ejemplo, bajo SMPTE ST 2084, a 1 cd/m2, un valor de código de 12 bits corresponde a un cambio relativo de aproximadamente 0,0048 cd/m2; sin embargo, a 1000 cd/m2, un valor de código de 12 bits corresponde a un cambio relativo de aproximadamente 2,24 cd/m2. Esta cuantificación no lineal es necesaria para adaptarse a la sensibilidad de contraste no lineal del sistema visual humano (HVS).

Otro ejemplo de una EOTF perceptualmente cuantificada se presenta en "Cromaticity based color signals for wide color gamut and high dynamic range", de J. Stessen et al., ISO/IEC JTC1/SC29/WG11 MPEG2014/M35065, octubre de 2014, que se incorpora en el presente documento por referencia en su totalidad.

La sensibilidad de contraste del HVS no sólo depende de la luminancia sino también de las características de enmascaramiento del contenido de la imagen (más particularmente ruido y textura), así como del estado de adaptación del HVS. Dicho de otra forma, dependiendo del nivel de ruido o las características de textura de una imagen, el contenido de la imagen puede cuantificarse con pasos de cuantificación más grandes que los previstos por cuantificadores PQ o gamma, debido a artefactos de cuantificación de máscara de textura y de ruido. La cuantificación PQ describe lo mejor que puede conseguir el HVS, lo cual se produce cuando no hay ningún ruido o enmascaramiento en la imagen. Sin embargo, para muchas imágenes (fotogramas de un vídeo), existe un enmascaramiento significativo.

Además del enmascaramiento de ruido y textura, otras características de comportamiento visual, tales como el destello óptico y la adaptación local también se pueden tener en cuenta para aumentar el nivel de cuantificación y permitir representar imágenes HDR a 10 bits o menos por componente de color. Tal como se usan en el presente documento, los términos "PQ adaptable al contenido" o "remodelación adaptable al contenido" denotan métodos para ajustar de forma adaptable la cuantificación perceptual de imágenes en base a su contenido.

La FIG. 1B representa un proceso de ejemplo para remodelación adaptable al contenido según una realización. Dados unos fotogramas de entrada (117), un bloque de remodelación hacia delante (150) analiza la entrada y las restricciones de codificación y genera funciones de mapeo de palabras de código que mapean los fotogramas de entrada (117) a fotogramas de salida recuantificados (152). Por ejemplo, la entrada (117) se puede gamma-codificar o PQ-codificar de acuerdo con cierta EOTF. En algunas realizaciones, la información acerca del proceso de remodelación puede comunicarse a dispositivos de aguas abajo (como por ejemplo decodificadores) usando metadatos. Después de la codificación (120) y la decodificación (130), los fotogramas decodificados (132) pueden procesarse mediante una función de remodelación hacia atrás (160), que convierte los fotogramas recuantificados (132) de vuelta al dominio de la EOTF original (por ejemplo, gamma o PQ), para un procesamiento adicional aguas abajo, tal como el proceso de gestión de visualización (135) expuesto anteriormente. En algunas realizaciones, la función de remodelación hacia atrás o inversa (160) puede estar integrada con un descuantificador en el decodificador (130), por ejemplo, como parte del descuantificador en un decodificador de vídeo AVC o HEVC.

Un ejemplo de una función de remodelación de señal se presentó en la solicitud de patente provisional de EE.UU. con n° de serie 62/126,925, presentada el 2 de marzo de 2015, "Content-adaptive perceptual quantizer for high dynamic range images", de J. Froehlich et al., que se incorpora en el presente documento por referencia en su totalidad, a la cual se denominará la solicitud '925, o el método CAQ. Según el método CAQ, la función de remodelación se calcula según un histograma de máscara de ruido de la imagen de entrada. Como alternativa, a continuación, se describen técnicas de remodelación basada en bloques.

Remodelación basada en bloques

La FIG. 2 representa un proceso de ejemplo para remodelación adaptable al contenido basada en bloques según una realización de esta invención. Tal como se representa en la FIG. 2, dada una secuencia de imágenes (por ejemplo, fotogramas de vídeo) (117), en el bloque (205), cada imagen se divide en bloques no superpuestos y se calcula la desviación estándar (o) para los valores de píxel en cada bloque. En el paso (210), las palabras de código de entrada se dividen en contenedores y se calcula la desviación estándar media para cada contenedor. El bloque (215) calcula el número mínimo de bits requeridos para cada contenedor. En base a esta información, en el bloque (220), se asignan palabras de código de salida a cada contenedor. Finalmente, en (225), se construye una función de remodelación hacia delante en base a la asignación de palabras de código de salida. Cada uno de estos pasos se describe con más detalle a continuación.

En una realización, sin limitación, supongamos queIj(p)denota el p-ésimo píxel de un componente de color bajo cuantificación (por ejemplo, luminancia) en el j-ésimo fotograma en la secuencia de entrada (117), normalizado a [0 1). Supongamos quevl¡yvh¡denotan los valores de píxel mínimo y máximo en este fotograma, o

El fotogramaI¡se divide en bloques rectangulares, no solapados, (por ejemplo, enn*nbloques, donden= 16). Denótese el conjunto de píxeles dentro del k-ésimo bloque comoG¡, k= {p |p e bloque(k)}.Entonces, la media y la desviación estándar de los valores de píxel dentro del k- ésimo bloque, de tamañon*n,se pueden calcular como:

Todos los píxeles en el k-ésimo bloque del j-ésimo fotograma están asociados a la misma desviación estándar,stdj,k. Paratodos los píxeles en el j-ésimo fotograma, supongamos queHj(p)denota la desviación estándar asociada al píxelpen el j-ésimo fotograma. En el proceso de diseñar una función de remodelación para el fotogramajpueden excluirse algunos píxeles enH(p).Estos píxeles pueden incluir:

• Píxeles de un área de buzón dentro de la imagen de entrada (es decir, áreas oscuras añadidas a una imagen de modo que su tamaño coincida con una cierta relación de aspecto). Los píxeles en áreas de buzón tienen valores constantes, por lo tanto, desviación estándar cero.

• Píxeles en los extremos derecho e inferior del fotograma. Si el tamaño de la imagen no se adapta a un número entero de losn*nbloques, entonces se pueden excluir áreas de píxeles en los extremos derecho e inferior del fotograma, donde sus correspondientes bloques tienen un tamaño más pequeño.

Supongamos que Qj denota el conjunto de índices de píxel válidos (no excluidos) para el j-ésimo fotograma. Seaiun índice dentro de Qj. Entonces,

denota, para cada píxel válido en el j-ésimo fotograma, la desviación estándar asociada con el píxelien el j-ésimo fotograma. Los resultados experimentales indican que los mapas de desviación estándar proporcionan una representación buena, y sencilla de calcular, del contenido en frecuencia subyacente en cada fotograma y, por lo tanto, se pueden usar para decidir cómo asignar diferentes profundidades de bits a diferentes regiones en cada fotograma. Sin embargo, los métodos descritos en el presente documento son igualmente aplicables usando métricas alternativas de la complejidad de un bloque de imagen, tales como su varianza, su entropía, respuesta en frecuencia y similares.

Supongamos queBidenota la profundidad de bits de la imagen de entrada (117) (por ejemplo,Bi =16) y seaK = 2 Bl ,entonces el rango dinámico 0 aK-1puede dividirse en M contenedores de igual número (W) de palabras de código de entrada, es decirW = K/M.Supongamos quebj,mdenota la desviación estándar media de todos los píxeles válidos con valores de entrada pertenecientes al m-ésimo contenedor, dondem= 0, 1, ...,M-1.Es decir, para /,(/),ie Qj,

si

entonces

Obsérvese que para imágenes específicas podrían existir algunos contenedores de palabras codificadas sin ningún píxel dentro de ellos. Estos contenedores pueden marcarse de modo que puedan tenerse en cuenta y/o ajustarse adecuadamente en el siguiente paso.

Las funciones de remodelación de señales pueden generarse al nivel de fotograma o al nivel de escena. Tal como se usa en el presente documento, los términos 'escena' o 'captura' para una secuencia de vídeo pueden referirse a una serie de fotogramas consecutivos en la señal de vídeo que comparten características de color y rango dinámico similares. Debido a la naturaleza consecutiva de la predicción de vídeo en la mayoría de los formatos de compresión de vídeo, puede ser preferible ajustar los parámetros de cuantificación solo en límites que coincidan con los límites típicos de un codificador de vídeo, como cambios de escena o un nuevo grupo de imágenes (GOP). Así, dada una escena conFfotogramas ybj,mvalores basados en fotogramas, una medida basada en la escena de la desviación estándar en cada contenedor puede derivarse como

Para contenedores sin ningún valor de píxel válido dentro de una escena completa, en una realización, su desviación estándar se establece en un número grande (digamos, 1 o mayor) para garantizar que no se les asigna ninguna palabra de código. En otra realización, supongamos que<vl>y<vh>denotan los valores de píxel mínimo y máximo dentro de una escena, es decir:

entonces para los contenedores vacíos, se puede emplear el siguiente proceso:

• Si los valores de luminancia en un contenedor son menores que<vl>, entonces asignar a este contenedor el mismo valor de desviación estándar media que el contenedor más cercano a la derecha

• O, si los valores de luminancia en un contenedor son mayores quevh,entonces asignar a este contenedor el mismo valor de desviación estándar media que el contenedor más cercano a la izquierda

• O, interpolar el valor de contenedor a partir de sus contenedores vecinos

Profundidad mínima de bits por contenedor

Dados losbmniveles calculados para una escena, el paso siguiente sería determinar el número de bits que es necesario asignar para cada contenedor. En una realización, un mapeo de este tipo puede determinarse en base a resultados experimentales de estudios con usuarios. Por ejemplo, en uno de estos estudios, a los usuarios se les mostraron para evaluar imágenes de prueba construidas como sigue:

a) Una selección de fotogramas HDR de 16 bits se convirtió del espacio RGB original al espacio de color a utilizar durante la etapa de compresión (120)

b) Las imágenes sometidas a transformación de color se truncaron (comenzando desde el bit menos significativo (LSB)) a profundidades de bit que variaban desde 7 bits hasta 11 bits

c) Las imágenes truncadas en LSB se convirtieron de vuelta al espacio de color RGB

d) A continuación, para cada imagen, se determinó la profundidad de bits mínima requerida para la cual la imagen de salida no exhibe ningún artefacto, como por ejemplo un contorneado falso

La FIG. 3 representa un ejemplo de tales resultados para un conjunto de datos de vídeo codificados según el estándar ST 2084. En la FIG. 3, la curva (305) representa los resultados del peor caso para las imágenes probadas, representando así los requisitos de profundidad de bits del peor caso en función de la desviación estándar media calculada. De la FIG. 3, por ejemplo, para una desviación típica media de 2-8, la profundidad de bits requerida es de aproximadamente 9,75 bits. Como se esperaba, la FIG. 3 indica que las regiones de imagen con niveles más altos de complejidad pueden ser codificadas a profundidades de bits más pequeñas. Alternativamente, cuanto más suave sea la imagen, más profundidad de bits se necesita para una representación precisa y perceptualmente sin pérdidas.

Dado un conjunto de valores de desviación estándar media,stdi, con i= 0, 1,2, ..., N-1, dondestdi<stdi+1,supongamos queQidenota la profundidad de bits mínima calculada correspondiente. Basándose en estas muestras, se puede derivar una función de asignación de desviación estándar a profundidad de bits fe(), de modo que

En una realización, fe() puede ser una función lineal por tramos calculada usando interpolación lineal. Por ejemplo, para

Sin embargo, también podrían usarse otras técnicas de interpolación conocidas en la técnica, tales como interpolación bilineal, interpolación por splines, y similares.

En una realización, puede ser más conveniente realizar mapeo de palabras de código (220) en base al número de palabras de código requeridas dentro de cada contenedor en lugar de usar los datos de profundidad de bits directamente. Esto se examina en la siguiente sección.

Generación de mapeo de palabras de código

Supongamos queBtdenota la profundidad de bits objetivo para la señal recuantificada (152) (por ejemplo,Bt= 10 bits/píxel por componente de color), entonces la salida se mapeará usando2Btpalabras de código. En una realización, el intervalo de palabras de código se normaliza para que esté dentro de [0, 1), por lo tanto, supongamos que

denota el número de palabras de código normalizadas requeridas por cada contenedorm.Por ejemplo, siQm= 9,Bi= 16 yBt= 10, entoncesDm= 2-17.

Supongamos que

denota el número de palabras de código normalizadas por cada entradaie (0, 2B' - 1), entoncesdipuede considerarse un límite inferior para el número de palabras de código requeridas por cada palabra de código de entrada. El número total de palabras de código normalizadas para todas las palabras de código de salida,D,está limitado por 1, o

Supongamos queU=1- Ddenota el número de palabras de código normalizadas no utilizadas después de aplicar la ecuación (12). Es necesario reasignar estas palabras de código no utilizadas a palabras de código de salida según un criterio dado. En una realización, usando un esquema de asignación constante, para la entrada<vl><i<<vh>, se asignan la misma cantidad de palabras de código adicionales en base a la distribución existente, o

donde denota el número actualizado de valores de palabras de código normalizados. En la solicitud '925 también se presentaron técnicas de reasignación adicionales. En esta invención, también se propone otro esquema de asignación de palabras de código basado en la entropía calculada como se explica a continuación.

Considérese una región Q/ que rodea el i-ésimo píxel en el j-ésimo fotograma (por ejemplo, un área de 5 x 5 con el iésimo píxel en el centro), entonces la entropía del i-ésimo píxel puede calcularse como

dondep(k)denota una probabilidad empírica para la aparición del valor de píxelk.Por ejemplo:

donde |X| designa el número de elementos en el conjunto X.

Sin pérdida de generalidad, en una realización, supongamos que

representa un mapeo no lineal de los valores de entropía de modo que se asignan más palabras de código a regiones de mayor complejidad mientras que también se garantiza que áreas más suaves, con baja entropía, no obtienen demasiadas pocas palabras de código, evitando así artefactos de codificación. Después de normalizar con el valor máximo de entropía dentro de cada fotograma, la entropía final del /-ésimo fotograma viene dada por

Supongamos queEj, mdenota la entropía media dentro de cada contenedor de palabras de códigomen el j-ésimo fotograma, yEm = media(Ej,m|j= 0, 1, ... ,F- 1) denota la entropía media en cada contenedor de palabras de código dentro de una escena, entonces, en una realización, paravl<i<vh,las palabras de código no utilizadas se asignan en base a

donde a es una constante entre 0 y 1 (por ejemplo, a = 0,1) que determina qué proporción de las palabras de código no utilizadas se asigna utilizando un esquema de asignación constante, por ejemplo, como en la ecuación (14), y qué proporción tiene en cuenta los valores de entropía calculados,

y

En otra realización, sea

dondeaes una constante (por ejemplo,a= 1,4). Entonces, las palabras de código no utilizadas se asignan en base a

Los resultados experimentales han indicado que este esquema de asignación tiende a preservar mejor grano de película, ruido de cámara, o detalles a ciertas tasas de bits altas.

En una realización, las curvas de asignación también se pueden suavizar usando un filtro paso bajo o un filtro de media móvil para garantizar que la curva es suave y que la función de remodelación inversa es fácil de aproximar usando un polinomio por tramos. Por ejemplo, en una realización

donde

En una realización, no se asignan palabras de código a valores fuera del intervalo(vl ,v<h>), o

Además, en caso de que la suma de valores suavizados exceda 1, es necesario normalizar la asignación de palabras de código. Por ejemplo, si

entonces

Dada la asignación final de palabras de código en cada contenedor de palabras de código, se puede generar una función de remodelación hacia delante como

DadaFL(i),entonces, en el _/-ésimo fotograma, para un píxel de entrada dadoI(p)=i (i e(0,2Bl-1)) el valor final de píxel recuantificado, normalizado,s/ppuede expresarse como:

FIJO,SiVL <( <V¡,

En una realización, los valoresFL(i)pueden almacenarse en una tabla de consulta (LUT) calculada previamente. Alternativamente, los valoressjpnormalizados también pueden mapearse a valores desnormalizados en el intervalo 0 a 2Sr - 1.

La FIG. 4 representa gráficos de ejemplo para la asignación de palabras de código según realizaciones. El gráfico (610) muestra la asignación original en base a los valores de profundidad de bits más bajos calculados (por ejemplo, usando la ecuación (12)) para una escena, paraBi= 16 (las palabras de código de entrada van de 0 a 65,535). La FIG. 4 muestra también el número de palabras de código normalizadas después de la asignación final, usando curvas tanto suavizadas (620) como no suavizadas (615). La FIG. 5 representa una tabla de consulta de ejemplo para remodelar datos de entrada de 16 bits para obtener datos de salida de 10 bits según realizaciones de esta invención.

Los expertos en la técnica apreciarán que, aunque los métodos expuestos en el presente documento se basan en una medida de desviación estándar basada en bloques, también pueden aplicarse otras medidas de complejidad de bloques, tales como su varianza, entropía (por ejemplo, calculada en la ecuación (15)), componentes de transformada en frecuencia y similares.

Remodelación hacia atrás o inversa

En algunas realizaciones, puede aplicarse remodelación hacia atrás (160) para revertir los efectos de la remodelación hacia delante (150). En una realización, una tabla de consulta para cuantificación inversa puede construirse de la siguiente manera:

a) Para cada palabra de código en el dominio cuantificado (Sc), identificar todas las palabras de código de entrada (vi) para las cualesFL(vi) = sc.Supongamos que este grupo se denota como rn(sc) = {vi | FL(v,) = Sc}; entonces

b) Construir la función de remodelación hacia atrás(BL(Sc)como una función de rn(sc).

Por ejemplo, en una realización, sin limitación,BL(Sc)puede construirse como la media de todas las palabras de código que pertenecen a rn(Sc), o

si |m(Sc)| > 0,

entonces

donde |m(Sc)| denota el número de elementos en el conjunto rn(Sc). Si |m(Sc)|=0 para cualesquiera valoresSc,en una realización, estos valores pueden interpolarse a partir de sus valores vecinos distintos de cero. En otra realización, la remodelación hacia atrás puede definirse comomin(a(Sc)).

Implementación de SiStema informático de ejemplo

Las realizaciones de la presente invención pueden implementarse con un sistema informático, sistemas configurados en circuitos y componentes electrónicos, un dispositivo de circuito integrado (IC) tal como un microcontrolador, una matriz de puertas programables in situ (FPGA) u otro dispositivo lógico configurable o programable (PLD), un procesador de señales digitales o de tiempo discreto (DSP), un IC de aplicación específica (ASIC) y/o un aparato que incluya uno o más de tales sistemas, dispositivos o componentes. El ordenador y/o el IC pueden realizar, controlar o ejecutar instrucciones relacionadas con la remodelación basada en bloques de imágenes con rango dinámico mejorado, tales como las descritas en el presente documento. El ordenador y/o el IC pueden calcular cualquiera de una variedad de parámetros o valores relativos a los procesos de remodelación basada en bloques descritos en el presente documento. Las realizaciones de imagen y vídeo pueden implementarse en hardware, software, firmware y diversas combinaciones de estos.

Ciertas implementaciones de la invención comprenden procesadores informáticos que ejecutan instrucciones software que hacen que los procesadores realicen un método de la invención. Por ejemplo, uno o más procesadores en un dispositivo de visualización, un codificador, un decodificador, un transcodificador o similares pueden implementar métodos relacionados con la remodelación basada en bloques de imágenes HDR como los descritos anteriormente ejecutando instrucciones software en una memoria de programa accesible para los procesadores. La invención también puede proporcionarse en forma de un producto de programa. El producto de programa puede comprender cualquier medio no transitorio que lleve un conjunto de señales legibles por ordenador que comprendan instrucciones que, cuando son ejecutadas por un procesador de datos, hagan que el procesador de datos ejecute un método de la invención. Los productos de programa según la invención pueden estar en cualquiera de una amplia variedad de formas. El producto de programa puede comprender, por ejemplo, medios físicos tales como medios magnéticos de almacenamiento de datos que incluyen disquetes, unidades de disco duro, medios ópticos de almacenamiento de datos que incluyen CD ROM, DVD, medios electrónicos de almacenamiento de datos que incluyen ROM, RAM flash o similares. Opcionalmente, las señales legibles por ordenador en el producto de programa pueden ser comprimidas o cifradas.

Allí donde se hace referencia en lo anterior a un componente (por ejemplo, un módulo de software, procesador, conjunto, dispositivo, circuito, etc.), a menos que se indique lo contrario, debería interpretarse que la referencia a ese componente (incluida una referencia a unos "medios") incluye como equivalentes de ese componente cualquier componente que realice la función del componente descrito (por ejemplo, que sea funcionalmente equivalente), incluidos componentes que no sean estructuralmente equivalentes a la estructura descrita que realiza la función en las realizaciones de ejemplo ilustradas de la invención.

Equivalentes, extensiones, alternativas y varios

Por lo tanto, se describen realizaciones de ejemplo que se refieren a la remodelación eficiente basada en bloques de imágenes HDR. En la memoria descriptiva anterior, se han descrito realizaciones de la presente invención con referencia a numerosos detalles específicos que pueden variar de una implementación a otra. Así, el único y exclusivo indicador de lo que es la invención, y de lo que los solicitantes pretenden que sea la invención, es el conjunto de reivindicaciones que emanan de esta solicitud, en la forma específica que proporcionan dichas reivindicaciones, incluyendo sus equivalentes. Cualquier definición expuesta expresamente en el presente documento para los términos contenidos en dichas reivindicaciones regirá el significado de dichos términos tal como se usan en las reivindicaciones. Por lo tanto, ninguna limitación, elemento, propiedad, rasgo, ventaja o atributo que no se mencione expresamente en una reivindicación debería limitar de ninguna manera el alcance de dicha reivindicación. Por consiguiente, la memoria descriptiva y los dibujos deben considerarse en un sentido ilustrativo más que restrictivo.

Claims

REIVINDICACIONES 1. Un método para remodelación adaptable de imágenes de una imagen de entrada de alto rango dinámico (HDR) en una profundidad de bits de entrada para generar una imagen de salida correspondiente en una profundidad de bits objetivo menor o igual que la profundidad de bits de entrada con un procesador, comprendiendo el método: acceder con un procesador a la imagen de entrada HDR en la profundidad de bits de entrada; dividir la imagen de entrada HDR en una pluralidad de bloques no superpuestos y calcular, para cada uno de la pluralidad de bloques, una medida de complejidad de bloque de sus valores de píxel, donde calcular la respectiva medida de complejidad de bloque de valores de píxel comprende calcular la desviación estándar de valores de píxel válidos en el bloque correspondiente y asignar la respectiva medida de complejidad de bloque de valores de píxel a cada píxel válido del bloque correspondiente, donde los píxeles válidos son todos los píxeles del bloque excluyendo aquellos píxeles en áreas de borde de la imagen de entrada HDR que se consideran no esenciales en la remodelación de la imagen; dividir un intervalo de palabras de código de entrada relacionadas con la imagen de entrada HDR completa en una pluralidad de contenedores de palabras de código; para uno o más de los contenedores de palabras de código: calcular un valor de medida de complejidad del contenedor, donde calcular el valor de medida de valor de complejidad del contenedor comprende calcular el valor medio de las medidas de complejidad de bloque asociadas con aquellos píxeles de la imagen de entrada HDR que tengan valores de píxel pertenecientes al respectivo contenedor de palabras de código; generar una función de medida de complejidad a profundidad de bits del contenedor relacionada con toda la imagen de entrada HDR según los resultados de un estudio perceptual con usuarios, donde la función de medida de complejidad a profundidad de bits del contenedor mapea una medida de valor de complejidad del contenedor dada a un valor de profundidad de bits mínima correspondiente que representa la profundidad de bits mínima requerida para la remodelación de imagen perceptualmente sin pérdidas; generar una función de mapeo de palabras de código en base a la profundidad de bits de entrada, a los valores de profundidad de bits mínima y a una profundidad de bits objetivo, donde la función de mapeo de palabras de código mapea palabras de código de entrada en la profundidad de bits de entrada para proporcionar como salida palabras de código en la profundidad de bits objetivo, donde generar la función de mapeo de palabras de código comprende, además: para cada contenedor de palabras de código: determinar un límite inferior para un número normalizado de palabras de código requeridas en la profundidad de bits objetivo en base a los valores de profundidad de bits mínima, a la profundidad de bits de entrada y a la profundidad de bits objetivo, donde el número normalizado de palabras de código requeridas en la profundidad de bits objetivo es la proporción del número de palabras de código requeridas al número de palabras de código disponibles en la profundidad de bits objetivo; determinar palabras de código no utilizadas como las palabras de código restantes en la profundidad de bits objetivo que no forman parte de las palabras de código requeridas en la profundidad de bits objetivo; asignar las palabras de código no utilizadas a cada imagen del contenedor según un esquema de asignación, incrementando de ese modo los números normalizados de palabras de código requeridas a números normalizados actualizados de palabras de código requeridas; generar la función de mapeo de palabras de código en base a calcular una suma acumulada de los números normalizados actualizados de palabras de código requeridas; y aplicar la función de mapeo de palabras de código a las palabras de código de entrada de la imagen de entrada en la profundidad de bits de entrada para generar las palabras de código de salida de una correspondiente imagen de salida en la profundidad de bits objetivo.
2. El método de la reivindicación 1, en el cual dividir un intervalo de palabras de código de entrada en una pluralidad de contenedores de palabras de código comprende dividir el intervalo deKpalabras de código de entrada enMcontenedores de palabras de código, teniendo cada uno un número igualWde palabras de código de entrada, donde Bi denota la profundidad de bits de entrada,K = 2B l,yW=K/M.
3. El método de la reivindicación 1 o la reivindicación 2, en el cual la desviación estándar se calcula con respecto al valor medio de los valores de píxel en el bloque.
4. El método de cualquiera de las reivindicaciones 1-3, en el cual la imagen de entrada HDR se codifica según codificación gamma o SMPTE ST 2084.
5. El método de cualquiera de las reivindicaciones 1-4, en el cual generar la función de medida de complejidad a profundidad de bits del contenedor según los resultados del estudio perceptual con usuarios comprende: acceder a una pluralidad de imágenes de prueba HDR en la profundidad de bits de entrada; para cada imagen de prueba en la pluralidad de imágenes de prueba HDR: convertir la imagen de prueba de su espacio de color original a un segundo espacio de color; truncar la imagen en el segundo espacio de color para generar imágenes truncadas a profundidades de bits menores que la profundidad de bits de entrada; convertir las imágenes truncadas al espacio de color original para generar imágenes reconstruidas; y determinar, para cada una de una pluralidad de diferentes valores de medidas de complejidad del contenedor, el correspondiente valor de profundidad de bits mínima para el que una de las imágenes truncadas en el espacio de color original coincide mejor con la imagen de prueba.
6. El método de cualquiera de las reivindicaciones 1-5, que comprende además filtrar los números normalizados actualizados de palabras de código requeridas mediante un filtro paso bajo antes de generar la función de mapeo de palabras de código.
7. El método de cualquiera de las reivindicaciones 1-6, en el cual el esquema de asignación comprende un esquema de asignación de desviación constante, donde para el /-ésimo valor de píxel de entrada

donde di denota el número normalizado actualizado de valores de palabra de código,d/denota el número normalizado de palabras de código requeridas, siDdenota la suma ded/valores, entoncesU=1-Ddenota el número normalizado de palabras de código no utilizadas,<vh>denota un valor máximo de píxel de entrada, y<vl>denota un valor mínimo de píxel de entrada.
8. El método de cualquiera de las reivindicaciones 1-6, en el cual el esquema de asignación comprende calcular d, - d . ■(li. u,_ )_ para

donde di denota el número normalizado actualizado de valores de palabra de código,d/denota el número normalizado de palabras de código requeridas, siDdenota la suma ded/valores, entoncesU=1-Ddenota el número normalizado de palabras de código no utilizadas,v hdenota un valor máximo de píxel de entrada,vldenota un valor mínimo de píxel de entrada, y .parav;, í_ i -_v:í.( 1) donde a es una constante.
9. El método de cualquiera de las reivindicaciones 1-6, en el cual el esquema de asignación comprende un esquema de asignación basado en entropía, donde para el /-ésimo valor de píxel de entrada ~ IJ e d, = d t a (------ ) ( l - t f ) E r ) , VH ~ VL Se donde di denota el número normalizado actualizado de valores de palabra de código,d/denota el número normalizado de palabras de código requeridas, siDdenota la suma ded/valores, entoncesU=1-Ddenota el número normalizado de palabras de código no utilizadas, a es un escalar entre 0 y 1, vh denota un valor máximo de píxel de entrada yvldenota un valor mínimo de píxel de entrada,e/denota una medida de entropía local para la /-ésima palabra de código, y Se =Z¿ e¿paravl</<v h .
10. El método de cualquiera de las reivindicaciones 1-9, en el cual generar la función de mapeo de palabras de código para un valor de píxel de entrada/comprende calcular

donde los valoresskse derivan en base al número normalizado actualizado de valores de palabra de código.
11. El método de la reivindicación 10, en el cual generar las palabras de código de salida de la imagen de salida correspondiente comprende calcular:

/■'/.(;), sivL < i. < v,¡ donde para un píxelIp=/en la imagen de entrada,Spdenota el correspondiente píxel de salida cuantificado normalizado,vhdenota un valor máximo de píxel de entrada, yvldenota un valor mínimo de píxel de entrada.
12. El método de cualquiera de las reivindicaciones 1-11, en el cual los valores de medidas de complejidad del contenedor se calculan en base a valores de complejidad de bloque calculados a través de múltiples fotogramas consecutivos en una escena de vídeo que incluye la imagen de entrada HDR.
13. Un aparato que comprende un procesador y está configurado para realizar el método descrito en cualquiera de las reivindicaciones 1-12.
14. Un medio de almacenamiento legible por ordenador que tiene almacenada en el mismo una instrucción ejecutable por ordenador para ejecutar el método descrito en cualquiera de las reivindicaciones 1-12.