ES2996933T3 - Block-based content-adaptive reshaping for high dynamic range images - Google Patents

Block-based content-adaptive reshaping for high dynamic range images Download PDF

Info

Publication number
ES2996933T3
ES2996933T3 ES17154335T ES17154335T ES2996933T3 ES 2996933 T3 ES2996933 T3 ES 2996933T3 ES 17154335 T ES17154335 T ES 17154335T ES 17154335 T ES17154335 T ES 17154335T ES 2996933 T3 ES2996933 T3 ES 2996933T3
Authority
ES
Spain
Prior art keywords
bit depth
input
codewords
codeword
denotes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17154335T
Other languages
English (en)
Inventor
Amin KHERADMAND
Guan-Ming Su
Cheng-Chi Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2996933T3 publication Critical patent/ES2996933T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20008Globally adaptive
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Un procesador para la remodelación de señales recibe una imagen de entrada con una profundidad de bits de entrada. Se calculan las desviaciones estándar basadas en bloques. Las palabras de código de entrada se dividen en contenedores de palabras de código y a cada contenedor se le asigna un valor de desviación estándar. Para cada contenedor, se aplica una función de desviación estándar a la profundidad de bits a los valores del contenedor para generar valores de profundidad de bits mínimos para cada contenedor de palabras de código. Se genera una función de mapeo de palabras de código de salida en función de la profundidad de bits de entrada, una profundidad de bits de destino y los valores de profundidad de bits mínimos. La función de mapeo de palabras de código se aplica a la imagen de entrada para generar una imagen de salida en la profundidad de bits de destino. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Remodelación adaptable al contenido basada en bloques para imágenes de alto rango dinámico
Referencia cruzada a solicitudes relacionadas
Esta solicitud reivindica el beneficio de las solicitudes de patente provisionales de EE.UU. N°. 62/290,399, presentada el 2 de febrero de 2016, y N°. 62/334,099, presentada el 10 de mayo de 2016.
Tecnología
La presente invención se refiere en general a imágenes. Más particularmente, una realización de la presente invención se refiere a la remodelación adaptable al contenido basada en bloques de imágenes con alto rango dinámico.
Antecedentes
Tal como se usa en el presente documento, el término "rango dinámico" (DR) puede referirse a una capacidad del sistema visual humano (HVS) de percibir un rango de intensidad (por ejemplo, luminancia, luma) en una imagen, por ejemplo, desde los grises más oscuros (negros) a los blancos más brillantes (“iluminaciones”, del ingléshighlights).En este sentido, el DR se refiere a una intensidad 'referida a la escena'. El DR también puede referirse a la capacidad de un dispositivo de visualización de renderizar de forma adecuada o aproximada un rango de intensidad de una amplitud particular. En este sentido, el DR se refiere a una intensidad 'referida al dispositivo de visualización'. A menos que se especifique explícitamente que un sentido particular tiene una importancia particular en cualquier punto de la descripción en el presente documento, debería inferirse que el término puede usarse en cualquier sentido, por ejemplo, de manera intercambiable.
Tal como se usa en el presente documento, el término alto rango dinámico (HDR) se refiere a una amplitud de DR que abarca los aproximadamente 14-15 órdenes de magnitud del sistema visual humano (HVS). En la práctica, el DR sobre el que un ser humano puede percibir simultáneamente una extensa amplitud de rango de intensidad puede estar algo truncado, en relación con el HDR. Tal como se usan en el presente documento, los términos rango dinámico mejorado (EDR) o rango dinámico visual (VDR) pueden referirse individualmente o de manera intercambiable al DR que puede ser percibido dentro de una escena o imagen por un sistema visual humano (HVS) que incluye movimientos oculares, permitiendo algunos cambios de adaptación a la luz a través de la escena o imagen. Tal como se usa en el presente documento, EDR puede referirse a un DR que abarca de 5 a 6 órdenes de magnitud. Por lo tanto, aunque quizás algo más estrecho en relación con el HDR verdadero referido a la escena, el EDR representa sin embargo una gran amplitud de DR y también puede denominarse HDR.
En la práctica, las imágenes comprenden uno o más componentes de color (por ejemplo, luma Y y croma Cb y Cr) donde cada componente de color se representa mediante una precisión de n bits por píxel (por ejemplo, n=8). Usando codificación de luminancia lineal, las imágenes en las quen <8 (por ejemplo, imágenes JPEG en color de 24 bits) se consideran imágenes de rango dinámico estándar, mientras que las imágenes en las quen> 8 pueden considerarse imágenes de rango dinámico mejorado. Las imágenes EDR y HDR también pueden almacenarse y distribuirse usando formatos de punto flotante de alta precisión (por ejemplo, de 16 bits), como el formato de archivos OpenEXR desarrollado por Industrial Light and Magic.
Una función de transferencia electro-óptica (EOTF) de referencia para un dispositivo de visualización dado caracteriza la relación entre valores de color (por ejemplo, luminancia) de una señal de vídeo de entrada para proporcionar como salida valores de color de pantalla (por ejemplo, luminancia de pantalla) producidos por el dispositivo de visualización. Por ejemplo, ITU Rec. ITU-R BT. 1886, “Reference electro-optical transfer function for flat panel displays used in HDTC studio production”, (03/2011), que se incluye en el presente documento por referencia en su totalidad, define la EOTF de referencia para dispositivos de visualización planos en base a características medidas del tubo de rayos catódicos (CRT). Dado un flujo de vídeo, la información acerca de su EOTF está embebida típicamente en el flujo de bits como metadatos. Tal como se usa en el presente documento, el término "metadatos" se refiere a cualquier información auxiliar que se transmite como parte del flujo de bits codificado y que ayuda a un decodificador a renderizar una imagen decodificada. Dichos metadatos pueden incluir, pero no están limitados a, información de espacio o gama de color, parámetros de visualización de referencia y parámetros de señal auxiliares, como los descritos en el presente documento.
La mayoría de los dispositivos de visualización de escritorio comerciales soportan actualmente una luminancia de 200 a 300 cd/m2 o nits. La mayoría de las HDTV comerciales varían de 300 a 500 nits, con los nuevos modelos alcanzando 1000 nits (cd/m2). Estos dispositivos de visualización convencionales tipifican así un rango dinámico inferior (LDR), también denominado rango dinámico estándar (SDR), en relación con el HDR o el EDR. A medida que crece la disponibilidad de contenido HDR debido a los avances tanto en los equipos de captura de imágenes (por ejemplo, las cámaras) como en los dispositivos de visualización HDR (por ejemplo, el monitor de referencia profesional PRM-4200 de Dolby Laboratories), el contenido HDR puede ser sometido a gradación de color y visualizado en dispositivos de visualización HDR que soportan rangos dinámicos más altos (por ejemplo, de 1000 nits a 5000 nits o más). Tales visualizaciones pueden definirse usando EOTF alternativas que soportan alta capacidad de luminancia (por ejemplo, de 0 a 10000 nits). Un ejemplo de una EOTF de este tipo se define en SMPTE<S t>2084:2014 "High Dynamic Range EOTF of Mastering Reference Displays", que se incorpora en el presente documento por referencia en su totalidad. En general, sin limitación, los métodos de la presente divulgación se refieren a cualquier rango dinámico mayor que el SDR.
Tal como se usa en el presente documento, el término "remodelación hacia delante" denota el proceso de mapear (o cuantificar) una imagen HDR desde su profundidad de bits original a una imagen de una profundidad de bits menor o igual para permitir comprimir la imagen usando estándares o dispositivos de codificación existentes. En un receptor, después de descomprimir la señal remodelada, el receptor puede aplicar una función de remodelación inversa para restaurar la señal a su alto rango dinámico original. Como apreciaron los inventores en este caso, se desean técnicas mejoradas para la remodelación de imágenes de alto rango dinámico.
El documento WO 2014/204865 A1 describe un codificador que recibe una imagen de rango dinámico mejorado (EDR) de entrada para que sea codificada en una representación en capas. Las imágenes de entrada pueden ser gammacodificadas o perceptualmente-codificadas usando un formato de profundidad de bits no soportado por uno o más codificadores de vídeo. La imagen de entrada se re-mapea a una o más capas cuantificadas para generar palabras de código de salida adecuadas para su compresión usando los codificadores de vídeo disponibles. Se presentan algoritmos para determinar parámetros de función óptimos para funciones de mapeo lineales y no lineales. Dada una función de mapeo, la función de mapeo inversa puede transmitirse a un decodificador como una tabla de consulta o puede aproximarse usando una aproximación polinómica por tramos. También se presenta una técnica de aproximación polinómica para representar funciones de mapeo inverso y esquemas de traducción de cromaticidad para reducir las variaciones de color.
Las estrategias descritas en esta sección son estrategias que podrían seguirse, pero no necesariamente estrategias que se hayan concebido o se hayan seguido anteriormente. Por lo tanto, a menos que se indique lo contrario, no debería asumirse que ninguna de las estrategias descritas en esta sección reúne los requisitos para ser considerada técnica anterior solamente en virtud de su inclusión en esta sección. De manera similar, en base a esta sección no debería asumirse que los problemas identificados con respecto a una o más estrategias hayan sido reconocidos en ninguna técnica anterior, a menos que se indique lo contrario.
Compendio de la invención
La presente invención se define mediante las reivindicaciones independientes adjuntas. Las reivindicaciones dependientes se refieren a rasgos opcionales de algunas realizaciones de la presente invención.
Breve descripción de los dibujos
Una realización de la presente invención se ilustra a modo de ejemplo, y no a modo de limitación, en las figuras de los dibujos adjuntos, en los cuales números de referencia similares se refieren a elementos similares, y en los cuales:
La FIG. 1A representa un proceso de ejemplo para un canal de entrega de vídeo;
La FIG. 1B representa un proceso de ejemplo para compresión de datos usando cuantificación o remodelación adaptable al contenido según una realización de esta invención;
La FIG. 2 representa un proceso de ejemplo para remodelación adaptable al contenido, basada en bloques, según una realización de esta invención;
La FIG. 3 representa un ejemplo de una función de mapeo que mapea valores de desviación estándar media con profundidad de bits de señal requerida según una realización de esta invención;
La FIG. 4 representa ejemplos de asignaciones de palabras de código normalizadas calculadas según realizaciones de esta invención; y
La FIG. 5 representa un ejemplo de una función de remodelación hacia delante calculada según una realización de esta invención.
Descripción de realizaciones de ejemplo
En el presente documento se describen técnicas adaptables al contenido, basadas en bloques, para remodelación de imágenes de alto rango dinámico (HDR). En la siguiente descripción, con fines explicativos, se exponen numerosos detalles específicos con el fin de proporcionar una comprensión exhaustiva de la presente invención. Sin embargo, será evidente que la presente invención puede llevarse a la práctica sin estos detalles específicos. En otros casos, estructuras y dispositivos bien conocidos no se describen con un detalle exhaustivo, para evitar ocluir, ocultar u ofuscar innecesariamente la presente invención.
Descripción general
Las realizaciones de ejemplo descritas en el presente documento se refieren a remodelación de imágenes basada en bloques de imágenes HDR. Un procesador para la remodelación de la señal recibe una imagen de entrada con una profundidad de bits de entrada. La imagen se divide en bloques y se calcula una métrica de complejidad de cada bloque (por ejemplo, su desviación estándar). Las palabras de código de entrada se dividen en contenedores(bins)de palabras de código y a cada contenedor se le asigna una métrica de valor de complejidad. Para cada contenedor, una función de métrica de complejidad a profundidad de bits se aplica a los valores del contenedor para generar valores de profundidad de bits mínima para cada contenedor de palabras de código. Se genera una función de mapeo de palabras de código de salida en base a la profundidad de bits de entrada, a una profundidad de bits objetivo y a los valores de profundidad de bits mínima. La función de mapeo de palabras de código se aplica a la imagen de entrada para generar una imagen de salida en la profundidad de bits objetivo.
La medida de complejidad comprende calcular la desviación estándar de los bloques de imagen.
Canal de procesamiento de entrega de vídeo de ejemplo
La FIG. 1A representa un proceso de ejemplo de un canal de entrega de vídeo (100) convencional que muestra diferentes etapas desde la captura de vídeo hasta la visualización del contenido de vídeo. Usando el bloque de generación de imágenes (105) se captura o se genera una secuencia de fotogramas de vídeo (102). Los fotogramas de vídeo (102) pueden capturarse digitalmente (por ejemplo, mediante una cámara digital) o generarse mediante un ordenador (por ejemplo, usando animación por ordenador) para proporcionar datos de vídeo (107). Alternativamente, los fotogramas de vídeo (102) pueden capturarse en película mediante una cámara de película. La película se convierte a un formato digital para proporcionar datos de vídeo (107). En una fase de producción (110), se editan los datos de vídeo (107) para proporcionar un flujo de producción de vídeo (112).
Los datos de vídeo del flujo de producción (112) se proporcionan a continuación a un procesador en el bloque (115) para edición de posproducción. La edición de posproducción en el bloque (115) puede incluir ajustar o modificar colores o brillo en áreas particulares de una imagen para mejorar la calidad de la imagen o lograr una apariencia particular para la imagen de acuerdo con la intención creativa del creador de vídeo. Esto se denomina a veces "temporización de color” o "gradación de color". En el bloque (115) se puede realizar otra edición (por ejemplo, selección y secuenciación de escenas, recorte de imágenes, adición de efectos especiales visuales generados por ordenador, etc.) para producir una versión final (117) de la producción para su distribución. Durante la edición de posproducción (115), las imágenes de vídeo se ven en un dispositivo de visualización de referencia (125).
Después de la posproducción (115), los datos de vídeo de la producción final (117) pueden ser entregados al bloque de codificación (120) para su entrega aguas abajo a dispositivos de decodificación y reproducción tales como aparatos de televisión, decodificadores, salas de cine y similares. En algunas realizaciones, el bloque de codificación (120) puede incluir codificadores de audio y de vídeo, tales como los definidos por ATSC, DVB, DVD, Blu-Ray y otros formatos de entrega, para generar un flujo de bits codificado (122). En un receptor, el flujo de bits codificado (122) es decodificado por la unidad de decodificación (130) para generar una señal decodificada (132) que representa una aproximación idéntica o parecida de la señal (117). El receptor puede estar unido a un dispositivo de visualización de destino (140) que puede tener características completamente diferentes al dispositivo de visualización de referencia (125). En ese caso, se puede usar un bloque de gestión de visualización (135) para mapear el rango dinámico de la señal decodificada (132) a las características del dispositivo de visualización de destino (140) generando una señal mapeada al dispositivo de visualización (137).
Remodelación de señal
Actualmente, la mayoría de las interfaces digitales para la entrega de vídeo, tales como la Interfaz Digital Serie (SDI) están limitadas a 12 bits por píxel y por componente. Además, la mayoría de los estándares de compresión, tales como H.264 (o AVC) y H.265 (o HEVC), están limitados a 10 bits por píxel y por componente. Por lo tanto, se requiere una codificación y/o una cuantificación eficiente(s) para soportar contenido HDR, con rango dinámico de aproximadamente 0,001 a 10000 cd/m2 (o nits), dentro de las infraestructuras y estándares de compresión existentes.
El término "PQ", tal como se usa en el presente documento, se refiere a la cuantificación perceptual de la amplitud de luminancia. El sistema visual humano responde a niveles de luz crecientes de una manera muy no lineal. La capacidad de un ser humano para ver un estímulo se ve afectada por la luminancia de ese estímulo, el tamaño del estímulo, las frecuencias espaciales que constituyen el estímulo, y el nivel de luminancia al que los ojos se han adaptado en el momento particular en que se está viendo el estímulo. En una realización preferida, una función cuantificadora perceptual mapea niveles de gris de entrada lineal a niveles de gris de salida que coinciden mejor con los umbrales de sensibilidad de contraste en el sistema visual humano. Una función de mapeo de PQ de ejemplo se describe en SMPTE ST 2084:2014 "High Dynamic Range EOTF of Mastering Reference Displays", que se incorpora en el presente documento por referencia en su totalidad, donde dado un tamaño de estímulo fijo, para cada nivel de luminancia (es decir, el nivel de estímulo), se selecciona un paso de contraste visible mínimo en ese nivel de luminancia según el nivel de adaptación más sensible y la frecuencia espacial más sensible (de acuerdo con modelos del HVS). En comparación con la curva gamma tradicional, que representa la curva de respuesta de un dispositivo de tubo de rayos catódicos (CRT) físico y que casualmente puede tener una similitud muy basta con la forma en que responde el sistema visual humano, una curva de PQ imita la respuesta visual verdadera del sistema visual humano usando un modelo funcional relativamente sencillo.
Por ejemplo, bajo SMPTE ST 2084, a 1 cd/m2, un valor de código de 12 bits corresponde a un cambio relativo de aproximadamente 0,0048 cd/m2; sin embargo, a 1000 cd/m2, un valor de código de 12 bits corresponde a un cambio relativo de aproximadamente 2,24 cd/m2. Esta cuantificación no lineal es necesaria para adaptarse a la sensibilidad de contraste no lineal del sistema visual humano (HVS).
Otro ejemplo de una EOTF perceptualmente cuantificada se presenta en "Cromaticity based color signals for wide color gamut and high dynamic range", de J. Stessen et al., ISO/IEC JTC1/SC29/WG11 MPEG2014/M35065, octubre de 2014, que se incorpora en el presente documento por referencia en su totalidad.
La sensibilidad de contraste del HVS no sólo depende de la luminancia sino también de las características de enmascaramiento del contenido de la imagen (más particularmente ruido y textura), así como del estado de adaptación del HVS. Dicho de otra forma, dependiendo del nivel de ruido o las características de textura de una imagen, el contenido de la imagen puede cuantificarse con pasos de cuantificación más grandes que los previstos por cuantificadores PQ o gamma, debido a artefactos de cuantificación de máscara de textura y de ruido. La cuantificación PQ describe lo mejor que puede conseguir el HVS, lo cual se produce cuando no hay ningún ruido o enmascaramiento en la imagen. Sin embargo, para muchas imágenes (fotogramas de un vídeo), existe un enmascaramiento significativo.
Además del enmascaramiento de ruido y textura, otras características de comportamiento visual, tales como el destello óptico y la adaptación local también se pueden tener en cuenta para aumentar el nivel de cuantificación y permitir representar imágenes HDR a 10 bits o menos por componente de color. Tal como se usan en el presente documento, los términos "PQ adaptable al contenido" o "remodelación adaptable al contenido" denotan métodos para ajustar de forma adaptable la cuantificación perceptual de imágenes en base a su contenido.
La FIG. 1B representa un proceso de ejemplo para remodelación adaptable al contenido según una realización. Dados unos fotogramas de entrada (117), un bloque de remodelación hacia delante (150) analiza la entrada y las restricciones de codificación y genera funciones de mapeo de palabras de código que mapean los fotogramas de entrada (117) a fotogramas de salida recuantificados (152). Por ejemplo, la entrada (117) se puede gamma-codificar o PQ-codificar de acuerdo con cierta EOTF. En algunas realizaciones, la información acerca del proceso de remodelación puede comunicarse a dispositivos de aguas abajo (como por ejemplo decodificadores) usando metadatos. Después de la codificación (120) y la decodificación (130), los fotogramas decodificados (132) pueden procesarse mediante una función de remodelación hacia atrás (160), que convierte los fotogramas recuantificados (132) de vuelta al dominio de la EOTF original (por ejemplo, gamma o PQ), para un procesamiento adicional aguas abajo, tal como el proceso de gestión de visualización (135) expuesto anteriormente. En algunas realizaciones, la función de remodelación hacia atrás o inversa (160) puede estar integrada con un descuantificador en el decodificador (130), por ejemplo, como parte del descuantificador en un decodificador de vídeo AVC o HEVC.
Un ejemplo de una función de remodelación de señal se presentó en la solicitud de patente provisional de EE.UU. con n° de serie 62/126,925, presentada el 2 de marzo de 2015, "Content-adaptive perceptual quantizer for high dynamic range images", de J. Froehlich et al., que se incorpora en el presente documento por referencia en su totalidad, a la cual se denominará la solicitud '925, o el método CAQ. Según el método CAQ, la función de remodelación se calcula según un histograma de máscara de ruido de la imagen de entrada. Como alternativa, a continuación, se describen técnicas de remodelación basada en bloques.
Remodelación basada en bloques
La FIG. 2 representa un proceso de ejemplo para remodelación adaptable al contenido basada en bloques según una realización de esta invención. Tal como se representa en la FIG. 2, dada una secuencia de imágenes (por ejemplo, fotogramas de vídeo) (117), en el bloque (205), cada imagen se divide en bloques no superpuestos y se calcula la desviación estándar (o) para los valores de píxel en cada bloque. En el paso (210), las palabras de código de entrada se dividen en contenedores y se calcula la desviación estándar media para cada contenedor. El bloque (215) calcula el número mínimo de bits requeridos para cada contenedor. En base a esta información, en el bloque (220), se asignan palabras de código de salida a cada contenedor. Finalmente, en (225), se construye una función de remodelación hacia delante en base a la asignación de palabras de código de salida. Cada uno de estos pasos se describe con más detalle a continuación.
En una realización, sin limitación, supongamos queIj(p)denota el p-ésimo píxel de un componente de color bajo cuantificación (por ejemplo, luminancia) en el j-ésimo fotograma en la secuencia de entrada (117), normalizado a [0 1). Supongamos quevl¡yvh¡denotan los valores de píxel mínimo y máximo en este fotograma, o
El fotogramaI¡se divide en bloques rectangulares, no solapados, (por ejemplo, enn*nbloques, donden= 16). Denótese el conjunto de píxeles dentro del k-ésimo bloque comoG¡, k= {p |p e bloque(k)}.Entonces, la media y la desviación estándar de los valores de píxel dentro del k- ésimo bloque, de tamañon*n,se pueden calcular como:
Todos los píxeles en el k-ésimo bloque del j-ésimo fotograma están asociados a la misma desviación estándar,stdj,k. Paratodos los píxeles en el j-ésimo fotograma, supongamos queHj(p)denota la desviación estándar asociada al píxelpen el j-ésimo fotograma. En el proceso de diseñar una función de remodelación para el fotogramajpueden excluirse algunos píxeles enH(p).Estos píxeles pueden incluir:
• Píxeles de un área de buzón dentro de la imagen de entrada (es decir, áreas oscuras añadidas a una imagen de modo que su tamaño coincida con una cierta relación de aspecto). Los píxeles en áreas de buzón tienen valores constantes, por lo tanto, desviación estándar cero.
• Píxeles en los extremos derecho e inferior del fotograma. Si el tamaño de la imagen no se adapta a un número entero de losn*nbloques, entonces se pueden excluir áreas de píxeles en los extremos derecho e inferior del fotograma, donde sus correspondientes bloques tienen un tamaño más pequeño.
Supongamos que Qj denota el conjunto de índices de píxel válidos (no excluidos) para el j-ésimo fotograma. Seaiun índice dentro de Qj. Entonces,
denota, para cada píxel válido en el j-ésimo fotograma, la desviación estándar asociada con el píxelien el j-ésimo fotograma. Los resultados experimentales indican que los mapas de desviación estándar proporcionan una representación buena, y sencilla de calcular, del contenido en frecuencia subyacente en cada fotograma y, por lo tanto, se pueden usar para decidir cómo asignar diferentes profundidades de bits a diferentes regiones en cada fotograma. Sin embargo, los métodos descritos en el presente documento son igualmente aplicables usando métricas alternativas de la complejidad de un bloque de imagen, tales como su varianza, su entropía, respuesta en frecuencia y similares.
Supongamos queBidenota la profundidad de bits de la imagen de entrada (117) (por ejemplo,Bi =16) y seaK = 2 Bl ,entonces el rango dinámico 0 aK-1puede dividirse en M contenedores de igual número (W) de palabras de código de entrada, es decirW = K/M.Supongamos quebj,mdenota la desviación estándar media de todos los píxeles válidos con valores de entrada pertenecientes al m-ésimo contenedor, dondem= 0, 1, ...,M-1.Es decir, para /,(/),ie Qj,
si
entonces
Obsérvese que para imágenes específicas podrían existir algunos contenedores de palabras codificadas sin ningún píxel dentro de ellos. Estos contenedores pueden marcarse de modo que puedan tenerse en cuenta y/o ajustarse adecuadamente en el siguiente paso.
Las funciones de remodelación de señales pueden generarse al nivel de fotograma o al nivel de escena. Tal como se usa en el presente documento, los términos 'escena' o 'captura' para una secuencia de vídeo pueden referirse a una serie de fotogramas consecutivos en la señal de vídeo que comparten características de color y rango dinámico similares. Debido a la naturaleza consecutiva de la predicción de vídeo en la mayoría de los formatos de compresión de vídeo, puede ser preferible ajustar los parámetros de cuantificación solo en límites que coincidan con los límites típicos de un codificador de vídeo, como cambios de escena o un nuevo grupo de imágenes (GOP). Así, dada una escena conFfotogramas ybj,mvalores basados en fotogramas, una medida basada en la escena de la desviación estándar en cada contenedor puede derivarse como
Para contenedores sin ningún valor de píxel válido dentro de una escena completa, en una realización, su desviación estándar se establece en un número grande (digamos, 1 o mayor) para garantizar que no se les asigna ninguna palabra de código. En otra realización, supongamos que<vl>y<vh>denotan los valores de píxel mínimo y máximo dentro de una escena, es decir:
entonces para los contenedores vacíos, se puede emplear el siguiente proceso:
• Si los valores de luminancia en un contenedor son menores que<vl>, entonces asignar a este contenedor el mismo valor de desviación estándar media que el contenedor más cercano a la derecha
• O, si los valores de luminancia en un contenedor son mayores quevh,entonces asignar a este contenedor el mismo valor de desviación estándar media que el contenedor más cercano a la izquierda
• O, interpolar el valor de contenedor a partir de sus contenedores vecinos
Profundidad mínima de bits por contenedor
Dados losbmniveles calculados para una escena, el paso siguiente sería determinar el número de bits que es necesario asignar para cada contenedor. En una realización, un mapeo de este tipo puede determinarse en base a resultados experimentales de estudios con usuarios. Por ejemplo, en uno de estos estudios, a los usuarios se les mostraron para evaluar imágenes de prueba construidas como sigue:
a) Una selección de fotogramas HDR de 16 bits se convirtió del espacio RGB original al espacio de color a utilizar durante la etapa de compresión (120)
b) Las imágenes sometidas a transformación de color se truncaron (comenzando desde el bit menos significativo (LSB)) a profundidades de bit que variaban desde 7 bits hasta 11 bits
c) Las imágenes truncadas en LSB se convirtieron de vuelta al espacio de color RGB
d) A continuación, para cada imagen, se determinó la profundidad de bits mínima requerida para la cual la imagen de salida no exhibe ningún artefacto, como por ejemplo un contorneado falso
La FIG. 3 representa un ejemplo de tales resultados para un conjunto de datos de vídeo codificados según el estándar ST 2084. En la FIG. 3, la curva (305) representa los resultados del peor caso para las imágenes probadas, representando así los requisitos de profundidad de bits del peor caso en función de la desviación estándar media calculada. De la FIG. 3, por ejemplo, para una desviación típica media de 2-8, la profundidad de bits requerida es de aproximadamente 9,75 bits. Como se esperaba, la FIG. 3 indica que las regiones de imagen con niveles más altos de complejidad pueden ser codificadas a profundidades de bits más pequeñas. Alternativamente, cuanto más suave sea la imagen, más profundidad de bits se necesita para una representación precisa y perceptualmente sin pérdidas.
Dado un conjunto de valores de desviación estándar media,stdi, con i= 0, 1,2, ..., N-1, dondestdi<stdi+1,supongamos queQidenota la profundidad de bits mínima calculada correspondiente. Basándose en estas muestras, se puede derivar una función de asignación de desviación estándar a profundidad de bits fe(), de modo que
En una realización, fe() puede ser una función lineal por tramos calculada usando interpolación lineal. Por ejemplo, para
Sin embargo, también podrían usarse otras técnicas de interpolación conocidas en la técnica, tales como interpolación bilineal, interpolación por splines, y similares.
En una realización, puede ser más conveniente realizar mapeo de palabras de código (220) en base al número de palabras de código requeridas dentro de cada contenedor en lugar de usar los datos de profundidad de bits directamente. Esto se examina en la siguiente sección.
Generación de mapeo de palabras de código
Supongamos queBtdenota la profundidad de bits objetivo para la señal recuantificada (152) (por ejemplo,Bt= 10 bits/píxel por componente de color), entonces la salida se mapeará usando2Btpalabras de código. En una realización, el intervalo de palabras de código se normaliza para que esté dentro de [0, 1), por lo tanto, supongamos que
denota el número de palabras de código normalizadas requeridas por cada contenedorm.Por ejemplo, siQm= 9,Bi= 16 yBt= 10, entoncesDm= 2-17.
Supongamos que
denota el número de palabras de código normalizadas por cada entradaie (0, 2B' - 1), entoncesdipuede considerarse un límite inferior para el número de palabras de código requeridas por cada palabra de código de entrada. El número total de palabras de código normalizadas para todas las palabras de código de salida,D,está limitado por 1, o
Supongamos queU=1- Ddenota el número de palabras de código normalizadas no utilizadas después de aplicar la ecuación (12). Es necesario reasignar estas palabras de código no utilizadas a palabras de código de salida según un criterio dado. En una realización, usando un esquema de asignación constante, para la entrada<vl><i<<vh>, se asignan la misma cantidad de palabras de código adicionales en base a la distribución existente, o
donde denota el número actualizado de valores de palabras de código normalizados. En la solicitud '925 también se presentaron técnicas de reasignación adicionales. En esta invención, también se propone otro esquema de asignación de palabras de código basado en la entropía calculada como se explica a continuación.
Considérese una región Q/ que rodea el i-ésimo píxel en el j-ésimo fotograma (por ejemplo, un área de 5 x 5 con el iésimo píxel en el centro), entonces la entropía del i-ésimo píxel puede calcularse como
dondep(k)denota una probabilidad empírica para la aparición del valor de píxelk.Por ejemplo:
donde |X| designa el número de elementos en el conjunto X.
Sin pérdida de generalidad, en una realización, supongamos que
representa un mapeo no lineal de los valores de entropía de modo que se asignan más palabras de código a regiones de mayor complejidad mientras que también se garantiza que áreas más suaves, con baja entropía, no obtienen demasiadas pocas palabras de código, evitando así artefactos de codificación. Después de normalizar con el valor máximo de entropía dentro de cada fotograma, la entropía final del /-ésimo fotograma viene dada por
Supongamos queEj, mdenota la entropía media dentro de cada contenedor de palabras de códigomen el j-ésimo fotograma, yEm = media(Ej,m|j= 0, 1, ... ,F- 1) denota la entropía media en cada contenedor de palabras de código dentro de una escena, entonces, en una realización, paravl<i<vh,las palabras de código no utilizadas se asignan en base a
donde a es una constante entre 0 y 1 (por ejemplo, a = 0,1) que determina qué proporción de las palabras de código no utilizadas se asigna utilizando un esquema de asignación constante, por ejemplo, como en la ecuación (14), y qué proporción tiene en cuenta los valores de entropía calculados,
y
En otra realización, sea
dondeaes una constante (por ejemplo,a= 1,4). Entonces, las palabras de código no utilizadas se asignan en base a
Los resultados experimentales han indicado que este esquema de asignación tiende a preservar mejor grano de película, ruido de cámara, o detalles a ciertas tasas de bits altas.
En una realización, las curvas de asignación también se pueden suavizar usando un filtro paso bajo o un filtro de media móvil para garantizar que la curva es suave y que la función de remodelación inversa es fácil de aproximar usando un polinomio por tramos. Por ejemplo, en una realización
donde
En una realización, no se asignan palabras de código a valores fuera del intervalo(vl ,v<h>), o
Además, en caso de que la suma de valores suavizados exceda 1, es necesario normalizar la asignación de palabras de código. Por ejemplo, si
entonces
Dada la asignación final de palabras de código en cada contenedor de palabras de código, se puede generar una función de remodelación hacia delante como
DadaFL(i),entonces, en el _/-ésimo fotograma, para un píxel de entrada dadoI(p)=i (i e(0,2Bl-1)) el valor final de píxel recuantificado, normalizado,s/ppuede expresarse como:
FIJO,SiVL <( <V¡,
En una realización, los valoresFL(i)pueden almacenarse en una tabla de consulta (LUT) calculada previamente. Alternativamente, los valoressjpnormalizados también pueden mapearse a valores desnormalizados en el intervalo 0 a 2Sr - 1.
La FIG. 4 representa gráficos de ejemplo para la asignación de palabras de código según realizaciones. El gráfico (610) muestra la asignación original en base a los valores de profundidad de bits más bajos calculados (por ejemplo, usando la ecuación (12)) para una escena, paraBi= 16 (las palabras de código de entrada van de 0 a 65,535). La FIG. 4 muestra también el número de palabras de código normalizadas después de la asignación final, usando curvas tanto suavizadas (620) como no suavizadas (615). La FIG. 5 representa una tabla de consulta de ejemplo para remodelar datos de entrada de 16 bits para obtener datos de salida de 10 bits según realizaciones de esta invención.
Los expertos en la técnica apreciarán que, aunque los métodos expuestos en el presente documento se basan en una medida de desviación estándar basada en bloques, también pueden aplicarse otras medidas de complejidad de bloques, tales como su varianza, entropía (por ejemplo, calculada en la ecuación (15)), componentes de transformada en frecuencia y similares.
Remodelación hacia atrás o inversa
En algunas realizaciones, puede aplicarse remodelación hacia atrás (160) para revertir los efectos de la remodelación hacia delante (150). En una realización, una tabla de consulta para cuantificación inversa puede construirse de la siguiente manera:
a) Para cada palabra de código en el dominio cuantificado (Sc), identificar todas las palabras de código de entrada (vi) para las cualesFL(vi) = sc.Supongamos que este grupo se denota como rn(sc) = {vi | FL(v,) = Sc}; entonces
b) Construir la función de remodelación hacia atrás(BL(Sc)como una función de rn(sc).
Por ejemplo, en una realización, sin limitación,BL(Sc)puede construirse como la media de todas las palabras de código que pertenecen a rn(Sc), o
si |m(Sc)| > 0,
entonces
donde |m(Sc)| denota el número de elementos en el conjunto rn(Sc). Si |m(Sc)|=0 para cualesquiera valoresSc,en una realización, estos valores pueden interpolarse a partir de sus valores vecinos distintos de cero. En otra realización, la remodelación hacia atrás puede definirse comomin(a(Sc)).
Implementación de SiStema informático de ejemplo
Las realizaciones de la presente invención pueden implementarse con un sistema informático, sistemas configurados en circuitos y componentes electrónicos, un dispositivo de circuito integrado (IC) tal como un microcontrolador, una matriz de puertas programables in situ (FPGA) u otro dispositivo lógico configurable o programable (PLD), un procesador de señales digitales o de tiempo discreto (DSP), un IC de aplicación específica (ASIC) y/o un aparato que incluya uno o más de tales sistemas, dispositivos o componentes. El ordenador y/o el IC pueden realizar, controlar o ejecutar instrucciones relacionadas con la remodelación basada en bloques de imágenes con rango dinámico mejorado, tales como las descritas en el presente documento. El ordenador y/o el IC pueden calcular cualquiera de una variedad de parámetros o valores relativos a los procesos de remodelación basada en bloques descritos en el presente documento. Las realizaciones de imagen y vídeo pueden implementarse en hardware, software, firmware y diversas combinaciones de estos.
Ciertas implementaciones de la invención comprenden procesadores informáticos que ejecutan instrucciones software que hacen que los procesadores realicen un método de la invención. Por ejemplo, uno o más procesadores en un dispositivo de visualización, un codificador, un decodificador, un transcodificador o similares pueden implementar métodos relacionados con la remodelación basada en bloques de imágenes HDR como los descritos anteriormente ejecutando instrucciones software en una memoria de programa accesible para los procesadores. La invención también puede proporcionarse en forma de un producto de programa. El producto de programa puede comprender cualquier medio no transitorio que lleve un conjunto de señales legibles por ordenador que comprendan instrucciones que, cuando son ejecutadas por un procesador de datos, hagan que el procesador de datos ejecute un método de la invención. Los productos de programa según la invención pueden estar en cualquiera de una amplia variedad de formas. El producto de programa puede comprender, por ejemplo, medios físicos tales como medios magnéticos de almacenamiento de datos que incluyen disquetes, unidades de disco duro, medios ópticos de almacenamiento de datos que incluyen CD ROM, DVD, medios electrónicos de almacenamiento de datos que incluyen ROM, RAM flash o similares. Opcionalmente, las señales legibles por ordenador en el producto de programa pueden ser comprimidas o cifradas.
Allí donde se hace referencia en lo anterior a un componente (por ejemplo, un módulo de software, procesador, conjunto, dispositivo, circuito, etc.), a menos que se indique lo contrario, debería interpretarse que la referencia a ese componente (incluida una referencia a unos "medios") incluye como equivalentes de ese componente cualquier componente que realice la función del componente descrito (por ejemplo, que sea funcionalmente equivalente), incluidos componentes que no sean estructuralmente equivalentes a la estructura descrita que realiza la función en las realizaciones de ejemplo ilustradas de la invención.
Equivalentes, extensiones, alternativas y varios
Por lo tanto, se describen realizaciones de ejemplo que se refieren a la remodelación eficiente basada en bloques de imágenes HDR. En la memoria descriptiva anterior, se han descrito realizaciones de la presente invención con referencia a numerosos detalles específicos que pueden variar de una implementación a otra. Así, el único y exclusivo indicador de lo que es la invención, y de lo que los solicitantes pretenden que sea la invención, es el conjunto de reivindicaciones que emanan de esta solicitud, en la forma específica que proporcionan dichas reivindicaciones, incluyendo sus equivalentes. Cualquier definición expuesta expresamente en el presente documento para los términos contenidos en dichas reivindicaciones regirá el significado de dichos términos tal como se usan en las reivindicaciones. Por lo tanto, ninguna limitación, elemento, propiedad, rasgo, ventaja o atributo que no se mencione expresamente en una reivindicación debería limitar de ninguna manera el alcance de dicha reivindicación. Por consiguiente, la memoria descriptiva y los dibujos deben considerarse en un sentido ilustrativo más que restrictivo.

Claims (14)

  1. REIVINDICACIONES 1. Un método para remodelación adaptable de imágenes de una imagen de entrada de alto rango dinámico (HDR) en una profundidad de bits de entrada para generar una imagen de salida correspondiente en una profundidad de bits objetivo menor o igual que la profundidad de bits de entrada con un procesador, comprendiendo el método: acceder con un procesador a la imagen de entrada HDR en la profundidad de bits de entrada; dividir la imagen de entrada HDR en una pluralidad de bloques no superpuestos y calcular, para cada uno de la pluralidad de bloques, una medida de complejidad de bloque de sus valores de píxel, donde calcular la respectiva medida de complejidad de bloque de valores de píxel comprende calcular la desviación estándar de valores de píxel válidos en el bloque correspondiente y asignar la respectiva medida de complejidad de bloque de valores de píxel a cada píxel válido del bloque correspondiente, donde los píxeles válidos son todos los píxeles del bloque excluyendo aquellos píxeles en áreas de borde de la imagen de entrada HDR que se consideran no esenciales en la remodelación de la imagen; dividir un intervalo de palabras de código de entrada relacionadas con la imagen de entrada HDR completa en una pluralidad de contenedores de palabras de código; para uno o más de los contenedores de palabras de código: calcular un valor de medida de complejidad del contenedor, donde calcular el valor de medida de valor de complejidad del contenedor comprende calcular el valor medio de las medidas de complejidad de bloque asociadas con aquellos píxeles de la imagen de entrada HDR que tengan valores de píxel pertenecientes al respectivo contenedor de palabras de código; generar una función de medida de complejidad a profundidad de bits del contenedor relacionada con toda la imagen de entrada HDR según los resultados de un estudio perceptual con usuarios, donde la función de medida de complejidad a profundidad de bits del contenedor mapea una medida de valor de complejidad del contenedor dada a un valor de profundidad de bits mínima correspondiente que representa la profundidad de bits mínima requerida para la remodelación de imagen perceptualmente sin pérdidas; generar una función de mapeo de palabras de código en base a la profundidad de bits de entrada, a los valores de profundidad de bits mínima y a una profundidad de bits objetivo, donde la función de mapeo de palabras de código mapea palabras de código de entrada en la profundidad de bits de entrada para proporcionar como salida palabras de código en la profundidad de bits objetivo, donde generar la función de mapeo de palabras de código comprende, además: para cada contenedor de palabras de código: determinar un límite inferior para un número normalizado de palabras de código requeridas en la profundidad de bits objetivo en base a los valores de profundidad de bits mínima, a la profundidad de bits de entrada y a la profundidad de bits objetivo, donde el número normalizado de palabras de código requeridas en la profundidad de bits objetivo es la proporción del número de palabras de código requeridas al número de palabras de código disponibles en la profundidad de bits objetivo; determinar palabras de código no utilizadas como las palabras de código restantes en la profundidad de bits objetivo que no forman parte de las palabras de código requeridas en la profundidad de bits objetivo; asignar las palabras de código no utilizadas a cada imagen del contenedor según un esquema de asignación, incrementando de ese modo los números normalizados de palabras de código requeridas a números normalizados actualizados de palabras de código requeridas; generar la función de mapeo de palabras de código en base a calcular una suma acumulada de los números normalizados actualizados de palabras de código requeridas; y aplicar la función de mapeo de palabras de código a las palabras de código de entrada de la imagen de entrada en la profundidad de bits de entrada para generar las palabras de código de salida de una correspondiente imagen de salida en la profundidad de bits objetivo.
  2. 2. El método de la reivindicación 1, en el cual dividir un intervalo de palabras de código de entrada en una pluralidad de contenedores de palabras de código comprende dividir el intervalo deKpalabras de código de entrada enMcontenedores de palabras de código, teniendo cada uno un número igualWde palabras de código de entrada, donde Bi denota la profundidad de bits de entrada,K = 2B l,yW=K/M.
  3. 3. El método de la reivindicación 1 o la reivindicación 2, en el cual la desviación estándar se calcula con respecto al valor medio de los valores de píxel en el bloque.
  4. 4. El método de cualquiera de las reivindicaciones 1-3, en el cual la imagen de entrada HDR se codifica según codificación gamma o SMPTE ST 2084.
  5. 5. El método de cualquiera de las reivindicaciones 1-4, en el cual generar la función de medida de complejidad a profundidad de bits del contenedor según los resultados del estudio perceptual con usuarios comprende: acceder a una pluralidad de imágenes de prueba HDR en la profundidad de bits de entrada; para cada imagen de prueba en la pluralidad de imágenes de prueba HDR: convertir la imagen de prueba de su espacio de color original a un segundo espacio de color; truncar la imagen en el segundo espacio de color para generar imágenes truncadas a profundidades de bits menores que la profundidad de bits de entrada; convertir las imágenes truncadas al espacio de color original para generar imágenes reconstruidas; y determinar, para cada una de una pluralidad de diferentes valores de medidas de complejidad del contenedor, el correspondiente valor de profundidad de bits mínima para el que una de las imágenes truncadas en el espacio de color original coincide mejor con la imagen de prueba.
  6. 6. El método de cualquiera de las reivindicaciones 1-5, que comprende además filtrar los números normalizados actualizados de palabras de código requeridas mediante un filtro paso bajo antes de generar la función de mapeo de palabras de código.
  7. 7. El método de cualquiera de las reivindicaciones 1-6, en el cual el esquema de asignación comprende un esquema de asignación de desviación constante, donde para el /-ésimo valor de píxel de entrada
    donde di denota el número normalizado actualizado de valores de palabra de código,d/denota el número normalizado de palabras de código requeridas, siDdenota la suma ded/valores, entoncesU=1-Ddenota el número normalizado de palabras de código no utilizadas,<vh>denota un valor máximo de píxel de entrada, y<vl>denota un valor mínimo de píxel de entrada.
  8. 8. El método de cualquiera de las reivindicaciones 1-6, en el cual el esquema de asignación comprende calcular d, - d . ■(li. u,_ )_ para
    donde di denota el número normalizado actualizado de valores de palabra de código,d/denota el número normalizado de palabras de código requeridas, siDdenota la suma ded/valores, entoncesU=1-Ddenota el número normalizado de palabras de código no utilizadas,v hdenota un valor máximo de píxel de entrada,vldenota un valor mínimo de píxel de entrada, y .parav;, í_ i -_v:í.( 1) donde a es una constante.
  9. 9. El método de cualquiera de las reivindicaciones 1-6, en el cual el esquema de asignación comprende un esquema de asignación basado en entropía, donde para el /-ésimo valor de píxel de entrada ~ IJ e d, = d t a (------ ) ( l - t f ) E r ) , VH ~ VL Se donde di denota el número normalizado actualizado de valores de palabra de código,d/denota el número normalizado de palabras de código requeridas, siDdenota la suma ded/valores, entoncesU=1-Ddenota el número normalizado de palabras de código no utilizadas, a es un escalar entre 0 y 1, vh denota un valor máximo de píxel de entrada yvldenota un valor mínimo de píxel de entrada,e/denota una medida de entropía local para la /-ésima palabra de código, y Se =Z¿ e¿paravl</<v h .
  10. 10. El método de cualquiera de las reivindicaciones 1-9, en el cual generar la función de mapeo de palabras de código para un valor de píxel de entrada/comprende calcular
    donde los valoresskse derivan en base al número normalizado actualizado de valores de palabra de código.
  11. 11. El método de la reivindicación 10, en el cual generar las palabras de código de salida de la imagen de salida correspondiente comprende calcular:
    /■'/.(;), sivL < i. < v,¡ donde para un píxelIp=/en la imagen de entrada,Spdenota el correspondiente píxel de salida cuantificado normalizado,vhdenota un valor máximo de píxel de entrada, yvldenota un valor mínimo de píxel de entrada.
  12. 12. El método de cualquiera de las reivindicaciones 1-11, en el cual los valores de medidas de complejidad del contenedor se calculan en base a valores de complejidad de bloque calculados a través de múltiples fotogramas consecutivos en una escena de vídeo que incluye la imagen de entrada HDR.
  13. 13. Un aparato que comprende un procesador y está configurado para realizar el método descrito en cualquiera de las reivindicaciones 1-12.
  14. 14. Un medio de almacenamiento legible por ordenador que tiene almacenada en el mismo una instrucción ejecutable por ordenador para ejecutar el método descrito en cualquiera de las reivindicaciones 1-12.
ES17154335T 2016-02-02 2017-02-02 Block-based content-adaptive reshaping for high dynamic range images Active ES2996933T3 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662290399P 2016-02-02 2016-02-02
US201662334099P 2016-05-10 2016-05-10

Publications (1)

Publication Number Publication Date
ES2996933T3 true ES2996933T3 (en) 2025-02-13

Family

ID=57965737

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17154335T Active ES2996933T3 (en) 2016-02-02 2017-02-02 Block-based content-adaptive reshaping for high dynamic range images

Country Status (3)

Country Link
US (1) US10032262B2 (es)
EP (1) EP3203442B1 (es)
ES (1) ES2996933T3 (es)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032262B2 (en) * 2016-02-02 2018-07-24 Dolby Laboratories Licensing Corporation Block-based content-adaptive reshaping for high dynamic range images
WO2018044803A1 (en) 2016-08-30 2018-03-08 Dolby Laboratories Licensing Corporation Real-time reshaping of single-layer backwards-compatible codec
US10701404B2 (en) 2016-08-30 2020-06-30 Dolby Laboratories Licensing Corporation Real-time reshaping of single-layer backwards-compatible codec
US10575028B2 (en) 2016-09-09 2020-02-25 Dolby Laboratories Licensing Corporation Coding of high dynamic range video using segment-based reshaping
WO2018049335A1 (en) 2016-09-09 2018-03-15 Dolby Laboratories Licensing Corporation Coding of high dynamic range video using segment-based reshaping
US10609372B2 (en) 2017-09-29 2020-03-31 Dolby Laboratories Licensing Corporation Up-conversion to content adaptive perceptual quantization video signals
CN117135355A (zh) 2018-02-14 2023-11-28 杜比实验室特许公司 在视频编码中利用率失真优化进行图像再成形
CN112106357B (zh) 2018-05-11 2024-03-12 杜比实验室特许公司 用于对图像数据进行编码和解码的方法及装置
US11341624B2 (en) 2018-08-10 2022-05-24 Dolby Laboratories Licensing Corporation Reducing banding artifacts in HDR imaging via adaptive SDR-to-HDR reshaping functions
EP3857505B1 (en) 2018-09-24 2022-08-03 Dolby Laboratories Licensing Corporation Image denoising in sdr to hdr image conversion
CN109345525B (zh) * 2018-09-27 2022-03-29 方玉明 一种去鬼影高动态范围图像质量评价方法
US11277646B2 (en) 2018-10-03 2022-03-15 Dolby Laboratories Licensing Corporation Reducing banding artifacts in backward-compatible HDR imaging
JP7094451B2 (ja) 2018-12-03 2022-07-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 再構成関数の補間
PL4046383T3 (pl) * 2019-10-17 2025-04-28 Dolby Laboratories Licensing Corporation Regulowany kompromis pomiędzy jakością a złożonością obliczeniową w koderach-dekoderach wideo
US12177459B2 (en) * 2019-11-27 2024-12-24 Dolby Laboratories Licensing Corporation Rate-control-aware reshaping in HDR imaging
US12368964B2 (en) 2020-04-03 2025-07-22 Dolby Laboratories Licensing Corporation Blind local reshaping in HDR imaging
US12382106B2 (en) 2020-04-21 2025-08-05 Dolby Laboratories Licensing Corporation Reshaping functions for HDR imaging with continuity and reversibility constraints
JP7472403B2 (ja) * 2020-10-02 2024-04-22 ドルビー ラボラトリーズ ライセンシング コーポレイション Sdrからhdrへのアップコンバートのための適応的ローカルリシェーピング
US20240171775A1 (en) 2021-05-21 2024-05-23 Dolby Laboratories Licensing Corporation Patch-based reshaping and metadata for volumetric video
EP4349012A1 (en) * 2021-06-01 2024-04-10 Dolby Laboratories Licensing Corporation Rotation-enabled high dynamic range video encoding
PL4352964T3 (pl) 2021-06-08 2025-04-22 Dolby Laboratories Licensing Corporation Optymalizacja funkcji łańcuchowego ponownego kształtowania
WO2023069585A1 (en) 2021-10-21 2023-04-27 Dolby Laboratories Licensing Corporation Context-based reshaping algorithms for encoding video data
WO2023215108A1 (en) 2022-05-05 2023-11-09 Dolby Laboratories Licensing Corporation Stereoscopic high dynamic range video
US20240078648A1 (en) * 2022-09-06 2024-03-07 Apple Inc. Tone Mapping for Preserving Contrast of Fine Features in an Image
EP4666581A1 (en) 2023-02-16 2025-12-24 Dolby Laboratories Licensing Corporation Local reshaping using tensor-product b-spline with coordinates wide view video
CN120814237A (zh) 2023-02-22 2025-10-17 杜比实验室特许公司 360度视频内容的基于瓦片的流式传输

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019150B2 (en) * 2007-10-11 2011-09-13 Kwe International, Inc. Color quantization based on desired upper bound for relative quantization step
ES2527932T3 (es) 2008-04-16 2015-02-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Escalabilidad de profundidad de bits
TWI479898B (zh) * 2010-08-25 2015-04-01 杜比實驗室特許公司 擴展影像動態範圍
TWI575933B (zh) * 2011-11-04 2017-03-21 杜比實驗室特許公司 階層式視覺動態範圍編碼中之層分解技術
US10085020B2 (en) * 2012-04-05 2018-09-25 Telefonaktiebolaget L M Ericsson (Publ) Sample adaptive filtering with offsets
JP6038360B2 (ja) * 2013-06-17 2016-12-07 ドルビー ラボラトリーズ ライセンシング コーポレイション エンハンストダイナミックレンジ信号の階層符号化のための適応的再構成
JP6339691B2 (ja) 2014-02-26 2018-06-06 ドルビー ラボラトリーズ ライセンシング コーポレイション ビデオ圧縮のための輝度ベースの符号化ツール
JP6484347B2 (ja) 2015-03-02 2019-03-13 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイダイナミックレンジ画像のためのコンテンツ適応的な知覚的量子化器
US10311558B2 (en) * 2015-11-16 2019-06-04 Dolby Laboratories Licensing Corporation Efficient image processing on content-adaptive PQ signal domain
US10032262B2 (en) * 2016-02-02 2018-07-24 Dolby Laboratories Licensing Corporation Block-based content-adaptive reshaping for high dynamic range images
US10223774B2 (en) * 2016-02-02 2019-03-05 Dolby Laboratories Licensing Corporation Single-pass and multi-pass-based polynomial approximations for reshaping functions

Also Published As

Publication number Publication date
EP3203442B1 (en) 2024-11-27
US10032262B2 (en) 2018-07-24
EP3203442A1 (en) 2017-08-09
US20170221189A1 (en) 2017-08-03

Similar Documents

Publication Publication Date Title
ES2996933T3 (en) Block-based content-adaptive reshaping for high dynamic range images
US10419762B2 (en) Content-adaptive perceptual quantizer for high dynamic range images
US10223774B2 (en) Single-pass and multi-pass-based polynomial approximations for reshaping functions
RU2693687C1 (ru) Переформирование сигналов для сигналов широкого динамического диапазона
JP6738972B2 (ja) ハイダイナミックレンジ画像のためのトーン曲線マッピング
US10015491B2 (en) In-loop block-based image reshaping in high dynamic range video coding
CN108885783B (zh) 编码和解码可逆制作质量单层视频信号
JP6302600B2 (ja) 知覚的量子化されたビデオコンテンツの符号化および復号化
US10645403B2 (en) Chroma reshaping for high dynamic range images
US20150256860A1 (en) Graphics Blending for High Dynamic Range Video
US10484684B2 (en) Signal reshaping and coding in the IPT-PQ color space
US10165275B2 (en) Content-adaptive reshaping for high dynamic range images
CN108353173B (zh) 用于高动态范围视频编码的分段线性层间预测器
ES2995217T3 (en) Rate-control-aware reshaping in hdr imaging
HK1243251A1 (en) Content-adaptive perceptual quantizer for high dynamic range images
HK1243251B (zh) 用於高动态范围图像的内容自适应感知量化器
HK1259280B (zh) 用於高动态范围视频编码的分段线性层间预测器
HK1259280A1 (zh) 用於高动态范围视频编码的分段线性层间预测器
HK1257716B (en) Encoding and decoding reversible production-quality single-layer video signals