ES2963550T3

ES2963550T3 - Incorporación de datos dentro de coeficientes transformados usando operaciones de reparto de bits

Info

Publication number: ES2963550T3
Application number: ES20800273T
Authority: ES
Inventors: Lorenzo Ciccarelli; Simone Ferrara; Guido Meardi
Original assignee: V Nova International Ltd
Current assignee: V Nova International Ltd
Priority date: 2019-10-25
Filing date: 2020-10-23
Publication date: 2024-04-01
Anticipated expiration: 2040-10-23
Also published as: PL4049452T3; GB2605048A; FI4049452T3; DK4049452T3; EP4049452B1; GB202207051D0; EP4049452A1; US20220408099A1; GB2605048B; CN115039407A; WO2021079147A1; US12010329B2

Abstract

Los ejemplos descritos en el presente documento se refieren a señales de decodificación y codificación. Ciertos ejemplos descritos en el presente documento encapsulan datos personalizados que no son datos de señal dentro de un flujo de datos de señal codificados. Los datos personalizados pueden comprender una amplia variedad de metadatos que anotan los datos de la señal o proporcionan información adicional relacionada con los datos de la señal. Ciertos ejemplos descritos en el presente documento encapsulan datos personalizados dentro de un conjunto de valores de coeficientes transformados que representan datos derivados de una operación de transformación que forma parte de la codificación de la señal. La encapsulación se puede realizar aplicando una operación de desplazamiento de bits a los bits de coeficientes que representan el conjunto de valores de coeficientes transformados. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Incorporación de datos dentro de coeficientes transformados usando operaciones de reparto de bitsCampo técnico

La presente invención se refiere a métodos para procesar señales, tales como, a modo de ejemplos no limitativos, señales de vídeo, imágenes, imágenes hiperespectrales, audio, nubes de puntos, 3DoF/6DoF (grados de libertad) y volumétricas. Procesar datos puede incluir, pero no se limita a, obtener, derivar, codificar, emitir, recibir, decodificar y reconstruir una señal. La presente invención se refiere a la incorporación de datos dentro de un flujo de bits codificado modificando valores de bits para un conjunto de coeficientes transformados.

Antecedentes

Muchos enfoques de codificación de señales usan una operación de transformación para transformar bloques de datos de señal. Por ejemplo, muchos métodos de codificación de imágenes, vídeo y audio usan una transformada de coseno discreta (DCT) para expresar una secuencia finita de puntos de datos en cuanto a una suma de funciones de coseno que oscilan a diferentes frecuencias. Una operación de DCT normalizada usada en la codificación de comprime bloques de 8 por 8 de datos de trama para generar un flujo de datos codificado. En un decodificador, este flujo de datos codificado puede decodificarse aplicando una versión inversa de la DCT. Se usa una DCT de número entero en la norma AVC (codificación de vídeo avanzada) y las normas de HEVC (codificación de vídeo de alta eficiencia) y se encuentran otras implementaciones de DCT en esquemas de codificación de audio de MP3 y de codificación de televisión digital.

Los formatos de codificación basados en niveles, tales como ISO/IEC MPEG-5, parte 2, LCEVC (a continuación en el presente documento “LCEVC”), o SMPTE VC-6 2117 (a continuación en el presente documento “VC-6”), también aplican una transformación a datos residuales para generar diferentes “escalones” o “niveles jerárquicos” de datos. En este caso, pueden aplicarse múltiples operaciones de transformación, por ejemplo una operación de transformación para cada uno de los escalones o niveles, en las que cada escalón o nivel corresponde a un nivel de calidad diferente. Los niveles de calidad pueden corresponder a diferentes tasas de muestreo y/o resoluciones espaciales.

Una dificultad con los esquemas de codificación de señales es cómo comunicar metadatos que están asociados una señal codificada. Por ejemplo, los metadatos pueden comprenden información adicional sobre la señal, en los que se desea que los metadatos se reciban con la señal de modo que puedan usarse en operaciones de reconstrucción. En determinadas aplicaciones, puede desearse etiquetar determinadas partes de una señal, tales como diferentes tramas de audio o datos de vídeo. Con codificación de imágenes (ya sea estáticas o de vídeo), también puede desearse etiquetar determinadas zonas dentro de una imagen particular, tales como información asociada con entidades que aparecen en la imagen. Por ejemplo, puede tratarse de identificadores de objetos, hipervínculos, propiedades de objetos, identificadores de caras etc.

Varias soluciones para la codificación de metadatos introducen canales secundarios adicionales o flujos de datos para portar los metadatos. Por ejemplo, varias normas de codificación de vídeo usan mensajes de información de mejora complementaria (SEI) para portar flujos de metadatos además de unidades de capa de abstracción de red (NAL) que portan el flujo de vídeo codificado. El conjunto general de unidades de NAL para un flujo de vídeo codificado puede dividirse en unidades de capa de codificación de vídeo (VCL) y unidades distintas de VCL, estando estas últimas disponibles para portar datos distintos de vídeo tales como mensajes de SEI u otros conjuntos de parámetros.

Otra solución para portar metadatos es usar tecnologías de marca de agua digital. Un ejemplo de tecnología de marca de agua digital es la norma de emisión de marca de agua de vídeo del comité sobre sistemas de televisión avanzada (ATSC) - A/335. El documento que define esta norma, por ejemplo tal como se publicó el 20 de septiembre de 2016, proporciona información de antecedentes adicional.

En la norma A/335, se usan la línea o dos líneas superiores de una señal de vídeo para incorporar información de marca de agua. En la norma A/335, los valores de luma de píxeles dentro de estas líneas se modifican para portar información de marca de agua. Un receptor extrae la primera o dos primeras líneas de cada trama de una señal de vídeo y aplica un conjunto de operaciones de determinación de umbral para recuperar los datos codificados.

Un problema con la norma A/335 y enfoques de marca de agua digital similares es que requieren que los datos incorporados sobrevivan a diversas operaciones de compresión y transcodificación, así como suministro a través de interfaces de tipo interfaz multimedia de alta definición (HDMI) de consumidor de legado. Para lograr robustez, se aplican operaciones de determinación de umbral más complejas en el receptor. Además, la norma A/335 no está destinada a ser resistente a manipulaciones indebidas o permanente; puede eliminarse de manera deliberada por un intermediario.

En general, se desea disponer de métodos y sistemas para la comunicación eficiente de datos personalizados o de usuario (es decir, distintos de señal) con datos de señal. Se desea que los métodos y sistemas minimicen los cambios a enfoques de codificación de señales existentes pero proporcionen flujos de datos adicionales flexibles y direccionables.

Wenyi Wang: “Hiding Depth Map in JPEG Image and MPEG-2 Video” (1 de septiembre de 2011 (01/09/2011), páginas 1-85, XP055019256) describe un enfoque de marca de agua sin pérdidas basado en transformada de coseno discreta (DCT) para una nueva aplicación de marca de agua. Se incorpora un mapa de profundidad obtenido a partir de un par de imágenes estereoscópicas en una de las dos imágenes usando un algoritmo de marca de agua reversible.

Ferraraet al(“[LCEVC] - Technical improvements to LCEVC”, 128. MPEG MEETING; 07/10/2019 - 11/10/2019; GINEBRA; MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11, n.° m50999, 2 de octubre de 2019, XP030221502) describe varias modificaciones pequeñas en el flujo de bits de codificación de vídeo de mejora de baja complejidad (LCEVC) y sintaxis con el fin de proporcionar más flexibilidad para su uso.

Sumario

En las reivindicaciones adjuntas se exponen aspectos y variaciones de la presente invención. En la siguiente descripción detallada se exponen adicionalmente determinados aspectos no reivindicados.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques que muestra un ejemplo de sistema de codificación de señales;

la figura 2 es un diagrama esquemático que muestra un ejemplo de codificación de datos de vídeo;

las figuras 3A a 3C son diagramas esquemáticos que muestran un ejemplo de procedimiento de inserción de datos de usuario; y

las figuras 4A a 4C son diagramas esquemáticos que muestran un ejemplo de procedimiento de extracción de datos de usuario.

Descripción detallada

Determinados ejemplos descritos en el presente documento encapsulan datos personalizados que no son datos de señal dentro de un flujo de datos de señal codificados. Los datos personalizados pueden comprender una amplia variedad de metadatos que anotan los datos de señal, o proporcionan información adicional referente a los datos de señal. Si los datos de señal comprenden un flujo de vídeo o audio, entonces los datos personalizados pueden comprender anotaciones o etiquetas dentro del flujo, que identifican a personas u objetos que se presentan en el flujo. Determinados ejemplos descritos en el presente documento encapsulan datos personalizados dentro de un conjunto de valores de coeficientes transformados que representan datos derivados a partir de una operación de transformación que forma parte de la codificación de señal.

En ejemplos particulares descritos en el presente documento, en el codificador, se aplica una operación de desplazamiento de bits a bits que representan los valores de coeficientes transformados y se insertan bits de datos de usuario en los nuevos bits desplazados. En el decodificador, los bits de datos de usuario pueden leerse antes de aplicar una operación de desplazamiento de bits adicional para desplazar los bits que representan los valores de coeficientes transformados de nuevo a su ubicación original. Aunque la operación de desplazamiento de bits tiene la posibilidad de modificar los valores de coeficientes transformados, ya que sólo cambia valores de bits en un extremo de una secuencia de bits que representa un valor de coeficiente transformado, puede reconstruirse una aproximación del valor de coeficiente transformado original que se ha encontrado que tiene un impacto visual reducido sobre una señal reconstruida. Además, si la encapsulación de datos de usuario se realiza dentro de una jerarquía basada en niveles que tiene múltiples flujos de datos residuales, un flujo de datos residuales de nivel superior puede corregir cualquier modificación sutil en un flujo de datos residuales de nivel actual, permitiendo por tanto todavía la opción de codificación sin pérdida. La operación de desplazamiento de bits puede aplicarse rápidamente (por ejemplo, en paralelo) a múltiples valores de coeficientes transformados que constituyen un plano particular de datos de señal tanto durante la codificación como durante la decodificación, minimizando la sobrecarga de procesamiento de los procedimientos de inserción y extracción de datos de usuario. Además, al tener el tamaño del desplazamiento y los datos de usuario como parámetro configurable, pueden proporcionarse diferentes niveles de incorporación de datos. Los presentes ejemplos pueden implementarse adicionalmente como modificaciones opcionales a tecnologías de codificación de señales existentes sin modificar las operaciones de codificación principales de esas tecnologías.

La presente descripción se refiere a codificación de “señales”. Como ejemplos no limitativos, una señal puede ser una imagen, una señal de audio, una señal de múltiples canales, una señal de telemetría, una señal de vídeo, una señal de vídeo de 3DoF/6DoF, una señal volumétrica (por ejemplo, obtención de imágenes médicas, obtención de imágenes científicas, obtención de imágenes holográficas, etc.), una señal de vídeo volumétrica o incluso señales con más de cuatro dimensiones.

En el presente documento se presentan ejemplos con referencia a una señal como secuencia de muestras (es decir, imágenes en dos dimensiones, tramas de vídeo, campos de vídeo, tramas de sonido, etc.). Por simplicidad, realizaciones no limitativas ilustradas en el presente documento se refieren con frecuencia a señales que se presentan como planos en 2D de ajustes (por ejemplo, imágenes en 2D en un espacio de color adecuado), tales como, por ejemplo, una señal de vídeo. Los términos “instantánea”, “trama” o “campo” se usarán de manera intercambiable con el término “imagen”, para indicar una muestra en el tiempo de la señal de vídeo: cualquier concepto y método ilustrado para señales de vídeo compuestas por tramas (señales de vídeo progresivas) también puede ser fácilmente aplicable a señales de vídeo compuestas por campos (señales de vídeo entrelazadas) y viceversa. A pesar de que las realizaciones ilustradas en el presente documento se centran en señales de imágenes y de vídeo, los expertos en la técnica pueden entender fácilmente que los mismos conceptos y métodos también pueden aplicarse a cualquier otro tipo de señal multidimensional (por ejemplo, señales de audio, señales volumétricas, señales de vídeo estereoscópico, señales de vídeo de 3DoF/6DoF, señales plenópticas, nubes de puntos, etc.). Aunque se proporcionan ejemplos de codificación de imágenes o vídeo, los mismos enfoques pueden aplicarse a señales con menos de dos dimensiones (por ejemplo, flujos de audio o sensor) o más de dos dimensiones (por ejemplo, señales volumétricas).

En la descripción, los términos “imagen”, “instantánea” o “plano” (que se pretende que tenga el significado más amplio de “hiperplano”, es decir, matriz de elementos con cualquier número de dimensiones y una cuadrícula de muestreo dada) se usarán con frecuencia para identificar la representación digital de una muestra de la señal a lo largo de la secuencia de muestras, en los que cada plano tiene una resolución dada para cada una de sus dimensiones (por ejemplo, X e Y), y comprende un conjunto de elementos de plano (o “elemento”, o “pel” o elemento de visualización para imágenes en dos dimensiones denominado con frecuencia “píxel”, para imágenes volumétricas denominado con frecuencia “vóxel”, etc.) caracterizado por uno o más “valores” o “ajustes” (por ejemplo, a modo de ejemplos no limitativos, ajustes de color en un espacio de color adecuado, ajustes que indican niveles de densidad, ajustes que indican niveles de temperatura, ajustes que indican tono de audio, ajustes que indican amplitud, ajustes que indican profundidad, ajustes que indican nivel de transparencia de canal alfa, etc.). Cada elemento de plano se identifica mediante un conjunto adecuado de coordenadas, que indican las posiciones en números enteros de dicho elemento en la cuadrícula de muestreo de la imagen. Las dimensiones de señales pueden incluir únicamente dimensiones espaciales (por ejemplo, en el caso de una imagen) o también una dimensión de tiempo (por ejemplo, en el caso de una señal que evoluciona a lo largo del tiempo, tal como una señal de vídeo).

El término “interfaz” se usa en el presente documento para hacer referencia a cualquier interfaz física y/o lógica que permite una o más de entrada de datos y salida de datos. Una interfaz puede implementarse recuperando datos a partir de una o más ubicaciones de memoria, tal como se implementa mediante un procesador que ejecuta un conjunto de instrucciones. Una interfaz también puede comprender acoplamientos físicos a través de los cuales se reciben datos. Una interfaz puede comprender una interfaz de programación de aplicaciones y/o llamada o retorno de método. Por ejemplo, en una implementación de software, una interfaz puede comprender pasar datos y/o referencias de memoria a una función iniciada mediante una llamada de método; en una implementación de hardware, una interfaz puede comprender una interconexión cableada entre diferentes chips, conjuntos de chips o porciones de chips. En las figuras, una interfaz puede indicarse mediante un límite de un bloque de procesamiento que tiene una flecha hacia dentro y/o hacia fuera que representa una transferencia de datos.

La figura 1 muestra un ejemplo de sistema 100 de codificación de señales. El sistema 100 de codificación de señales es un sistema de codificación basado en niveles o capas múltiples, ya que una señal se codifica mediante una pluralidad de flujos de bits que representan, cada uno, diferentes codificaciones de la señal a diferentes niveles de calidad. En el ejemplo de la figura 1, hay una capa de base 101 y una capa de mejora 102. La capa de mejora 102 puede implementar un esquema de codificación de mejora tal como LCEVC. LCEVC se describe en el documento PCT/GB2020/050695 y en los documentos de especificación de norma asociados incluyendo el texto de borrador de la norma ISO/IEC DIS 23094-2, codificación de vídeo de mejora de baja complejidad, publicado en la reunión de MPEG 129 en Bruselas, celebrada del lunes, 13 de enero de 2020, al viernes, 17 de enero de 2020. En la figura 1, la capa de mejora 101 comprende dos subcapas: una primera subcapa 103 y una segunda subcapa 104. Cada capa y subcapa puede estar asociada con un nivel de calidad específico. El nivel de calidad, tal como se usa en el presente documento, puede referirse a uno o más de: tasa de muestreo, resolución espacial y profundidad de bits, entre otros. En LCEVC, la capa de base 101 está a un nivel de calidad de base, la primera subcapa 103 está a un primer nivel de calidad y la segunda subcapa 104 está a un segundo nivel de calidad. El nivel de calidad de base y el primer nivel de calidad pueden comprender un nivel de calidad común (es decir, compartido o igual) o diferentes niveles de calidad. En un caso en el que los niveles de calidad corresponden a diferentes resoluciones espaciales, tal como en LCEVC, pueden obtenerse entradas para cada nivel de calidad mediante muestreo descendente y/o muestreo ascendente a partir de otro nivel de calidad. Por ejemplo, el primer nivel de calidad puede estar a una primera resolución espacial y el segundo nivel de calidad puede estar a una segunda resolución espacial superior, en el que pueden convertirse señales entre los niveles de calidad mediante muestreo descendente desde el segundo nivel de calidad hasta el primer nivel de calidad y mediante muestreo ascendente desde el primer nivel de calidad hasta el segundo nivel de calidad.

Aunque en el presente documento se presentan ejemplos implementados dentro de un sistema de codificación basado en niveles o capas múltiples, en otros ejemplos que no forman parte de la invención puede haber una única capa de codificación a un único nivel de calidad. Por ejemplo, el experto en la técnica será consciente de que puede implementarse tan sólo la primera subcapa central 103, por ejemplo con una transformada de DCT y datos no residuales, y todavía proporcionar los beneficios técnicos de la invención que se describen en el presente documento. Como tal, los enfoques descritos en el presente documento con referencia a los componentes de la primera subcapa 103 pueden implementarse dentro de diferentes conductos de codificación y decodificación de capas de señales.

En la figura 1, se ilustran porciones correspondientes de codificador 105 y decodificador 106 del sistema 100 de codificación de señales. Se observará que el codificador 105 y el decodificador 106 pueden implementarse como productos independientes y que no es necesario que se originen del mismo fabricante o que se proporcionen como una única unidad combinada. El codificador 105 y el decodificador 106 se implementan normalmente en diferentes ubicaciones geográficas, de tal manera que se genera un flujo de datos codificado con el fin de comunicar una señal de entrada entre dichas dos ubicaciones. Cada uno del codificador 105 y el decodificador 106 puede implementarse como parte de uno o más códecs, entidades de hardware y/o software que pueden codificar y decodificar señales. La referencia a la comunicación de señales tal como se describe en el presente documento también cubre la codificación y decodificación de archivos, en las que la comunicación puede realizarse a lo largo del tiempo en una máquina común (por ejemplo, generando un archivo codificado y accediendo al mismo en un punto de tiempo posterior) o mediante transporte físico en un medio entre dos dispositivos.

En determinadas implementaciones preferidas, los componentes de la capa de base 101 pueden suministrarse de manera independiente a los componentes de la capa de mejora 102; por ejemplo, la capa de base 101 puede implementarse mediante códecs acelerados por hardware mientras que la capa de mejora 102 puede comprender un códec de mejora implementado por software. La capa de base 101 comprende un codificador de base 110. El codificador de base 110 recibe una versión de una señal de entrada que va a codificarse, por ejemplo una señal después de una o dos rondas de muestreo descendente, y genera un flujo de bits de base 112. El flujo de bits de base 112 se comunica entre el codificador 105 y el decodificador 106. En el decodificador 106, un decodificador de base 114 decodifica el flujo de bits de base 112 para generar una reconstrucción de la señal de entrada al nivel de calidad de base.

Ambas subcapas de mejora 103 y 104 comprenden un conjunto común de componentes de codificación y decodificación. La primera subcapa 103 comprende un primer componente de transformación y cuantificación de subcapa 120 que emite un conjunto de coeficientes transformados de primera subcapa 122. El componente de transformación y cuantificación de primera subcapa 120 recibe datos derivados a partir de la señal de entrada al primer nivel de calidad y aplica una operación de transformación. Estos datos pueden comprender datos residuales tal como se describe a continuación. El componente de transformación y cuantificación de primera subcapa 120 también puede aplicar un nivel de cuantificación variable a una salida de la operación de transformación (incluyendo estar configurado para no aplicar ninguna cuantificación). El conjunto de coeficientes transformados de primera subcapa 122 se codifican mediante un componente de codificación de flujo de bits de primera subcapa 124 para generar un flujo de bits de primera subcapa 126. Este flujo de bits de primera subcapa 126 se comunica desde el codificador 105 hasta el decodificador 106. En el decodificador 106, se recibe el flujo de bits de primera subcapa 126 y se decodifica mediante un decodificador de flujo de bits de primera subcapa 128 para obtener un conjunto decodificado de coeficientes transformados de primera subcapa 130. El conjunto decodificado de coeficientes transformados de primera subcapa 130 se pasa a un componente de transformación inversa y cuantificación inversa de primera subcapa 132. El componente de transformación inversa y cuantificación inversa de primera subcapa 132 aplica operaciones de decodificación adicionales incluyendo aplicar al menos una operación de transformación inversa al conjunto decodificado de coeficientes transformados de primera subcapa 130. Si se ha aplicado cuantificación mediante el codificador 105, el componente de transformación inversa y cuantificación inversa de primera subcapa 132 puede aplicar una operación de cuantificación inversa antes de la transformación inversa. La decodificación adicional se usa para generar una reconstrucción de la señal de entrada.

De una manera similar, la segunda subcapa 104 también comprende un componente de transformación y cuantificación de segunda subcapa 140 que emite un conjunto de coeficientes transformados de segunda subcapa 142. El componente de transformación y cuantificación de segunda subcapa 140 recibe datos derivados a partir de la señal de entrada al segundo nivel de calidad y aplica una operación de transformación. Estos datos también pueden comprenden datos residuales en determinadas realizaciones, aunque pueden ser datos residuales diferentes de los recibidos por la primera subcapa 103. La operación de transformación puede ser la misma operación de transformación que se aplica en la primera subcapa 103. El componente de transformación y cuantificación de segunda subcapa 140 también puede aplicar un nivel de cuantificación variable antes de la operación de transformación (incluyendo estar configurado para no aplicar ninguna cuantificación). El conjunto de coeficientes transformados de segunda subcapa 142 se codifican mediante un componente de codificación de flujo de bits de segunda subcapa 144 para generar un flujo de bits de segunda subcapa 146. Este flujo de bits de segunda subcapa 146 se comunica desde el codificador 105 hasta el decodificador 106. En un caso, al menos los flujos de bits de primera y segunda subcapa 126 y 146 pueden multiplexarse para dar un único flujo de datos codificado. En un caso, los tres flujos de bits 112, 126 y 146 pueden multiplexarse para dar un único flujo de datos codificado. El único flujo de datos codificado puede recibirse en el decodificador 106 y demultiplexarse para obtener cada flujo de bits individual.

En el decodificador 106, se recibe el flujo de bits de segunda subcapa 146 y se decodifica mediante un decodificador de flujo de bits de segunda subcapa 148 para obtener un conjunto decodificado de coeficientes transformados de segunda subcapa 150. Como anteriormente, la decodificación en este caso se refiere a una decodificación de flujo de bits y puede formar parte de un conducto de decodificación (es decir, el conjunto decodificado de coeficientes transformados 130 y 150 puede representar un conjunto parcialmente decodificado de valores que se decodifican adicionalmente mediante operaciones adicionales). El conjunto decodificado de coeficientes transformados de segunda subcapa 150 se pasan a un componente de transformación inversa y cuantificación inversa de segunda subcapa 152. El componente de transformación inversa y cuantificación inversa de segunda subcapa 152 aplica operaciones de decodificación adicionales incluyendo aplicar al menos una operación de transformación inversa al conjunto decodificado de coeficientes transformados de segunda subcapa 150. Si se ha aplicado cuantificación mediante el codificador 105 en la segunda subcapa, el componente de transformación inversa y cuantificación inversa de segunda subcapa 152 puede aplicar una operación de cuantificación inversa antes de la transformación inversa. La decodificación adicional se usa para generar una reconstrucción de la señal de entrada.

Los componentes de codificación de flujo de bits 124 y 144 pueden implementar una combinación configurable de una o más de codificación por entropía y codificación por longitud de secuencia. Asimismo, los componentes de decodificación de flujo de bits 128 y 148 pueden implementar una combinación configurable de una o más de codificación por entropía y decodificación por longitud de secuencia.

A partir de documentación de LCEVC publicada pueden obtenerse detalles y ejemplos adicionales de un sistema de codificación y decodificación de mejora de dos subcapas.

En general, los ejemplos descritos en el presente documento funcionan dentro de conductos de codificación y decodificación que comprenden al menos una operación de transformación. La operación de transformación puede comprender la DCT o una variación de la DCT, una transformada rápida de Fourier (FFT) o una transformada de Hadamard tal como se implementa mediante LCEVC. La operación de transformación puede aplicarse para cada bloque. Por ejemplo, puede segmentarse una señal de entrada para dar varias porciones o bloques de señal consecutivos diferente y la operación de transformación puede comprender una multiplicación de matriz (es decir, transformación lineal) que se aplica a datos de cada uno de estos bloques (por ejemplo, tal como se representa mediante un vector de 1D). En esta descripción y en la técnica, puede decirse que una operación de transformación da como resultado un conjunto de valores para un número predefinido de elementos de datos, por ejemplo que representan posiciones en un vector resultante tras la transformación. Estos elementos de datos se conocen como coeficientes transformados (o algunas veces simplemente “coeficientes”).

En los presentes ejemplos, se incorporan datos de usuario dentro de al menos uno de los coeficientes transformados anteriormente descritos. En particular, se incorporan datos de usuario repartiendo un conjunto de bits que representan un valor de un coeficiente transformado. Esto se muestra en la figura 1.

En el ejemplo de la figura 1, la primera subcapa 103 comprende además un procesador previo de datos de usuario 160. El procesador previo de datos de usuario 160 está configurado para obtener valores para datos personalizados para incluir en el flujo de datos codificado que se comunica entre el codificador 105 y el decodificador 106. El término “datos de usuario” se usa en el presente documento para referirse a cualquier dato que no forma los valores de los coeficientes transformados, es decir que no forma parte de los propios datos de señal. Los datos de usuario pueden comprender metadatos, datos contextuales, parámetros adicionales que no están soportados por una especificación de sintaxis normalizada, datos de marca de agua, etc. Aunque los datos de usuario pueden considerarse como independientes de los datos de señal, pueden estar relacionados con los datos de señal, por ejemplo comprender etiquetas o anotaciones para porciones particulares de los datos de señal. Los datos de usuario también pueden usarse para proporcionar señalización para operaciones de procesamiento personalizadas “fuera de la norma” en uno o más del codificador 105 y el decodificador 106. El procesador previo de datos de usuario 160 emite datos de usuario en forma de un conjunto de bits de datos de usuario 162. En la figura 1, se reciben mediante un componente de inserción de datos de usuario 164 para insertar los bits de datos de usuario 162 en los datos de coeficientes transformados 122. El componente de inserción de datos de usuario 164 puede insertar los bits de datos de usuario 162 desplazando bits de coeficientes y después copiando los valores para los bits de datos de usuario 162 en los bits añadidos mediante el desplazamiento. Esto puede realizarse, por ejemplo, en relación con valores de coeficientes transformados para un plano de componente de color de una señal de vídeo. El componente de inserción de datos de usuario 164 puede comprender una interfaz de datos de usuario para obtener los bits de datos de usuario 162 que representan datos personalizados para añadir al flujo de bits de señal codificado. Los bits de datos de usuario 162 se combinan con el conjunto de coeficientes transformados de primera subcapa 122 y se codifican mediante el componente de codificación de flujo de bits de primera subcapa 124 para formar parte del flujo de bits de primera subcapa codificado 126. Como tal, el componente de inserción de datos de usuario 164 puede comprender una interfaz de codificación de flujo de bits para emitir un conjunto modificado de bits de coeficientes tal como se genera por el componente de inserción de datos de usuario 164 para la generación de un flujo de bits codificado.

En el decodificador 106, el conjunto decodificado de coeficientes transformados de primera subcapa 130 contiene los datos de usuario. La primera subcapa 103 comprende además un componente de extracción de datos de usuario 168 para extraer los bits de datos de usuario 170. Los bits de datos de usuario 170 pueden extraerse a partir de los bits añadidos tal como se describió anteriormente y después el componente de extracción de datos de usuario 168 puede aplicar una operación de desplazamiento de bits adicional, en el que la operación de desplazamiento de bits adicional es en un sentido que es opuesto al sentido usado para el desplazamiento de bits aplicado por el componente de inserción de datos de usuario 164. En la figura 1, los bits de datos de usuario extraídos 170 se reciben mediante un procesador posterior de datos de usuario 172 acoplado en comunicación al componente de extracción de datos de usuario 168 para obtener valores de bits de datos de usuario a partir de los bits de datos de usuario extraídos 170 y para derivar valores de datos personalizados a partir de los valores de bits, es decir para reconstruir los datos personalizados que se recibieron originalmente por el procesador previo de datos de usuario 160 en el codificador 105. La extracción de los bits de datos de usuario 170 modifica el conjunto decodificado de coeficientes transformados de primera subcapa 130, loque entonces pueden decodificarse adicionalmente, por ejemplo aplicando una operación de transformación inversa en el componente de transformación inversa y cuantificación inversa de primera subcapa 132.

Por tanto, incluyendo adicionalmente los componentes de inserción y extracción de datos de usuario 164 y 168, un sistema 101 de codificación de señales que usa un enfoque de codificación normalizado (tal como LCEVC) puede estar adaptado para codificar adicionalmente datos de usuario dentro de un flujo de bits comunicado. Dado que la codificación y decodificación de flujo de bits pueden ser operaciones sin pérdidas, por ejemplo en comparación con una operación de cuantificación realizada mediante componentes de transformación y cuantificación 120 y 140, los valores de datos de usuario pueden codificarse para su comunicación sin modificar los valores que tienen que extraerse por el decodificador 106. Dado que los bits de datos de usuario están asociados con valores de coeficientes transformados, también pueden estar asociados con bloques de datos de señal particulares, mediante lo cual pueden asignarse datos de usuario a porciones direccionables de la señal y, por tanto, en el decodificador 106 pueden vincularse valores de datos de usuario a porciones correspondientes de una reconstrucción de señal decodificada, tal como diferentes zonas de una trama de una señal de vídeo.

La figura 2 muestra un ejemplo de codificación de vídeo 200 que proporciona una explicación adicional de lo que significan coeficientes transformados y cómo están relacionados con una señal de entrada original.

En el ejemplo de la figura 2, se codifica una señal de vídeo 202. La señal de vídeo 202 comprende una pluralidad de tramas o instantáneas 204, por ejemplo en la que la pluralidad de tramas representan una acción a lo largo del tiempo. En este ejemplo, cada trama 204 está compuesta por tres componentes de color. Las componentes de color pueden estar en cualquier espacio de color conocido. En la figura 2, las tres componentes de color son Y (luma), U (un primer color oponente de croma) y V (un segundo color oponente de croma). Cada componente de color puede considerarse un plano 208 de valores. El plano 208 puede descomponerse para dar un conjunto de bloques de datos de señal denporn210. Por ejemplo, en LCEVC, n puede ser 2 ó 4; en otras tecnologías de codificación de vídeo, n puede ser de 8 a 32.

En LCEVC y algunas otras tecnologías de codificación, una señal de vídeo alimentada a una capa de base tal como 101 es una versión a escala reducida de la señal de vídeo de entrada 202. En este caso, la señal que se alimenta a ambas subcapas comprende una señal residual que comprende datos residuales. También puede organizarse un plano de datos residuales en conjuntos de bloques de datos de señal denporn210. Los datos residuales pueden generarse comparando datos derivados a partir de la señal de entrada que está codificándose, por ejemplo la señal de vídeo 202, y datos derivados a partir de una reconstrucción de la señal de entrada, generándose la reconstrucción de la señal de entrada a partir de una representación de la señal de entrada a un nivel de calidad inferior. En el ejemplo de la figura 1, la reconstrucción de la señal de entrada puede comprender una decodificación del flujo de bits de base codificado 112 que está disponible en el codificador 105. Esta decodificación del flujo de bits de base codificado 112 puede comprender una señal de vídeo de resolución inferior que entonces se compara con una señal de vídeo obtenida por muestreo descendente a partir de la señal de vídeo de entrada 202. La comparación puede comprender restar la reconstrucción a partir de la versión obtenida por muestreo descendente. La comparación puede realizarse para cada trama (y/o para cada bloque). La comparación puede realizarse al primer nivel de calidad; si el nivel de calidad de base está por debajo del primer nivel de calidad, puede aumentarse la escala de una reconstrucción a partir del nivel de calidad de base antes de la comparación. De una manera similar, la señal de entrada en la segunda subcapa, por ejemplo la entrada para el componente de transformación y cuantificación de segunda subcapa 140, puede comprender datos residuales que resultan de una comparación de la señal de vídeo de entrada 202 al segundo nivel de calidad (que puede comprender una versión original de calidad completa de la señal de vídeo) con una reconstrucción de la señal de vídeo al segundo nivel de calidad. Como anteriormente, la comparación puede realizarse para cada trama (y/o para cada bloque) y puede comprender una resta. La reconstrucción de la señal de vídeo puede comprender una reconstrucción generada a partir de la decodificación decodificada del flujo de bits de base codificado 112 y una versión decodificada del flujo de datos residuales de primera subcapa. La reconstrucción puede generarse al primer nivel de calidad y puede someterse a muestreo ascendente al segundo nivel de calidad.

Por tanto, un plano de datos 208 para la primera subcapa 103 puede comprender datos residuales que están dispuestos en bloques de señal denporn210. En la figura 2 se muestra en más detalle un bloque de señal de 2 por 2 de este tipo (se seleccionancomo 2 por facilidad de explicación) en el que, para un plano de color, el bloque puede tener valores 212 con una longitud de bits establecida (por ejemplo de 8 ó 16 bits). Cada bloque de señal denpornpuede representarse como un vector aplanado 214 de longitud n2 que representa los bloques de datos de señal. Para realizar la operación de transformación, puede multiplicarse el vector aplanado 214 por una matriz de transformación 16 (es decir, el producto escalar tomado). Entonces, esto genera otro vector 218 de longitud n2 que representa diferentes coeficientes transformados para un bloque de señal 210 dado. La figura 2 muestra un ejemplo similar a LCEVC en el que la matriz de transformación 216 es una matriz de Hadamard de tamaño de 4 por 4, dando como resultado un vector de coeficientes transformados 218 que tiene cuatro elementos con valores respectivos. Estos elementos se denominan algunas veces mediante las letras A, H, V y D, ya que pueden representar un promedio, diferencia horizontal, diferencia vertical y diferencia diagonal. Una operación de transformación de este tipo también puede denominarse descomposición direccional. Cuandon= 4, la operación de transformación puede usar una matriz de 16 por 16 y denominarse descomposición direccional cuadrada.

Tal como se muestra en la figura 2, el conjunto de valores para cada elemento de datos a lo largo del conjunto completo de bloques de señal 210 para el plano 208 pueden representarse como un plano o superficie de valores de coeficientes 220. Por ejemplo, los valores para los elementos de datos “H” para el conjunto de bloques de señal pueden combinarse para dar un único plano, en el que entonces el plano original 208 se representa como cuatro planos de coeficientes independientes 222. Por ejemplo, el plano de coeficientes 222 ilustrado contiene todos los valores “H”. Estos valores se almacenan con una longitud de bits predefinida, por ejemplo una longitud de bitsB,que puede ser de 8, 16, 32 ó 64 dependiendo de la profundidad de bits. A continuación se considera un ejemplo de 16 bits pero esto no es limitativo. Como tal, el plano de coeficientes 222 puede representarse como una secuencia (por ejemplo, en memoria) de valores de 16 bits o de 2 bytes 224 que representan los valores de un elemento de datos a partir de los coeficientes transformados. Estos pueden denominarse bits de coeficientes. En los presentes ejemplos, estos forman los coeficientes transformados de primera subcapa 122 que se modifican para incluir bits de datos de usuario 226. Esto se explica en más detalle a continuación.

En un caso, se selecciona un elemento de datos en el conjunto de coeficientes transformados, es decir un coeficiente particular, para portar datos de usuario. Este elemento de datos puede seleccionarse basándose en experimentos y/o percepción visual. Por ejemplo, se ha encontrado que un elemento horizontal (denominado “H” para una transformada de Hadamard de 2 por 2 y “HH” para una transformada de Hadamard de 4 por 4) puede modificarse para portar datos de usuario con una cantidad reducida de cambio visualmente percibido en una reconstrucción generada con el flujo de datos codificado de primera subcapa. Además, en un caso en el que se usan las dos subcapas tal como se muestra en la figura 1, y en el que esas subcapas representan datos residuales, los datos residuales de la segunda subcapa, por ejemplo 104 en la figura 1, pueden corregir cualquier cambio visual en una reconstrucción al primer nivel de calidad, y por tanto proporcionar codificación sin pérdida. En la práctica, se ha encontrado que, incluso con codificación con pérdida, la incorporación de los datos de usuario dentro de coeficientes transformados en la primera subcapa produce pocos cambios en la reconstrucción al primer nivel de calidad. Esto se debe, al menos en parte, a que bits que portan valores para los coeficientes transformados se reparten de tal manera que todavía se comunica una aproximación de un valor original al decodificador así como los datos de usuario; en muchos casos, esta aproximación es “lo suficientemente buena” y genera una salida que no puede distinguirse visualmente a simple vista.

Las figuras 3A a 3C muestran un ejemplo de método de insertar datos de usuario que puede implementarse mediante el componente de inserción de datos de usuario 164 de la figura 1.

La figura 3A muestra un conjunto de bits de coeficientes 300 que representan valores para un conjunto de coeficientes transformados 310, generándose los valores aplicando al menos una operación de transformación a bloques de datos de señal derivados a partir de una señal de entrada que está codificándose. Por ejemplo, el conjunto de bits de coeficientes 300 puede comprender la secuencia de valores deBbits 224 tal como se muestra en la figura 2. En los ejemplos de las figuras 3A a 3C y 4A a 4C, los valores se representan mediante 16 bits y, por tanto, hay 16 bits por cada valor, tal como se representa mediante la flecha 320. El conjunto de coeficientes transformados 310 puede corresponder a todos los elementos de datos emitidos mediante una transformación (por ejemplo, A, H, V y D) o un subconjunto de esos elementos de datos (por ejemplo, tan sólo H).

En la figura 3B, se aplica una operación de desplazamiento de bits 330 a los bits de coeficientes 300 para permitir la inserción de los datos de usuario. En la figura 3A, la secuencia de bits de coeficientes tiene dos extremos 322 y 324. Uno de estos extremos se “desplaza” mediante la operación de desplazamiento de bits. En un caso, el extremo 322 comprende el bit más significativo y la operación de desplazamiento de bits 330 es un desplazamiento a la izquierda. Esto tiene el efecto de mover los valores para un conjunto central de bits 332 un número de lugares en el sentido del desplazamiento. Para un desplazamiento a la izquierda, esto es equivalente a multiplicar el valor de coeficiente por 2D, dondeDes la longitud del desplazamiento de bits. La operación de desplazamiento de bits 330 puede configurarse mediante un parámetro que indica el tamaño deD.En la figura 3B, la operación de desplazamiento de bits 330 es un desplazamiento de 2 bits a la izquierda. El tamaño de la operación de desplazamiento de bits 330 también indica un número de bits que están disponibles para portar los datos de usuario. En la figura 3B, los dos bits más significativos 338 se desplazan fuera de los bits de coeficientes y, por tanto, se desechan 340. La operación de desplazamiento de bits 330 actúa para añadir o insertar un número de bits adicionales 334, en la que el número depende del tamaño del desplazamiento de bits. En este caso, se añaden dos bits adicionales 334 al bit menos significativo del conjunto de bits de coeficientes. En el presente ejemplo, estos dos bits adicionales 334 tienen un valor de cero 336. Por tanto, representan bits en blanco cuyo valor puede establecerse con bits de datos de usuario. Esto se muestra en la figura 3C.

En la figura 3C, los valores de los bits adicionales 334 se establecen basándose en un conjunto de bits de datos de usuario obtenidos 350. Tal como se muestra en la figura 3C, los valores de los 14 bits centrales 332 no se alteran, pero los valores de los bits adicionales 334 se establecen tal como se muestra mediante 344 con valores de bits respectivos a partir de los bits de datos de usuario 350. En este ejemplo, los bits de datos de usuario 350 están dispuestos como grupos de bits, en el que cada grupo de bits 352 tiene una longitud (es decir, un número de bits) que es igual al tamaño del desplazamiento de bits (en otros casos, también puede ser menor que el tamaño del desplazamiento de bits). En el ejemplo de la figura 2, dado que se añaden dos bits al extremo 324 (el bit menos significativo para un desplazamiento a la izquierda; el bit más significativo para un desplazamiento a la derecha), los bits de datos de usuario 350 comprenden pares de bits 352 (es decir, pueden representar 4 valores diferentes: 0, 1, 2 ó 3). Pueden añadirse diferentes valores a diferentes valores de coeficientes que representan diferentes bloques de datos de señal; por tanto, pueden asociarse diferentes valores de datos de usuario con diferentes porciones de la señal que está codificándose. Aunque se muestra que se añaden bits de datos de usuario a cada valor de coeficiente, en determinados casos puede modificarse de esta manera tan sólo un subconjunto de valores de coeficientes correspondientes a un subconjunto de bloques de señal particulares. La figura 3C muestra un conjunto modificado de bits de coeficientes que entonces se envían para codificación por entropía y serialización 354, por ejemplo para codificación de flujo de bits usando el componente de codificación de flujo de bits de primera subcapa 124.

Las figuras 4A a 4C muestran un ejemplo de un procedimiento de extracción de datos de usuario que puede realizarse mediante el componente de extracción de datos de usuario 168 tal como se muestra en la figura 1. En la figura 4A, se obtiene un conjunto inicial de bits de coeficientes 400. Estos valores representan un conjunto de coeficientes transformados, concretamente comprenden la entrada en la codificación por entropía y serialización 354 tal como se muestra en la figura 3C como se reciben y se decodifican por un decodificador. El conjunto inicial de bits de coeficientes 400 puede obtenerse decodificando un flujo de bits codificado tal como se explicó con referencia a la figura 1 (por ejemplo, decodificando el flujo de bits de primera subcapa 126). En la figura 4A, los valores de bits de datos de usuario que se añadieron a los bits adicionales 444 se leen a partir de los mismos bits y se usan para construir un flujo de bits de datos de usuario 450 que es una reconstrucción de los bits de datos de usuario 350 que se incorporaron en la figura 3C. Entonces, esto puede leerse como datos de usuario 170 en la figura 1 y someterse a procesamiento posterior según sea necesario.

Una vez que se han leído y/o copiado los bits de datos de usuario, pueden desplazarse los bits de coeficientes de vuelta para recuperar una aproximación de los bits de coeficientes originales 300. Esto se muestra en la figura 4B. En la figura 4B, se aplica una operación de desplazamiento de bits 460 al conjunto inicial de bits de coeficientes 450. La operación de desplazamiento de bits 460 es en sentido opuesto al aplicado en la figura 3B. Por ejemplo, si el desplazamiento de bits en la figura 3B es un desplazamiento a la izquierda, el desplazamiento de bits en la figura 4B es un desplazamiento a la derecha. La operación de desplazamiento de bits 460 desplaza los bits de extremo 464 que contenían los datos de usuario, es decir después de haberse leído o copiado los valores de bits de datos de usuario. Por tanto, los valores de bits 464 se desechan eficazmente. En el otro extremo de la secuencia de bits, se añade de manera correspondiente un conjunto adicional de bits 462 a la secuencia de bits mediante la operación de desplazamiento de bits 460. Estos bits adicionales pueden establecerse a 0 (u otro valor por defecto). Por tanto, en la figura 4C, se proporciona un set reconstruido de bits de coeficientes 470 que entonces pueden pasarse para su cuantificación inversa y/o transformación inversa 472. Por tanto, puede decodificarse adicionalmente el conjunto reconstruido de bits de coeficientes 470, lo cual incluye aplicar al menos una operación de transformación inversa a valores representados por el conjunto reconstruido de bits de coeficientes, formando esta decodificación adicional parte del procedimiento de reconstruir la señal de entrada, por ejemplo tal como forma parte de una decodificación de LCEVC convencional.

Aunque la descripción anterior hace referencia a usar 2 bits para portar valores de datos de usuario, y a que el desplazamiento de bits correspondiente es de 2 bits, alternativamente puede usarse cualquier número predefinido de bits en otras implementaciones. El número predefinido de bits puede ser un parámetro configurable, por ejemplo establecido por un parámetro deuser_data_sizeo un parámetro deuser_data_enabledque indica un tamaño predefinido.

Adicionalmente, aunque la descripción anterior se refiere a un desplazamiento a la izquierda que se realiza en el codificador y un desplazamiento a la derecha que se realiza en el decodificador, en otras implementaciones esto puede invertirse y puede realizarse un desplazamiento a la derecha en el codificador y puede realizarse un desplazamiento a la izquierda en el decodificador. Por ejemplo, si el extremo 322 es el bit menos significativo, entonces la figura 3B muestra un desplazamiento a la derecha; si el extremo 322 es el bit más significativo, entonces la figura 3B muestra un desplazamiento a la izquierda. Es importante que la operación correspondiente en el decodificador sea un desplazamiento de bits en el sentido opuesto al aplicado en el codificador. Se prefiere un desplazamiento a la izquierda si los valores de coeficientes son normalmente pequeños en comparación con la profundidad de bits para los valores de coeficientes. Por ejemplo, si los datos de señal transformados comprenden datos residuales, la profundidad de bits es de 16 bits, y la longitud de desplazamiento es de 2, un desplazamiento a la izquierda conserva los valores de bits de valores de coeficientes hasta 214. Se prefiere un desplazamiento a la derecha si los valores de coeficientes son normalmente grandes en comparación con la profundidad de bits para los valores de coeficientes, por ejemplo son valores no residuales. Un desplazamiento a la derecha actúa para desechar valores pequeños pero mantiene una precisión aproximada de valores grandes. El desplazamiento de bits puede comprender desplazamientos lógicos de tal manera que se ignora el rebosamiento. Los desplazamientos de bits pueden implementarse C/C++ usando los operadores “<<“ (desplazamiento a la izquierda) y “>>“ (desplazamiento a la derecha).

En un caso, si se usa un desplazamiento a la izquierda y el valor de coeficiente se representa por un número entero con signo en el que el bit más significativo indica el signo, entonces el procedimiento de inserción puede incluir etapas adicionales para mantener el valor de signo. En este caso, antes de la operación de desplazamiento de bits 330 en la figura 3B, puede copiarse el bit de signo (el bit más significativo). Entonces puede realizarse un desplazamiento a la izquierda de uno antes de la operación de desplazamiento de bits 330 y usarse el valor de bit de signo para establecer el valor del bit añadido mediante el desplazamiento. Entonces puede realizarse la operación de la figura 3B. En el decodificador, después de haberse extraído los datos de usuario y haberse realizado el primer desplazamiento a la derecha tal como se muestra en la figura 4B, puede leerse el valor de bit menos significativo, que porta el valor de bit de signo, y almacenarse en una memoria temporal. Entonces pueden desplazarse adicionalmente a la derecha en 1 los bits de coeficientes reconstruidos resultantes de la figura 4B y puede volver a almacenarse el valor de bit de signo en el bit más significativo 474 (por ejemplo, estableciendo este valor al valor de bit de signo almacenado en memoria intermedia). Este enfoque puede permitir mantener información de signo a costa de una operación de desplazamiento adicional; sin embargo, pueden mantenerse pequeños valores almacenados dentro de los bits de núcleo in alterar (B-D-1) 332/432. Debe observarse que, en otros ejemplos, el bit de signo también puede añadirse después de añadir los bits de datos de usuario en el codificador, y retirarse antes de leer los bits de datos de usuario en el decodificador.

Realizar un desplazamiento a la izquierda en el codificador seguido por un desplazamiento a la derecha en el decodificador es equivalente a multiplicar los valores de coeficientes por 2D y después, posteriormente, dividir los valores de coeficientes entre 2D (o 2(D+1) si se realiza el método de bit de signo). Si el valor de coeficiente se representa por 8 bits y es “7”, yD= 2, entonces los bits de coeficientes de 00000111 pasan a ser 000111xx, donde xx porta los datos de usuario. La versión recuperada del valor de coeficiente en el decodificador también es “7”. Si se usa el método de bit de signo, el coeficiente es “-7” y se usa un valor de bit más significativo de 1 para representar números negativos, entonces los bits de coeficientes de 10000111 pasan a ser 00111sxx, donde xx porta los datos de usuario y s = 1. La versión recuperada también es “-7”. Por tanto, para valores bajos, no hay ninguna modificación de valores. Sin embargo, en efecto, ambos casos actúan para limitar o recortar el valor de coeficiente basándose en la longitud de desplazamiento. Por ejemplo, si el valor es 112 (01110000) entonces el desplazamiento a la izquierda y desplazamiento a la derecha proporcionan una aproximación de 48 (01110000 > 110000xx > 00110000) sin recuperación de bit de signo y, si el valor es -112 (11110000), una aproximación de -16 (11110000 > 100001xx > 10010000).

Realizar un desplazamiento a la derecha en el codificador seguido por un desplazamiento a la izquierda en el decodificador es equivalente a dividir los valores de coeficientes entre 2D (e ignorar el resto) y después, posteriormente, multiplicar los valores de coeficientes por 2D Si el valor de coeficiente se representa por 8 bits y es “7”, yD= 2, entonces los bits de coeficientes de 00000111 pasan a ser xx000001, donde xx porta los datos de usuario. Por tanto, la versión recuperada del valor de coeficiente en el decodificador es 00000100 ó 4. Si el coeficiente es “-7” y se usa un valor de bit más significativo de 1 para representar los números negativos, entonces los bits de coeficientes de 10000111 pasan a ser xx100001, donde xx porta los datos de usuario. Esto da como resultad un valor recuperado de 10000100, “-4”. En efecto, ambos de estos casos actúan para redondear valores hasta un múltiplo de potencia de dos más próximo (por ejemplo, inferior más próximo). Sin embargo, si el valor es 112 (01110000), entonces el desplazamiento a la derecha y el desplazamiento a la izquierda proporcionan una salida de 112 (01110000 > xx011100 > 0011100) y si el valor es -112 (11110000) una salida de -112 (11110000 > xx111100 > 11110000), es decir, se mantiene la fidelidad de los valores altos.

En esquemas de codificación en los que se calculan datos residuales, tales como LCEVC, se ha encontrado que la combinación de desplazamiento a la izquierda en el codificador y el desplazamiento a la derecha en el decodificador produce reconstrucciones mejores; el efecto de limitación se corrige mejor mediante un nivel de calidad superior y, si sólo se modifica un coeficiente (por ejemplo H o HH), esto produce poca diferencia perceptible incluso en una reconstrucción que usa la decodificación de capa de base y los datos residuales a partir de la primera subcapa. Esto se debe a que los valores residuales tienen una distribución alrededor de 0, siendo poco probables los valores altos. Por tanto, se prefiere una combinación de desplazamiento a la izquierda en el codificador y desplazamiento a la derecha en el decodificador para codificaciones de datos residuales tales como LCEVC.

Aunque el ejemplo de las figuras 3A a 3C muestra que se añade un conjunto de bits en blanco y que posteriormente se establecen los valores de bits para estos bits, se observará que esto puede realizarse alternativamente disponiendo una secuencia de bits más larga con los bits de datos de usuario a la derecha de los bits de extremo y después desplazando a la izquierda la secuencia de bits más larga de tal manera que los bits de datos de usuario se copian automáticamente hasta el extremo de los bits de coeficientes. De manera similar, aunque se muestra un desplazamiento de dos bits, el desplazamiento puede ser una cantidad configurable. La invención se restringe a aplicar un desplazamiento de bits de o bien 2 o bien 6 bits. Una configuración que no forma parte de la invención es de la siguiente manera. Puede establecerse un indicador de 2 bits de configuración que indica cuatro opciones diferentes para el tamaño de desplazamiento de bits: 00 ó 0 para ausencia de datos de usuario; 01 ó 1 para un tamaño de datos de usuario y desplazamiento de 2 bits; 10 ó 2 para un tamaño de datos de usuario y desplazamiento de 6 bits; y 11 ó 3 para un tamaño personalizado adicional. En otros casos, el tamaño del desplazamiento de bits y los datos de usuario puede establecerse mediante un valor de número entero que es menor que el tamaño de bits usado para representar los valores de coeficientes.

El tamaño de los datos de usuario puede indicar un reparto de los valores en el conjunto de valores de coeficientes transformados 300. LosBbits de coeficientes originales (dondeB= 16 en la figura 3A) pueden dividirse en dos porciones: una primera porción deCbits para portar una representación del valor de coeficiente transformado (por ejemplo, dondeCes menor de 16) y configurar una segunda porción deDbits para portar un valor de datos de usuario (por ejemplo, dondeD=B-C). El valor deDpuede cambiar de manera dinámica durante la codificación de un flujo de señal codificado. Por ejemplo, si hay congestión de red que reduce una tasa de transmisión de bits disponible para la segunda subcapa 104, puede desearse reducirDde tal manera que se reduce la gravedad de la limitación y/o el redondeo de los valores de coeficientes, ya que puede haber menos capacidad para corregir cualquier efecto usando el flujo de datos codificado para la segunda subcapa 104. En general, métodos presentados en el presente documento pueden considerarse como un método de incorporar datos de usuario en un flujo de datos codificado, en el que el método comprende: obtener un conjunto de valores de coeficientes transformados, representándose cada valor en el conjunto conBbits de coeficientes; obtener un conjunto de datos de usuario para incorporar en el flujo de datos codificado; repartir, para cada valor en el conjunto de valores de coeficientes transformados, losBbits de coeficientes en dos porciones, incluyendo configurar una primera porción deCbits para portar una representación del valor de coeficiente transformado y configurar una segunda porción deDbits para portar un valor de datos de usuario; y codificar losBbits de coeficientes repartidos en el flujo de datos codificado, en el que un decodificador puede recibir el flujo de datos codificado, decodificar losBbits de coeficientes repartidos, extraer el conjunto de datos de usuario a partir de la segunda porción deDbits y usar la primera porción deCbits para generar una reconstrucción del valor de coeficiente transformado. Por ejemplo, un método de decodificación equivalente puede comprender: recibir el flujo de datos codificado; decodificar losBbits de coeficientes repartidos; extraer el conjunto de datos de usuario a partir de la segunda porción deDbits; y usar la primera porción deCbits para generar una reconstrucción del valor de coeficiente transformado.

El procesamiento previo de los datos de usuario, por ejemplo tal como se realiza mediante un procesador previo de datos de usuario 160, puede comprender obtener una lista de valores que tienen ubicaciones correspondientes dentro de la señal, por ejemplo tal como se representa mediante una coordenada de x,yy/o una referencia a una unidad de codificación particular en un flujo de unidades de codificación dispuestas en un orden predefinido (tal como, primero las filas). Entonces pueden convertirse estos valores en valores deDbits adecuados (o grupos de valores deDbits a lo largo de múltiples bloques de señal) y generar un flujo de bits de datos de usuario de tal manera que los valores deDbits se insertan en los bloques de señal correspondientes a las ubicaciones definidas. Por ejemplo, en un flujo de bits de datos de usuario tal como se muestra en las figuras 3C y 4A, puede insertarse “00” en el flujo de bits si no tienen que incorporarse datos de usuario.

En determinados ejemplos, puede modificarse tan sólo un subconjunto de los valores de coeficientes para insertar datos de usuario. Por ejemplo, si no hay datos de usuario que van a insertarse en un coeficiente transformado asociado con un bloque de señal, entonces puede no realizarse ninguna operación de desplazamiento de bits para ese bloque de señal. Puede realizarse un mapeo entre datos personalizados recibidos y bloques de señal mediante el procesador previo de señal 160 basándose en datos de ubicación recibidos (tal como se indicó anteriormente). Puede señalizarse si un bloque de señal contiene datos de usuario incorporados en un flujo de señalización en el que se proporciona un indicador binario para cada bloque de señal que indica si el bloque de señal porta datos de usuario o no. Esto puede usarse para indicar la operación de desplazamiento de bits en el decodificador. En otros casos, puede establecerse un parámetro de señalización global para un plano de datos que indica si tiene que realizarse la operación de desplazamiento de bits para todos los bloques de señal dentro de dicho plano. Un elemento de datos dentro de un conjunto de elementos de datos que forman los coeficientes transformados (por ejemplo H o HH) puede establecerse previamente o también definirse con un parámetro de señalización.

Tal como se describe en el presente documento, cuando los datos de señal comprenden datos residuales, un conjunto reconstruido de bits de coeficientes puede comprender datos residuales transformados, y un método de decodificación puede comprender además indicar una combinación de datos residuales obtenidos a partir de la decodificación adicional del conjunto reconstruido de bits de coeficientes con una reconstrucción de la señal de entrada generada a partir de una representación de la señal de entrada a un nivel de calidad inferior para generar una reconstrucción de la señal de entrada a un primer nivel de calidad. La representación de la señal de entrada a un nivel de calidad inferior puede ser una señal de base decodificada (por ejemplo, a partir del decodificador de base 114) y opcionalmente puede aumentarse la escala de la señal de base decodificada antes de combinarse con datos residuales obtenidos a partir de la decodificación adicional del conjunto reconstruido de bits de coeficientes, estando los datos residuales a un primer nivel de calidad (por ejemplo, una primera resolución). La decodificación puede comprender además recibir y decodificar datos residuales asociados con una segunda subcapa 104, por ejemplo obtener una salida del componente de transformación inversa y cuantificación inversa 152, y combinarla con datos derivados a partir de la reconstrucción anteriormente mencionada de la señal de entrada al primer nivel de calidad. Estos datos pueden comprender datos derivados a partir de una versión a escala aumentada de la reconstrucción de la señal de entrada al primer nivel de calidad, es decir un aumento a escala hasta el segundo nivel de calidad.

Aunque se han descrito ejemplos con referencia a un esquema de codificación jerárquico basado en niveles en forma de LCEVC, los métodos descritos en el presente documento también pueden aplicarse a otro esquema de codificación jerárquico basado en niveles, tal como VC-6: SMPTE VC-6 ST-2117 tal como se describe en el documento PCT/GB2018/053552 y/o el documento de la norma publicado asociado.

La extracción de datos de usuario puede comprender obtener un parámetro que indica un número de bits(D)usado para valores de datos de usuario. Este parámetro puede señalizarse a partir del codificador. Esto puede indicar al componente de extracción de datos de usuario 168 que obtenga valores de bits para un conjunto deDbits que están ubicados en un extremo del conjunto inicial de bits de coeficientes, añadiéndose el conjunto deDbits durante la operación de desplazamiento de bits aplicada en el codificador. En este caso, el tamaño de la operación de desplazamiento de bits se establece mediante el número de bits (D) usados para valores de datos de usuario. El procesador posterior de datos de usuario 172 puede someter a procesamiento posterior los valores de bits para reconstruir un conjunto de valores de datos de usuario. En determinados casos, una porción de datos de usuario pueden distribuirse a través de múltiples bloques de datos de señal (por ejemplo, un byte de datos de usuario puede distribuirse en 4 bloques que tienen, cada uno, un valor de datos de usuario de 2 bits). En este caso, el procesador previo de datos de usuario 160 puede dividir y distribuir los valores de bits de bytes de datos personalizados recibidos y el procesador posterior de datos de usuario 172 puede reconstruir los bytes originales de datos personalizados basándose en valores de bits de datos de usuario extraídos a partir de múltiples bloques de señal.

Las técnicas descritas en el presente documento pueden implementarse en software o hardware, o pueden implementarse usando una combinación de software y hardware. Pueden incluir configurar un aparato para llevar a cabo y/o soportar todas y cada una de las técnicas descritas en el presente documento.

Debe entenderse que los ejemplos anteriores son ilustrativos. Se prevén ejemplos adicionales.

Debe entenderse que cualquier característica descrita en relación con cualquier ejemplo puede usarse sola o en combinación con otras características descritas, y también puede usarse en combinación con una o más características de cualquier otro de los ejemplos, o cualquier combinación de cualquier otro de los ejemplos. Además, también pueden emplearse equivalentes y modificaciones no descritos anteriormente sin alejarse del alcance de la invención, que se define en las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1. Método de codificación de datos de señal, que comprende:

obtener bits de coeficientes (122) que representan valores para un conjunto de coeficientes transformados, generándose los valores aplicando al menos una operación de transformación a bloques de datos de señal derivados a partir de una señal de entrada que está codificándose;

obtener bits de datos de usuario (162) que representan datos personalizados para añadir a un flujo de bits de señal codificado;

aplicar una operación de desplazamiento de bits (164) a los bits de coeficientes, desplazando la operación de desplazamiento de bits los bits de coeficientes un número predefinido de bits, en el que el número predefinido de bits es de o bien 2 o bien 6 bits;

establecer valores de un conjunto de bits adicionales añadidos a los bits de coeficientes basándose en los bits de datos de usuario para generar un conjunto modificado de bits de coeficientes; e

indicar (124) la generación de un flujo de bits codificado (126) usando el conjunto modificado de bits de coeficientes,

en el que el flujo de bits codificado porta tanto los datos personalizados como una codificación de los datos de señal,

en el que los bloques de datos de señal (210) comprenden datos residuales generados comparando datos derivados a partir de la señal de entrada que está codificándose y datos derivados a partir de una reconstrucción de la señal de entrada, generándose la reconstrucción de la señal de entrada a partir de una representación de la señal de entrada a un nivel de calidad inferior,

en el que el flujo de bits codificado es un flujo de bits de mejora codificado para una primera subcapa de mejora a un primer nivel de calidad, y el método comprende además:

obtener bits de coeficientes adicionales (142) que representan valores para un conjunto de coeficientes transformados a un segundo nivel de calidad, siendo el segundo nivel de calidad superior al primer nivel de calidad, generándose los valores aplicando al menos una operación de transformación a bloques de datos de señal al segundo nivel de calidad; e

indicar la generación de un flujo de bits de mejora codificado para una segunda subcapa de mejora (146) al segundo nivel de calidad usando los bits de coeficientes adicionales sin aplicar una operación de desplazamiento de bits.

2. Método según la reivindicación 1, que comprende, antes de obtener bits de coeficientes:

obtener los bloques de datos de señal derivados a partir de una señal de entrada que está codificándose; aplicar la operación de transformación a datos a partir de cada uno de los bloques de datos de señal para generar coeficientes transformados iniciales; y

cuantificar (140) los coeficientes transformados iniciales para generar el conjunto de coeficientes transformados.

3. Método según la reivindicación 1 o la reivindicación 2, que comprende además:

codificar el conjunto modificado de bits de coeficientes usando una o más de codificación por entropía y codificación por longitud de secuencia para generar el flujo de bits codificado.

4. Método según cualquier reivindicación anterior, en el que la representación de la señal de entrada a un nivel de calidad inferior comprende una representación de la señal de entrada a una resolución inferior preferiblemente en el que el flujo de bits codificado es un flujo de bits de mejora codificado para mejorar un flujo de bits de base codificado (112), siendo el flujo de bits de base codificado una representación codificada de la señal de entrada a un nivel de calidad inferior.

5. Método según una cualquiera de las reivindicaciones anteriores, en el que uno o más de:

los bloques de datos de señal comprenden bloques de datos de señal denpor n, y la operación de transformación implementa una multiplicación de matriz aplicada a vectores aplanados de longitud n2 que representan los bloques de datos de señal, preferiblemente en el que la multiplicación de matriz comprende una multiplicación con una matriz de Hadamard den2por n2; y

la operación de transformación emite valores para un conjunto de elementos de datos para cada bloque de datos de señal, y los bits de coeficientes representan valores de coeficientes transformados para uno predefinido del conjunto de elementos de datos.

6. Método según una cualquiera de las reivindicaciones anteriores, que comprende:

obtener datos personalizados para añadir al flujo de bits de señal codificado;

obtener un parámetro que indica una longitud de bits para valores de datos de usuario, indicando la longitud de bits el número predefinido de bits para la operación de desplazamiento de bits; y

procesar previamente los datos personalizados para generar un flujo de bits de valores de datos personalizados, representándose cada valor en el flujo de bits mediante un grupo de bits de la longitud de bits, preferiblemente en el que los datos personalizados comprenden datos asociados con ubicaciones específicas definidas con la señal de entrada, y en el que el método comprende:

procesar previamente los datos personalizados para asignar valores de datos personalizados a bloques específicos de los datos de señal basándose en las ubicaciones específicas definidas con la señal de entrada,

en el que aplicar la operación de desplazamiento de bits y copiar los bits de datos de usuario se realiza al menos para los bloques específicos de los datos de señal, en el que la longitud de bits es de o bien 2 o bien 6 bits.

7. Método según una cualquiera de las reivindicaciones 1 a 6, en el que la operación de desplazamiento de bits es un desplazamiento a la izquierda.

8. Método de decodificación de datos de señal, comprendiendo el método:

obtener un flujo de bits codificado;

decodificar (128) el flujo de bits codificado para obtener un conjunto inicial de bits de coeficientes que representan valores para un conjunto de coeficientes transformados (130), generándose los valores durante la codificación aplicando al menos una operación de transformación a bloques de datos de señal derivados a partir de una señal de entrada;

extraer datos de usuario (168) a partir de un conjunto de bits de extremo del conjunto inicial de bits de coeficientes;

aplicar una operación de desplazamiento de bits de o bien 2 o bien 6 bits al conjunto inicial de bits de coeficientes, siendo la operación de desplazamiento de bits en un sentido que es opuesto a un sentido de una operación de desplazamiento de bits aplicada durante la codificación, generando la operación de desplazamiento de bits un conjunto reconstruido de bits de coeficientes; e

indicar la decodificación adicional (132) del conjunto reconstruido de bits de coeficientes, comprendiendo la decodificación adicional aplicar al menos una operación de transformación inversa a valores representados por el conjunto reconstruido de bits de coeficientes,

en el que la decodificación adicional se usa para generar una reconstrucción de la señal de entrada, en el que el conjunto reconstruido de bits de coeficientes comprende datos residuales transformados, y el método comprende además:

indicar una combinación de datos residuales obtenidos a partir de la decodificación adicional del conjunto reconstruido de bits de coeficientes con una reconstrucción de la señal de entrada generada a partir de una representación de la señal de entrada a un nivel de calidad inferior para generar una reconstrucción de la señal de entrada a un primer nivel de calidad,

en el que el flujo de bits codificado es un flujo de bits de mejora codificado para una primera subcapa de mejora al primer nivel de calidad y el método comprende además:

obtener un flujo de bits de mejora codificado (146) para una segunda subcapa de mejora a un segundo nivel de calidad;

decodificar (148), sin aplicar una operación de desplazamiento de bits y extraer datos de usuario, el flujo de bits de mejora codificado para la segunda subcapa de mejora para obtener un segundo conjunto de datos residuales para el segundo nivel de calidad;

indicar una combinación del segundo conjunto de datos residuales con una reconstrucción al segundo nivel de calidad derivado a partir de la reconstrucción de la señal de entrada al primer nivel de calidad para generar una reconstrucción de la señal de entrada al segundo nivel de calidad.

9. Método según la reivindicación 8, en el que decodificar el flujo de bits codificado comprende una o más de decodificación por entropía y decodificación por longitud de secuencia y en el que la decodificación adicional del conjunto reconstruido de bits de coeficientes comprende aplicar una operación de cuantificación inversa antes de la operación de transformación inversa, en el que el flujo de bits codificado es un flujo de bits de mejora codificado para mejorar un flujo de bits de base codificado, derivándose la reconstrucción de la señal de entrada a partir de una decodificación del flujo de bits de base codificado.

10. Método según la reivindicación 8 ó 9, en el que extraer datos de usuario comprende:

obtener un parámetro que indica un número de bits,D,usado para valores de datos de usuario;

obtener valores de bits para un conjunto deDbits que están ubicados en un extremo del conjunto inicial de bits de coeficientes, añadiéndose el conjunto deDbits durante la operación de desplazamiento de bits aplicada durante la codificación; y

procesar posteriormente los valores de bits para reconstruir un conjunto de valores de datos de usuario, en el que el tamaño de la operación de desplazamiento de bits se establece mediante el número de bits,D,usado para valores de datos de usuario, en el que el número de bits,D,es de 2 ó 6 bits.

11. Método según una cualquiera de las reivindicaciones anteriores, en el que la señal de entrada comprende una señal de vídeo, y el método se aplica para bloques de datos para al menos un plano de color asociado con tramas de la señal de vídeo, preferiblemente en el que cada nivel de calidad está asociado con una resolución espacial diferente.

12. Codificador configurado para realizar el método según una cualquiera de las reivindicaciones 1 a 7.

13. Decodificador configurado para realizar el método según una cualquiera de las reivindicaciones 8 a 11.

14. Método según una cualquiera de las reivindicaciones 1 a 11, o codificador según la reivindicación 12 o decodificador según la reivindicación 13, en los que la señal de entrada se codifica usando MPEG-5, parte 2, LCEVC (“codificación de vídeo de mejora de baja complejidad”).

15. Flujo de bits que comprende:

un flujo de bits de mejora codificado para una primera subcapa de mejora a un primer nivel de calidad que comprende:

un conjunto modificado de bits de coeficientes que portan datos personalizados y una codificación de datos de señal, derivándose el conjunto modificado de bits de coeficientes a partir de;

un conjunto inicial de bits de coeficientes que representan valores para un conjunto de coeficientes transformados, generándose los valores durante la codificación aplicando al menos una operación de transformación a bloques de datos de señal derivados a partir de una señal de entrada, en el que el conjunto inicial de bits de coeficientes se genera aplicando una operación de desplazamiento de bits de o bien 2 o bien 6 bits a los valores; y

bits de datos de usuario en un conjunto de bits de extremo del conjunto inicial de bits de coeficientes, representando dichos bits de datos de usuario dichos datos personalizados;

en el que el conjunto inicial de bits de coeficientes pueden usarse para obtener un primer conjunto de datos residuales configurado para combinarse con una reconstrucción de la señal de entrada generada a partir de una representación de la señal de entrada a un nivel de calidad inferior para generar una reconstrucción de la señal de entrada a un primer nivel de calidad, y

un flujo de bits de mejora codificado adicional para una segunda subcapa de mejora a un segundo nivel de calidad, siendo el segundo nivel de calidad superior al primer nivel de calidad, comprendiendo el flujo de bits de mejora codificado adicional:

un conjunto de bits de coeficientes sin datos de usuario, representando el conjunto de bits de coeficientes sin datos de usuario valores para un conjunto de coeficientes transformados a un segundo nivel de calidad, generándose los valores aplicando al menos una operación de transformación a bloques de datos de señal al segundo nivel de calidad, en el que el conjunto de bits de coeficientes se genera sin aplicar una operación de desplazamiento de bits;

en el que el conjunto de bits de coeficientes sin datos de usuario pueden usarse para obtener un segundo conjunto de datos residuales para el segundo nivel de calidad para combinarse con una reconstrucción al segundo nivel de calidad derivada a partir de la reconstrucción de la señal de entrada al primer nivel de calidad para generar una reconstrucción de la señal de entrada al segundo nivel de calidad.