ES3046367T3

ES3046367T3 - Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals

Info

Publication number: ES3046367T3
Application number: ES25156638T
Authority: ES
Inventors: Lars Villemoes; Heiko Purnhagen; Per Ekstrand
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2017-03-23
Filing date: 2018-03-19
Publication date: 2025-12-01
Anticipated expiration: 2038-03-19
Also published as: KR102702697B1; TW202531207A; AR120466A2; CN118380003A; AU2026200368A1; IL296961A; AU2023266360A1; ZA201904559B; KR20190085144A; NZ759800A; PE20241802A1; NZ794707A; CN110178180A; AR120467A2; CA3049600A1; UA126401C2; KR102083768B1; EP3559821C0; AU2024227419B2; CN112863528A

Abstract

Se describe un método para decodificar un flujo de bits de audio codificado. El método incluye recibir el flujo de bits de audio codificado y decodificar los datos de audio para generar una señal de audio de banda baja decodificada. Además, incluye la extracción de metadatos de reconstrucción de alta frecuencia y el filtrado de la señal de audio de banda baja decodificada con un banco de filtros de análisis para generar una señal de audio de banda baja filtrada. El método también incluye la extracción de un indicador que indica si se debe realizar una traslación espectral o una transposición armónica en los datos de audio y la regeneración de una porción de banda alta de la señal de audio utilizando la señal de audio de banda baja filtrada y los metadatos de reconstrucción de alta frecuencia de acuerdo con el indicador. (Traducción automática con Google Translate, sin valor legal)

Description

[0001] DESCRIPCIÓN

[0002] Integración compatible con versiones anteriores de transpositor armónico para la reconstrucción de señales de audio de alta frecuencia

[0003] Esta solicitud es una solicitud divisional europea de la solicitud de patente europea EP18770254.3 (referencia de solicitante: D17023EP01).

[0004] Campo técnico

[0005] Las realizaciones se refieren al procesamiento de señales de audio y, más específicamente, a la codificación, decodificación o transcodificación de flujos de bits de audio con datos de control que especifican que se debe realizar una forma base de reconstrucción de alta frecuencia ("HFR") o una forma mejorada de HFR en los datos de audio.

[0006] Antecedentes de la invención

[0007] Un flujo de bits de audio típico incluye datos de audio (p. ej., datos de audio codificados) que indican uno o más canales de contenido de audio, y metadatos que indican al menos una característica de los datos o del contenido de audio. Un formato conocido para generar un flujo de bits de audio codificado es el formato MPEG-4 de Codificación de Audio Avanzada (AAC), descrito en el estándar MPEG ISO/IEC 14496-3:2009. En el estándar MPEG-4, AAC significa "codificación de audio avanzada" y HE-AAC significa "codificación de audio avanzada de alta eficiencia".

[0008] El estándar MPEG-4 AAC define varios perfiles de audio que determinan qué objetos y herramientas de codificación están presentes en un codificador o decodificador compatible. Tres de estos perfiles de audio son (1) el perfil AAC, (2) el perfil HE-AAC y (3) el perfil HE-AAC v2. El perfil AAC incluye el tipo de objeto AAC de baja complejidad (o "AAC-LC"). El objeto AAC-LC es la contraparte del perfil MPEG-2 AAC de baja complejidad, con algunas modificaciones, y no incluye ni el tipo de objeto de replicación de banda espectral ("SBR") ni el tipo de objeto estéreo paramétrico ("PS"). El perfil HE-AAC es un superconjunto del perfil<a>A<c>e incluye además el tipo de objeto SBR. El perfil HE-AAC v2 es un superconjunto del perfil HE-AAC e incluye además el tipo de objeto PS.

[0009] El tipo de objeto SBR contiene la herramienta de replicación de banda espectral, una importante herramienta de codificación de reconstrucción de alta frecuencia ("HFR") que mejora significativamente la eficiencia de compresión de los códecs de audio perceptuales. SBR reconstruye los componentes de alta frecuencia de una señal de audio en el receptor (por ejemplo, en el decodificador). Por lo tanto, el codificador solo necesita codificar y transmitir componentes de baja frecuencia, lo que permite una calidad de audio mucho mayor a bajas velocidades de datos. SBR se basa en la replicación de las secuencias de armónicos, previamente truncadas para reducir la velocidad de datos, a partir de la señal disponible, limitada por el ancho de banda, y los datos de control obtenidos del codificador. La relación entre los componentes tonales y los de tipo ruido se mantiene mediante el filtrado inverso adaptativo, así como la adición opcional de ruido y sinusoidales. En el estándar MPEG-4 AAC, la herramienta<s>B<r>realiza un parche espectral (también llamado traducción lineal o traducción espectral), en el que se copian (o "parchean") varias subbandas consecutivas del filtro de espejo en cuadratura (QMF) desde una parte de banda baja transmitida de una señal de audio a una parte de banda alta de la señal de audio, que se genera en el decodificador.

[0010] La aplicación de parches espectrales o la traducción lineal pueden no ser ideales para ciertos tipos de audio, tal como el contenido musical con frecuencias de cruce relativamente bajas. Por lo tanto, se necesitan técnicas para mejorar la replicación de la banda espectral.

[0011] El documento WO 2016/146492A1 describe realizaciones que se relacionan con una unidad de procesamiento de audio que incluye un búfer, un desformateador de carga útil de flujo de bits y un subsistema de decodificación. El documento WO 02/080362A1 describe un método y un aparato para la mejora de bancos de filtros digitales, mediante una extensión compleja de bancos de filtros digitales modulados por coseno.

[0012] Breve descripción de realizaciones de la invención

[0013] Se describe una primera clase de realizaciones que se refiere a un método para decodificar un flujo de bits de audio codificado. El método incluye recibir el flujo de bits de audio codificado y decodificar los datos de audio para generar una señal de audio de banda baja decodificada. El método también incluye la extracción de metadatos de reconstrucción de alta frecuencia y el filtrado de la señal de audio de banda baja decodificada con un banco de filtros de análisis para generar una señal de audio de banda baja filtrada. El método también incluye la extracción de un indicador que indica si se debe realizar una traslación espectral o una transposición armónica en los datos de audio y la regeneración de una parte de banda alta de la señal de audio utilizando la señal de audio de banda baja filtrada y los metadatos de reconstrucción de alta frecuencia de acuerdo con el indicador. Finalmente, el método incluye la combinación de la señal de audio de banda baja filtrada y la parte de banda alta regenerada para formar una señal de audio de banda ancha.

[0014] Una segunda clase de realizaciones se refiere a un decodificador de audio para decodificar un flujo de bits de audio codificado. El decodificador incluye una interfaz de entrada para recibir el flujo de bits de audio codificado, que incluye datos de audio que representan una parte de banda baja de una señal de audio, y un decodificador central para decodificar los datos de audio y generar una señal de audio de banda baja decodificada. El decodificador también incluye un demultiplexor para extraer del flujo de bits de audio codificado metadatos de reconstrucción de alta frecuencia, que incluyen parámetros operativos para un proceso de reconstrucción de alta frecuencia que traduce linealmente un número consecutivo de subbandas de una parte de banda baja de la señal de audio a una parte de banda alta, y un banco de filtros de análisis para filtrar la señal de audio de banda baja decodificada y generar una señal de audio de banda baja filtrada. El decodificador incluye además un demultiplexor para extraer del flujo de bits de audio codificado un indicador que señala si se debe realizar una traducción lineal o una transposición armónica en los datos de audio, y un regenerador de alta frecuencia para regenerar una parte de banda alta de la señal de audio utilizando la señal de audio de banda baja filtrada y los metadatos de reconstrucción de alta frecuencia según el indicador. Finalmente, el decodificador incluye un banco de filtros de síntesis para combinar la señal de audio de banda baja filtrada y la parte de banda alta regenerada para formar una señal de audio de banda ancha.

[0015] Breve descripción de los dibujos

[0016] La figura 1 es un diagrama de bloques de una realización de un sistema que puede configurarse para realizar una realización del método de la invención.

[0017] La figura 2 es un diagrama de bloques de un codificador que es una realización de la unidad de procesamiento de audio de la invención.

[0018] La figura 3 es un diagrama de bloques de un sistema que incluye un decodificador que es una realización de la unidad de procesamiento de audio de la invención, y opcionalmente también un postprocesador acoplado con el mismo.

[0019] La figura 4 es un diagrama de bloques de un decodificador que es una realización de la unidad de procesamiento de audio de la invención.

[0020] La figura 5 es un diagrama de bloques de un decodificador que es otra realización de la unidad de procesamiento de audio de la invención.

[0021] La figura 6 es un diagrama de bloques de otra realización de la unidad de procesamiento de audio de la invención.

[0022] La figura 7 es un diagrama de un bloque de un flujo de bits MPEG-4 AAC, incluidos los segmentos en los que está dividido.

[0023] Notación y nomenclatura

[0024] A lo largo de esta descripción, incluso en las reivindicaciones, la expresión realizar una operación "sobre" una señal o datos (por ejemplo, filtrar, escalar, transformar o aplicar ganancia a la señal o datos) se utiliza en un sentido amplio para denotar la realización de la operación directamente sobre la señal o datos, o sobre una versión procesada de la señal o datos (por ejemplo, sobre una versión de la señal que ha sido sometida a un filtrado preliminar o preprocesamiento antes de la realización de la operación sobre la misma).

[0025] A lo largo de esta descripción, incluidas las reivindicaciones, la expresión "unidad de procesamiento de audio" o "procesador de audio" se utiliza en sentido amplio para referirse a un sistema, dispositivo o aparato configurado para procesar datos de audio. Ejemplos de unidades de procesamiento de audio incluyen, entre otros, codificadores, transcodificadores, decodificadores, códecs, sistemas de preprocesamiento, sistemas de posprocesamiento y sistemas de procesamiento de flujo de bits (a veces denominados herramientas de procesamiento de flujo de bits). Prácticamente todos los productos electrónicos de consumo, tales como teléfonos móviles, televisores, portátiles y tabletas, contienen una unidad de procesamiento de audio o un procesador de audio.

[0026] A lo largo de esta descripción, incluidas las reivindicaciones, el término "acopla" o "acoplado" se utiliza en sentido amplio para referirse a una conexión directa o indirecta. Por lo tanto, si un primer dispositivo se acopla con un segundo dispositivo, tal conexión puede ser directa o indirecta mediante otros dispositivos y conexiones. Además, los componentes integrados en o con otros componentes también están acoplados entre ellos.

[0027] Descripción detallada de realizaciones de la invención

[0029] El estándar MPEG-4 AAC contempla que un flujo de bits MPEG-4 AAC codificado incluya metadatos que indiquen cada tipo de procesamiento de reconstrucción de alta frecuencia ("HFR") que un decodificador aplicará (si corresponde) para decodificar el contenido de audio del flujo de bits, o que controle dicho procesamiento HFR, o que indique al menos una característica o parámetro de al menos una herramienta HFR que se empleará para decodificar el contenido de audio del flujo de bits. En la presente memoria, utilizamos el término "metadatos SBR" para referirnos a los metadatos de este tipo descritos o mencionados en el estándar MPEG-4 AAC para su uso con replicación de banda espectral ("SBR"). Como bien sabe un experto en la materia, SBR es una forma de HFR.

[0031] SBR se utiliza preferiblemente como un sistema de doble frecuencia, con el códec subyacente operando a la mitad de la frecuencia de muestreo original, mientras que SBR opera a la frecuencia de muestreo original. El codificador SBR trabaja en paralelo con el códec principal subyacente, aunque a una frecuencia de muestreo mayor. Aunque SBR es principalmente un posproceso en el decodificador, se extraen parámetros importantes en el codificador para asegurar la reconstrucción más precisa de alta frecuencia en el decodificador. El codificador estima la envolvente espectral del intervalo SBR para un intervalo/resolución de tiempo y frecuencia adecuado a las características actuales de los segmentos de la señal de entrada. La envolvente espectral se estima mediante un complejo análisis QMF y el posterior cálculo de energía. Las resoluciones de tiempo y frecuencia de las envolventes espectrales se pueden elegir con un alto nivel de libertad, para asegurar la resolución de tiempofrecuencia más adecuada al segmento de entrada dado. La estimación de la envolvente debe considerar que un transitorio en el original, ubicado principalmente en la región de altas frecuencias (por ejemplo, un sombrero de copa), estará presente en menor medida en la banda alta generada por SBR antes del ajuste de la envolvente, ya que la banda alta del decodificador se basa en la banda baja, donde el transitorio es mucho menos pronunciado en comparación con la banda alta. Este aspecto impone requisitos diferentes para la resolución de frecuencia temporal de los datos de la envolvente espectral, en comparación con la estimación de la envolvente espectral convencional utilizada en otros algoritmos de codificación de audio.

[0033] Además de la envolvente espectral, se extraen varios parámetros adicionales que representan las características espectrales de la señal de entrada para diferentes regiones de tiempo y frecuencia. Dado que el codificador tiene acceso natural a la señal original, así como a información sobre cómo la unidad SBR del decodificador creará la banda alta, dado el conjunto específico de parámetros de control, el sistema puede gestionar situaciones en las que la banda baja constituye una serie armónica intensa y la banda alta, a recrear, está compuesta principalmente por componentes aleatorios de la señal, así como situaciones en las que existen componentes tonales intensos en la banda alta original sin contrapartes en la banda baja, en la que se basa la región de la banda alta. Además, el codificador SBR trabaja en estrecha colaboración con el códec principal subyacente para evaluar qué intervalo de frecuencia debe cubrir SBR en un momento dado. Los datos SBR se codifican eficientemente antes de la transmisión aprovechando la codificación por entropía y las dependencias del canal de los datos de control, en el caso de señales estéreo.

[0035] Los algoritmos de extracción de parámetros de control suelen requerir un ajuste preciso del códec subyacente a una velocidad de bits y una frecuencia de muestreo determinadas. Esto se debe a que una velocidad de bits baja suele implicar un intervalo SBR mayor que una velocidad de bits alta, y las diferentes frecuencias de muestreo corresponden a diferentes resoluciones temporales de las tramas SBR.

[0037] Un decodificador SBR suele incluir varias partes. Consta de un módulo de decodificación de flujo de bits, un módulo de reconstrucción de alta frecuencia (HFR), un módulo adicional de componentes de alta frecuencia y un módulo de ajuste de envolvente. El sistema se basa en un banco de filtros QMF de valores complejos. En el módulo de extracción del flujo de bits, se leen y decodifican los datos de control. La cuadrícula de frecuencia temporal se obtiene para la trama actual, antes de leer los datos de la envolvente del flujo de bits. El decodificador principal subyacente decodifica la señal de audio de la trama actual (aunque a la frecuencia de muestreo más baja) para producir muestras de audio en el dominio del tiempo. La trama resultante de datos de audio se utiliza para la reconstrucción de alta frecuencia por parte del módulo HFR. La señal de banda baja decodificada se analiza posteriormente mediante un banco de filtros QMF. La reconstrucción de alta frecuencia y el ajuste de la envolvente se realizan posteriormente en las muestras de subbanda del banco de filtros QMF. Las altas frecuencias se reconstruyen a partir de la banda baja de forma flexible, basándose en los parámetros de control especificados. Además, la banda alta reconstruida se filtra de forma adaptativa en función del canal de subbanda según los datos de control para garantizar las características espectrales apropiadas de la región de tiempo/frecuencia dada.

[0039] El nivel superior de un flujo de bits MPEG-4 AAC es una secuencia de bloques de datos (elementos "raw_data_block"), cada uno de los cuales constituye un segmento de datos (en adelante, un "bloque") que contiene datos de audio (normalmente correspondientes a un período de 1024 o 960 muestras) e información relacionada u otros datos. En la presente memoria, utilizamos el término "bloque" para indicar un segmento de un flujo de bits MPEG-4 AAC que comprende datos de audio (y sus metadatos correspondientes, y opcionalmente, otros datos relacionados) que determina o es indicativo de un elemento "raw_data_block" (pero no más de uno).

[0040] Cada bloque de un flujo de bits MPEG-4 AAC puede incluir varios elementos sintácticos (cada uno de los cuales se materializa en el flujo de bits como un segmento de datos). El estándar MPEG-4 AAC define siete tipos de estos elementos sintácticos. Cada elemento sintáctico se identifica mediante un valor diferente del elemento de datos "id_syn_ele". Algunos ejemplos de elementos sintácticos son "single_chanel_element()", "chanel_pair_elementO" y "fill_elementO". Un elemento de un solo canal contiene datos de audio de un solo canal (una señal de audio monofónica). Un elemento de par de canales incluye datos de audio de dos canales (es decir, una señal de audio estéreo).

[0041] Un elemento de relleno es un contenedor de información que incluye un identificador (p. ej., el valor del elemento "id_syn_ele" mencionado anteriormente) seguido de datos, denominados "datos de relleno". Históricamente, los elementos de relleno se han utilizado para ajustar la velocidad de bits instantánea de los flujos de bits que se transmiten por un canal de velocidad constante. Al añadir la cantidad adecuada de datos de relleno a cada bloque, se puede lograr una velocidad de datos constante.

[0042] De acuerdo con realizaciones de la invención, los datos de relleno pueden incluir una o más cargas útiles de extensión que amplían el tipo de datos (p. ej., metadatos) que se pueden transmitir en un flujo de bits. Un decodificador que recibe flujos de bits con datos de relleno que contienen un nuevo tipo de datos puede ser utilizado opcionalmente por un dispositivo que recibe el flujo de bits (p. ej., un decodificador) para ampliar la funcionalidad del dispositivo. Por lo tanto, como comprenderá un experto en la materia, los elementos de relleno son un tipo especial de estructura de datos y son diferentes de las estructuras de datos que se utilizan habitualmente para transmitir datos de audio (p. ej., cargas útiles de audio que contienen datos de canal).

[0043] El identificador utilizado para identificar un elemento de relleno consiste en un entero sin signo de tres bits, cuyo bit más significativo se transmite primero ("uimsbf"), con un valor de 0x6. En un bloque, pueden aparecer varias instancias del mismo tipo de elemento sintáctico (por ejemplo, varios elementos de relleno).

[0044] Otro estándar para codificar flujos de bits de audio es el estándar MPEG Unified Speech and Audio Coding (USAC) (ISO/IEC 23003-3:2012). El estándar MPEG USAC describe la codificación y decodificación de contenido de audio mediante el procesamiento de replicación de banda espectral (incluido el procesamiento SBR descrito en el estándar MPEG-4 AAC, así como otras formas mejoradas de procesamiento de replicación de banda espectral). Este procesamiento aplica herramientas de replicación de banda espectral (en ocasiones denominadas en la presente memoria "herramientas SBR mejoradas" o "herramientas eSBR") de una versión ampliada y mejorada del conjunto de herramientas SBR descritas en el estándar MPEG-4 AAC. Por lo tanto, eSBR (tal como se define en el estándar USAC) es una mejora del SBR (tal como se define en el estándar MPEG-4 AAC).

[0045] En la presente memoria, utilizamos la expresión "procesamiento SBR mejorado" (o "procesamiento eSBR") para indicar el procesamiento de replicación de banda espectral mediante al menos una herramienta eSBR (por ejemplo, una herramienta eSBR descrita o mencionada en el estándar MPEG USAC) que no se describe ni menciona en el estándar MPEG-4 AAC. Ejemplos de estas herramientas eSBR son la transposición armónica y el preprocesamiento adicional o "preaplanamiento" mediante parches QMF.

[0046] Un transpositor armónico de orden entero T mapea una sinusoide de frecuencia w en una sinusoide de frecuencia Tw, preservando la duración de la señal. Se suelen utilizar tres órdenes, T = 2, 3 y 4, en secuencia para producir cada parte del intervalo de frecuencia de salida deseado utilizando el orden de transposición más pequeño posible. Si se requiere una salida superior al intervalo de transposición de cuarto orden, esta puede generarse mediante desplazamientos de frecuencia. Siempre que sea posible, se crean dominios de tiempo de banda base con un muestreo casi crítico para el procesamiento, con el fin de minimizar la complejidad computacional.

[0047] Un flujo de bits generado de acuerdo con el estándar MPEG USAC (a veces denominado en la presente memoria como un "flujo de bits USAC") incluye contenido de audio codificado y normalmente incluye metadatos indicativos de cada tipo de procesamiento de replicación de banda espectral que aplicará un decodificador para decodificar el contenido de audio del flujo de bits USAC, y/o metadatos que controlan dicho procesamiento de replicación de banda espectral y/o son indicativos de al menos una característica o parámetro de al menos una herramienta SBR y/o herramienta eSBR que se empleará para decodificar el contenido de audio del flujo de bits USAC.

[0048] En la presente memoria, utilizamos la expresión "metadatos SBR mejorados" (o "metadatos eSBR") para indicar los metadatos que indican cada tipo de procesamiento de replicación de banda espectral que aplicará un decodificador para decodificar el contenido de audio de un flujo de bits de audio codificado (por ejemplo, un flujo de bits USAC) o que controlan tal procesamiento de replicación de banda espectral, o que indican al menos una característica o parámetro de al menos una herramienta SBR o eSBR que se empleará para decodificar tal contenido de audio, pero que no se describe ni se menciona en el estándar MPEG-4<a>A<c>. Un ejemplo de metadatos eSBR son los metadatos (indicativos de, o para controlar, el procesamiento de replicación de banda espectral) que se describen o se mencionan en el estándar MPEG USAC, pero no en el estándar MPEG-4 AAC. Por lo tanto, en la presente memoria, los metadatos eSBR se refieren a metadatos que no son metadatos SBR, y en la presente memoria, los metadatos SBR se refieren a metadatos que no son metadatos eSBR.

[0049] Un flujo de bits USAC puede incluir tanto metadatos SBR como eSBR. Más específicamente, un flujo de bits USAC puede incluir metadatos eSBR que controlan el rendimiento del procesamiento eSBR por parte de un decodificador, y metadatos SBR que controlan el rendimiento del procesamiento SBR por parte del decodificador. De acuerdo con las realizaciones típicas de la presente invención, los metadatos eSBR (por ejemplo, datos de configuración específicos de eSBR) se incluyen (de acuerdo con la presente invención) en un flujo de bits MPEG-4 AAC (por ejemplo, en el contenedor sbr_extension() al final de una carga útil SBR).

[0050] La ejecución del procesamiento eSBR, durante la decodificación de un flujo de bits codificado mediante un conjunto de herramientas eSBR (que comprende al menos una herramienta eSBR), regenera la banda de alta frecuencia de la señal de audio mediante la replicación de secuencias de armónicos truncadas durante la codificación. Este procesamiento eSBR suele ajustar la envolvente espectral de la banda de alta frecuencia generada, aplica filtrado inverso y añade ruido y componentes sinusoidales para recrear las características espectrales de la señal de audio original.

[0051] De acuerdo con las realizaciones típicas de la invención, se incluyen metadatos eSBR (p. ej., se incluye un pequeño número de bits de control que son metadatos eSBR) en uno o más segmentos de metadatos de un flujo de bits de audio codificado (p. ej., un flujo de bits MPEG-4 AAC) que también incluye datos de audio codificados en otros segmentos (segmentos de datos de audio). Normalmente, al menos uno de estos segmentos de metadatos de cada bloque del flujo de bits es (o incluye) un elemento de relleno (que incluye un identificador que indica el inicio del elemento de relleno), y los metadatos eSBR se incluyen en el elemento de relleno después del identificador.

[0052] La figura 1 muestra un diagrama de bloques de un ejemplo de cadena de procesamiento de audio (un sistema de procesamiento de datos de audio), en el que uno o más elementos del sistema pueden configurarse de acuerdo con una realización de la presente invención. El sistema incluye los siguientes elementos, acoplados como se muestra: codificador 1, subsistema de entrega 2, decodificador 3 y unidad de posprocesamiento 4. En las variantes del sistema mostrado, se omiten uno o más elementos o se incluyen unidades de procesamiento de datos de audio adicionales.

[0053] En algunas realizaciones, el codificador 1 (que opcionalmente incluye una unidad de preprocesamiento) está configurado para aceptar muestras PCM (dominio del tiempo) que comprenden contenido de audio como entrada y para emitir un flujo de bits de audio codificado (con un formato compatible con el estándar MPEG-4 AAC) que indica el contenido de audio. Los datos del flujo de bits que indican el contenido de audio se denominan en la presente memoria "datos de audio" o "datos de audio codificados". Si el codificador se configura de acuerdo con una realización típica de la presente invención, el flujo de bits de audio que emite incluye metadatos eSBR (y, normalmente, también otros metadatos), además de datos de audio.

[0054] Una o más secuencias de bits de audio codificadas emitidas por el codificador 1 pueden ser enviadas al subsistema de entrega de audio codificado 2. El subsistema 2 está configurado para almacenar y/o entregar cada secuencia de bits codificada emitida por el codificador 1. Una secuencia de bits de audio codificada emitida por el codificador 1 puede ser almacenada por el subsistema 2 (p. ej., en forma de un DVD o disco Blu-ray), o transmitida por el subsistema 2 (que puede implementar un enlace o red de transmisión), o puede ser almacenada y transmitida por el subsistema 2.

[0055] El decodificador 3 está configurado para decodificar un flujo de bits de audio MPEG-4 AAC codificado (generado por el codificador 1) que recibe a través del subsistema 2. En algunas realizaciones, el decodificador 3 está configurado para extraer metadatos eSBR de cada bloque del flujo de bits y decodificarlo (incluso mediante el procesamiento eSBR con dichos metadatos) con el fin de generar datos de audio decodificados (p. ej., flujos de muestras de audio PCM decodificadas). En algunas realizaciones, el decodificador 3 está configurado para extraer metadatos SBR del flujo de bits (pero ignorando los metadatos eSBR incluidos en el flujo de bits) y decodificarlo (incluso mediante el procesamiento SBR con dichos metadatos) para generar datos de audio decodificados (p. ej., flujos de muestras de audio PCM decodificadas). Normalmente, el decodificador 3 incluye un búfer que almacena (p. ej., de forma no transitoria) segmentos del flujo de bits de audio codificado recibido del subsistema 2.

[0056] La unidad de posprocesamiento 4 de la figura 1 está configurada para recibir un flujo de datos de audio decodificados del decodificador 3 (p. ej., muestras de audio PCM decodificadas) y realizar el posprocesamiento. La unidad de posprocesamiento también puede configurarse para renderizar el contenido de audio posprocesado (o el audio decodificado recibido del decodificador 3) para su reproducción en uno o más altavoces.

[0057] La figura 2 muestra un diagrama de bloques de un codificador (100), una realización de la unidad de procesamiento de audio de la invención. Cualquiera de los componentes o elementos del codificador 100 puede implementarse como uno o más procesos y/o uno o más circuitos (p. ej., ASIC, FPGA u otros circuitos integrados), en hardware, software o una combinación de ambos. El codificador 100 incluye el codificador 105, la etapa de relleno/formateo 107, la etapa de generación de metadatos 106 y la memoria intermedia 109, conectados como se muestra. Normalmente, el codificador 100 también incluye otros elementos de procesamiento (no mostrados). El codificador 100 está configurado para convertir un flujo de bits de audio de entrada en un flujo de bits de salida codificado MPEG-4 AAC.

[0058] El generador de metadatos 106 está acoplado y configurado para generar (y/o pasar a la etapa 107) metadatos (incluidos metadatos eSBR y metadatos SBR) que se incluirán en la etapa 107 en el flujo de bits codificado que se emitirá desde el codificador 100.

[0059] El codificador 105 está acoplado y configurado para codificar (por ejemplo, realizando compresión sobre los mismos) los datos de audio de entrada, y para validar el audio codificado resultante en la etapa 107 para su inclusión en el flujo de bits codificado que se emitirá desde la etapa 107.

[0060] La etapa 107 está configurada para multiplexar el audio codificado del codificador 105 y los metadatos (incluidos los metadatos eSBR y los metadatos SBR) del generador 106 con el fin de generar el flujo de bits codificado que se emitirá desde la etapa 107, preferiblemente de modo que el flujo de bits codificado tenga el formato especificado por una de las realizaciones de la presente invención.

[0061] La memoria intermedia 109 está configurada para almacenar (por ejemplo, de manera no transitoria) al menos un bloque del flujo de bits de audio codificado de salida de la etapa 107, y luego una secuencia de los bloques del flujo de bits de audio codificado se valida desde la memoria intermedia 109 como salida del codificador 100 a un sistema de entrega.

[0062] La figura 3 es un diagrama de bloques de un sistema que incluye un decodificador (200), una realización de la unidad de procesamiento de audio de la invención, y opcionalmente, un postprocesador (300) acoplado con él. Cualquiera de los componentes o elementos del decodificador 200 y del postprocesador 300 puede implementarse como uno o más procesos y/o uno o más circuitos (por ejemplo, ASIC, FPGA u otros circuitos integrados), en hardware, software o una combinación de ambos. El decodificador 200 comprende la memoria intermedia 201, el desformateador de carga útil de flujo de bits (analizador) 205, el subsistema de decodificación de audio 202 (a veces denominado etapa de decodificación "central" o subsistema de decodificación "central"), la etapa de procesamiento eSBR 203 y la etapa de generación de bits de control 204, conectados como se muestra. Normalmente, el decodificador 200 también incluye otros elementos de procesamiento (no mostrados). La memoria intermedia (búfer) 201 almacena (por ejemplo, de manera no transitoria) al menos un bloque de un flujo de bits de audio MPEG-4 AAC codificado recibido por el decodificador 200. Durante el funcionamiento del decodificador 200, una secuencia de los bloques del flujo de bits se valida desde el búfer 201 al desformateador 205.

[0063] En variaciones de la realización de la figura 3 (o la realización de la figura 4 que se describirá), una APU que no es un decodificador (p. ej., la APU 500 de la figura 6) incluye una memoria intermedia (p. ej., una memoria intermedia idéntica al búfer 201) que almacena (p. ej., de manera no transitoria) al menos un bloque de un flujo de bits de audio codificado (p. ej., un flujo de bits de audio MPEG-4 AAC) del mismo tipo recibido por el búfer 201 de la figura 3 o la figura 4 (es decir, un flujo de bits de audio codificado que incluye metadatos eSBR).

[0064] Con referencia de nuevo a la figura 3, el desformateador 205 está acoplado y configurado para demultiplexar cada bloque del flujo de bits y extraer metadatos SBR (incluidos los datos de envolvente cuantificados) y eSBR (y, típicamente, también otros metadatos), con el fin de validar al menos los metadatos eSBR y los SBR en la etapa de procesamiento eSBR 203, y, típicamente, también validar otros metadatos extraídos en el subsistema de decodificación 202 (y, opcionalmente, también para controlar el generador de bits 204). El desformateador 205 también está acoplado y configurado para extraer datos de audio de cada bloque del flujo de bits y validar los datos de audio extraídos en el subsistema de decodificación (etapa de decodificación) 202.

[0065] El sistema de la figura 3 también incluye opcionalmente el postprocesador 300. Este incluye la memoria intermedia (búfer) 301 y otros elementos de procesamiento (no mostrados), incluyendo al menos un elemento de procesamiento acoplado con el búfer 301. El búfer 301 almacena (p. ej., de forma no transitoria) al menos un bloque (o trama) de los datos de audio decodificados recibidos por el postprocesador 300 desde el decodificador 200. Los elementos de procesamiento del postprocesador 300 están acoplados y configurados para recibir y procesar adaptativamente una secuencia de bloques (o tramas) de la salida de audio decodificada del búfer 301, utilizando la salida de metadatos del subsistema de decodificación 202 (y/o el desformateador 205) y/o los bits de control de la etapa 204 del decodificador 200.

[0066] El subsistema de decodificación de audio 202 del decodificador 200 está configurado para decodificar los datos de audio extraídos por el analizador 205 (esta decodificación puede denominarse operación de decodificación "central") para generar datos de audio decodificados y para validarlos en la etapa de procesamiento eSBR 203. La decodificación se realiza en el dominio de la frecuencia y generalmente incluye cuantificación inversa seguida de procesamiento espectral. Normalmente, una etapa final de procesamiento en el subsistema 202 aplica una transformación del dominio de la frecuencia al dominio del tiempo a los datos de audio decodificados en el dominio de la frecuencia, de modo que la salida del subsistema son datos de audio decodificados en el dominio del tiempo. La etapa 203 está configurada para aplicar las herramientas SBR y eSBR indicadas por los metadatos eSBR y el eSBR (extraído por el analizador 205) a los datos de audio decodificados (es decir, para realizar el procesamiento SBR y eSBR en la salida del subsistema de decodificación 202 utilizando los metadatos SBR y eSBR) con el fin de generar los datos de audio completamente decodificados que se emiten (por ejemplo, al postprocesador 300) desde el decodificador 200. Normalmente, el decodificador 200 incluye una memoria (accesible por el subsistema 202 y la etapa 203) que almacena los datos de audio desformateados y los metadatos emitidos por el desformateador 205, y la etapa 203 está configurada para acceder a los datos de audio y metadatos (incluidos los metadatos SBR y eSBR) según sea necesario durante el procesamiento SBR y eSBR. El procesamiento SBR y eSBR en la etapa 203 puede considerarse posprocesamiento de la salida del subsistema de decodificación central 202. Opcionalmente, el decodificador 200 también incluye un subsistema de mezcla final (que puede aplicar herramientas de estéreo paramétrico ("PS") definidas en el estándar MPEG-4 AAC, utilizando metadatos PS extraídos por el desformateador 205 o bits de control generados en el subsistema 204), acoplado y configurado para realizar mezcla en la salida de la etapa 203 al audio generado, completamente decodificado y mezclado, que sale del decodificador 200. Como alternativa, el posprocesador 300 está configurado para realizar mezcla en la salida del decodificador 200 (p. ej., utilizando metadatos PS extraídos por el desformateador 205 o bits de control generados en el subsistema 204).

[0068] En respuesta a los metadatos extraídos por el desformateador 205, el generador de bits de control 204 puede generar datos de control, que pueden utilizarse en el decodificador 200 (p. ej., en un subsistema de mezcla final) o validarse como salida del decodificador 200 (p. ej., al postprocesador 300 para su uso en el posprocesamiento). En respuesta a los metadatos extraídos del flujo de bits de entrada (y opcionalmente también en respuesta a los datos de control), la etapa 204 puede generar (y validarse en el postprocesador 300) bits de control que indican que los datos de audio decodificados que salen de la etapa de procesamiento eSBR 203 deben someterse a un tipo específico de posprocesamiento. En algunas realizaciones, el decodificador 200 está configurado para validar los metadatos extraídos por el desformateador 205 del flujo de bits de entrada al postprocesador 300, y el postprocesador 300 está configurado para realizar el posprocesamiento en la salida de datos de audio decodificados del decodificador 200 utilizando los metadatos.

[0070] La figura 4 muestra un diagrama de bloques de una unidad de procesamiento de audio ("APU") (210), que constituye otra realización de la unidad de procesamiento de audio de la invención. La APU 210 es un decodificador heredado que no está configurado para realizar procesamiento eSBR. Cualquiera de los componentes o elementos de la APU 210 puede implementarse como uno o más procesos y/o uno o más circuitos (por ejemplo, ASIC, FPGA u otros circuitos integrados), en hardware, software o una combinación de ambos. La APU 210 comprende la memoria intermedia 201, el desformateador de carga útil de flujo de bits (analizador) 215, el subsistema de decodificación de audio 202 (a veces denominado etapa de decodificación "central" o subsistema de decodificación "central") y la etapa de procesamiento SBR 213, conectados como se muestra. Normalmente, la APU 210 también incluye otros elementos de procesamiento (no mostrados). La APU 210 puede representar, por ejemplo, un codificador, decodificador o transcodificador de audio.

[0072] Los elementos 201 y 202 de la APU 210 son idénticos a los elementos con numeración idéntica del decodificador 200 (figura 3) y no se repetirá su descripción anterior. Durante el funcionamiento de la APU 210, una secuencia de bloques de un flujo de bits de audio codificado (un flujo de bits MPEG-4 AAC) recibida por la APU 210 se envía desde el búfer 201 al desformateador 215.

[0074] El desformateador 215 está acoplado y configurado para demultiplexar cada bloque del flujo de bits y extraer metadatos SBR (incluidos los datos de envolvente cuantificados) y, típicamente, otros metadatos, pero ignorando los metadatos eSBR que puedan estar incluidos en el flujo de bits, de acuerdo con cualquier realización de la presente invención. El desformateador 215 está configurado para validar al menos los metadatos SBR en la etapa de procesamiento SBR 213. El desformateador 215 también está acoplado y configurado para extraer datos de audio de cada bloque del flujo de bits y validar los datos de audio extraídos en el subsistema de decodificación (etapa de decodificación) 202.

[0076] El subsistema de decodificación de audio 202 del decodificador 200 está configurado para decodificar los datos de audio extraídos por el desformateador 215 (esta decodificación puede denominarse operación de decodificación "central") con el fin de generar datos de audio decodificados y para confirmarlos en la etapa de procesamiento SBR 213. La decodificación se realiza en el dominio de la frecuencia. Normalmente, una etapa final de procesamiento en el subsistema 202 aplica una transformación del dominio de la frecuencia al dominio del tiempo a los datos de audio decodificados en el dominio de la frecuencia, de modo que la salida del subsistema son datos de audio decodificados en el dominio del tiempo. La etapa 213 está configurada para aplicar las herramientas SBR (pero no las herramientas eSBR) indicadas por los metadatos SBR (extraídos por el desformateador 215) a los datos de audio decodificados (es decir, para procesar SBR en la salida del subsistema de decodificación 202 utilizando los metadatos SBR) y generar los datos de audio completamente decodificados que se envían (por ejemplo, al postprocesador 300) desde la APU 210. Normalmente, la APU 210 incluye una memoria (accesible por el subsistema 202 y la etapa 213) que almacena los datos de audio desformateados y los metadatos emitidos por el desformateador 215, y la etapa 213 está configurada para acceder a los datos de audio y metadatos (incluidos los metadatos SBR) según sea necesario durante el procesamiento SBR. El procesamiento SBR en la etapa 213 puede considerarse posprocesamiento de la salida del subsistema de decodificación central 202. Opcionalmente, la APU 210 también incluye un subsistema de mezcla final (que puede aplicar herramientas de estéreo paramétrico ("PS") definidas en el estándar MPEG-4 AAC, utilizando metadatos PS extraídos por el desformateador 215), acoplado y configurado para realizar mezcla en la salida de la etapa 213 al audio generado, completamente decodificado y mezclado, que se emite desde la APU 210. Como alternativa, un posprocesador está configurado para realizar mezcla en la salida de la APU 210 (por ejemplo, utilizando metadatos PS extraídos por el desformateador 215 o bits de control generados en la APU 210).

[0077] Diversas realizaciones del codificador 100, del decodificador 200 y de la APU 210 están configuradas para llevar a cabo diferentes realizaciones del método de la invención.

[0078] De acuerdo con algunas realizaciones, se incluyen metadatos eSBR (p. ej., se incluye una pequeña cantidad de bits de control que son metadatos eSBR) en un flujo de bits de audio codificado (p. ej., un flujo de bits MPEG-4 AAC), de modo que los decodificadores heredados (que no están configurados para analizar los metadatos eSBR ni para usar ninguna herramienta eSBR a la que pertenezcan) pueden ignorarlos, pero decodificar el flujo de bits en la medida de lo posible sin usar los metadatos eSBR ni ninguna herramienta eSBR a la que pertenezcan, generalmente sin una pérdida significativa en la calidad del audio decodificado. No obstante, los decodificadores eSBR configurados para analizar el flujo de bits con el fin de identificar los metadatos eSBR y usar al menos una herramienta eSBR en respuesta a los metadatos eSBR, disfrutarán de las ventajas de usar al menos una de dichas herramientas eSBR. Por lo tanto, las realizaciones de la invención proporcionan un medio para transmitir de manera eficiente datos o metadatos de control de replicación de banda espectral mejorada (eSBR) de una manera compatible con versiones anteriores.

[0079] Normalmente, los metadatos eSBR en el flujo de bits son indicativos (por ejemplo, son indicativos de al menos una característica o parámetro de) de una o más de las siguientes herramientas eSBR (que se describen en el estándar MPEG USAC y que pueden o no haber sido aplicadas por un codificador durante la generación del flujo de bits):

[0080] - Transposición armónica; y

[0081] - Preprocesamiento adicional (preaplanamiento) con parches QMF.

[0082] Por ejemplo, los metadatos eSBR incluidos en el flujo de bits pueden ser indicativos de los valores de los parámetros (descritos en el estándar MPEG USAC y en la presente descripción): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchlnBins[ch], sbrPitchInBins[ch] y bs_sbr_preprocessing.

[0083] Aquí, la notación X[ch], donde X es un parámetro, indica que dicho parámetro corresponde al canal ("ch") de contenido de audio de un flujo de bits codificado que se va a decodificar. Para simplificar, a veces omitimos la expresión [ch] y asumimos que el parámetro relevante corresponde a un canal de contenido de audio.

[0084] Aquí, la notación X[ch][env], donde X es un parámetro, indica que este corresponde a la envolvente SBR ("env") del canal ("ch") de audio de un flujo de bits codificado que se va a decodificar. Para simplificar, a veces omitimos las expresiones [env] y [ch], y asumimos que el parámetro relevante corresponde a la envolvente SBR de un canal de audio.

[0085] Durante la decodificación de un flujo de bits codificado, la ejecución de la transposición armónica durante una etapa de procesamiento eSBR de la decodificación (para cada canal, "ch", de contenido de audio indicado por el flujo de bits) está controlada por los siguientes parámetros de metadatos eSBR: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; y sbrPitchinBins[ch].

[0086] El valor "sbrPatchingMode[ch]" indica el tipo de transpositor utilizado en eSBR: sbrPatchingMode[ch] = 1 indica parcheo no armónico como se describe en la Sección 4.6.18.6.3 del estándar MPEG-4 AAC; sbrPatchingMode[ch] = 0 indica parcheo SBR armónico como se describe en la Sección 7.5.3 o 7.5.4 del estándar MPEG U<s>A<c>.

[0087] El valor "sbrOversamplingFlag[ch]" indica el uso del sobremuestreo adaptativo de la señal en el dominio de la frecuencia en eSBR, en combinación con la interconexión armónica de SBR basada en DFT, como se describe en la Sección 7.5.3 del estándar MPEG USAC. Este indicador controla el tamaño de las DFT utilizadas en el transpositor: 1 indica que el sobremuestreo adaptativo de la señal en el dominio de la frecuencia está habilitado, como se describe en la Sección 7.5.3.1 del estándar MPEG USAC; 0 indica que el sobremuestreo adaptativo de la señal en el dominio de la frecuencia está deshabilitado, como se describe en la Sección 7.5.3.1 del estándar MPEG USAC.

[0088] El valor "sbrPitchinBinsFlag[ch]" controla la interpretación del parámetro sbrPitchinBins[ch]: 1 indica que el valor en sbrPitchinBins[ch] es válido y mayor que cero; 0 indica que el valor de sbrPitchInBins[ch] está establecido en cero.

[0089] El valor "sbrPitchinBins[ch]" controla la adición de términos de producto vectorial en el transpositor armónico SBR. El valor de sbrPitchinBins[ch] es un valor entero en el intervalo [0,127] y representa la distancia medida en intervalos de frecuencia para una DFT de 1536 líneas que actúa sobre la frecuencia de muestreo del codificador principal.

[0090] En el caso de que un flujo de bits MPEG-4 AAC sea indicativo de un par de canales SBR cuyos canales no están acoplados (en lugar de un solo canal SBR), el flujo de bits es indicativo de dos instancias de la sintaxis anterior (para transposición armónica o no armónica), una para cada canal de sbr_chanel_pair_element().

[0091] La transposición armónica de la herramienta eSBR suele mejorar la calidad de las señales musicales decodificadas a frecuencias de cruce relativamente bajas. La transposición no armónica (es decir, la aplicación de parches espectrales tradicionales) suele mejorar las señales de voz. Por lo tanto, un punto de partida para decidir qué tipo de transposición es preferible para codificar contenido de audio específico es seleccionar el método de transposición en función de la detección de voz/música. La transposición armónica se aplicará al contenido musical y la aplicación de parches espectrales al contenido de velocidad.

[0092] El rendimiento del preaplanamiento durante el procesamiento eSBR se controla mediante el valor de un parámetro de metadatos eSBR de un bit, conocido como "bs_sbr_preprocessing", lo que significa que el preaplanamiento se realiza o no en función del valor de este bit. Cuando se utiliza el algoritmo de parcheo SBR QMF, descrito en la sección 4.6.18.6.3 del estándar MPEG-4 AAC, se puede realizar el preaplanamiento (cuando lo indique el parámetro "bs_sbr_preprocessing") para evitar discontinuidades en la forma de la envolvente espectral de una señal de alta frecuencia que se introduce en un ajustador de envolvente posterior (el ajustador de envolvente realiza otra etapa del procesamiento eSBR). El preaplanamiento suele mejorar el funcionamiento de la etapa de ajuste de envolvente posterior, lo que resulta en una señal de banda alta percibida como más estable.

[0093] Se espera que el requisito de velocidad de bits total para incluir metadatos eSBR en un flujo de bits MPEG-4 AAC, indicativos de las herramientas eSBR mencionadas (transposición armónica y preaplanamiento), sea del orden de unos pocos cientos de bits por segundo, ya que, de acuerdo con algunas realizaciones de la invención, solo se transmiten los datos de control diferencial necesarios para el procesamiento eSBR. Los decodificadores tradicionales pueden ignorar esta información, ya que se incluye de forma compatible con versiones anteriores (como se explicará más adelante). Por lo tanto, el efecto negativo en la velocidad de bits asociado con la inclusión de metadatos eSBR es insignificante, por diversas razones, entre ellas:

[0094] - La penalización de la velocidad de bits (debido a la inclusión de los metadatos eSBR) es una fracción muy pequeña de la velocidad de bits total porque solo se transmiten los datos de control diferencial necesarios para realizar el procesamiento eSBR (y no una transmisión simultánea de los datos de control SBR); y

[0095] - El ajuste de la información de control relacionada con SBR normalmente no depende de los detalles de la transposición.

[0096] Por lo tanto, las realizaciones de la invención proporcionan un medio para transmitir eficientemente datos de control o metadatos de replicación de banda espectral mejorada (eSBR) de forma compatible con versiones anteriores. Esta transmisión eficiente de los datos de control de eSBR reduce los requisitos de memoria en decodificadores, codificadores y transcodificadores que emplean aspectos de la invención, sin afectar significativamente la velocidad de bits. Además, también se reducen la complejidad y los requisitos de procesamiento asociados con la ejecución de eSBR de acuerdo con las realizaciones de la invención, ya que los datos SBR solo deben procesarse una vez y no se transmiten simultáneamente, lo que ocurriría si eSBR se tratara como un tipo de objeto completamente independiente en MPEG-4 AAC, en lugar de integrarse en el códec MPEG-4 AAC de forma compatible con versiones anteriores.

[0097] A continuación, con referencia a la figura 7, se describen los elementos de un bloque ("raw_data_block") de un flujo de bits MPEG-4 AAC que incluye metadatos eSBR, de acuerdo con algunas realizaciones de la presente invención. La figura 7 es un diagrama de un bloque ("raw_data_block") del flujo de bits MPEG-4<a>A<c>, que muestra algunos de sus segmentos.

[0098] Un bloque de un flujo de bits MPEG-4 AAC puede incluir al menos un “single_chanel_element()” (p. ej., el elemento de canal único mostrado en la figura 7) y/o al menos un “chanel_pair_element()” (no se muestra específicamente en la figura 7, aunque puede estar presente), que incluye datos de audio de un programa de audio. El bloque también puede incluir varios “fiN_elements” (p. ej., el elemento de relleno 1 y/o el elemento de relleno 2 de la figura 7) que incluyen datos (p. ej., metadatos) relacionados con el programa. Cada “single_chanel_element()” incluye un identificador (p. ej., "ID1" de la figura 7) que indica el inicio de un elemento de canal único y puede incluir datos de audio de un canal diferente de un programa de audio multicanal. Cada “chanel_pair_element()” incluye un identificador (no se muestra en la figura 7) que indica el inicio de un elemento de par de canales y puede incluir datos de audio de dos canales del programa.

[0100] Un elemento de relleno (denominado aquí como elemento de relleno) de un flujo de bits MPEG-4 AAC incluye un identificador ("ID2" de la figura 7) que indica el inicio de un elemento de relleno y datos de relleno después del identificador. El identificador ID2 puede consistir en un entero sin signo de tres bits, transmitido primero el bit más significativo ("uimsbf"), con un valor de 0x6. Los datos de relleno pueden incluir un elemento extension_payload() (a veces denominado aquí como carga útil de extensión), cuya sintaxis se muestra en la Tabla 4.57 del estándar MPEG-4 AAC. Existen varios tipos de cargas útiles de extensión, que se identifican mediante el parámetro "extension_type", que es un entero sin signo de cuatro bits, transmitido primero el bit más significativo ("uimsbf").

[0101] Los datos de relleno (p. ej., una carga útil de extensión) pueden incluir un encabezamiento o identificador (p. ej., "header1" de la figura 7) que indica un segmento de datos de relleno que indica un objeto SBR (es decir, el encabezamiento inicializa un tipo de "objeto SBR", denominado sbr_extension_data() en el estándar MPEG-4 AAC). Por ejemplo, una carga útil de extensión de replicación de banda espectral (SBR) se identifica con el valor '1101' o '1110' en el campo extension_type del encabezamiento. El identificador '1101' identifica una carga útil de extensión con datos SBR y '1110' identifica una carga útil de extensión con datos SBR mediante una comprobación de redundancia cíclica (CRC) para verificar la exactitud de los datos SBR.

[0103] Cuando el encabezamiento (p. ej., el campo extension_type) inicializa un tipo de objeto SBR, los metadatos SBR (a veces denominados aquí "datos de replicación de banda espectral" y sbr_data() en el estándar MPEG-4 AAC) siguen al encabezamiento, y al menos un elemento de extensión de replicación de banda espectral (p. ej., el "elemento de extensión SBR" del elemento de relleno 1 de la figura 7) puede seguir a los metadatos SBR. Tal elemento de extensión de replicación de banda espectral (un segmento del flujo de bits) se denomina contenedor "sbr_extension()" en el estándar MPEG-4 AAC. Un elemento de extensión de replicación de banda espectral incluye opcionalmente un encabezamiento (p. ej., el "encabezamiento de extensión SBR" del elemento de relleno 1 de la figura 7).

[0105] El estándar MPEG-4 AAC contempla que un elemento de extensión de replicación de banda espectral puede incluir datos PS (estéreo paramétrico) para los datos de audio de un programa. El estándar MPEG-4 AAC contempla que cuando el encabezamiento de un elemento de relleno (por ejemplo, de su carga útil de extensión) inicializa un tipo de objeto SBR (como ocurre con "header1" en la figura 7) y un elemento de extensión de replicación de banda espectral del elemento de relleno incluye datos PS, el elemento de relleno (por ejemplo, su carga útil de extensión) incluye datos de replicación de banda espectral y un parámetro "bs_extension_id" cuyo valor (es decir, bs_extension_id = 2) indica que los datos PS están incluidos en un elemento de extensión de replicación de banda espectral del elemento de relleno.

[0107] De acuerdo con algunas realizaciones de la presente invención, los metadatos eSBR (p. ej., un indicador que indica si se realizará el procesamiento de replicación de banda espectral mejorada (eSBR) en el contenido de audio del bloque) se incluyen en un elemento de extensión de replicación de banda espectral de un elemento de relleno. Por ejemplo, tal indicador se indica en el elemento de relleno 1 de la figura 7, donde aparece después del encabezamiento (el "encabezamiento de extensión SBR" del elemento de relleno 1) del "elemento de extensión SBR" del elemento de relleno 1. Opcionalmente, tal indicador y metadatos eSBR adicionales se incluyen en un elemento de extensión de replicación de banda espectral después del encabezamiento del elemento de extensión de replicación de banda espectral (p. ej., en el elemento de extensión SBR del elemento de relleno 1 de la figura 7, después del encabezamiento de extensión SBR). De acuerdo con algunas realizaciones de la presente invención, un elemento de relleno que incluye metadatos eSBR también incluye un parámetro "bs_extension_id" cuyo valor (por ejemplo, bs_extension_id = 3) indica que los metadatos eSBR están incluidos en el elemento de relleno y que el procesamiento eSBR se debe realizar en el contenido de audio del bloque relevante.

[0109] De acuerdo con algunas realizaciones de la invención, los metadatos eSBR se incluyen en un elemento de relleno (p. ej., el elemento de relleno 2 de la figura 7) de un flujo de bits MPEG-4 AAC, excepto en un elemento de extensión de replicación de banda espectral (elemento de extensión SBR) del elemento de relleno. Esto se debe a que los elementos de relleno que contienen una carga útil de extensión (extension_payload()) con datos SBR o datos SBR con un CRC no contienen ninguna otra carga útil de extensión de ningún otro tipo. Por lo tanto, en realizaciones donde los metadatos eSBR almacenan su propia carga útil de extensión, se utiliza un elemento de relleno independiente para almacenar los metadatos eSBR. Tal elemento de relleno incluye un identificador (p. ej., "ID2" de la figura 7) que indica el inicio de un elemento de relleno y datos de relleno después del identificador. Los datos de relleno pueden incluir un elemento de extensión (extension_payload()) (a veces denominado aquí carga útil de extensión) cuya sintaxis se muestra en la Tabla 4.57 del estándar MPEG-4 AAC.

[0110] Los datos de relleno (p. ej., su carga útil de extensión) incluyen un encabezamiento (p. ej., "header2" del elemento de relleno 2 de la figura 7), que indica un objeto eSBR (es decir, el encabezamiento inicializa un tipo de objeto de replicación de banda espectral mejorada [eSBR]), y los datos de relleno (p. ej., su carga útil de extensión) incluyen metadatos eSBR después del encabezamiento. Por ejemplo, el elemento de relleno 2 de la figura 7 incluye tal encabezamiento ("header2") y, además, metadatos eSBR (es decir, el "indicador" del elemento de relleno 2, que indica si se realizará el procesamiento de replicación de banda espectral mejorada [eSBR] en el contenido de audio del bloque). Opcionalmente, se incluyen metadatos eSBR adicionales en los datos de relleno del elemento de relleno 2 de la figura 7, después del header2. En las realizaciones que se describen en el presente párrafo, el encabezamiento (por ejemplo, header2 de la figura 7) tiene un valor de identificación que no es uno de los valores convencionales especificados en la Tabla 4.57 del estándar MPEG-4 AAC, y en cambio es indicativo de una carga útil de extensión eSBR (de modo que el campo extension_type del encabezamiento indica que los datos de relleno incluyen metadatos eSBR).

[0111] En una primera clase de realizaciones, la invención es una unidad de procesamiento de audio (por ejemplo, un decodificador), que comprende:

[0112] una memoria (por ejemplo, el búfer 201 de la figura 3 o 4) configurada para almacenar al menos un bloque de un flujo de bits de audio codificado (por ejemplo, al menos un bloque de un flujo de bits MPEG-4 AAC);

[0113] un desformateador de carga útil de flujo de bits (por ejemplo, el elemento 205 de la figura 3 o el elemento 215 de la figura 4) acoplado con la memoria y configurado para demultiplexar al menos una parte de dicho bloque del flujo de bits; y

[0114] un subsistema de decodificación (por ejemplo, los elementos 202 y 203 de la figura 3, o los elementos 202 y 213 de la figura 4), acoplado y configurado para decodificar al menos una parte de contenido de audio de dicho bloque del flujo de bits, en donde el bloque incluye:

[0115] un elemento de relleno, que incluye un identificador que indica el inicio del elemento de relleno (p. ej., el identificador "id_syn_ele" con valor 0x6, de la Tabla 4.85 del estándar MPEG-4 AAC), y datos de relleno después del identificador, donde los datos de relleno incluyen:

[0116] al menos un indicador que identifica si se debe realizar un procesamiento de replicación de banda espectral mejorada (eSBR) en el contenido de audio del bloque (por ejemplo, utilizando datos de replicación de banda espectral y metadatos de eSBR incluidos en el bloque).

[0117] El indicador corresponde a los metadatos eSBR, y un ejemplo de él es el indicador sbrPatchingMode. Otro ejemplo es el indicador harmonicSBR. Ambos indicadores señalan si se realizará una replicación de banda espectral básica o una mejorada en los datos de audio del bloque. La replicación espectral básica es el parcheo espectral, y la mejorada es la transposición armónica.

[0118] En algunas realizaciones, los datos de relleno también incluyen metadatos eSBR adicionales (es decir, metadatos eSBR distintos del indicador).

[0119] La memoria puede ser una memoria intermedia (por ejemplo, una realización del búfer 201 de la figura 4) que almacena (por ejemplo, de manera no transitoria) al menos un bloque del flujo de bits de audio codificado.

[0120] Se estima que la complejidad de la ejecución del procesamiento de eSBR (utilizando la transposición armónica de eSBR y el preaplanamiento) por un decodificador eSBR durante la decodificación de un flujo de bits MPEG-4 AAC que incluye metadatos eSBR (indicativo de estas herramientas eSBR) sería la siguiente (para una decodificación típica con los parámetros indicados):

[0121] • Transposición armónica (16 kbps, 14400/28800 Hz)

[0122] ° Basado en DFT: 3,68 WMOPS (millones de operaciones ponderadas por segundo);

[0123] o Basado en QMF: 0,98 WMOPS;

[0124] • Preprocesamiento de parches QMF (preaplanamiento): 0,1 WMOPS.

[0126] Se sabe que la transposición basada en DFT generalmente funciona mejor que la transposición basada en QMF para transitorios.

[0127] De acuerdo con algunas realizaciones de la presente invención, un elemento de relleno (de un flujo de bits de audio codificado) que incluye metadatos eSBR también incluye un parámetro (p. ej., un parámetro "bs_extension_id") cuyo valor (p. ej., bs_extension_id = 3) indica que los metadatos eSBR están incluidos en el elemento de relleno y que el procesamiento eSBR se realizará en el contenido de audio del bloque relevante, y/o un parámetro (p. ej., el mismo parámetro "bs_extension_id") cuyo valor (p. ej., bs_extension_id = 2) indica que un contenedor sbr_extension() del elemento de relleno incluye datos PS. Por ejemplo, como se indica en la Tabla 1 a continuación, un parámetro que tenga el valor bs_extension_id = 2 puede indicar que un contenedor sbr_extension() del elemento de relleno incluye datos PS, y un parámetro que tenga el valor bs_extension_id = 3 puede indicar que un contenedor sbr_extension() del elemento de relleno incluye metadatos eSBR:

[0128] Tabla 1

[0131]

[0133] De acuerdo con algunas realizaciones de la invención, la sintaxis de cada elemento de extensión de replicación de banda espectral que incluye metadatos eSBR y/o datos PS es la indicada en la Tabla 2 a continuación (donde "sbr_extension()" denota un contenedor que es el elemento de extensión de replicación de banda espectral, "bs_extension_id" es como se describe en la Tabla 1 anterior, "ps_data" denota datos PS y "esbr_data" denota metadatos eSBR):

[0134] Tabla 2

[0137]

[0139] En una realización ejemplar, el esbr_data() al que se hace referencia en la anterior Tabla 2 es indicativo de los valores de los siguientes parámetros de metadatos:

[0140] 1. el parámetro de metadatos de un bit, "bs_sbr_preprocessing"; y

[0141] 2. para cada canal ("ch") de contenido de audio del flujo de bits codificado que se va a decodificar, cada uno de los parámetros descritos anteriormente: "sbrPatchingMode[ch]"; "sbrOversamplingFlag[ch]"; "sbrPitchinBinsFlag[ch]"; y "sbrPitchinBins[ch]".

[0142] Por ejemplo, en algunas realizaciones, esbr_data() puede tener la sintaxis indicada en la Tabla 3, para indicar estos parámetros de metadatos:

[0143] Tabla 3

[0144]

[0145]

[0147] La sintaxis anterior permite una realización eficiente de una forma mejorada de replicación de banda espectral, tal como la transposición armónica, como extensión de un decodificador heredado. Específicamente, los datos eSBR de la Tabla 3 incluyen únicamente los parámetros necesarios para realizar la forma mejorada de replicación de banda espectral que no están ya soportados en el flujo de bits ni son directamente derivables de los parámetros ya soportados en este. Todos los demás parámetros y datos de procesamiento necesarios para realizar la forma mejorada de replicación de banda espectral se extraen de parámetros preexistentes en ubicaciones ya definidas en el flujo de bits.

[0148] Por ejemplo, puede ampliarse un decodificador compatible con MPEG-4 HE-AAC o HE-AAC v2 para incluir una forma mejorada de replicación de banda espectral, tal como la transposición armónica. Esta forma mejorada de replicación de banda espectral se suma a la forma básica de replicación de banda espectral ya compatible con el decodificador. En el contexto de un decodificador compatible con MPEG-4 HE-AAC o HE-AAC v2, esta forma básica de replicación de banda espectral es la herramienta SBR de parcheo espectral QMF, tal como se define en la Sección 4.6.18 del estándar Mp EG-4 AAC.

[0149] Al realizar la replicación de banda espectral mejorada, un decodificador HE-AAC extendido puede reutilizar muchos de los parámetros del flujo de bits ya incluidos en la carga útil de la extensión SBR. Entre los parámetros específicos que se pueden reutilizar se incluyen, por ejemplo, los que determinan la tabla maestra de bandas de frecuencia. Estos parámetros incluyen bs_start_freq (que determina el inicio de la tabla maestra de bandas de frecuencia), bs_stop_freq (que determina el final de la tabla maestra de bandas de frecuencia), bs_freq_scale (que determina el número de bandas de frecuencia por octava) y bs_alter_scale (que modifica la escala de las bandas de frecuencia). También se pueden reutilizar los parámetros que determinan la tabla de bandas de ruido (bs_noise_bands) y la tabla de bandas del limitador (bs_limiter_bands). Por consiguiente, en diversas realizaciones, al menos algunos de los parámetros equivalentes especificados en el estándar USAC se omiten del flujo de bits, lo que reduce la sobrecarga de control. Normalmente, cuando un parámetro especificado en el estándar AAC tiene un parámetro equivalente especificado en el estándar USAC, el parámetro equivalente especificado en el estándar USAC tiene el mismo nombre que el parámetro especificado en el estándar AAC, por ejemplo, el factor de escala de envolvente EOrigMapped. Sin embargo, el parámetro equivalente especificado en el estándar USAC suele tener un valor diferente, que está "ajustado" para el procesamiento SBR mejorado definido en el estándar USAC, en lugar del procesamiento SBR definido en el estándar AAC.

[0150] Además de los numerosos parámetros, un decodificador HE-AAC extendido puede reutilizar otros elementos de datos al realizar una replicación de banda espectral mejorada, de acuerdo con las realizaciones de la invención. Por ejemplo, los datos de envolvente y de umbral mínimo de ruido también pueden extraerse de los datos bs_data_env (factores de escala de envolvente) y bs_noise_env (factores de escala de umbral mínimo de ruido) y utilizarse durante la replicación de banda espectral mejorada.

[0151] En esencia, estas realizaciones aprovechan los parámetros de configuración y los datos de envolvente ya compatibles con un decodificador HE-AAC o HE-AAC v2 heredado en la carga útil de la extensión SBR para permitir una replicación mejorada de la banda espectral que requiere la menor cantidad posible de datos transmitidos adicionales. Los metadatos se ajustaron originalmente para una forma básica de HFR (p. ej., la interconexión espectral de SBR), pero, de acuerdo con las realizaciones, se utilizan para una forma mejorada de HFR (p. ej., la transposición armónica de eSBR). Como se mencionó anteriormente, los metadatos generalmente representan parámetros operativos (p. ej., factores de escala de envolvente, factores de escala de umbral mínimo de ruido, parámetros de la cuadrícula de tiempo/frecuencia, información de adición sinusoidal, frecuencia/banda de cruce variable, modo de filtrado inverso, resolución de envolvente, modo de suavizado, modo de interpolación de frecuencia) ajustados y diseñados para su uso con la forma básica de HFR (p. ej., traducción lineal). Sin embargo, estos metadatos, combinados con parámetros de metadatos adicionales específicos de la forma mejorada de HFR (por ejemplo, transposición armónica), se pueden utilizar para procesar de manera eficiente y eficaz los datos de audio utilizando la forma mejorada de HFR.

[0152] Por consiguiente, es posible crear decodificadores extendidos que admitan una forma mejorada de replicación de banda espectral de forma muy eficiente, basándose en elementos de flujo de bits ya definidos (por ejemplo, los de la carga útil de extensión SBR) y añadiendo únicamente los parámetros necesarios para dicha replicación (en una carga útil de extensión de elemento de relleno). Esta función de reducción de datos, combinada con la ubicación de los nuevos parámetros en un campo de datos reservado, tal como un contenedor de extensión, reduce considerablemente las barreras para crear un decodificador que admita una forma mejorada de replicación de banda espectral, garantizando la compatibilidad con versiones anteriores del flujo de bits con decodificadores antiguos que no la admiten.

[0153] En la Tabla 3, el número en la columna derecha indica el número de bits del parámetro correspondiente en la columna izquierda.

[0154] En algunas realizaciones, el tipo de objeto SBR definido en MPEG-4 AAC se actualiza para contener la herramienta SBR o aspectos de la herramienta SBR mejorada (eSBR) como se señala en el elemento de extensión SBR (bs_extension_id== EXTENSION_ID_ESBR).

[0155] En algunas realizaciones, la invención consiste en un método que incluye un paso de codificación de datos de audio para generar un flujo de bits codificado (por ejemplo, un flujo de bits MPEG-4 AAC), incluyendo metadatos eSBR en al menos un segmento de al menos un bloque del flujo de bits codificado y datos de audio en al menos otro segmento del bloque. En realizaciones típicas, el método incluye un paso de multiplexación de los datos de audio con los metadatos eSBR en cada bloque del flujo de bits codificado. Durante la decodificación típica del flujo de bits codificado en un decodificador eSBR, este extrae los metadatos eSBR del flujo de bits (incluyendo el análisis y la demultiplexación de los metadatos eSBR y los datos de audio) y utiliza los metadatos eSBR para procesar los datos de audio y generar un flujo de datos de audio decodificados.

[0156] Otro aspecto de la invención es un decodificador eSBR configurado para realizar procesamiento eSBR (p. ej., utilizando al menos una de las herramientas eSBR conocidas como transposición armónica o preaplanamiento) durante la decodificación de un flujo de bits de audio codificado (p. ej., un flujo de bits MPEG-4 AAC) que no incluye metadatos eSBR. Se describirá un ejemplo de dicho decodificador con referencia a la figura 5.

[0157] El decodificador eSBR (400) de la figura 5 incluye la memoria intermedia 201 (idéntica a la memoria 201 de las figuras 3 y 4), el desformateador de carga útil de flujo de bits 215 (idéntico al desformateador 215 de la figura 4), el subsistema de decodificación de audio 202 (a veces denominado etapa de decodificación "núcleo" o subsistema de decodificación "núcleo", idéntico al subsistema de decodificación 202 de la figura 3), el subsistema de generación de datos de control eSBR 401 y la etapa de procesamiento eSBR 203 (idéntica a la etapa 203 de la figura 3), conectados como se muestra. Normalmente, el decodificador 400 también incluye otros elementos de procesamiento (no mostrados).

[0158] Durante el funcionamiento del decodificador 400, una secuencia de bloques de un flujo de bits de audio codificado (un flujo de bits MPEG-4 AAC) recibido por el decodificador 400 se envía desde el búfer 201 al desformateador 215.

[0159] El desformateador 215 está acoplado y configurado para demultiplexar cada bloque del flujo de bits y extraer metadatos SBR (incluidos los datos de la envolvente cuantificada) y, típicamente, otros metadatos. El desformateador 215 está configurado para validar al menos los metadatos<s>B<r>en la etapa de procesamiento eSBR 203. El desformateador 215 también está acoplado y configurado para extraer datos de audio de cada bloque del flujo de bits y validar los datos de audio extraídos en el subsistema de decodificación (etapa de decodificación) 202.

[0160] El subsistema de decodificación de audio 202 del decodificador 400 está configurado para decodificar los datos de audio extraídos por el desformateador 215 (esta decodificación puede denominarse operación de decodificación "núcleo") para generar datos de audio decodificados y para validarlos en la etapa de procesamiento eSBR 203. La decodificación se realiza en el dominio de la frecuencia. Normalmente, una etapa final de procesamiento en el subsistema 202 aplica una transformación del dominio de la frecuencia al dominio del tiempo a los datos de audio decodificados en el dominio de la frecuencia, de modo que la salida del subsistema son datos de audio decodificados en el dominio del tiempo. La etapa 203 está configurada para aplicar las herramientas SBR (y eSBR) indicadas por los metadatos SBR (extraídos por el desformateador 215) y los metadatos eSBR generados en el subsistema 401 a los datos de audio decodificados (es decir, para procesar SBR y eSBR en la salida del subsistema de decodificación 202 utilizando dichos metadatos) y así generar los datos de audio completamente decodificados que salen del decodificador 400. Normalmente, el decodificador 400 incluye una memoria (accesible por el subsistema 202 y la etapa 203) que almacena los datos de audio desformateados y los metadatos que salen del desformateador 215 (y, opcionalmente, también del subsistema 401). La etapa 203 está configurada para acceder a los datos de audio y metadatos según sea necesario durante el procesamiento SBR y eSBR. El procesamiento SBR en la etapa 203 puede considerarse posprocesamiento de la salida del subsistema de decodificación central 202. Opcionalmente, el decodificador 400 también incluye un subsistema de mezclado final (que puede aplicar herramientas de estéreo paramétrico ("PS") definidas en el estándar MPEG-4 AAC, utilizando metadatos PS extraídos por el desformateador 215), acoplado y configurado para realizar la mezcla ascendente en la salida de la etapa 203 con el fin de generar audio completamente decodificado y mezclado, que se emite desde la APU 210.

[0162] El subsistema de generación de datos de control 401 de la figura 5 está acoplado y configurado para detectar al menos una propiedad del flujo de bits de audio codificado que se va a decodificar y para generar datos de control eSBR (que pueden ser o incluir metadatos eSBR de cualquiera de los tipos incluidos en los flujos de bits de audio codificados, de acuerdo con otras realizaciones de la invención) en respuesta al menos a un resultado de la etapa de detección. Los datos de control eSBR se confirman en la etapa 203 para activar la aplicación de herramientas eSBR individuales o combinaciones de herramientas eSBR al detectar una propiedad específica (o una combinación de propiedades) del flujo de bits, o para controlar la aplicación de dichas herramientas eSBR. Por ejemplo, para controlar el rendimiento del procesamiento de eSBR mediante transposición armónica, algunas realizaciones del subsistema de generación de datos de control 401 incluirían: un detector de música (p. ej., una versión simplificada de un detector de música convencional) para establecer el parámetro sbrPatchingMode[ch] (y validar el parámetro establecido en la etapa 203) en respuesta a la detección de que el flujo de bits es o no indicativo de música; un detector de transitorios para establecer el parámetro sbrOversamplingFlag[ch] (y validar el parámetro establecido en la etapa 203) en respuesta a la detección de la presencia o ausencia de transitorios en el contenido de audio indicado por el flujo de bits; y/o un detector de tono para establecer los parámetros sbrPitchInBinsFlag[ch] y sbrPitchinBins[ch] (y validar los parámetros establecidos en la etapa 203) en respuesta a la detección del tono del contenido de audio indicado por el flujo de bits. Otros aspectos de la invención son métodos de decodificación de flujo de bits de audio realizados por cualquier realización del decodificador de la invención descrito en este párrafo y en el párrafo anterior.

[0164] Los aspectos de la invención incluyen un método de codificación o decodificación del tipo que cualquier realización de la APU, sistema o dispositivo de la invención está configurado (por ejemplo, programado) para ejecutar. Otros aspectos de la invención incluyen un sistema o dispositivo configurado (por ejemplo, programado) para ejecutar cualquier realización del método de la invención, y un medio legible por ordenador (por ejemplo, un disco) que almacena código (por ejemplo, de forma no transitoria) para implementar cualquier realización del método de la invención o sus pasos. Por ejemplo, el sistema de la invención puede ser o incluir un procesador programable de propósito general, un procesador de señales digitales o un microprocesador, programado con software o firmware o configurado de otro modo para realizar diversas operaciones con datos, incluyendo una realización del método de la invención o sus pasos. Tal procesador de propósito general puede ser o incluir un sistema informático que incluye un dispositivo de entrada, una memoria y circuitos de procesamiento programados (o configurados de otro modo) para ejecutar una realización del método de la invención (o sus pasos) en respuesta a los datos que se le atribuyen.

[0166] Las realizaciones de la presente invención pueden implementarse en hardware, firmware o software, o en una combinación de ambos (por ejemplo, como una matriz lógica programable). Salvo que se especifique lo contrario, los algoritmos o procesos incluidos en la invención no están inherentemente relacionados con ningún ordenador u otro aparato en particular. En particular, se pueden utilizar diversas máquinas de propósito general con programas escritos de acuerdo con las enseñanzas descritas en la presente memoria, o puede resultar más conveniente construir aparatos más especializados (por ejemplo, circuitos integrados) para realizar los pasos del método requeridos. Así, la invención puede implementarse en uno o más programas informáticos que se ejecutan en uno o más sistemas informáticos programables (p. ej., una realización de cualquiera de los elementos de la figura 1, o el codificador 100 de la figura 2 (o uno de sus elementos), o el decodificador 200 de la figura 3 (o uno de sus elementos), o el decodificador 210 de la figura 4 (o uno de sus elementos), o el decodificador 400 de la figura 5 (o uno de sus elementos)), cada uno de los cuales comprende al menos un procesador, al menos un sistema de almacenamiento de datos (incluyendo memoria volátil y no volátil y/o elementos de almacenamiento), al menos un dispositivo o puerto de entrada, y al menos un dispositivo o puerto de salida. El código de programa se aplica a los datos de entrada para realizar las funciones descritas en la presente memoria y generar información de salida. La información de salida se aplica a uno o más dispositivos de salida, de forma conocida.

[0168] Cada programa puede implementarse en cualquier lenguaje informático (incluyendo lenguajes de programación máquina, ensamblador, procedimental, lógico u orientado a objetos de alto nivel) para comunicarse con un sistema informático. En cualquier caso, el lenguaje puede ser compilado o interpretado.

[0170] Por ejemplo, cuando se implementan mediante secuencias de instrucciones de software de ordenador, diversas funciones y pasos de realizaciones de la invención pueden implementarse mediante secuencias de instrucciones de software multiproceso que se ejecutan en hardware de procesamiento de señales digitales adecuado, en cuyo caso los diversos dispositivos, pasos y funciones de las realizaciones pueden corresponder a partes de las instrucciones del software.

[0172] Cada programa informático se almacena o descarga preferiblemente en un medio o dispositivo de almacenamiento (por ejemplo, memoria de estado sólido, medios magnéticos u ópticos) legible por un ordenador programable de propósito general o específico, para configurar y operar el ordenador cuando el sistema informático lee el medio o dispositivo de almacenamiento para realizar los procedimientos descritos en la presente memoria. El sistema de la invención también puede implementarse como un medio de almacenamiento legible por ordenador, configurado con (es decir, que almacena) un programa informático, donde el medio de almacenamiento así configurado hace que un sistema informático funcione de una manera específica y predefinida para realizar las funciones descritas en la presente memoria.

[0174] Se han descrito diversas realizaciones de la invención. No obstante, se entenderá que pueden realizarse diversas modificaciones sin apartarse del alcance de la invención. A la luz de las enseñanzas anteriores, son posibles numerosas modificaciones y variaciones de la presente invención. Por ejemplo, para facilitar realizaciones eficientes, se pueden utilizar desplazamientos de fase en combinación con los complejos bancos de filtros de análisis y síntesis QMF. El banco de filtros de análisis se encarga de filtrar la señal de banda baja en el dominio del tiempo generada por el decodificador central en varias subbandas (p. ej., subbandas QMF). El banco de filtros de síntesis se encarga de combinar la banda alta regenerada producida por la técnica HFR seleccionada (como indica el parámetro sbrPatchingMode recibido) con la banda baja decodificada para producir una señal de audio de salida de banda ancha. Sin embargo, una realización de banco de filtros que opere en un modo de frecuencia de muestreo específico, por ejemplo, operación de doble frecuencia normal o modo SBR submuestreado, no debería presentar desplazamientos de fase dependientes del flujo de bits. Los bancos de filtros QMF utilizados en SBR son una extensión exponencial compleja de la teoría de bancos de filtros modulados por coseno. Se puede demostrar que las restricciones de cancelación de alias se vuelven obsoletas al extender el banco de filtros modulado por coseno con modulación exponencial compleja. Por lo tanto, para los bancos de filtros QMF de SBR, tanto los filtros de análisis, hk(n), y filtros de síntesis, fk(n), se definen por:

[0176] hk(n) = f k (n)= p0( n ) e x p [ í ^ ( f e £ ) ( n - y ) } , 0 <n<N;0 <k < M(1)

[0177] donde p0(n) es un filtro prototipo simétrico o asimétrico de valor real (normalmente, un filtro prototipo de paso bajo), M representa el número de canales y N el orden del filtro prototipo. El número de canales utilizado en el banco de filtros de análisis puede ser diferente al del banco de filtros de síntesis. Por ejemplo, el banco de filtros de análisis puede tener 32 canales y el de síntesis, 64. Al operar el banco de filtros de síntesis en modo de muestreo descendente, este puede tener solo 32 canales. Dado que las muestras de subbanda del banco de filtros son complejas, se puede añadir al banco de filtros de análisis un paso de desplazamiento de fase aditivo, posiblemente dependiente del canal. Estos desplazamientos de fase adicionales deben compensarse antes del banco de filtros de síntesis. Si bien los términos de desplazamiento de fase pueden tener valores arbitrarios sin afectar el funcionamiento de la cadena de análisis/síntesis QMF, también pueden limitarse a ciertos valores para la verificación de la conformidad. La señal SBR se verá afectada por la elección de los factores de fase, mientras que no se verá afectada la señal de paso bajo proveniente del decodificador principal. La calidad de audio de la señal de salida no se ve afectada.

[0179] Los coeficientes del filtro prototipo, p0(n), se definen con una longitud, L, de 640, como se muestra en la Tabla 4 a continuación.

[0181] Tabla 4

[0184]

[0185]

[0186]

[0187]

[0188]

[0189]

[0190]

[0193] El filtro prototipo, po(n), también puede derivarse de la Tabla 4 mediante una o más operaciones matemáticas como redondeo, submuestreo, interpolación y diezmado.

[0195] Se entiende que, dentro del alcance de las reivindicaciones adjuntas, la invención puede llevarse a la práctica de forma distinta a la descrita específicamente en la presente memoria. Las referencias numéricas contenidas en las reivindicaciones siguientes son solo ilustrativas y no deben utilizarse para interpretar ni limitar las reivindicaciones en modo alguno.

Claims

1. REIVINDICACIONES

1. Un método para decodificar un flujo de bits de audio codificado, comprendiendo el método:

recibir el flujo de bits de audio codificado, incluyendo el flujo de bits de audio codificado datos de audio que representan una parte de banda baja de una señal de audio;

decodificar los datos de audio para generar una señal de audio de banda baja decodificada;

extraer del flujo de bits de audio codificado metadatos de reconstrucción de alta frecuencia, incluyendo los metadatos de reconstrucción de alta frecuencia parámetros operativos para un proceso de reconstrucción de alta frecuencia que traduce linealmente un número consecutivo de subbandas desde una parte de banda baja de la señal de audio hasta una parte de banda alta de la señal de audio;

filtrar la señal de audio de banda baja decodificada con un banco de filtros de análisis para generar una señal de audio de banda baja filtrada;

extraer del flujo de bits de audio codificado un indicador que señala si se debe realizar una traducción lineal o una transposición armónica en los datos de audio;

en el que el flujo de bits de audio codificado incluye además un elemento de relleno con un identificador que señala un inicio del elemento de relleno y datos de relleno después del identificador, en el que los datos de relleno incluyen el indicador, y en el que el identificador es un entero sin signo de tres bits, cuyo bit más significativo se transmite primero, y que tiene un valor de 0x6;

en el que los datos de relleno incluyen una carga útil de extensión, la carga útil de extensión incluye datos de extensión de replicación de banda espectral, y la carga útil de extensión se identifica con un primer bit más significativo transmitido como entero sin signo de cuatro bits y que tiene un valor de '1101' o '1110'; el que los datos de extensión de replicación de banda espectral incluyen:

un encabezamiento de replicación de banda espectral opcional,

datos de replicación de banda espectral después del encabezamiento,

un elemento de extensión de replicación de banda espectral después de los datos de replicación de banda espectral, y en el que el indicador está incluido en el elemento de extensión de replicación de banda espectral;

en el que el elemento de extensión de replicación de banda espectral incluye parámetros para realizar la transposición armónica;

si el indicador señala que se debe realizar una transposición armónica en los datos de audio:

regenerar una parte de banda alta de la señal de audio realizando una transposición armónica utilizando la señal de audio de banda baja filtrada y los metadatos de reconstrucción de alta frecuencia; y

combinar la señal de audio de banda baja filtrada y la parte de banda alta regenerada para formar una señal de audio de banda ancha,

caracterizado por que el banco de filtros de análisis incluye filtros de análisis, hk(n), que son versiones moduladas de un filtro prototipo, p0(n), según:

donde p0(n) es un filtro prototipo simétrico o asimétrico de valor real, M es un número de canales en el banco de filtros de análisis y N es el orden del filtro prototipo; en el que el filtro prototipo, p0(n), se define por los coeficientes de la siguiente Tabla: