ES2900065T3

ES2900065T3 - Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio

Info

Publication number: ES2900065T3
Application number: ES19160596T
Authority: ES
Inventors: Fabian Küch; Christian Uhle; Michael Kratschmer; Bernhard Neugebauer; Michael Meier; Arne Borsum
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-10-22
Filing date: 2014-10-20
Publication date: 2022-03-15
Anticipated expiration: 2034-10-20
Also published as: US20230134916A1; ES2732304T3; MY181977A; US11170795B2; PT3061090T; JP2016538587A; BR112016008933A2; AR115941A2; ZA201603299B; TR201908748T4; JP6768735B2; SG11201603116XA; EP3522157A1; CA2927664A1; US20240363128A1; MX358483B; PL3061090T3; CN111580772B; JP2018151639A; AU2014339086A1

Abstract

Decodificador de audio para la decodificación de una corriente de bits de audio y una corriente de bits de metadatos (MBS) relacionada con la corriente de bits de audio, comprendiendo el decodificador de audio: una cadena de procesamiento de audio (4) configurada para recibir una señal de audio decodificada (DAS) derivada de la corriente de bits de audio y para ajustar las características de una señal de salida de audio (AOS) de la cadena de procesamiento de audio (4), comprendiendo la cadena de procesamiento de audio (4) una pluralidad de etapas de ajuste (5, 6, 10, 11, 12, 13, 14) que incluyen una etapa de control del intervalo dinámico (5) para ajustar un intervalo dinámico de la señal de salida de audio (AOS), una etapa de normalización de sonoridad (11) configurada para normalizar una sonoridad de la señal de salida de audio (AOS) y una etapa de prevención guiada de recortes (6) para prevenir recortes en la señal de salida de audio (AOS); y un decodificador de metadatos (7) configurado para recibir la corriente de bits de metadatos (MBS) y para extraer las secuencias de ganancia de control del intervalo dinámico (DS) y las secuencias de ganancia de prevención guiada de recortes (GS) de la corriente de bits de metadatos (MBS), proporcionándose al menos una parte de las secuencias de ganancia de control del intervalo dinámico (DS) en la etapa de control del intervalo dinámico (5), y proporcionándose al menos una parte de las secuencias de ganancia de prevención guiada de recortes (GS) en la etapa de prevención guiada de recortes (6); y una etapa de control de metadatos y parámetros (8) configurada para proporcionar metadatos y parámetros (DS, GS, CLA, DI, DTL, PRL, IS, OMD, ICT) al menos a una de las etapas de ajuste (5, 6, 10, 11, 12, 13, 14) sobre la base de la información de configuración (CI) recibida de una etapa que proporciona la configuración (9); donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de control del intervalo dinámico (DS) que se van a suministrar a la etapa de control del intervalo dinámico (5); donde la etapa de control del intervalo dinámico (5) está configurada para recibir las secuencias de ganancia de control del intervalo dinámico (DS) para cada trama de audio de la etapa de control de metadatos y parámetros (8) en una forma no comprimida, donde los valores de ganancia de control del intervalo dinámico en el dominio de tiempo final se interpolan con una resolución temporal correspondiente a una resolución temporal de las muestras de audio, donde las ganancias de control del intervalo dinámico final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de control del intervalo dinámico final a canales y/u objetos; donde la etapa de normalización de la sonoridad (11) está configurada para escalar su señal de entrada de audio (OCF) de tal manera que la señal de salida de audio (AOS) tenga un nivel de sonoridad objetivo, donde un factor de escala se deriva de una diferencia entre un nivel de referencia de programa (PRL) y un nivel objetivo de decodificador (DTL) y proporcionado por la etapa de control de metadatos y parámetros (8) a la etapa de normalización de sonoridad (11), donde el nivel de referencia del programa (PRL) se obtiene a partir de una información de sonoridad, mientras que el nivel objetivo de decodificador (DTL) es un parámetro de configuración del decodificador; y donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de prevención de recorte guiada (GS) que se van a suministrar a la etapa de prevención de recortes guiada (6); donde la etapa de prevención de recortes guiada (6) está configurada para recibir las secuencias de ganancia de prevención de recorte guiada (GS) para cada trama de audio desde la etapa de control de parámetros y metadatos (8) en una forma no comprimida, donde los valores de ganancia de prevención de recorte guiada en el dominio del tiempo final se interpolan con una resolución temporal correspondiente a la resolución temporal de las muestras de audio, donde las ganancias de prevención de recorte guiada final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de prevención de recorte guiada final a canales y/u objetos.

Description

DESCRIPCIÓN

Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio

[0001] La presente invención se refiere a un concepto para la compresión combinada del intervalo dinámico y la prevención guiada de recortes para dispositivos de audio. En particular, la presente invención se refiere a un decodificador de audio, a un procedimiento para el funcionamiento de un decodificador de audio y a un programa informático para ejecutar el procedimiento para el funcionamiento de un decodificador de audio.

[0002] El concepto inventivo está basado en la combinación de varios bloques de procesamiento, que en conjunto proporcionan las funcionalidades requeridas de una solución conjunta para la compresión del intervalo dinámico (DRC, por sus siglas en inglés) y para la prevención guiada de recortes (gCP, por sus siglas en inglés). En el documento US 2009/0063159 A1 se describe una estrategia de la técnica anterior para tratar el control del intervalo dinámico y el recorte en la codificación/decodificación de audio.

[0003] El concepto inventivo es particularmente adecuado para los sistemas de audio donde ya se encuentra disponible información de configuración relacionada tal como se ha definido, por ejemplo, en [M30100, M30101] en el codificador y en el decodificador. Esta información puede incluirse, por ejemplo, en el encabezado para la transmisión basada en archivos o en la extensión de configuración de la codificación unificada de voz y audio (USAC, por sus siglas en inglés). La información de configuración puede incluir disposición de canales, instrucciones para conversión descendente (por ejemplo, coeficientes para conversión descendente), instrucciones para control del intervalo dinámico (por ejemplo, características aplicadas de control del intervalo dinámico, cantidad de secuencias de ganancia de control del intervalo dinámico para una pista), e información sobre sonoridad (por ejemplo, sonoridad del programa, sonoridad de anclaje, valor del pico real). Se pueden encontrar más detalles en [M30100, M30101]. Lo mismo se aplica a las instrucciones correspondientes para la prevención guiada de recortes, que pueden manejarse de la misma forma que la información de la caja de instrucciones de control del intervalo dinámico.

[0004] El codificador de audio es capaz de producir una corriente de bits de metadatos que comprende secuencias de ganancia de control del intervalo dinámico para una etapa de control del intervalo dinámico de un decodificador de audio así como secuencias de ganancia de prevención guiada de recortes para una etapa de prevención guiada de recortes del decodificador de audio, donde las secuencias de ganancia de control del intervalo dinámico pueden transmitirse separadamente desde las secuencias de ganancia de prevención guiada de recortes.

[0005] El codificador de metadatos utiliza, como entrada, secuencias de ganancia de control del intervalo dinámico que se proporcionan desde el exterior, por ejemplo, por una herramienta externa operada por un proveedor de contenidos.

[0006] La resolución temporal posible de las ganancias de control del intervalo dinámico puede estar comprendida dentro del intervalo de unas pocas muestras. Los valores de ganancia de control del intervalo dinámico usualmente pueden representarse con una resolución suficiente de hasta 0,125 dB.

[0007] Además, el codificador de metadatos toma como entrada secuencias de ganancia de prevención guiada de recortes.

[0008] Las secuencias de ganancia de control del intervalo dinámico comprimidas y las secuencias de ganancia de prevención guiada de recortes pueden trasmitirse al receptor como información lateral incluida en la extensión de datos de utilidad de la codificación unificada de voz y audio.

[0009] Cabe destacar que las secuencias de ganancia de control del intervalo dinámico deberán incluir únicamente ganancias de control del intervalo dinámico para realizar la compresión del intervalo dinámico, mientras que las ganancias de prevención guiada de recortes para evitar recortes se adaptan mediante las secuencias de ganancias de prevención guiada de recortes.

[0010] La resolución temporal de las ganancias de prevención guiada de recortes puede ser la misma que para las ganancias de control del intervalo dinámico.

[0011] Se pueden registrar recortes de la señal del lado del decodificador debido, por ejemplo, a la normalización sonora, a la conversión descendente, a las herramientas de codificación paramétrica, etc.

[0012] La prevención de recortes puede lograrse, según la técnica conocida, colocando un limitador de picos en el extremo final de la cadena de procesamiento del decodificador. El limitador de picos detecta muestras de audio en la señal de entrada que exceden un valor máximo definido, y aplica una reducción de nivel a las porciones respectivas de la señal de modo que las muestras de la señal de salida siempre están por debajo del valor máximo definido. Para evitar distorsiones audibles, la reducción del nivel tiene que realizarse gradualmente, es decir que el factor de ganancia aplicado a la señal puede cambiar solo lentamente a lo largo del tiempo, lo que se asegura mediante un filtro de alisado de ganancia. También se utiliza un retardo anticipado de la señal de entrada antes de aplicar el factor de ganancia para permitir una reducción suave de la ganancia que comienza antes de un pico súbito en la señal. Debido a que un limitador de picos del lado del decodificador normalmente no se controla del lado del codificador (un creador de contenidos no tiene influencia sobre el procedimiento de limitación de picos), se produce una secuencia de ganancia de prevención no guiada de recortes que se aplica directamente a la señal de audio. Un limitador de picos del lado del decodificador causa siempre retardos anticipados adicionales (aproximadamente 5 ms o más) y complejidad computacional del lado del decodificador.

[0013] Por el contrario, las secuencias de ganancia de prevención guiada de recortes utilizadas según la invención permiten el control pleno de la generación de ganancias de prevención de recortes del lado del codificador (si se desea, un creador de contenidos puede tener influencia sobre las características de la ganancia). Después de la generación, las secuencias de ganancia de prevención de recortes se transmiten hacia el lado del decodificador. Si una secuencia de ganancia adecuada de prevención guiada de recortes para la configuración actual del decodificador se encuentra disponible en la corriente de bits de metadatos, puede evitarse un limitador de picos del lado del decodificador en la mayoría de los casos. Por lo tanto, se puede evitar el retardo anticipado adicional y la complejidad computacional del lado del decodificador.

[0014] Se pueden transmitir secuencias de ganancia de prevención guiada de recortes para varias configuraciones de decodificador, como, por ejemplo, para objetivos específicos de niveles de sonoridad o para configuraciones específicas de configuración descendente. Si la configuración del decodificador es coincidente, se puede aplicar una secuencia de ganancia adecuada para prevención guiada de recortes a la señal de salida del decodificador. En muchos casos, las secuencias de ganancia de prevención guiada de recortes pueden escalarse opcionalmente para ajustarse a un nivel de sonoridad objetivo no coincidente (en lo posible se utiliza el valor máximo de la señal).

[0015] Las secuencias de ganancia de prevención guiada de recortes se usan para asegurar que no se registra ninguna distorsión de muestra a la salida del decodificador de audio para un nivel objetivo y una configuración de convertidor de configuración descendente/formato específicos. Cada secuencia de ganancia de prevención guiada de recortes puede optimizarse para una combinación de una configuración específica de convertidor de configuración descendente/formato, para un nivel objetivo específico, y para una secuencia de ganancia de control del intervalo dinámico específica para canales junto con secuencias de ganancia de control del intervalo dinámico específicas para los objetos. La información acerca de cuál secuencia de ganancia de prevención guiada de recortes está asociada con cuál secuencia de ganancia de control del intervalo dinámico puede incluirse en la instrucción de prevención guiada de recortes en el encabezado del archivo de la extensión de la configuración de la codificación unificada de voz y audio. También puede incluir la información relacionada con el nivel objetivo para el cual se han determinado las ganancias para prevención guiada de recortes en el codificador.

[0016] El concepto para el procesamiento del intervalo dinámico que se ha descrito anteriormente representa una estrategia que apunta al control del lado del codificador de la cadena entera del procesamiento. La separación de los metadatos usados para el control del intervalo dinámico y la prevención guiada de recortes permite modificar por separado (escalar o mapear) cada una de las ganancias, dependiendo dicha modificación de la configuración del decodificador y del escenario de reproducción.

[0017] Con el concepto de la invención es posible cambiar la característica subyacente de control del intervalo dinámico de una secuencia de ganancia de control del intervalo dinámico de compresión pesada a compresión ligera si las ganancias de control del intervalo dinámico se transmiten separadamente de las ganancias de prevención guiada de recortes. Esto puede lograrse escalando o mapeando de forma apropiada los valores de la secuencia de ganancia de control del intervalo dinámico.

[0018] El concepto de la invención proporciona al proveedor de contenidos el control completo de la salida final del decodificador de audio con el fin de satisfacer los requisitos de calidad dados. En este caso, tanto las secuencias de ganancias de control del intervalo dinámico y las secuencias de ganancia de prevención guiada de recortes pueden incluirse para las configuraciones específicas del decodificador que se consideren más importantes. En muchos casos se puede descartar un limitador de picos debido al uso combinado de las secuencias de ganancia de control del intervalo dinámico y las secuencias de ganancia de prevención guiada de recortes. Cabe destacar que la prevención guiada de recortes del lado del decodificador de audio, que se logra simplemente aplicando ganancias de prevención guiada de recortes, es más eficaz desde el punto de vista computacional que utilizar un limitador de picos.

[0019] La información acerca de qué características de control del intervalo dinámico están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico pueden incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0020] Por medio de estas características es posible proporcionar múltiples secuencias de ganancia de control del intervalo dinámico para los canales de una pista de audio con el fin de posibilitar señales de salida en el decodificador que tienen diferentes características de compresión.

[0021] Es posible definir dentro de cada secuencia de control del intervalo dinámico un conjunto de ganancias de control del intervalo dinámico diferentes para diferentes canales o grupos de canales, usualmente, cada canal está asociado exactamente con un grupo de canales. Por ejemplo, en el sonido de canales múltiples de las películas a menudo se desea aplicar una ganancia de control del intervalo dinámico específica al canal de los diálogos. Los canales restantes tales como delantero izquierdo, delantero derecho, posterior izquierdo, posterior derecho, por ejemplo, pueden procesarse utilizando una ganancia de control del intervalo dinámico diferente.

[0022] De forma análoga al caso de los canales, se pueden admitir múltiples secuencias de control del intervalo dinámico que están asociadas con objetos de audio o grupos de objetos. También se puede considerar que estas secuencias de control del intervalo dinámico asociadas con objetos están asociadas con un grupo de canales específico dentro de un conjunto relacionado con canales de las ganancias de control del intervalo dinámico. El término objetos de audio se refiere en esta invención a fuentes únicas de sonido tales como el timbre de una puerta.

[0023] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico pueden incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0024] En una extensión opcional que admite múltiples bandas de control del intervalo dinámico, el codificador de metadatos se puede extender para aceptar además secuencias de ganancia de control del intervalo dinámico que tienen diferentes ganancias de control del intervalo dinámico para diferentes bandas de frecuencia como entrada.

[0025] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0026] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes canales o grupos de canales dentro de cada secuencia de prevención guiada de recortes, donde cada canal está asociado usualmente exactamente con un grupo de canales. En formas típicas de funcionamiento se aplican a todos los canales las mismas ganancias de prevención guiada de recortes.

[0027] Las definiciones de secuencias de ganancia de prevención guiada de recortes para objetos son análogas a las del caso del control del intervalo dinámico.

[0028] En un aspecto, la invención proporciona un decodificador de audio para decodificar una corriente de bits de audio y una corriente de bits de metadatos relacionada con la corriente de bits de audio según la reivindicación 1.

[0029] La invención proporciona flexibilidad en el lado del decodificador de audio al mismo tiempo que deja el control de toda la cadena de procesamiento en el lado del codificador. La separación de los metadatos usados para el control del intervalo dinámico y la prevención guiada de recortes permite modificar por separado (escalar o mapear) cada una de las ganancias, dependiendo dicha modificación de la configuración del decodificador y del escenario de reproducción.

[0030] La invención permite cambiar la característica subyacente de control del intervalo dinámico de una secuencia de ganancia de control del intervalo dinámico de compresión pesada a compresión ligera si las ganancias de control del intervalo dinámico se transmiten separadamente de las ganancias de prevención guiada de recortes. Esto puede lograrse escalando o mapeando de forma apropiada los valores de la secuencia de ganancia de control del intervalo dinámico.

[0031] En el caso en que el nivel objetivo del decodificador sea menor que el nivel objetivo usado para computar las ganancias para la prevención guiada de recortes en el codificador, se puede permitir una atenuación reducida de los picos de la señal en el decodificador al escalar adecuadamente las ganancias de prevención guiada de recortes. Entonces, se puede mantener o al menos aumentar el nivel de picos fuertes de la señal en comparación con el caso en que se aplican las ganancias de prevención guiada de recortes sin modificar, lo que significa que se puede preservar el valor máximo de la señal disponible.

[0032] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos al menos dos secuencias de ganancia de control del intervalo dinámico para la misma trama de audio que comprenden diferentes ganancias de control del intervalo dinámico.

[0033] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0034] Por medio de estas características es posible proporcionar múltiples secuencias de ganancia de control del intervalo dinámico para los canales de una pista de audio con el fin de posibilitar señales de salida en el decodificador que tienen diferentes características de compresión.

[0035] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos una secuencia de ganancia de control del intervalo dinámico que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con canales de audio diferentes y/o con objetos de audio diferentes.

[0036] Es posible definir dentro de cada secuencia de control del intervalo dinámico un conjunto de ganancias de control del intervalo dinámico diferentes para diferentes canales o grupos de canales, usualmente, cada canal está asociado exactamente con un grupo de canales. Por ejemplo, en el sonido de canales múltiples de las películas a menudo se desea aplicar una ganancia de control del intervalo dinámico específica al canal de los diálogos. Los canales restantes tales como delantero izquierdo, delantero derecho, posterior izquierdo, posterior derecho, por ejemplo, pueden procesarse utilizando una ganancia de control del intervalo dinámico diferente.

[0037] De forma análoga al caso de los canales, se pueden admitir múltiples secuencias de control del intervalo dinámico que están asociadas con objetos de audio o grupos de objetos. También se puede considerar que estas secuencias de control del intervalo dinámico asociadas con objetos están asociadas con un grupo de canales específico dentro de un conjunto relacionado con canales de las ganancias de control del intervalo dinámico. El término objetos de audio se refiere en esta invención a sonidos de fuente única tales como el timbre de una puerta.

[0038] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos una secuencia de ganancia de control del intervalo dinámico que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes bandas de frecuencia del decodificador de audio.

[0039] En una extensión opcional que admite múltiples bandas de control del intervalo dinámico, el decodificador de metadatos se puede extender para aceptar además secuencias de ganancia de control del intervalo dinámico que tienen diferentes ganancias de control del intervalo dinámico para diferentes bandas de frecuencia como entrada.

[0040] En el caso de la extensión del control del intervalo dinámico de múltiples bandas, la señal de audio en el dominio del tiempo se tiene que transformar en la representación adecuada en el dominio de la frecuencia antes de aplicar las ganancias de control del intervalo dinámico de múltiples bandas.

[0041] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0042] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos al menos dos secuencias de ganancia de prevención guiada de recortes que comprenden diferentes ganancias de prevención guiada de recortes.

[0043] Mediante estas características es posible proporcionar múltiples secuencias de ganancia de prevención guiada de recortes para una pista de audio con el fin de coincidir con las correspondientes secuencias de ganancia de control del intervalo dinámico.

[0044] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos una secuencia de ganancia de prevención guiada de recortes que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con canales de audio diferentes y/o con objetos de audio diferentes.

[0045] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes canales o grupos de canales dentro de cada secuencia de prevención guiada de recortes, donde cada canal está asociado usualmente exactamente con un grupo de canales. En modos típicos de funcionamiento se aplican a todos los canales las mismas ganancias de prevención guiada de recortes.

[0046] Las definiciones de secuencias de ganancia de prevención guiada de recortes para objetos son análogas a las del caso del control del intervalo dinámico.

[0047] Según la invención, el decodificador de audio comprende además una etapa de control de metadatos y parámetros configurado para proporcionar metadatos y parámetros al menos a una de las etapas de ajuste sobre la base de la información de configuración recibida de una etapa que proporcione configuración.

[0048] La etapa de control de metadatos y parámetros en el decodificador de audio puede seleccionar la parte correcta de la corriente de bits de metadatos según las secuencias de ganancia de control del intervalo dinámico deseadas. La información de escalado y mapeo también puede formar parte o derivarse de la información de configuración del decodificador.

[0049] Por analogía, la etapa de control de metadatos y parámetros en el decodificador de audio selecciona la parte correcta de la corriente de bits según las secuencias de ganancia de prevención guiada de recortes deseadas.

[0050] Según una realización preferida de la invención, la etapa de control de metadatos y parámetros está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de control del intervalo dinámico, cuál de la pluralidad de secuencias de ganancia de control del intervalo dinámico se suministra a la etapa de control del intervalo dinámico. La selección de la secuencia de control del intervalo dinámico por parte de la etapa de control de metadatos y parámetros puede estar basada en la información de configuración del decodificador, tal como composición del canal, instrucciones de conversión descendente, metadatos de objetos, instrucciones de control del intervalo dinámico, información sobre sonoridad, y nivel objetivo del decodificador.

[0051] Según una realización preferida de la invención, la etapa de control de metadatos y parámetros está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de prevención guiada de recortes, cuál de la pluralidad de secuencias de ganancia de prevención guiada de recortes se suministra a la etapa de prevención guiada de recortes.

[0052] La selección de la secuencia de ganancia de prevención guiada de recortes por parte del bloque de control de metadatos y parámetros está basada generalmente en la información de configuración del decodificador de audio descrita anteriormente.

[0053] Según una realización preferida de la invención, la etapa de control del intervalo dinámico en la dirección del flujo de la señal es la primera etapa de ajuste de la cadena de ajuste de audio.

[0054] El procesamiento del control del intervalo dinámico para los canales se puede realizar antes de la potencial conversión descendente o conversión del formato de los canales de audio decodificados con el fin de posibilitar ganancias diferentes para los grupos de canales. Por consiguiente, las ganancias de control del intervalo dinámico se aplican a los objetos antes de la renderización. En el caso en que ambos, canales y objetos, estén presentes, la ubicación del procesamiento de control del intervalo dinámico permanece igual: el control del intervalo dinámico relacionado con canales debe realizarse directamente antes de la etapa de conversión del formato, mientras que el control del intervalo dinámico relacionado con objetos se realiza antes del renderizador de objetos.

[0055] Según una realización preferida de la invención, la cadena de ajuste de audio comprende una etapa de conversión del formato configurada para ajustar la configuración del canal de la señal de salida de audio. La etapa de conversión del formato, también denominada de conversión descendente (DMX), está configurada para adaptar la configuración del canal de la señal de audio de salida a los transductores usados para la reproducción. Por ejemplo, la etapa de conversión del formato puede convertir una señal de sonido envolvente 5.1 en una señal estéreo.

[0056] Según la invención, la cadena de ajuste de audio comprende una etapa de normalización sonora configurada para normalizar la sonoridad de la señal de audio de salida.

[0057] La etapa de normalización sonora puede escalar su señal de audio de entrada de tal forma que la señal de salida tenga el nivel de sonoridad objetivo correcto. El factor de escala se deriva de la diferencia entre el nivel de referencia del programa (PRL, por sus siglas en inglés) y el nivel objetivo del decodificador (DTL, por sus siglas en inglés) y es proporcionado por los metadatos del decodificador y el control de parámetros al bloque de normalización de sonoridad. El nivel de referencia del programa se obtiene de la información de sonoridad que se incluye, por ejemplo, en el encabezado del archivo, mientras que el nivel objetivo del decodificador es un parámetro de configuración del decodificador. Es posible que se proporcionen múltiples valores de niveles de referencia del programa dentro de la información de sonoridad, donde cada uno corresponde a una configuración específica de una secuencia de control del intervalo dinámico aplicada y/o a una conversión descendente aplicada. En este caso, la etapa de control de metadatos y parámetros selecciona el valor del nivel de referencia del programa correcto mientras considera la configuración del decodificador de audio dada. La ubicación de la etapa de procesamiento de sonoridad depende de la configuración real de salida del decodificador de audio. En general, la normalización de sonoridad deberá realizarse en los canales de salida del decodificador de audio, por ejemplo, después del mezclado, o después de la conversión del formato, si corresponde.

[0058] Según una realización preferida de la invención, la cadena de ajuste de audio comprende una etapa de limitación de picos configurada para limitar los picos de la señal de audio de salida en el caso de que se exceda ese umbral.

[0059] Según una realización preferida de la invención la etapa de limitación de picos en la dirección del flujo de la señal es la última etapa de ajuste de la cadena de ajuste de audio.

[0060] Existe una cantidad de fuentes potenciales de distorsión de muestra inevitables en la cadena de procesamiento de audio de un decodificador de audio típico, que incluye:

• Herramientas de codificación paramétrica.

• Procesamiento binaural.

• Conversión descendente, conversión de formato, renderización.

• Normalización sonora (especialmente para niveles objetivo altos).

• Cuantización en la salida del decodificador.

[0061] La etapa de limitación de picos se ubica por lo tanto al final de la cadena de procesamiento del decodificador de audio para evitar cualquier distorsión no deseada de las muestras de audio, por ejemplo, justo antes de que la señal de salida en el dominio del tiempo se convierta del punto flotante al punto fijo de la modulación por codificación de pulsos (formato PCM, por sus siglas en inglés). Esto significa también que cualquier etapa de control del intervalo dinámico y etapa de normalización sonora descrita en la sección anterior se ubica antes de la etapa de limitación de picos. En el contexto de las normas de audio MPEG (Grupo de expertos en imágenes en movimiento, por sus siglas en inglés)-H 3D [M30324], la etapa de limitación de picos recibe diferentes señales como entrada, según la configuración real de reproducción. En el caso de la renderización binaural, los dos canales de salida para auriculares se pueden procesar mediante la etapa de limitación de picos. Si los canales de salida del mezclador se reproducen directamente, la etapa de limitación de picos puede procesar los canales correspondientes del altavoz. Lo mismo aplica si los canales de salida del mezclador se convierten a diferentes configuraciones de altavoz (por ejemplo, conversión descendente) mediante el convertidor de formato en primer lugar.

[0062] La etapa de limitación de picos puede detectar muestras de audio en la señal en el dominio del tiempo que exceden el límite del umbral, y aplica una reducción del nivel a las porciones respectivas de la señal de modo que las muestras de la señal de audio de salida siempre permanezcan debajo del límite del umbral. Para evitar distorsiones audibles, la reducción del nivel deberá realizarse gradualmente, es decir que el factor de ganancia aplicado a la señal puede cambiar solo lentamente a lo largo del tiempo, lo que se asegura mediante un filtro de alisado de ganancia. También se utiliza un retardo anticipado de la señal de entrada de la etapa de limitación de picos antes de aplicar el factor de ganancia del limitador para permitir una reducción suave de la ganancia que comienza antes de los picos agudos de la señal. El retardo se puede ajustar a un requisito dado, en la práctica se selecciona de 5 ms. En el caso de audio de canales múltiples se puede aplicar un factor de ganancia en común a todos los canales de audio para reducir la complejidad computacional.

[0063] La información acerca del pico máximo de la señal de audio, que puede estar incluida en la información de sonoridad de un encabezado del archivo, se puede aprovechar para descartar la etapa de limitación de picos si la configuración del decodificador implica que no puede ocurrir ningún recorte en la cadena de procesamiento de audio. La etapa de limitación de picos también puede descartarse si, por ejemplo, el decodificador de audio emite muestras de audio con precisión de punto fijo y la prevención de recortes se realiza en un punto posterior en la cadena de audio del dispositivo de reproducción. Naturalmente, si la configuración del decodificador para un escenario dado de reproducción permite aplicar ganancias correctas de prevención guiada de recortes, la etapa de limitación de picos también se puede deshabilitar si no se produce un recorte adicional de códec.

[0064] Se puede considerar que el limitador de picos es un componente esencial en la práctica. Existen numerosas fuentes de recorte dentro de la cadena de procesamiento de audio del decodificador. Se pueden abarcar configuraciones especiales al proporcionar secuencias de ganancia de prevención guiada de recortes. No obstante, para una operación flexible del decodificador, se puede proporcionar el limitador de picos para asegurar que no se produzca ningún recorte.

[0065] Según una realización preferida de la invención, la cadena de ajuste de audio comprende una etapa de renderizador de objetos configurada para mezclar objetos de audio en los canales de la señal de salida de audio.

[0066] Según una realización preferida de la invención la cadena de ajuste de audio comprende una etapa de adaptación del transductor configurada para ajustar las características de la señal de salida de audio al sistema de transducción usado para reproducir la señal de salida de audio.

[0067] Con el fin de reducir la fuerza limitante requerida por la etapa de limitación de picos, se puede incluir en la cadena de procesamiento un procedimiento de adaptación del transductor dependiente de la frecuencia, por ejemplo, implementado mediante un filtro de ecualización.

[0068] La etapa de adaptación del transductor recibe una señal de entrada de audio e información acerca de las características del transductor utilizado para la reproducción (altavoz o auriculares).

[0069] La función de la etapa de adaptación del transductor es adaptar la señal de salida de audio a las características del transductor, especialmente cuando los transductores tienen un intervalo de frecuencia limitado y por lo tanto limitarán el intervalo de frecuencia de la señal de salida de audio. Al limitar el intervalo de la frecuencia mediante el uso de filtros adecuados que imitan la función de transferencia del transductor antes de la etapa de limitación de picos, la señal de entrada de la etapa de limitación de picos tiene un nivel reducido. En consecuencia, los picos de la señal que exceden los umbrales límite tienen un nivel reducido. Por lo tanto, el efecto de la etapa de limitación de picos es menos severo. Esto resulta ventajoso dado que

- la limitación de picos puede cambiar la señal audiblemente, mientras que la adaptación del transductor no introduce cambios audibles en la señal, y

- cuando las señales se modifican de tal manera que el nivel de pico máximo está por debajo del límite del umbral, el limitador de picos introducirá menos carga computacional.

[0070] Además del filtrado, la etapa de adaptación del transductor puede incluir también procesamiento adaptable a la señal de tal manera que se compensa la limitación de banda del transductor. Los transductores especialmente muy pequeños no son capaces de reproducir señales de baja frecuencia.

[0071] Esto se puede compensar al aumentar la respuesta del transductor a la percepción de los bajos, por ejemplo, generando artificialmente y agregando armónicos de las notas de baja frecuencia a la señal.

[0072] En un aspecto adicional, la invención proporciona un procedimiento para el funcionamiento de un decodificador de audio, en particular un decodificador de audio según la reivindicación 15, para decodificar una corriente de bits de audio y una corriente de bits de metadatos relacionados con la corriente de bits de audio.

[0073] En un aspecto adicional la invención proporciona un programa informático para realizar, cuando se ejecuta en un ordenador o en un procesador, el procedimiento anteriormente mencionado.

[0074] A continuación, se expondrán las realizaciones preferidas de la invención con respecto a los dibujos adjuntos, en los cuales:

La fig. 1 ilustra un ejemplo de un codificador de audio según la invención en una vista esquemática;

La fig. 2 ilustra un ejemplo de un decodificador de audio según la invención en una vista esquemática;

La fig. 3 ilustra una primera realización de un decodificador de audio según la invención en una vista esquemática; La fig. 4 ilustra una segunda realización de un decodificador de audio según la invención en una vista esquemática; La fig. 5 ilustra una tercera realización de un decodificador de audio según la invención en una vista esquemática.

[0075] La fig. 1 ilustra un ejemplo de un codificador de audio 1 en una vista esquemática. La fig. 1 ilustra la codificación de las secuencias de ganancia de control del intervalo dinámico y las secuencias de ganancia de prevención guiada de recortes.

[0076] El codificador de audio 1 está configurado para producir una corriente de bits de audio que comprende uno o varios canales de audio AC y/o uno o varios objetos de audio AO, comprendiendo el codificador de audio 1 un codificador de metadatos 2 para producir una corriente de bits de metadatos MBS configurada:

para recibir al menos una secuencia de ganancia de control del intervalo dinámico DS para una trama de audio que comprende una o varias ganancias de control del intervalo dinámico para una etapa de control del intervalo dinámico 5 (véase la fig. 2) de un decodificador de audio 3 (véase la fig. 2);

para recibir al menos una secuencia de ganancia de prevención guiada de recortes GS para la trama de audio, comprendiendo dicha secuencia de ganancia de prevención guiada de recortes GS una o varias ganancias de prevención guiada de recortes para una etapa de prevención guiada de recortes 6 (véase la fig. 2) del decodificador de audio 3; y para incluir al menos una de dichas secuencias de ganancia de control del intervalo dinámico DS y al menos una de dichas secuencias de ganancia de prevención guiada de recortes GS en la corriente de bits de metadatos MBS.

[0077] El concepto se basa en la combinación de varios bloques de procesamiento, que en conjunto proporcionan las funcionalidades requeridas de una solución conjunta para la compresión del intervalo dinámico (DRC) y para la prevención guiada de recortes (gCP).

[0078] El concepto es particularmente adecuado para los sistemas de audio donde ya se encuentra disponible información de configuración relacionada tal como se ha definido, por ejemplo, en [M30100, M30101] en el codificador de audio 1 y en el decodificador de audio 3. Esta información puede incluirse, por ejemplo, en el encabezado para la transmisión basada en archivos o en la extensión de configuración de la codificación unificada de voz y audio (USAC). La información de configuración puede incluir disposición de canales, instrucciones para conversión descendente (por ejemplo, coeficientes para conversión descendente), instrucciones para control del intervalo dinámico (por ejemplo, características aplicadas de control del intervalo dinámico, cantidad de secuencias de ganancia de control del intervalo dinámico para una pista), e información sobre sonoridad (por ejemplo, sonoridad del programa, sonoridad de anclaje, valor del pico real). Se pueden encontrar más detalles en [M30100, M30101]. Lo mismo se aplica a las instrucciones correspondientes para la prevención guiada de recortes, que pueden manejarse de la misma forma que la información de la caja de instrucciones de control del intervalo dinámico.

[0079] El codificador de audio 1 es capaz de producir una corriente de bits de metadatos MBS que comprende secuencias de ganancia de control del intervalo dinámico DS para una etapa de control del intervalo dinámico 5 de un decodificador de audio 3 así como secuencias de ganancia de prevención guiada de recortes GS para una etapa de prevención guiada de recortes 6 del decodificador de audio 3, donde las secuencias de ganancia de control del intervalo dinámico DS pueden transmitirse separadamente desde las secuencias de ganancia de prevención guiada de recortes GS.

[0080] El codificador de metadatos utiliza, como entrada, secuencias de ganancia de control del intervalo dinámico DS que se proporcionan desde el exterior, por ejemplo, por una herramienta externa operada por un proveedor de contenidos.

[0081] La resolución temporal posible de las ganancias de control del intervalo dinámico puede estar comprendida dentro del intervalo de unas pocas muestras. Los valores de ganancia de control del intervalo dinámico usualmente pueden representarse con una resolución suficiente de hasta 0,125 dB.

[0082] Además, el codificador de metadatos toma como entrada secuencias de ganancia de prevención guiada de recortes GS.

[0083] Las secuencias de ganancia de control del intervalo dinámico DS comprimidas y las secuencias de ganancia de prevención guiada de recortes pueden trasmitirse al receptor como información lateral incluida en la extensión de datos de utilidad de la codificación unificada de voz y audio.

[0084] Cabe destacar que las secuencias de ganancia de control del intervalo dinámico DS deberán incluir únicamente ganancias de control del intervalo dinámico para realizar la compresión del intervalo dinámico, mientras que las ganancias de prevención guiada de recortes para evitar recortes se adaptan mediante las secuencias de ganancias de prevención guiada de recortes GS.

[0085] La resolución temporal de las ganancias de prevención guiada de recortes puede ser la misma que para las ganancias de control del intervalo dinámico.

[0086] Las secuencias de ganancia de prevención guiada de recortes GS se usan para asegurar que no se registre ningún recorte de muestra en la señal de salida de audio AOS (véase la fig. 2) del decodificador de audio 3 para un nivel objetivo y una configuración de convertidor de configuración descendente/formato específicos. Cada secuencia de ganancia de prevención guiada de recortes puede optimizarse para una combinación de una configuración específica de convertidor de configuración descendente/formato, para un nivel objetivo específico, y para una secuencia de ganancia de control del intervalo dinámico específica para canales junto con secuencias de ganancia de control del intervalo dinámico específicas para objetos. La información acerca de cuál secuencia de ganancia de prevención guiada de recortes GS está asociada con cuál secuencia de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de prevención guiada de recortes en el encabezado del archivo de la extensión de la configuración de la codificación unificada de voz y audio. También puede incluir la información relacionada con el nivel objetivo para el cual se han determinado las ganancias para prevención guiada de recortes en el codificador de audio 1.

[0087] El concepto para el procesamiento del intervalo dinámico descrito anteriormente representa una estrategia que apunta al control del lado del codificador de la cadena entera de procesamiento de audio 4 (véase la fig. 2). La separación de los metadatos usados para el control del intervalo dinámico y la prevención guiada de recortes permite modificar por separado (escalar o mapear) cada una de las ganancias, dependiendo dicha modificación de la configuración del decodificador y del escenario de reproducción.

[0088] Con el concepto es posible cambiar la característica subyacente de control del intervalo dinámico de una secuencia de ganancia de control del intervalo dinámico DS de compresión pesada a compresión liviana si las ganancias de control del intervalo dinámico se transmiten separadamente de las ganancias de prevención guiada de recortes GS. Esto puede lograrse escalando o mapeando de forma apropiada los valores de la secuencia de ganancia de control del intervalo dinámico DS.

[0089] El concepto proporciona al proveedor de contenidos el completo control de la señal de salida final de audio del decodificador de audio 3 con el fin de satisfacer requisitos de calidad dados. En este caso, tanto las secuencias de ganancias de control del intervalo dinámico DS como las secuencias de ganancia de prevención guiada de recortes GS pueden incluirse para las configuraciones específicas del decodificador de audio que se consideren más importantes. En muchos casos se puede descartar una etapa de limitador de picos 12 debido al uso combinado de las secuencias de ganancia de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS. Cabe destacar que la prevención guiada de recortes del lado del decodificador de audio, que se logra simplemente aplicando ganancias de prevención guiada de recortes, es más eficiente desde el punto de vista computacional que utilizar un limitador de picos 12.

[0090] Según un ejemplo, el codificador de metadatos 2 está configurado para recibir al menos dos secuencias de ganancia de control del intervalo dinámico DS para la misma trama de audio que comprenden diferentes ganancias de control del intervalo dinámico, y para incluir las al menos dos secuencias de ganancia de control del intervalo dinámico DS que comprenden las diferentes ganancias de control del intervalo dinámico en la corriente de bits de metadatos MBS.

[0091] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0092] Por medio de estas características es posible proporcionar múltiples secuencias de ganancia de control del intervalo dinámico DS para los canales de una pista de audio con el fin de posibilitar señales de salida en el decodificador de audio 3 que tienen diferentes características de compresión.

[0093] Según un ejemplo el codificador de metadatos está configurado para recibir una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes canales de audio AC y/o diferentes objetos de audio AO, el codificador de metadatos 2 está configurado para incluir las al menos dos ganancias de control del intervalo dinámico DS relacionadas con diferentes canales de audio AC y/o con diferentes objetos de audio AO y, opcionalmente, las relaciones de las ganancias de control del intervalo dinámico con los canales de audio AC y/o los objetos de audio AO en la corriente de bits de metadatos MBS.

[0094] Es posible definir dentro de cada secuencia de control del intervalo dinámico DS un conjunto de ganancias de control del intervalo dinámico diferentes para diferentes canales de audio AC o grupos de canales de audio AC, donde cada canal de audio AC está asociado usualmente exactamente con un grupo de canales. Por ejemplo, en el sonido de canales múltiples de las películas a menudo se desea aplicar una ganancia de control del intervalo dinámico específica al canal de los diálogos. Los canales restantes tales como delantero izquierdo, delantero derecho, posterior izquierdo, posterior derecho, por ejemplo, pueden procesarse mediante el uso de una ganancia de control del intervalo dinámico diferente.

[0095] De forma análoga al caso de los canales, se pueden admitir múltiples secuencias de control del intervalo dinámico DS que están asociadas con objetos de audio AO o grupos de objetos AO. También se puede considerar que estas secuencias de control del intervalo dinámico DS asociadas con objetos están asociadas con un grupo de canales específico dentro de un conjunto relacionado con canales de las ganancias de control del intervalo dinámico. En esta invención, el término objetos de audio se refiere a fuentes únicas de sonido tales como el timbre de una puerta.

[0096] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0097] Según un ejemplo el codificador de metadatos 2 está configurado para recibir una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes bandas de frecuencia del decodificador de audio, estando el codificador de metadatos 2 configurado para incluir las al menos dos ganancias de control del intervalo dinámico DS relacionadas con diferentes bandas de frecuencia del decodificador de audio 3 y, opcionalmente, las relaciones de las ganancias de control del intervalo dinámico con las bandas de frecuencia del decodificador de audio 3 en la corriente de bits de metadatos MBS.

[0098] En una extensión opcional que admite múltiples bandas de control del intervalo dinámico, el codificador de metadatos 2 se puede extender para aceptar además, como entrada, secuencias de ganancia de control del intervalo dinámico DS que tienen diferentes ganancias de control del intervalo dinámico para diferentes bandas de frecuencia.

[0099] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0100] Según un ejemplo, el codificador de metadatos está configurado para recibir al menos dos secuencias de ganancia de prevención guiada de recortes GS que comprenden diferentes ganancias de prevención guiada de recortes y para incluir las al menos dos secuencias de ganancia de prevención guiada de recortes GS que comprenden las diferentes ganancias de prevención guiada de recortes en la corriente de bits de metadatos MBS.

[0101] Según un ejemplo, cada secuencia de control del intervalo dinámico DS está relacionada con una de las secuencias de ganancia de prevención guiada de recortes GS, estando el codificador de metadatos 2 configurado para incluir las relaciones entre las secuencias de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS en la corriente de bits de metadatos MBS.

[0102] Según un ejemplo, el codificador de metadatos está configurado para recibir una secuencia de ganancia de prevención guiada de recortes GS que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con diferentes canales de audio AC y/o con diferentes objetos de audio AO, estando el codificador de metadatos 2 configurado para incluir la secuencia de prevención guiada de recortes GS que comprende las al menos dos ganancias de prevención guiada de recortes relacionadas con diferentes canales de audio AC y/o con diferentes objetos de audio AO y, opcionalmente, las relaciones de las ganancias de prevención guiada de recortes con los canales de audio AC y/o los objetos de audio AO en la corriente de bits de metadatos MBS.

[0103] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes canales de audio AC o grupos de canales de audio AC dentro de cada secuencia de prevención guiada de recortes GS, donde cada canal de audio AC está asociado usualmente exactamente con un grupo de canales. En modos típicos de funcionamiento se aplican a todos los canales de audio AC las mismas ganancias de prevención guiada de recortes.

[0104] Las definiciones de secuencias de ganancia de prevención guiada de recortes para objetos de audio Ao son análogas a las del caso del control del intervalo dinámico.

[0105] En otro aspecto, el ejemplo proporciona un procedimiento para operar un codificador de audio 1 para producir una corriente de bits de audio que comprende uno o varios canales de audio y/o uno o varios objetos de audio, comprendiendo el codificador de audio un codificador de metadatos 2 para producir una corriente de bits de metadatos MBS, comprendiendo el procedimiento las siguientes etapas:

recibir, de parte del codificador de metadatos 2, al menos una secuencia de ganancia de control del intervalo dinámico DS que comprende una o varias ganancias de control del intervalo dinámico para una etapa de control del intervalo dinámico 5 de un decodificador de audio 3;

recibir, de parte del codificador de metadatos 2, al menos una secuencia de ganancia de prevención guiada de recortes GS que comprende una o varias ganancias de prevención guiada de recortes para una etapa de prevención guiada de recortes 6 del decodificador de audio 3; e

incluir, de parte del codificador de metadatos 2, al menos una de dichas secuencias de ganancia de control del intervalo dinámico DS y al menos una de dichas secuencias de ganancia de prevención guiada de recortes GS en la corriente de bits de metadatos MBS.

[0106] En un aspecto adicional la invención proporciona un programa informático para realizar, cuando se ejecuta en un ordenador o en un procesador, el procedimiento anteriormente mencionado.

[0107] Las siguientes figuras del procesamiento del lado del decodificador están basadas en la propuesta de una estrategia de codificación de audio 3D como se presentó en [M30324].

[0108] La fig. 2 ilustra un ejemplo de un decodificador de audio 3 según la invención en una vista esquemática.

[0109] El decodificador de audio 3 para decodificar una corriente de bits de audio y una corriente de bits de metadatos MBS relacionada con la corriente de bits de audio, que son producidas en particular por un codificador de audio 1 según los ejemplos, comprendiendo el decodificador de audio 3:

una cadena de procesamiento de audio 4 configurada para recibir una señal de audio decodificada DAS derivada de la corriente de bits de audio y para ajustar las características de una señal de salida de audio AOS de la cadena de procesamiento de audio 4, comprendiendo la cadena de procesamiento de audio 4 una pluralidad de etapas de ajuste 5, 6, 10, 11, 12, 13, 14 (véanse también las figs. 3, 4, 5) que incluyen una etapa de control del intervalo dinámico 5 para ajustar un intervalo dinámico de la señal de salida de audio AOS y una etapa de prevención guiada de recortes 6 para prevenir recortes en la señal de salida de audio AOS; y

un decodificador de metadatos 7 configurado para recibir la corriente de bits de metadatos MBS y configurado para extraer las secuencias de ganancia de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS de la corriente de bits de metadatos MBS, proporcionándose al menos una parte de las secuencias de ganancia de control del intervalo dinámico DS en la etapa de control del intervalo dinámico 5, y proporcionándose al menos una parte de las secuencias de ganancia de prevención guiada de recortes GS en la etapa de prevención guiada de recortes 6.

[0110] El decodificador de metadatos 7 recibe la corriente de bits de metadatos MBS que contiene las secuencias de ganancia de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS, por ejemplo, de un decodificador de una codificación unificada de voz y audio.

[0111] El decodificador de metadatos 7 genera la secuencia de ganancia de control del intervalo dinámico sin comprimir deseada DS de la corriente de bits de metadatos MBS. Además, las ganancias de control del intervalo dinámico resultantes se pueden escalar o mapear.

[0112] El decodificador de metadatos 7 genera además las secuencias de ganancia de prevención guiada de recortes sin comprimir GS de la corriente de bits MBS que contiene metadatos comprimidos de prevención guiada de recortes. Las ganancias de prevención guiada de recortes se pueden escalar o mapear. Esto es especialmente útil si el nivel objetivo del decodificador de audio es más bajo que el nivel objetivo que se ha utilizado para determinar la secuencia de ganancias de prevención guiada de recortes GS en el codificador de audio 1. Por lo tanto, es posible mapear las ganancias de prevención guiada de recortes, lo cual restaura de manera óptima el valor máximo de la señal al mismo tiempo que asegura, aunque no se registren recortes en la señal de salida del decodificador de audio AOS.

[0113] La etapa de control del intervalo dinámico 5 recibe las secuencias de ganancia de control del intervalo dinámico sin comprimir y opcionalmente escaladas o mapeadas DS para cada trama de audio en forma directa o indirecta desde el decodificador de metadatos 7. El decodificador de metadatos 7 también puede asegurar que los valores finales de ganancia de control del intervalo dinámico en el dominio del tiempo se interpolen con una resolución temporal correspondiente a la resolución temporal de las muestras de audio. Estas ganancias finales de control del intervalo dinámico pueden aplicarse entonces a la señal de audio decodificada DAS, donde se observa la asignación de una cierta secuencia de control del intervalo dinámico a los canales y/u objetos.

[0114] La etapa de prevención guiada de recortes 6 recibe las secuencias de ganancia de prevención guiada de recortes GS sin comprimir y opcionalmente escaladas o mapeadas para cada trama de audio en forma directa o indirecta desde el decodificador de metadatos 7. El decodificador de metadatos 7 también puede asegurar que los valores finales de ganancia de prevención guiada de recortes en el dominio del tiempo se interpolen con una resolución temporal correspondiente a la resolución temporal de las muestras de audio. Estas ganancias finales de prevención guiada de recortes se pueden aplicar entonces a las señales de audio decodificadas o a las señales ISG (o IGS en la fig. 3, fig. 4 y fig. 5) derivadas de las señales de audio decodificadas DAS, donde se observa la asignación de una cierta secuencia de prevención guiada de recortes a los canales y/u objetos.

[0115] El ejemplo proporciona flexibilidad en el lado del decodificador de audio al mismo tiempo que deja el control de toda la cadena de procesamiento en el lado del codificador. La separación de los metadatos usados para el control del intervalo dinámico y la prevención guiada de recortes permite modificar por separado (escalar o mapear) cada una de las ganancias, dependiendo dicha modificación de la configuración del decodificador y del escenario de reproducción.

[0116] El ejemplo permite cambiar la característica subyacente de control del intervalo dinámico de una secuencia de ganancia de control del intervalo dinámico DS de compresión pesada a compresión ligera si las ganancias de control del intervalo dinámico se transmiten separadamente de las ganancias de prevención guiada de recortes. Esto puede lograrse escalando o mapeando de forma apropiada los valores de la secuencia de ganancia de control del intervalo dinámico DS.

[0117] En el caso en que el nivel objetivo del decodificador sea menor que el nivel objetivo usado para computar las ganancias para la prevención guiada de recortes en el codificador de audio 1, se puede permitir una atenuación reducida de los picos de la señal en el decodificador de audio 3 al escalar adecuadamente las ganancias de prevención guiada de recortes. Así, se puede mantener o al menos aumentar el nivel de picos fuertes de la señal en comparación con el caso en que se aplican las ganancias de prevención guiada de recortes sin modificar, lo cual significa que se puede preservar el margen disponible.

[0118] Según un ejemplo, el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS al menos dos secuencias de ganancia de control del intervalo dinámico DS para la misma trama de audio que comprenden diferentes ganancias de control del intervalo dinámico.

[0119] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0120] Por medio de estas características es posible proporcionar múltiples secuencias de ganancia de control del intervalo dinámico DS para los canales de una pista de audio con el fin de posibilitar señales de salida de audio AOS en el decodificador 1 que tienen diferentes características de compresión.

[0121] Según un ejemplo, el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes bandas de frecuencia del decodificador de audio 3.

[0122] En una extensión opcional que admite múltiples bandas de control del intervalo dinámico, el decodificador de metadatos 7 se puede extender para aceptar, además, como entrada, secuencias de ganancia de control del intervalo dinámico DS que tienen diferentes ganancias de control del intervalo dinámico para diferentes bandas de frecuencia.

[0123] En el caso de una extensión del control del intervalo dinámico de múltiples bandas, la señal de audio en el dominio del tiempo se tiene que transformar en la representación adecuada en el dominio de la frecuencia antes de aplicar las ganancias de control del intervalo dinámico de múltiples bandas.

[0124] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.

[0125] Según un ejemplo, el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS al menos dos secuencias de ganancia de prevención guiada de recortes GS que comprenden diferentes ganancias de prevención guiada de recortes.

[0126] Mediante estas características es posible proporcionar múltiples secuencias de ganancia de prevención guiada de recortes GS para una pista de audio con el fin de coincidir con las correspondientes secuencias de ganancia de control del intervalo dinámico DS.

[0127] En un aspecto adicional la invención proporciona un procedimiento para el funcionamiento de un decodificador de audio 3, en particular un decodificador de audio 3 según los ejemplos, para decodificar una corriente de bits de audio y una corriente de bits de metadatos MBS relacionada con la corriente de bits de audio, que se producen en particular mediante un codificador de audio según los ejemplos, el procedimiento comprende las etapas de:

derivación de una señal de audio decodificada DAS de la corriente de bits de audio;

uso de una cadena de procesamiento de audio para tener una pluralidad de etapas de ajuste 5, 6, 10, 11, 12, 13, 14 para ajustar las características de una señal de salida de audio AOS de la cadena de procesamiento de audio 4 que incluye ajustar el intervalo dinámico de la señal de salida de audio AOS mediante una etapa de control del intervalo dinámico 5, que es una etapa de ajuste 5 de la cadena de ajuste 4 y prevenir los recortes de la señal de salida de audio AOS mediante una etapa de prevención guiada de recortes 6, que es una etapa de ajuste 6 de la cadena de ajuste 4;

recepción, de parte del decodificador de metadatos 7, de la corriente de bits de metadatos MBS y extracción de las secuencias de ganancia de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS de la corriente de bits de metadatos MBS;

suministro de al menos una parte de las secuencias de ganancia de control del intervalo dinámico DS a la etapa de control del intervalo dinámico 5; y

suministro de al menos una parte de las secuencias de ganancia de prevención guiada de recortes GS a la etapa de prevención guiada de recortes 6.

[0128] En un aspecto adicional el ejemplo proporciona un programa informático para realizar, cuando se ejecuta en un ordenador o en un procesador, el procedimiento anteriormente mencionado.

[0129] La fig. 3 ilustra una primera realización de un decodificador de audio 3 según la invención en una vista esquemática.

[0130] Según una realización preferida de la invención el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes canales de audio.

[0131] Es posible definir dentro de cada secuencia de control del intervalo dinámico DS un conjunto de ganancias de control del intervalo dinámico diferentes para diferentes canales o grupos de canales, usualmente, cada canal está asociado exactamente con un grupo de canales. Por ejemplo, en el sonido de canales múltiples de las películas a menudo se desea aplicar una ganancia de control del intervalo dinámico específica al canal de los diálogos. Los canales restantes tales como delantero izquierdo, delantero derecho, posterior izquierdo, posterior derecho, por ejemplo, pueden procesarse utilizando una ganancia de control del intervalo dinámico diferente.

[0132] Según una realización preferida de la invención el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de prevención guiada de recortes GS que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con canales de audio diferentes.

[0133] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes canales o grupos de canales dentro de cada secuencia de prevención guiada de recortes, donde cada canal está asociado usualmente exactamente con un grupo de canales. En modos típicos de funcionamiento se aplican a todos los canales las mismas ganancias de prevención guiada de recortes.

[0134] Según la invención, el decodificador de audio 3 comprende además una etapa de control de metadatos y parámetros 8 configurada para proporcionar metadatos y parámetros DS, GS, CLA, DI, DTL, PRL, IS, OMD, ICT al menos a una de las etapas de ajuste 5, 6, 10, 11, l2, 13, 14 sobre la base de la información de configuración recibida de una etapa que proporcione configuración 9 (véanse también las figs. 4 y 5).

[0135] La etapa de control de metadatos y parámetros 8 en el decodificador de audio puede seleccionar la parte correcta de la corriente de bits de metadatos MBS según las secuencias de ganancia de control del intervalo dinámico deseadas DS al enviar una señal de selección de secuencia de ganancia GSS al decodificador de metadatos 7. La información de escalado y mapeo también puede formar parte o derivarse de la información de configuración del decodificador CI.

[0136] Por analogía, la etapa de control de metadatos y parámetros 8 en el decodificador de audio 3 selecciona la parte correcta de la corriente de bits MBS según las secuencias de ganancia de prevención guiada de recortes deseadas.

[0137] Según la invención, la etapa de control de metadatos y parámetros 8 está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de control del intervalo dinámico DS, cuál de la pluralidad de secuencias de ganancia de control del intervalo dinámico DS se suministra a la etapa de control del intervalo dinámico 5. La selección de las secuencias de control del intervalo dinámico DS por parte de la etapa de control de metadatos y parámetros 8 puede estar basada en la información de configuración del decodificador CI, tal como composición del canal CLA, instrucciones de conversión descendente DI, metadatos de objetos OMD (véase la fig. 4), instrucciones de control del intervalo dinámico, información sobre sonoridad PRL, y nivel objetivo del decodificador DTL, y pueden ejecutarse al enviar una señal de selección de secuencia de ganancia GSS al decodificador de metadatos 7.

[0138] Según la invención, la etapa de control de metadatos y parámetros 8 está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de prevención guiada de recortes GS, cuál de la pluralidad de secuencias de ganancia de prevención guiada de recortes GS se suministra a la etapa de prevención guiada de recortes 6.

[0139] La selección de la secuencia de ganancia de prevención guiada de recortes GS por parte del bloque de control de metadatos y parámetros 8 está basada generalmente en la información de configuración del decodificador de audio CI descrita anteriormente.

[0140] Según una realización preferida de la invención, la etapa de control del intervalo dinámico 5 en la dirección del flujo de la señal es la primera etapa de ajuste de la cadena de ajuste de audio 4.

[0141] El procesamiento del control del intervalo dinámico para los canales se puede realizar antes de la potencial conversión descendente o conversión del formato de los canales de audio decodificados AC con el fin de posibilitar ganancias diferentes para los grupos de canales. Por consiguiente, las ganancias de control del intervalo dinámico se aplican a los objetos AO antes de la renderización (véase la fig. 4). En el caso en que ambos, canales AC y objetos A^o, estén presentes, la ubicación del procesamiento de control del intervalo dinámico permanece igual: el control del intervalo dinámico relacionado con canales deberá realizarse directamente antes de la etapa de conversión del formato 10 (véase la fig. 4), mientras que el control del intervalo dinámico relacionado con objetos se realiza antes del renderizador de objetos 13 (véase la fig. 4).

[0142] Según una realización preferida de la invención, la cadena de ajuste de audio 4 comprende una etapa de conversión del formato 10 configurada para ajustar la configuración del canal de la señal de salida de audio AOS. La etapa de conversión del formato 10, también denominada de conversión descendente (DMX), está configurada para adaptar la configuración del canal de la señal de audio de salida AOS a los transductores usados para la reproducción. Por ejemplo, la etapa de conversión del formato puede convertir una señal de sonido envolvente 5.1 en una señal estéreo.

[0143] Según la invención, la cadena de ajuste de audio 4 comprende una etapa de normalización sonora 11 configurada para normalizar la sonoridad de la señal de audio de salida AOS.

[0144] La etapa de normalización sonora 11 puede escalar su señal de audio de entrada OCF de tal forma que la señal de salida IGS tenga el nivel de sonoridad objetivo correcto. El factor de escala se deriva de la diferencia entre el nivel de referencia del programa PRL y el nivel objetivo del decodificador DTL y es proporcionado por los metadatos del decodificador y la etapa de control de parámetros 8 a la etapa de normalización de sonoridad 11. El nivel de referencia del programa PRL se puede obtener de la información de sonoridad que se incluye, por ejemplo, en el encabezado del archivo, mientras que el nivel objetivo del decodificador es un parámetro de configuración del decodificador. Es posible que se proporcionen múltiples valores de niveles de referencia del programa PRL dentro de la información de sonoridad, donde cada uno corresponde a una configuración específica de una secuencia de control del intervalo dinámico DS aplicada y/o a una conversión descendente aplicada. En este caso, la etapa de control de metadatos y parámetros 8 selecciona el valor del nivel de referencia del programa PRL correcto mientras considera la configuración del decodificador de audio dada. La ubicación de la etapa de procesamiento de sonoridad depende de la configuración real de salida del decodificador de audio 3. En general, la normalización de sonoridad deberá realizarse en los canales de salida del decodificador de audio 3, por ejemplo, después del mezclado, o después de la etapa de conversión del formato 10, si corresponde.

[0145] Según una realización preferida de la invención, la cadena de ajuste de audio 4 comprende una etapa de limitación de picos 12 configurada para limitar los picos de la señal de audio de salida AOS en el caso de que se exceda ese umbral.

[0146] Según una realización preferida de la invención la etapa de limitación de picos 12 en la dirección del flujo de la señal es la última etapa de ajuste de la cadena de ajuste de audio 4.

[0147] Existe una cantidad de fuentes potenciales de distorsión de muestra inevitables en la cadena de procesamiento de audio 4 de un decodificador de audio típico, que incluye:

• Herramientas de codificación paramétrica.

• Procesamiento binaural.

• Conversión descendente, conversión de formato, renderización.

• Normalización sonora (especialmente para niveles objetivo altos).

• Cuantización a la salida del decodificador.

[0148] La etapa de limitación de picos se ubica por lo tanto al final de la cadena de procesamiento 4 del decodificador de audio 3 para evitar cualquier recorte no deseado de las muestras de audio, por ejemplo, justo antes de que la señal de salida en el dominio del tiempo se convierta del punto flotante al punto fijo de la modulación por codificación de pulsos (formato PCM). Esto también significa que cualquier etapa de control del intervalo dinámico 5 y etapa de normalización sonora 11 descrita en la sección anterior se ubica antes de la etapa de limitación de picos 12. En el contexto de las normas de audio MPEG (Grupo de expertos en imágenes en movimiento, por sus siglas en inglés)-H 3D [M30324], la etapa de limitación de picos recibe diferentes señales IPL como entrada, según la configuración real de reproducción. En el caso de la renderización binaural, los dos canales de salida para auriculares se pueden procesar mediante la etapa de limitación de picos 12. Si los canales de salida del mezclador se reproducen directamente, la etapa de limitación de picos 12 puede procesar los canales correspondientes del altavoz. Lo mismo aplica si los canales de salida del mezclador se convierten a una configuración de altavoz diferente (por ejemplo, conversión descendente) mediante el convertidor de formato 10 en primer lugar.

[0149] La etapa de limitación de picos 12 puede detectar muestras de audio en la señal en el dominio del tiempo que exceden el límite del umbral, y aplica una reducción del nivel a las porciones respectivas de la señal de modo que las muestras de la señal de audio de salida AOS siempre permanezcan debajo del límite del umbral. Para evitar distorsiones audibles, la reducción del nivel deberá realizarse gradualmente, es decir que el factor de ganancia aplicado a la señal puede cambiar solo lentamente a lo largo del tiempo, lo que se asegura mediante un filtro de alisado de ganancia. También se utiliza un retardo anticipado de la señal de entrada de la etapa de limitación de picos antes de aplicar el factor de ganancia del limitador para permitir una reducción suave de la ganancia que comienza antes de los picos agudos de la señal. El retardo se puede ajustar a un requisito dado, en la práctica se selecciona de 5 ms. En el caso de audio de canales múltiples se puede aplicar un factor de ganancia en común a todos los canales de audio para reducir la complejidad computacional.

[0150] La información acerca del pico máximo IS de la señal de audio DAS, que puede estar incluida en la información de sonoridad de un encabezado de archivo, se puede aprovechar para descartar la etapa de limitación de picos 12 si la configuración del decodificador implica que no puede ocurrir ningún recorte en la cadena de procesamiento de audio. La etapa de limitación de picos 12 también puede descartarse, por ejemplo, si el decodificador de audio 3 emite muestras de audio con precisión de punto fijo y la prevención de recortes se realiza en un punto posterior en la cadena de audio del dispositivo de reproducción. Naturalmente, si la configuración del decodificador para un escenario dado de reproducción permite aplicar ganancias correctas de prevención guiada de recortes, la etapa de limitación de picos también se puede deshabilitar si no se produce un recorte adicional de códec.

[0151] Se puede considerar que el limitador de picos 12 es un componente esencial en la práctica. Existen numerosas fuentes de recorte dentro de la cadena de procesamiento de audio del decodificador de audio 3. Se pueden abarcar configuraciones especiales al proporcionar secuencias de ganancia de prevención guiada de recortes. No obstante, para una operación flexible del decodificador, se puede proporcionar el limitador de picos para asegurar que no se produzca ningún recorte.

[0152] Como se muestra en la fig. 3, el procesamiento de prevención guiada de recortes puede realizarse después de la conversión del formato y la normalización de sonoridad de los canales de audio. Si no se aplica conversión del formato, las ganancias de prevención guiada de recortes se pueden aplicar directamente a la salida ISG de la etapa de control del intervalo dinámico 5.

[0153] La fig. 4 ilustra una segunda realización de un decodificador de audio según la invención en una vista esquemática. La fig. 4 ilustra una configuración de procesamiento de control del intervalo dinámico para objetos de audio AO. El procesamiento de control del intervalo dinámico se realiza sobre las señales de objetos de audio antes de la renderización. La normalización de sonoridad y la prevención de recortes se realizan después de la renderización de objetos a los canales.

[0154] Según una realización preferida de la invención, la cadena de ajuste de audio 4 comprende una etapa de renderización de objetos 13 configurada para mezclar objetos de audio AO en los canales de la señal de salida de audio AOS.

[0155] Según una realización preferida de la invención el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes objetos de audio AO.

[0156] De forma análoga al caso de los canales, se pueden admitir múltiples secuencias de control del intervalo dinámico DS que están asociadas con objetos de audio o grupos de objetos. También se puede considerar que estas secuencias de control del intervalo dinámico asociadas con objetos están asociadas con un grupo de canales específico dentro de un conjunto relacionado con canales de las ganancias de control del intervalo dinámico. El término objetos de audio AO se refiere en esta invención a fuentes únicas de sonido tales como el timbre de una puerta.

[0157] Según una realización preferida de la invención, el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de prevención guiada de recortes GS que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con objetos de audio diferentes.

[0158] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes objetos de audio o grupos de objetos de audio dentro de cada secuencia de prevención guiada de recortes, donde cada canal usualmente está asociado exactamente con un objeto de audio. En modos de funcionamiento típicos se aplican a todos los objetos de audio las mismas ganancias de prevención guiada de recortes.

[0159] Las definiciones de secuencias de ganancia de prevención guiada de recortes para objetos son análogas a las del caso del control del intervalo dinámico.

[0160] La fig. 5 ilustra una tercera realización de un decodificador de audio según la invención en una vista esquemática.

[0161] En la fig. 5 se muestra otra realización del concepto, donde se incluye un bloque adicional de adaptación del transductor 14 antes del limitador de picos 12. La etapa de conversión del formato 10 se refiere a la etapa de procesamiento de conversión descendente o a una conversión del formato entre diferentes configuraciones de canales de entrada/salida. Por analogía, el bloque de adaptación del transductor se puede incluir en una cadena de procesamiento relacionada con objetos según la fig. 4.

[0162] Según una realización preferida de la invención la cadena de ajuste de audio 4 comprende una etapa de adaptación del transductor 14 configurada para ajustar las características de la señal de salida de audio AOS al sistema de transducción usado para reproducir la señal de salida de audio.

[0163] Con el fin de reducir la fuerza limitante requerida de la etapa de limitación de picos 12, se puede incluir en la cadena de procesamiento 4 un procedimiento de adaptación del transductor dependiente de la frecuencia, por ejemplo, implementado mediante un filtro de ecualización.

[0164] La etapa de adaptación del transductor 14 recibe una señal de entrada de audio ITA e información ICT acerca de las características del transductor utilizado para la reproducción (altavoz o auriculares).

[0165] La función de la etapa de adaptación del transductor 14 es adaptar la señal de salida de audio AOS a las características del transductor, especialmente cuando los transductores tienen un intervalo de frecuencia limitado y por lo tanto limitarán el intervalo de frecuencia de la señal de salida de audio. Al limitar el intervalo de la frecuencia mediante el uso de filtros adecuados que imitan la función de transferencia del transductor antes de la etapa de limitación de picos 12, la señal de entrada IPL de la etapa de limitación de picos tiene un nivel reducido. En consecuencia, los picos de la señal que exceden los umbrales límite tienen un nivel reducido. Por lo tanto, el efecto de la etapa de limitación de picos 12 es menos severo. Esto resulta ventajoso dado que

[0166] Además del filtrado, la etapa de adaptación del transductor 14 también puede incluir procesamiento adaptable a la señal de tal manera que se compensa la limitación de banda del transductor. Los transductores especialmente muy pequeños no son capaces de reproducir señales de baja frecuencia.

[0167] Esto se puede compensar al aumentar la respuesta del transductor a la percepción de los bajos, por ejemplo, generando artificialmente y agregando armónicos de las notas de baja frecuencia a la señal.

[0168] Con respecto al decodificador, al codificador, y a los procedimientos de las realizaciones descritas, se deberá mencionar lo siguiente:

[0169] Aunque algunos aspectos se han descrito en el contexto de un aparato, es claro que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa del procedimiento o a una característica de una etapa del procedimiento. De forma análoga, los aspectos descritos en el contexto de una etapa del procedimiento también representan una descripción de un bloque o elemento o característica de un aparato correspondiente.

[0170] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede realizar utilizando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tienen almacenadas señales de control legibles electrónicamente, que colaboran (o son capaces de colaborar) con un sistema informático programable de tal forma que se lleve a cabo el procedimiento respectivo.

[0171] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable de tal forma que se lleva a cabo uno de los procedimientos descritos en esta invención.

[0172] Generalmente, las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. El código del programa puede almacenarse, por ejemplo, en un soporte legible por una máquina.

[0173] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, el cual se almacena en un soporte legible por una máquina o en un medio de almacenamiento no transitorio.

[0174] En otras palabras, una realización del procedimiento de la invención, es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador.

[0175] Una realización adicional de los procedimientos de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que contiene, grabado en él, el programa informático para realizar uno de los procedimientos descritos en esta invención.

[0176] Una realización adicional del procedimiento de la invención es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para realizar uno de los procedimientos descritos en esta invención. La corriente de datos o la secuencia de señales se pueden configurar para, por ejemplo, transferirse mediante una conexión de comunicación de datos, por ejemplo, a través de Internet.

[0177] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado o adaptado para realizar uno de los procedimientos descritos en esta invención.

[0178] Una realización adicional comprende un ordenador que tiene instalado en él el programa informático para realizar uno de los procedimientos descritos en esta invención.

[0179] En algunas realizaciones, se puede utilizar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables por campo) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programables por campo puede colaborar con un microprocesador con el fin de realizar uno de los procedimientos descritos en esta invención. Generalmente, los procedimientos se realizan de forma ventajosa mediante cualquier aparato de hardware.

[0180] Aunque esta invención se ha descrito en términos de diversas realizaciones, existen modificaciones, permutaciones y equivalentes que están comprendidas dentro del alcance de la invención como se define por las reivindicaciones adjuntas. También cabe destacar que existen numerosas formas alternativas de implementar los procedimientos y composiciones de la presente invención.

Signos de referencia:

[0181]

1 codificador de audio

2 codificador de metadatos

3 decodificador de audio

4 cadena de procesamiento de audio

5 etapa de control del intervalo dinámico

6 etapa de prevención guiada de recortes

7 decodificador de metadatos

8 etapa de control de metadatos y parámetros

9 etapa que proporciona configuración

10 etapa de conversión del formato

11 etapa de normalización de sonoridad

12 etapa de limitación de picos

13 etapa de renderizador de objetos

14 etapa de adaptación de transductor

MBS corriente de bits de metadatos

DS secuencia de ganancia de control del intervalo dinámico

GS secuencia de ganancia de prevención guiada de recortes

DAS señal de audio decodificada

AOS señal de salida de audio

ISG señal derivada de la señal de audio decodificada

CI información de configuración

AC canal de audio

AO objeto de audio

IPL señal de entrada de la etapa de limitación de picos

ITA señal de entrada de la etapa de adaptación del transductor

ICT información acerca de las características del transductor

IGS señal de salida de la etapa de normalización de sonoridad

OCF salida de la etapa de conversión del formato o de la etapa de renderizador de objetos

GSS señal de selección de secuencia de ganancia

CLA formato del canal

DI instrucciones de conversión descendente

PRL nivel de referencia del programa

IS valor de pico máximo para la etapa de limitación de picos

DTL nivel objetivo del decodificador

OMD objetos de metadatos

Referencias:

[0182]

[M30100] ISO/IEC JTC1/SC29/WG11 M30100, "Proposed Revision of Audio aspects of WD: Addition of Sample aspect ratio and further audio code-points", julio de 2013, Viena

[M30101] ISO/IEC JTC1/SC29/WG11 M30101, "Editors draft of 14496-12 PDAM 3 - Enhanced audio and other improvements", julio de 2013, Viena

[M30324] ISO/ⁱE^cJTC1/SC29/WG11 M30324, "Description of the Fraunhofer IIS Submission for the 3D-Audio CfP", julio de 2013, Viena

[M28901] ISO/IEC JTC1/SC29/WG11 M28901, "Enhanced Metadata for Dynamic Range Compression", abril de 2013, Incheon, Corea

Claims

REIVINDICACIONES

1. Decodificador de audio para la decodificación de una corriente de bits de audio y una corriente de bits de metadatos (MBS) relacionada con la corriente de bits de audio, comprendiendo el decodificador de audio:

una cadena de procesamiento de audio (4) configurada para recibir una señal de audio decodificada (DAS) derivada de la corriente de bits de audio y para ajustar las características de una señal de salida de audio (AOS) de la cadena de procesamiento de audio (4), comprendiendo la cadena de procesamiento de audio (4) una pluralidad de etapas de ajuste (5, 6, 10, 11, 12, 13, 14) que incluyen una etapa de control del intervalo dinámico (5) para ajustar un intervalo dinámico de la señal de salida de audio (AOS), una etapa de normalización de sonoridad (11) configurada para normalizar una sonoridad de la señal de salida de audio (AOS) y una etapa de prevención guiada de recortes (6) para prevenir recortes en la señal de salida de audio (AOS); y

un decodificador de metadatos (7) configurado para recibir la corriente de bits de metadatos (MBS) y para extraer las secuencias de ganancia de control del intervalo dinámico (DS) y las secuencias de ganancia de prevención guiada de recortes (GS) de la corriente de bits de metadatos (MBS), proporcionándose al menos una parte de las secuencias de ganancia de control del intervalo dinámico (DS) en la etapa de control del intervalo dinámico (5), y proporcionándose al menos una parte de las secuencias de ganancia de prevención guiada de recortes (GS) en la etapa de prevención guiada de recortes (6); y

una etapa de control de metadatos y parámetros (8) configurada para proporcionar metadatos y parámetros (DS, GS, CLA, DI, DTL, PRL, IS, OMD, ICT) al menos a una de las etapas de ajuste (5, 6, 10, 11, 12, 13, 14) sobre la base de la información de configuración (CI) recibida de una etapa que proporciona la configuración (9); donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de control del intervalo dinámico (DS) que se van a suministrar a la etapa de control del intervalo dinámico (5);

donde la etapa de control del intervalo dinámico (5) está configurada para recibir las secuencias de ganancia de control del intervalo dinámico (DS) para cada trama de audio de la etapa de control de metadatos y parámetros (8) en una forma no comprimida, donde los valores de ganancia de control del intervalo dinámico en el dominio de tiempo final se interpolan con una resolución temporal correspondiente a una resolución temporal de las muestras de audio, donde las ganancias de control del intervalo dinámico final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de control del intervalo dinámico final a canales y/u objetos;

donde la etapa de normalización de la sonoridad (11) está configurada para escalar su señal de entrada de audio (OCF) de tal manera que la señal de salida de audio (AOS) tenga un nivel de sonoridad objetivo, donde un factor de escala se deriva de una diferencia entre un nivel de referencia de programa (PRL) y un nivel objetivo de decodificador (DTL) y proporcionado por la etapa de control de metadatos y parámetros (8) a la etapa de normalización de sonoridad (11), donde el nivel de referencia del programa (PRL) se obtiene a partir de una información de sonoridad, mientras que el nivel objetivo de decodificador (DTL) es un parámetro de configuración del decodificador; y

donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de prevención de recorte guiada (GS) que se van a suministrar a la etapa de prevención de recortes guiada (6);

donde la etapa de prevención de recortes guiada (6) está configurada para recibir las secuencias de ganancia de prevención de recorte guiada (GS) para cada trama de audio desde la etapa de control de parámetros y metadatos (8) en una forma no comprimida, donde los valores de ganancia de prevención de recorte guiada en el dominio del tiempo final se interpolan con una resolución temporal correspondiente a la resolución temporal de las muestras de audio, donde las ganancias de prevención de recorte guiada final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de prevención de recorte guiada final a canales y/u objetos.

2. Decodificador de audio según la reivindicación 1, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) al menos dos secuencias de ganancia de control del intervalo dinámico (DS) para la misma trama de audio que comprende diferentes ganancias de control del intervalo dinámico.

3. Decodificador de audio según la reivindicación 1 o 2, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) una secuencia de ganancia de control del intervalo dinámico (DS) que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con canales de audio diferentes y/o con objetos de audio diferentes.

4. Decodificador de audio según una de las reivindicaciones 1 a 3, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) una secuencia de ganancia de control del intervalo dinámico (DS) que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes bandas de frecuencia del decodificador de audio (3).

5. Decodificador de audio según una de las reivindicaciones 1 a 4, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) al menos dos secuencias de ganancia de prevención guiada de recortes (GS) que comprenden diferentes ganancias de prevención guiada de recortes.

6. Decodificador de audio según una de las reivindicaciones 1 a 5, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) una secuencia de ganancia de prevención guiada de recortes (GS) que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con canales de audio diferentes y/o con objetos de audio diferentes.

7. Decodificador de audio según una de las reivindicaciones 1 a 6, donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de control del intervalo dinámico (DS), cuál de la pluralidad de secuencias de ganancia de control del intervalo dinámico (DS) se suministra a la etapa de control del intervalo dinámico (5).

8. Decodificador de audio según una de las reivindicaciones 1 a 6, donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de prevención de recortes guiadas (GS), cuál de la pluralidad de secuencias de ganancia de prevención de recortes guiadas (GS) se suministran a la etapa de prevención de recortes guiada (6).

9. Decodificador de audio según una de las reivindicaciones 1 a 8, donde la etapa de control del intervalo dinámico (5) en la dirección del flujo de señal es la primera etapa de ajuste de la cadena de ajuste de audio (8).

10. Decodificador de audio según una de las reivindicaciones 1 a 9, donde la cadena de ajuste de audio (4) comprende una etapa de convertidor de formato (10) configurada para ajustar una configuración de canal de la señal de salida de audio (AOS).

11. Decodificador de audio según una de las reivindicaciones 1 a 10, donde la cadena de ajuste de audio (4) comprende una etapa de limitación de picos (12) configurada para limitar los picos de la salida de audio (AOS) en el caso de que se exceda un umbral en la dirección del flujo de la señal es la última etapa de ajuste de la cadena de ajuste de audio (4).

12. Decodificador de audio según una de las reivindicaciones 1 a 11, donde la cadena de ajuste de audio (4) comprende una etapa de renderizador de objetos (13) configurada para mezclar objetos de audio en canales de la señal de salida de audio (AOS).

13. Decodificador de audio según una de las reivindicaciones 1 a 12, donde la cadena de ajuste de audio (4) comprende una etapa de adaptación de transductor (14) configurada para ajustar las características de la señal de salida de audio (AOS) a un sistema de transductor utilizado para reproducir la señal de salida de audio (AOS).

14. Decodificador de audio según una de las reivindicaciones 1 a 13, donde la etapa de limitación de picos (12) en la dirección del flujo de la señal es la última etapa de ajuste de la cadena de ajuste de audio (4).

15. Procedimiento para el funcionamiento de un decodificador de audio (3) para la decodificación de una corriente de bits de audio y una corriente de bits de metadatos (MBS) relacionado con la corriente de bits de audio, comprendiendo el procedimiento las etapas de:

derivación de una señal de audio decodificada (DAS) de la corriente de bits de audio;

uso de una cadena de procesamiento de audio (4) que tiene una pluralidad de etapas de ajuste para ajustar las características de una señal de salida de audio (AOS) de la cadena de procesamiento de audio (4) que incluye el ajuste del intervalo dinámico de la señal de salida de audio (AOS) mediante una etapa de control del intervalo dinámico (5), que es una etapa de ajuste (5, 6, 10, 11, 12, 13, 14) de la cadena de ajuste (4); la normalización de una sonoridad de la señal de salida de audio (AOS) mediante una etapa de normalización de sonoridad (11) y la prevención de los recortes de la señal de audio de salida (AOS) mediante una etapa de prevención guiada de recortes (6), que es una etapa de ajuste (5, 6, 10, 11, 12, 13, 14) de la cadena de ajuste (4);

recepción, de parte del decodificador de metadatos (7), de la corriente de bits de metadatos (MBS) y extracción de las secuencias de ganancia de control del intervalo dinámico (DS) y las secuencias de ganancia de prevención guiada de recortes (GS) de la corriente de bits de metadatos (MBS);

suministro de al menos una parte de las secuencias de ganancia de control del intervalo dinámico (DS) a la etapa de control del intervalo dinámico (5);

suministro de al menos una parte de las secuencias de ganancia de prevención guiada de recortes (GS) a la etapa de prevención guiada de recortes (6) usando una etapa de control de metadatos y parámetros (8) para el suministro de metadatos y parámetros (DS, GS, CLA, DI, DTL, PRL, IS, OMD, ICT) al menos a una de las etapas de ajuste (5, 6, 10, 11, 12, 13, 14) sobre la base de la información de configuración (CI) recibida de una etapa que proporciona configuración (9);

uso de la etapa de control de metadatos y parámetros (8) para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de control del intervalo dinámico (DS) que se va a suministrar a la etapa de control del intervalo dinámico (5);

uso de la etapa de control del intervalo dinámico (5) para recibir las secuencias de ganancia de control del intervalo dinámico (DS) para cada trama de audio directa o indirectamente desde la etapa de control de parámetros y metadatos (8) en una forma no comprimida, donde los valores de ganancia de control del intervalo dinámico de dominio de tiempo final se interpolan con una resolución temporal correspondiente a una resolución temporal de las muestras de audio, donde las ganancias de control del intervalo dinámico final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de control del intervalo dinámico final a canales y/u objetos;

uso de la etapa de normalización de sonoridad (11) para escalar su señal de entrada de audio (OCF) de tal manera que la señal de salida de audio (AOS) tenga un nivel de sonoridad objetivo, donde un factor de escala se deriva de una diferencia entre un nivel de referencia de programa (PRL) y un nivel objetivo de decodificador (DTL) y proporcionado por la etapa de control de parámetros y metadatos (8) a la etapa de normalización de sonoridad (11), donde el nivel de referencia del programa (PRL) se obtiene de una información de sonoridad, mientras que el nivel objetivo de decodificador (DTL) es un parámetro de configuración del decodificador; uso de la etapa de control de metadatos y parámetros (8) para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de prevención de recortes guiadas (GS) que se van a proporcionar a la etapa de prevención de recorte guiada (6); y

uso de la etapa de prevención de recorte guiada (6) para recibir las secuencias de ganancia de prevención de recorte guiada (GS) para cada trama de audio desde la etapa de control de parámetros y metadatos (8) en una forma no comprimida, donde los valores de ganancia de prevención de recorte guiada final en el dominio del tiempo son interpolados con una resolución temporal correspondiente a la resolución temporal de las muestras de audio, donde las ganancias de prevención de recorte guiada final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de prevención de recorte guiada final a canales y/u objetos.

16. Programa informático configurado para realizar, cuando se ejecuta en un ordenador o en un procesador, el procedimiento de la reivindicación anterior.