ES2900065T3 - Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio - Google Patents
Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio Download PDFInfo
- Publication number
- ES2900065T3 ES2900065T3 ES19160596T ES19160596T ES2900065T3 ES 2900065 T3 ES2900065 T3 ES 2900065T3 ES 19160596 T ES19160596 T ES 19160596T ES 19160596 T ES19160596 T ES 19160596T ES 2900065 T3 ES2900065 T3 ES 2900065T3
- Authority
- ES
- Spain
- Prior art keywords
- audio
- dynamic range
- stage
- metadata
- range control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002265 prevention Effects 0.000 title claims abstract description 196
- 230000006835 compression Effects 0.000 title description 20
- 238000007906 compression Methods 0.000 title description 20
- 239000008186 active pharmaceutical agent Substances 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 50
- 230000005236 sound signal Effects 0.000 claims abstract description 32
- 238000010606 normalization Methods 0.000 claims abstract description 26
- 230000002123 temporal effect Effects 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 38
- 230000006978 adaptation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 description 26
- 230000008859 change Effects 0.000 description 9
- 230000009467 reduction Effects 0.000 description 9
- 238000009877 rendering Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000026683 transduction Effects 0.000 description 2
- 238000010361 transduction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- PEIBAWRLFPGPAT-UHFFFAOYSA-N 1-(diazomethyl)pyrene Chemical compound C1=C2C(C=[N+]=[N-])=CC=C(C=C3)C2=C2C3=CC=CC2=C1 PEIBAWRLFPGPAT-UHFFFAOYSA-N 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G11/00—Limiting amplitude; Limiting rate of change of amplitude ; Clipping in general
- H03G11/008—Limiting amplitude; Limiting rate of change of amplitude ; Clipping in general of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Decodificador de audio para la decodificación de una corriente de bits de audio y una corriente de bits de metadatos (MBS) relacionada con la corriente de bits de audio, comprendiendo el decodificador de audio: una cadena de procesamiento de audio (4) configurada para recibir una señal de audio decodificada (DAS) derivada de la corriente de bits de audio y para ajustar las características de una señal de salida de audio (AOS) de la cadena de procesamiento de audio (4), comprendiendo la cadena de procesamiento de audio (4) una pluralidad de etapas de ajuste (5, 6, 10, 11, 12, 13, 14) que incluyen una etapa de control del intervalo dinámico (5) para ajustar un intervalo dinámico de la señal de salida de audio (AOS), una etapa de normalización de sonoridad (11) configurada para normalizar una sonoridad de la señal de salida de audio (AOS) y una etapa de prevención guiada de recortes (6) para prevenir recortes en la señal de salida de audio (AOS); y un decodificador de metadatos (7) configurado para recibir la corriente de bits de metadatos (MBS) y para extraer las secuencias de ganancia de control del intervalo dinámico (DS) y las secuencias de ganancia de prevención guiada de recortes (GS) de la corriente de bits de metadatos (MBS), proporcionándose al menos una parte de las secuencias de ganancia de control del intervalo dinámico (DS) en la etapa de control del intervalo dinámico (5), y proporcionándose al menos una parte de las secuencias de ganancia de prevención guiada de recortes (GS) en la etapa de prevención guiada de recortes (6); y una etapa de control de metadatos y parámetros (8) configurada para proporcionar metadatos y parámetros (DS, GS, CLA, DI, DTL, PRL, IS, OMD, ICT) al menos a una de las etapas de ajuste (5, 6, 10, 11, 12, 13, 14) sobre la base de la información de configuración (CI) recibida de una etapa que proporciona la configuración (9); donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de control del intervalo dinámico (DS) que se van a suministrar a la etapa de control del intervalo dinámico (5); donde la etapa de control del intervalo dinámico (5) está configurada para recibir las secuencias de ganancia de control del intervalo dinámico (DS) para cada trama de audio de la etapa de control de metadatos y parámetros (8) en una forma no comprimida, donde los valores de ganancia de control del intervalo dinámico en el dominio de tiempo final se interpolan con una resolución temporal correspondiente a una resolución temporal de las muestras de audio, donde las ganancias de control del intervalo dinámico final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de control del intervalo dinámico final a canales y/u objetos; donde la etapa de normalización de la sonoridad (11) está configurada para escalar su señal de entrada de audio (OCF) de tal manera que la señal de salida de audio (AOS) tenga un nivel de sonoridad objetivo, donde un factor de escala se deriva de una diferencia entre un nivel de referencia de programa (PRL) y un nivel objetivo de decodificador (DTL) y proporcionado por la etapa de control de metadatos y parámetros (8) a la etapa de normalización de sonoridad (11), donde el nivel de referencia del programa (PRL) se obtiene a partir de una información de sonoridad, mientras que el nivel objetivo de decodificador (DTL) es un parámetro de configuración del decodificador; y donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de prevención de recorte guiada (GS) que se van a suministrar a la etapa de prevención de recortes guiada (6); donde la etapa de prevención de recortes guiada (6) está configurada para recibir las secuencias de ganancia de prevención de recorte guiada (GS) para cada trama de audio desde la etapa de control de parámetros y metadatos (8) en una forma no comprimida, donde los valores de ganancia de prevención de recorte guiada en el dominio del tiempo final se interpolan con una resolución temporal correspondiente a la resolución temporal de las muestras de audio, donde las ganancias de prevención de recorte guiada final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de prevención de recorte guiada final a canales y/u objetos.
Description
DESCRIPCIÓN
Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio
[0001] La presente invención se refiere a un concepto para la compresión combinada del intervalo dinámico y la prevención guiada de recortes para dispositivos de audio. En particular, la presente invención se refiere a un decodificador de audio, a un procedimiento para el funcionamiento de un decodificador de audio y a un programa informático para ejecutar el procedimiento para el funcionamiento de un decodificador de audio.
[0002] El concepto inventivo está basado en la combinación de varios bloques de procesamiento, que en conjunto proporcionan las funcionalidades requeridas de una solución conjunta para la compresión del intervalo dinámico (DRC, por sus siglas en inglés) y para la prevención guiada de recortes (gCP, por sus siglas en inglés). En el documento US 2009/0063159 A1 se describe una estrategia de la técnica anterior para tratar el control del intervalo dinámico y el recorte en la codificación/decodificación de audio.
[0003] El concepto inventivo es particularmente adecuado para los sistemas de audio donde ya se encuentra disponible información de configuración relacionada tal como se ha definido, por ejemplo, en [M30100, M30101] en el codificador y en el decodificador. Esta información puede incluirse, por ejemplo, en el encabezado para la transmisión basada en archivos o en la extensión de configuración de la codificación unificada de voz y audio (USAC, por sus siglas en inglés). La información de configuración puede incluir disposición de canales, instrucciones para conversión descendente (por ejemplo, coeficientes para conversión descendente), instrucciones para control del intervalo dinámico (por ejemplo, características aplicadas de control del intervalo dinámico, cantidad de secuencias de ganancia de control del intervalo dinámico para una pista), e información sobre sonoridad (por ejemplo, sonoridad del programa, sonoridad de anclaje, valor del pico real). Se pueden encontrar más detalles en [M30100, M30101]. Lo mismo se aplica a las instrucciones correspondientes para la prevención guiada de recortes, que pueden manejarse de la misma forma que la información de la caja de instrucciones de control del intervalo dinámico.
[0004] El codificador de audio es capaz de producir una corriente de bits de metadatos que comprende secuencias de ganancia de control del intervalo dinámico para una etapa de control del intervalo dinámico de un decodificador de audio así como secuencias de ganancia de prevención guiada de recortes para una etapa de prevención guiada de recortes del decodificador de audio, donde las secuencias de ganancia de control del intervalo dinámico pueden transmitirse separadamente desde las secuencias de ganancia de prevención guiada de recortes.
[0005] El codificador de metadatos utiliza, como entrada, secuencias de ganancia de control del intervalo dinámico que se proporcionan desde el exterior, por ejemplo, por una herramienta externa operada por un proveedor de contenidos.
[0006] La resolución temporal posible de las ganancias de control del intervalo dinámico puede estar comprendida dentro del intervalo de unas pocas muestras. Los valores de ganancia de control del intervalo dinámico usualmente pueden representarse con una resolución suficiente de hasta 0,125 dB.
[0007] Además, el codificador de metadatos toma como entrada secuencias de ganancia de prevención guiada de recortes.
[0008] Las secuencias de ganancia de control del intervalo dinámico comprimidas y las secuencias de ganancia de prevención guiada de recortes pueden trasmitirse al receptor como información lateral incluida en la extensión de datos de utilidad de la codificación unificada de voz y audio.
[0009] Cabe destacar que las secuencias de ganancia de control del intervalo dinámico deberán incluir únicamente ganancias de control del intervalo dinámico para realizar la compresión del intervalo dinámico, mientras que las ganancias de prevención guiada de recortes para evitar recortes se adaptan mediante las secuencias de ganancias de prevención guiada de recortes.
[0010] La resolución temporal de las ganancias de prevención guiada de recortes puede ser la misma que para las ganancias de control del intervalo dinámico.
[0011] Se pueden registrar recortes de la señal del lado del decodificador debido, por ejemplo, a la normalización sonora, a la conversión descendente, a las herramientas de codificación paramétrica, etc.
[0012] La prevención de recortes puede lograrse, según la técnica conocida, colocando un limitador de picos en el extremo final de la cadena de procesamiento del decodificador. El limitador de picos detecta muestras de audio en la señal de entrada que exceden un valor máximo definido, y aplica una reducción de nivel a las porciones respectivas de la señal de modo que las muestras de la señal de salida siempre están por debajo del valor máximo
definido. Para evitar distorsiones audibles, la reducción del nivel tiene que realizarse gradualmente, es decir que el factor de ganancia aplicado a la señal puede cambiar solo lentamente a lo largo del tiempo, lo que se asegura mediante un filtro de alisado de ganancia. También se utiliza un retardo anticipado de la señal de entrada antes de aplicar el factor de ganancia para permitir una reducción suave de la ganancia que comienza antes de un pico súbito en la señal. Debido a que un limitador de picos del lado del decodificador normalmente no se controla del lado del codificador (un creador de contenidos no tiene influencia sobre el procedimiento de limitación de picos), se produce una secuencia de ganancia de prevención no guiada de recortes que se aplica directamente a la señal de audio. Un limitador de picos del lado del decodificador causa siempre retardos anticipados adicionales (aproximadamente 5 ms o más) y complejidad computacional del lado del decodificador.
[0013] Por el contrario, las secuencias de ganancia de prevención guiada de recortes utilizadas según la invención permiten el control pleno de la generación de ganancias de prevención de recortes del lado del codificador (si se desea, un creador de contenidos puede tener influencia sobre las características de la ganancia). Después de la generación, las secuencias de ganancia de prevención de recortes se transmiten hacia el lado del decodificador. Si una secuencia de ganancia adecuada de prevención guiada de recortes para la configuración actual del decodificador se encuentra disponible en la corriente de bits de metadatos, puede evitarse un limitador de picos del lado del decodificador en la mayoría de los casos. Por lo tanto, se puede evitar el retardo anticipado adicional y la complejidad computacional del lado del decodificador.
[0014] Se pueden transmitir secuencias de ganancia de prevención guiada de recortes para varias configuraciones de decodificador, como, por ejemplo, para objetivos específicos de niveles de sonoridad o para configuraciones específicas de configuración descendente. Si la configuración del decodificador es coincidente, se puede aplicar una secuencia de ganancia adecuada para prevención guiada de recortes a la señal de salida del decodificador. En muchos casos, las secuencias de ganancia de prevención guiada de recortes pueden escalarse opcionalmente para ajustarse a un nivel de sonoridad objetivo no coincidente (en lo posible se utiliza el valor máximo de la señal).
[0015] Las secuencias de ganancia de prevención guiada de recortes se usan para asegurar que no se registra ninguna distorsión de muestra a la salida del decodificador de audio para un nivel objetivo y una configuración de convertidor de configuración descendente/formato específicos. Cada secuencia de ganancia de prevención guiada de recortes puede optimizarse para una combinación de una configuración específica de convertidor de configuración descendente/formato, para un nivel objetivo específico, y para una secuencia de ganancia de control del intervalo dinámico específica para canales junto con secuencias de ganancia de control del intervalo dinámico específicas para los objetos. La información acerca de cuál secuencia de ganancia de prevención guiada de recortes está asociada con cuál secuencia de ganancia de control del intervalo dinámico puede incluirse en la instrucción de prevención guiada de recortes en el encabezado del archivo de la extensión de la configuración de la codificación unificada de voz y audio. También puede incluir la información relacionada con el nivel objetivo para el cual se han determinado las ganancias para prevención guiada de recortes en el codificador.
[0016] El concepto para el procesamiento del intervalo dinámico que se ha descrito anteriormente representa una estrategia que apunta al control del lado del codificador de la cadena entera del procesamiento. La separación de los metadatos usados para el control del intervalo dinámico y la prevención guiada de recortes permite modificar por separado (escalar o mapear) cada una de las ganancias, dependiendo dicha modificación de la configuración del decodificador y del escenario de reproducción.
[0017] Con el concepto de la invención es posible cambiar la característica subyacente de control del intervalo dinámico de una secuencia de ganancia de control del intervalo dinámico de compresión pesada a compresión ligera si las ganancias de control del intervalo dinámico se transmiten separadamente de las ganancias de prevención guiada de recortes. Esto puede lograrse escalando o mapeando de forma apropiada los valores de la secuencia de ganancia de control del intervalo dinámico.
[0018] El concepto de la invención proporciona al proveedor de contenidos el control completo de la salida final del decodificador de audio con el fin de satisfacer los requisitos de calidad dados. En este caso, tanto las secuencias de ganancias de control del intervalo dinámico y las secuencias de ganancia de prevención guiada de recortes pueden incluirse para las configuraciones específicas del decodificador que se consideren más importantes. En muchos casos se puede descartar un limitador de picos debido al uso combinado de las secuencias de ganancia de control del intervalo dinámico y las secuencias de ganancia de prevención guiada de recortes. Cabe destacar que la prevención guiada de recortes del lado del decodificador de audio, que se logra simplemente aplicando ganancias de prevención guiada de recortes, es más eficaz desde el punto de vista computacional que utilizar un limitador de picos.
[0019] La información acerca de qué características de control del intervalo dinámico están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico pueden incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0020] Por medio de estas características es posible proporcionar múltiples secuencias de ganancia de control del intervalo dinámico para los canales de una pista de audio con el fin de posibilitar señales de salida en el decodificador que tienen diferentes características de compresión.
[0021] Es posible definir dentro de cada secuencia de control del intervalo dinámico un conjunto de ganancias de control del intervalo dinámico diferentes para diferentes canales o grupos de canales, usualmente, cada canal está asociado exactamente con un grupo de canales. Por ejemplo, en el sonido de canales múltiples de las películas a menudo se desea aplicar una ganancia de control del intervalo dinámico específica al canal de los diálogos. Los canales restantes tales como delantero izquierdo, delantero derecho, posterior izquierdo, posterior derecho, por ejemplo, pueden procesarse utilizando una ganancia de control del intervalo dinámico diferente.
[0022] De forma análoga al caso de los canales, se pueden admitir múltiples secuencias de control del intervalo dinámico que están asociadas con objetos de audio o grupos de objetos. También se puede considerar que estas secuencias de control del intervalo dinámico asociadas con objetos están asociadas con un grupo de canales específico dentro de un conjunto relacionado con canales de las ganancias de control del intervalo dinámico. El término objetos de audio se refiere en esta invención a fuentes únicas de sonido tales como el timbre de una puerta.
[0023] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico pueden incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0024] En una extensión opcional que admite múltiples bandas de control del intervalo dinámico, el codificador de metadatos se puede extender para aceptar además secuencias de ganancia de control del intervalo dinámico que tienen diferentes ganancias de control del intervalo dinámico para diferentes bandas de frecuencia como entrada.
[0025] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0026] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes canales o grupos de canales dentro de cada secuencia de prevención guiada de recortes, donde cada canal está asociado usualmente exactamente con un grupo de canales. En formas típicas de funcionamiento se aplican a todos los canales las mismas ganancias de prevención guiada de recortes.
[0027] Las definiciones de secuencias de ganancia de prevención guiada de recortes para objetos son análogas a las del caso del control del intervalo dinámico.
[0028] En un aspecto, la invención proporciona un decodificador de audio para decodificar una corriente de bits de audio y una corriente de bits de metadatos relacionada con la corriente de bits de audio según la reivindicación 1.
[0029] La invención proporciona flexibilidad en el lado del decodificador de audio al mismo tiempo que deja el control de toda la cadena de procesamiento en el lado del codificador. La separación de los metadatos usados para el control del intervalo dinámico y la prevención guiada de recortes permite modificar por separado (escalar o mapear) cada una de las ganancias, dependiendo dicha modificación de la configuración del decodificador y del escenario de reproducción.
[0030] La invención permite cambiar la característica subyacente de control del intervalo dinámico de una secuencia de ganancia de control del intervalo dinámico de compresión pesada a compresión ligera si las ganancias de control del intervalo dinámico se transmiten separadamente de las ganancias de prevención guiada de recortes. Esto puede lograrse escalando o mapeando de forma apropiada los valores de la secuencia de ganancia de control del intervalo dinámico.
[0031] En el caso en que el nivel objetivo del decodificador sea menor que el nivel objetivo usado para computar las ganancias para la prevención guiada de recortes en el codificador, se puede permitir una atenuación reducida de los picos de la señal en el decodificador al escalar adecuadamente las ganancias de prevención guiada de recortes. Entonces, se puede mantener o al menos aumentar el nivel de picos fuertes de la señal en comparación con el caso en que se aplican las ganancias de prevención guiada de recortes sin modificar, lo que significa que se puede preservar el valor máximo de la señal disponible.
[0032] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos al menos dos secuencias de ganancia de control del intervalo dinámico para la misma trama de audio que comprenden diferentes ganancias de control del intervalo dinámico.
[0033] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0034] Por medio de estas características es posible proporcionar múltiples secuencias de ganancia de control del intervalo dinámico para los canales de una pista de audio con el fin de posibilitar señales de salida en el decodificador que tienen diferentes características de compresión.
[0035] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos una secuencia de ganancia de control del intervalo dinámico que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con canales de audio diferentes y/o con objetos de audio diferentes.
[0036] Es posible definir dentro de cada secuencia de control del intervalo dinámico un conjunto de ganancias de control del intervalo dinámico diferentes para diferentes canales o grupos de canales, usualmente, cada canal está asociado exactamente con un grupo de canales. Por ejemplo, en el sonido de canales múltiples de las películas a menudo se desea aplicar una ganancia de control del intervalo dinámico específica al canal de los diálogos. Los canales restantes tales como delantero izquierdo, delantero derecho, posterior izquierdo, posterior derecho, por ejemplo, pueden procesarse utilizando una ganancia de control del intervalo dinámico diferente.
[0037] De forma análoga al caso de los canales, se pueden admitir múltiples secuencias de control del intervalo dinámico que están asociadas con objetos de audio o grupos de objetos. También se puede considerar que estas secuencias de control del intervalo dinámico asociadas con objetos están asociadas con un grupo de canales específico dentro de un conjunto relacionado con canales de las ganancias de control del intervalo dinámico. El término objetos de audio se refiere en esta invención a sonidos de fuente única tales como el timbre de una puerta.
[0038] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos una secuencia de ganancia de control del intervalo dinámico que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes bandas de frecuencia del decodificador de audio.
[0039] En una extensión opcional que admite múltiples bandas de control del intervalo dinámico, el decodificador de metadatos se puede extender para aceptar además secuencias de ganancia de control del intervalo dinámico que tienen diferentes ganancias de control del intervalo dinámico para diferentes bandas de frecuencia como entrada.
[0040] En el caso de la extensión del control del intervalo dinámico de múltiples bandas, la señal de audio en el dominio del tiempo se tiene que transformar en la representación adecuada en el dominio de la frecuencia antes de aplicar las ganancias de control del intervalo dinámico de múltiples bandas.
[0041] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0042] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos al menos dos secuencias de ganancia de prevención guiada de recortes que comprenden diferentes ganancias de prevención guiada de recortes.
[0043] Mediante estas características es posible proporcionar múltiples secuencias de ganancia de prevención guiada de recortes para una pista de audio con el fin de coincidir con las correspondientes secuencias de ganancia de control del intervalo dinámico.
[0044] Según una realización preferida de la invención, el decodificador de metadatos está configurado para extraer de la corriente de bits de metadatos una secuencia de ganancia de prevención guiada de recortes que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con canales de audio diferentes y/o con objetos de audio diferentes.
[0045] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes canales o grupos de canales dentro de cada
secuencia de prevención guiada de recortes, donde cada canal está asociado usualmente exactamente con un grupo de canales. En modos típicos de funcionamiento se aplican a todos los canales las mismas ganancias de prevención guiada de recortes.
[0046] Las definiciones de secuencias de ganancia de prevención guiada de recortes para objetos son análogas a las del caso del control del intervalo dinámico.
[0047] Según la invención, el decodificador de audio comprende además una etapa de control de metadatos y parámetros configurado para proporcionar metadatos y parámetros al menos a una de las etapas de ajuste sobre la base de la información de configuración recibida de una etapa que proporcione configuración.
[0048] La etapa de control de metadatos y parámetros en el decodificador de audio puede seleccionar la parte correcta de la corriente de bits de metadatos según las secuencias de ganancia de control del intervalo dinámico deseadas. La información de escalado y mapeo también puede formar parte o derivarse de la información de configuración del decodificador.
[0049] Por analogía, la etapa de control de metadatos y parámetros en el decodificador de audio selecciona la parte correcta de la corriente de bits según las secuencias de ganancia de prevención guiada de recortes deseadas.
[0050] Según una realización preferida de la invención, la etapa de control de metadatos y parámetros está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de control del intervalo dinámico, cuál de la pluralidad de secuencias de ganancia de control del intervalo dinámico se suministra a la etapa de control del intervalo dinámico. La selección de la secuencia de control del intervalo dinámico por parte de la etapa de control de metadatos y parámetros puede estar basada en la información de configuración del decodificador, tal como composición del canal, instrucciones de conversión descendente, metadatos de objetos, instrucciones de control del intervalo dinámico, información sobre sonoridad, y nivel objetivo del decodificador.
[0051] Según una realización preferida de la invención, la etapa de control de metadatos y parámetros está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de prevención guiada de recortes, cuál de la pluralidad de secuencias de ganancia de prevención guiada de recortes se suministra a la etapa de prevención guiada de recortes.
[0052] La selección de la secuencia de ganancia de prevención guiada de recortes por parte del bloque de control de metadatos y parámetros está basada generalmente en la información de configuración del decodificador de audio descrita anteriormente.
[0053] Según una realización preferida de la invención, la etapa de control del intervalo dinámico en la dirección del flujo de la señal es la primera etapa de ajuste de la cadena de ajuste de audio.
[0054] El procesamiento del control del intervalo dinámico para los canales se puede realizar antes de la potencial conversión descendente o conversión del formato de los canales de audio decodificados con el fin de posibilitar ganancias diferentes para los grupos de canales. Por consiguiente, las ganancias de control del intervalo dinámico se aplican a los objetos antes de la renderización. En el caso en que ambos, canales y objetos, estén presentes, la ubicación del procesamiento de control del intervalo dinámico permanece igual: el control del intervalo dinámico relacionado con canales debe realizarse directamente antes de la etapa de conversión del formato, mientras que el control del intervalo dinámico relacionado con objetos se realiza antes del renderizador de objetos.
[0055] Según una realización preferida de la invención, la cadena de ajuste de audio comprende una etapa de conversión del formato configurada para ajustar la configuración del canal de la señal de salida de audio. La etapa de conversión del formato, también denominada de conversión descendente (DMX), está configurada para adaptar la configuración del canal de la señal de audio de salida a los transductores usados para la reproducción. Por ejemplo, la etapa de conversión del formato puede convertir una señal de sonido envolvente 5.1 en una señal estéreo.
[0056] Según la invención, la cadena de ajuste de audio comprende una etapa de normalización sonora configurada para normalizar la sonoridad de la señal de audio de salida.
[0057] La etapa de normalización sonora puede escalar su señal de audio de entrada de tal forma que la señal de salida tenga el nivel de sonoridad objetivo correcto. El factor de escala se deriva de la diferencia entre el nivel de referencia del programa (PRL, por sus siglas en inglés) y el nivel objetivo del decodificador (DTL, por sus siglas en inglés) y es proporcionado por los metadatos del decodificador y el control de parámetros al bloque de normalización de sonoridad. El nivel de referencia del programa se obtiene de la información de sonoridad que se incluye, por ejemplo, en el encabezado del archivo, mientras que el nivel objetivo del decodificador es un parámetro de configuración del decodificador. Es posible que se proporcionen múltiples valores de niveles de referencia del
programa dentro de la información de sonoridad, donde cada uno corresponde a una configuración específica de una secuencia de control del intervalo dinámico aplicada y/o a una conversión descendente aplicada. En este caso, la etapa de control de metadatos y parámetros selecciona el valor del nivel de referencia del programa correcto mientras considera la configuración del decodificador de audio dada. La ubicación de la etapa de procesamiento de sonoridad depende de la configuración real de salida del decodificador de audio. En general, la normalización de sonoridad deberá realizarse en los canales de salida del decodificador de audio, por ejemplo, después del mezclado, o después de la conversión del formato, si corresponde.
[0058] Según una realización preferida de la invención, la cadena de ajuste de audio comprende una etapa de limitación de picos configurada para limitar los picos de la señal de audio de salida en el caso de que se exceda ese umbral.
[0059] Según una realización preferida de la invención la etapa de limitación de picos en la dirección del flujo de la señal es la última etapa de ajuste de la cadena de ajuste de audio.
[0060] Existe una cantidad de fuentes potenciales de distorsión de muestra inevitables en la cadena de procesamiento de audio de un decodificador de audio típico, que incluye:
• Herramientas de codificación paramétrica.
• Procesamiento binaural.
• Conversión descendente, conversión de formato, renderización.
• Normalización sonora (especialmente para niveles objetivo altos).
• Cuantización en la salida del decodificador.
[0061] La etapa de limitación de picos se ubica por lo tanto al final de la cadena de procesamiento del decodificador de audio para evitar cualquier distorsión no deseada de las muestras de audio, por ejemplo, justo antes de que la señal de salida en el dominio del tiempo se convierta del punto flotante al punto fijo de la modulación por codificación de pulsos (formato PCM, por sus siglas en inglés). Esto significa también que cualquier etapa de control del intervalo dinámico y etapa de normalización sonora descrita en la sección anterior se ubica antes de la etapa de limitación de picos. En el contexto de las normas de audio MPEG (Grupo de expertos en imágenes en movimiento, por sus siglas en inglés)-H 3D [M30324], la etapa de limitación de picos recibe diferentes señales como entrada, según la configuración real de reproducción. En el caso de la renderización binaural, los dos canales de salida para auriculares se pueden procesar mediante la etapa de limitación de picos. Si los canales de salida del mezclador se reproducen directamente, la etapa de limitación de picos puede procesar los canales correspondientes del altavoz. Lo mismo aplica si los canales de salida del mezclador se convierten a diferentes configuraciones de altavoz (por ejemplo, conversión descendente) mediante el convertidor de formato en primer lugar.
[0062] La etapa de limitación de picos puede detectar muestras de audio en la señal en el dominio del tiempo que exceden el límite del umbral, y aplica una reducción del nivel a las porciones respectivas de la señal de modo que las muestras de la señal de audio de salida siempre permanezcan debajo del límite del umbral. Para evitar distorsiones audibles, la reducción del nivel deberá realizarse gradualmente, es decir que el factor de ganancia aplicado a la señal puede cambiar solo lentamente a lo largo del tiempo, lo que se asegura mediante un filtro de alisado de ganancia. También se utiliza un retardo anticipado de la señal de entrada de la etapa de limitación de picos antes de aplicar el factor de ganancia del limitador para permitir una reducción suave de la ganancia que comienza antes de los picos agudos de la señal. El retardo se puede ajustar a un requisito dado, en la práctica se selecciona de 5 ms. En el caso de audio de canales múltiples se puede aplicar un factor de ganancia en común a todos los canales de audio para reducir la complejidad computacional.
[0063] La información acerca del pico máximo de la señal de audio, que puede estar incluida en la información de sonoridad de un encabezado del archivo, se puede aprovechar para descartar la etapa de limitación de picos si la configuración del decodificador implica que no puede ocurrir ningún recorte en la cadena de procesamiento de audio. La etapa de limitación de picos también puede descartarse si, por ejemplo, el decodificador de audio emite muestras de audio con precisión de punto fijo y la prevención de recortes se realiza en un punto posterior en la cadena de audio del dispositivo de reproducción. Naturalmente, si la configuración del decodificador para un escenario dado de reproducción permite aplicar ganancias correctas de prevención guiada de recortes, la etapa de limitación de picos también se puede deshabilitar si no se produce un recorte adicional de códec.
[0064] Se puede considerar que el limitador de picos es un componente esencial en la práctica. Existen numerosas fuentes de recorte dentro de la cadena de procesamiento de audio del decodificador. Se pueden abarcar configuraciones especiales al proporcionar secuencias de ganancia de prevención guiada de recortes. No obstante, para una operación flexible del decodificador, se puede proporcionar el limitador de picos para asegurar que no se produzca ningún recorte.
[0065] Según una realización preferida de la invención, la cadena de ajuste de audio comprende una etapa de renderizador de objetos configurada para mezclar objetos de audio en los canales de la señal de salida de audio.
[0066] Según una realización preferida de la invención la cadena de ajuste de audio comprende una etapa de adaptación del transductor configurada para ajustar las características de la señal de salida de audio al sistema de transducción usado para reproducir la señal de salida de audio.
[0067] Con el fin de reducir la fuerza limitante requerida por la etapa de limitación de picos, se puede incluir en la cadena de procesamiento un procedimiento de adaptación del transductor dependiente de la frecuencia, por ejemplo, implementado mediante un filtro de ecualización.
[0068] La etapa de adaptación del transductor recibe una señal de entrada de audio e información acerca de las características del transductor utilizado para la reproducción (altavoz o auriculares).
[0069] La función de la etapa de adaptación del transductor es adaptar la señal de salida de audio a las características del transductor, especialmente cuando los transductores tienen un intervalo de frecuencia limitado y por lo tanto limitarán el intervalo de frecuencia de la señal de salida de audio. Al limitar el intervalo de la frecuencia mediante el uso de filtros adecuados que imitan la función de transferencia del transductor antes de la etapa de limitación de picos, la señal de entrada de la etapa de limitación de picos tiene un nivel reducido. En consecuencia, los picos de la señal que exceden los umbrales límite tienen un nivel reducido. Por lo tanto, el efecto de la etapa de limitación de picos es menos severo. Esto resulta ventajoso dado que
- la limitación de picos puede cambiar la señal audiblemente, mientras que la adaptación del transductor no introduce cambios audibles en la señal, y
- cuando las señales se modifican de tal manera que el nivel de pico máximo está por debajo del límite del umbral, el limitador de picos introducirá menos carga computacional.
[0070] Además del filtrado, la etapa de adaptación del transductor puede incluir también procesamiento adaptable a la señal de tal manera que se compensa la limitación de banda del transductor. Los transductores especialmente muy pequeños no son capaces de reproducir señales de baja frecuencia.
[0071] Esto se puede compensar al aumentar la respuesta del transductor a la percepción de los bajos, por ejemplo, generando artificialmente y agregando armónicos de las notas de baja frecuencia a la señal.
[0072] En un aspecto adicional, la invención proporciona un procedimiento para el funcionamiento de un decodificador de audio, en particular un decodificador de audio según la reivindicación 15, para decodificar una corriente de bits de audio y una corriente de bits de metadatos relacionados con la corriente de bits de audio.
[0073] En un aspecto adicional la invención proporciona un programa informático para realizar, cuando se ejecuta en un ordenador o en un procesador, el procedimiento anteriormente mencionado.
[0074] A continuación, se expondrán las realizaciones preferidas de la invención con respecto a los dibujos adjuntos, en los cuales:
La fig. 1 ilustra un ejemplo de un codificador de audio según la invención en una vista esquemática;
La fig. 2 ilustra un ejemplo de un decodificador de audio según la invención en una vista esquemática;
La fig. 3 ilustra una primera realización de un decodificador de audio según la invención en una vista esquemática; La fig. 4 ilustra una segunda realización de un decodificador de audio según la invención en una vista esquemática; La fig. 5 ilustra una tercera realización de un decodificador de audio según la invención en una vista esquemática.
[0075] La fig. 1 ilustra un ejemplo de un codificador de audio 1 en una vista esquemática. La fig. 1 ilustra la codificación de las secuencias de ganancia de control del intervalo dinámico y las secuencias de ganancia de prevención guiada de recortes.
[0076] El codificador de audio 1 está configurado para producir una corriente de bits de audio que comprende uno o varios canales de audio AC y/o uno o varios objetos de audio AO, comprendiendo el codificador de audio 1 un codificador de metadatos 2 para producir una corriente de bits de metadatos MBS configurada:
para recibir al menos una secuencia de ganancia de control del intervalo dinámico DS para una trama de audio que comprende una o varias ganancias de control del intervalo dinámico para una etapa de control del intervalo dinámico 5 (véase la fig. 2) de un decodificador de audio 3 (véase la fig. 2);
para recibir al menos una secuencia de ganancia de prevención guiada de recortes GS para la trama de audio, comprendiendo dicha secuencia de ganancia de prevención guiada de recortes GS una o varias ganancias de prevención guiada de recortes para una etapa de prevención guiada de recortes 6 (véase la fig. 2) del decodificador de audio 3; y para incluir al menos una de dichas secuencias de ganancia de control del intervalo dinámico DS y al menos una de dichas secuencias de ganancia de prevención guiada de recortes GS en la corriente de bits de metadatos MBS.
[0077] El concepto se basa en la combinación de varios bloques de procesamiento, que en conjunto proporcionan las funcionalidades requeridas de una solución conjunta para la compresión del intervalo dinámico (DRC) y para la prevención guiada de recortes (gCP).
[0078] El concepto es particularmente adecuado para los sistemas de audio donde ya se encuentra disponible información de configuración relacionada tal como se ha definido, por ejemplo, en [M30100, M30101] en el codificador de audio 1 y en el decodificador de audio 3. Esta información puede incluirse, por ejemplo, en el encabezado para la transmisión basada en archivos o en la extensión de configuración de la codificación unificada de voz y audio (USAC). La información de configuración puede incluir disposición de canales, instrucciones para conversión descendente (por ejemplo, coeficientes para conversión descendente), instrucciones para control del intervalo dinámico (por ejemplo, características aplicadas de control del intervalo dinámico, cantidad de secuencias de ganancia de control del intervalo dinámico para una pista), e información sobre sonoridad (por ejemplo, sonoridad del programa, sonoridad de anclaje, valor del pico real). Se pueden encontrar más detalles en [M30100, M30101]. Lo mismo se aplica a las instrucciones correspondientes para la prevención guiada de recortes, que pueden manejarse de la misma forma que la información de la caja de instrucciones de control del intervalo dinámico.
[0079] El codificador de audio 1 es capaz de producir una corriente de bits de metadatos MBS que comprende secuencias de ganancia de control del intervalo dinámico DS para una etapa de control del intervalo dinámico 5 de un decodificador de audio 3 así como secuencias de ganancia de prevención guiada de recortes GS para una etapa de prevención guiada de recortes 6 del decodificador de audio 3, donde las secuencias de ganancia de control del intervalo dinámico DS pueden transmitirse separadamente desde las secuencias de ganancia de prevención guiada de recortes GS.
[0080] El codificador de metadatos utiliza, como entrada, secuencias de ganancia de control del intervalo dinámico DS que se proporcionan desde el exterior, por ejemplo, por una herramienta externa operada por un proveedor de contenidos.
[0081] La resolución temporal posible de las ganancias de control del intervalo dinámico puede estar comprendida dentro del intervalo de unas pocas muestras. Los valores de ganancia de control del intervalo dinámico usualmente pueden representarse con una resolución suficiente de hasta 0,125 dB.
[0082] Además, el codificador de metadatos toma como entrada secuencias de ganancia de prevención guiada de recortes GS.
[0083] Las secuencias de ganancia de control del intervalo dinámico DS comprimidas y las secuencias de ganancia de prevención guiada de recortes pueden trasmitirse al receptor como información lateral incluida en la extensión de datos de utilidad de la codificación unificada de voz y audio.
[0084] Cabe destacar que las secuencias de ganancia de control del intervalo dinámico DS deberán incluir únicamente ganancias de control del intervalo dinámico para realizar la compresión del intervalo dinámico, mientras que las ganancias de prevención guiada de recortes para evitar recortes se adaptan mediante las secuencias de ganancias de prevención guiada de recortes GS.
[0085] La resolución temporal de las ganancias de prevención guiada de recortes puede ser la misma que para las ganancias de control del intervalo dinámico.
[0086] Las secuencias de ganancia de prevención guiada de recortes GS se usan para asegurar que no se registre ningún recorte de muestra en la señal de salida de audio AOS (véase la fig. 2) del decodificador de audio 3 para un nivel objetivo y una configuración de convertidor de configuración descendente/formato específicos. Cada secuencia de ganancia de prevención guiada de recortes puede optimizarse para una combinación de una configuración específica de convertidor de configuración descendente/formato, para un nivel objetivo específico, y para una secuencia de ganancia de control del intervalo dinámico específica para canales junto con secuencias de ganancia de control del intervalo dinámico específicas para objetos. La información acerca de cuál secuencia de ganancia de prevención guiada de recortes GS está asociada con cuál secuencia de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de prevención guiada de recortes en el encabezado del archivo de la extensión de la configuración de la codificación unificada de voz y audio. También puede incluir la información relacionada con el nivel objetivo para el cual se han determinado las ganancias para prevención guiada de recortes en el codificador de audio 1.
[0087] El concepto para el procesamiento del intervalo dinámico descrito anteriormente representa una estrategia que apunta al control del lado del codificador de la cadena entera de procesamiento de audio 4 (véase la fig. 2). La separación de los metadatos usados para el control del intervalo dinámico y la prevención guiada de recortes permite modificar por separado (escalar o mapear) cada una de las ganancias, dependiendo dicha modificación de la configuración del decodificador y del escenario de reproducción.
[0088] Con el concepto es posible cambiar la característica subyacente de control del intervalo dinámico de una secuencia de ganancia de control del intervalo dinámico DS de compresión pesada a compresión liviana si las ganancias de control del intervalo dinámico se transmiten separadamente de las ganancias de prevención guiada de recortes GS. Esto puede lograrse escalando o mapeando de forma apropiada los valores de la secuencia de ganancia de control del intervalo dinámico DS.
[0089] El concepto proporciona al proveedor de contenidos el completo control de la señal de salida final de audio del decodificador de audio 3 con el fin de satisfacer requisitos de calidad dados. En este caso, tanto las secuencias de ganancias de control del intervalo dinámico DS como las secuencias de ganancia de prevención guiada de recortes GS pueden incluirse para las configuraciones específicas del decodificador de audio que se consideren más importantes. En muchos casos se puede descartar una etapa de limitador de picos 12 debido al uso combinado de las secuencias de ganancia de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS. Cabe destacar que la prevención guiada de recortes del lado del decodificador de audio, que se logra simplemente aplicando ganancias de prevención guiada de recortes, es más eficiente desde el punto de vista computacional que utilizar un limitador de picos 12.
[0090] Según un ejemplo, el codificador de metadatos 2 está configurado para recibir al menos dos secuencias de ganancia de control del intervalo dinámico DS para la misma trama de audio que comprenden diferentes ganancias de control del intervalo dinámico, y para incluir las al menos dos secuencias de ganancia de control del intervalo dinámico DS que comprenden las diferentes ganancias de control del intervalo dinámico en la corriente de bits de metadatos MBS.
[0091] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0092] Por medio de estas características es posible proporcionar múltiples secuencias de ganancia de control del intervalo dinámico DS para los canales de una pista de audio con el fin de posibilitar señales de salida en el decodificador de audio 3 que tienen diferentes características de compresión.
[0093] Según un ejemplo el codificador de metadatos está configurado para recibir una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes canales de audio AC y/o diferentes objetos de audio AO, el codificador de metadatos 2 está configurado para incluir las al menos dos ganancias de control del intervalo dinámico DS relacionadas con diferentes canales de audio AC y/o con diferentes objetos de audio AO y, opcionalmente, las relaciones de las ganancias de control del intervalo dinámico con los canales de audio AC y/o los objetos de audio AO en la corriente de bits de metadatos MBS.
[0094] Es posible definir dentro de cada secuencia de control del intervalo dinámico DS un conjunto de ganancias de control del intervalo dinámico diferentes para diferentes canales de audio AC o grupos de canales de audio AC, donde cada canal de audio AC está asociado usualmente exactamente con un grupo de canales. Por ejemplo, en el sonido de canales múltiples de las películas a menudo se desea aplicar una ganancia de control del intervalo dinámico específica al canal de los diálogos. Los canales restantes tales como delantero izquierdo, delantero derecho, posterior izquierdo, posterior derecho, por ejemplo, pueden procesarse mediante el uso de una ganancia de control del intervalo dinámico diferente.
[0095] De forma análoga al caso de los canales, se pueden admitir múltiples secuencias de control del intervalo dinámico DS que están asociadas con objetos de audio AO o grupos de objetos AO. También se puede considerar que estas secuencias de control del intervalo dinámico DS asociadas con objetos están asociadas con un grupo de canales específico dentro de un conjunto relacionado con canales de las ganancias de control del intervalo dinámico. En esta invención, el término objetos de audio se refiere a fuentes únicas de sonido tales como el timbre de una puerta.
[0096] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0097] Según un ejemplo el codificador de metadatos 2 está configurado para recibir una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes bandas de frecuencia del decodificador de audio, estando el codificador de metadatos 2 configurado para incluir las al menos dos ganancias de control del intervalo dinámico DS relacionadas con diferentes bandas de frecuencia del decodificador de audio 3 y, opcionalmente, las relaciones de las ganancias de control del intervalo dinámico con las bandas de frecuencia del decodificador de audio 3 en la corriente de bits de metadatos MBS.
[0098] En una extensión opcional que admite múltiples bandas de control del intervalo dinámico, el codificador de metadatos 2 se puede extender para aceptar además, como entrada, secuencias de ganancia de control del intervalo dinámico DS que tienen diferentes ganancias de control del intervalo dinámico para diferentes bandas de frecuencia.
[0099] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0100] Según un ejemplo, el codificador de metadatos está configurado para recibir al menos dos secuencias de ganancia de prevención guiada de recortes GS que comprenden diferentes ganancias de prevención guiada de recortes y para incluir las al menos dos secuencias de ganancia de prevención guiada de recortes GS que comprenden las diferentes ganancias de prevención guiada de recortes en la corriente de bits de metadatos MBS.
[0101] Según un ejemplo, cada secuencia de control del intervalo dinámico DS está relacionada con una de las secuencias de ganancia de prevención guiada de recortes GS, estando el codificador de metadatos 2 configurado para incluir las relaciones entre las secuencias de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS en la corriente de bits de metadatos MBS.
[0102] Según un ejemplo, el codificador de metadatos está configurado para recibir una secuencia de ganancia de prevención guiada de recortes GS que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con diferentes canales de audio AC y/o con diferentes objetos de audio AO, estando el codificador de metadatos 2 configurado para incluir la secuencia de prevención guiada de recortes GS que comprende las al menos dos ganancias de prevención guiada de recortes relacionadas con diferentes canales de audio AC y/o con diferentes objetos de audio AO y, opcionalmente, las relaciones de las ganancias de prevención guiada de recortes con los canales de audio AC y/o los objetos de audio AO en la corriente de bits de metadatos MBS.
[0103] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes canales de audio AC o grupos de canales de audio AC dentro de cada secuencia de prevención guiada de recortes GS, donde cada canal de audio AC está asociado usualmente exactamente con un grupo de canales. En modos típicos de funcionamiento se aplican a todos los canales de audio AC las mismas ganancias de prevención guiada de recortes.
[0104] Las definiciones de secuencias de ganancia de prevención guiada de recortes para objetos de audio Ao son análogas a las del caso del control del intervalo dinámico.
[0105] En otro aspecto, el ejemplo proporciona un procedimiento para operar un codificador de audio 1 para producir una corriente de bits de audio que comprende uno o varios canales de audio y/o uno o varios objetos de audio, comprendiendo el codificador de audio un codificador de metadatos 2 para producir una corriente de bits de metadatos MBS, comprendiendo el procedimiento las siguientes etapas:
recibir, de parte del codificador de metadatos 2, al menos una secuencia de ganancia de control del intervalo dinámico DS que comprende una o varias ganancias de control del intervalo dinámico para una etapa de control del intervalo dinámico 5 de un decodificador de audio 3;
recibir, de parte del codificador de metadatos 2, al menos una secuencia de ganancia de prevención guiada de recortes GS que comprende una o varias ganancias de prevención guiada de recortes para una etapa de prevención guiada de recortes 6 del decodificador de audio 3; e
incluir, de parte del codificador de metadatos 2, al menos una de dichas secuencias de ganancia de control del intervalo dinámico DS y al menos una de dichas secuencias de ganancia de prevención guiada de recortes GS en la corriente de bits de metadatos MBS.
[0106] En un aspecto adicional la invención proporciona un programa informático para realizar, cuando se
ejecuta en un ordenador o en un procesador, el procedimiento anteriormente mencionado.
[0107] Las siguientes figuras del procesamiento del lado del decodificador están basadas en la propuesta de una estrategia de codificación de audio 3D como se presentó en [M30324].
[0108] La fig. 2 ilustra un ejemplo de un decodificador de audio 3 según la invención en una vista esquemática.
[0109] El decodificador de audio 3 para decodificar una corriente de bits de audio y una corriente de bits de metadatos MBS relacionada con la corriente de bits de audio, que son producidas en particular por un codificador de audio 1 según los ejemplos, comprendiendo el decodificador de audio 3:
una cadena de procesamiento de audio 4 configurada para recibir una señal de audio decodificada DAS derivada de la corriente de bits de audio y para ajustar las características de una señal de salida de audio AOS de la cadena de procesamiento de audio 4, comprendiendo la cadena de procesamiento de audio 4 una pluralidad de etapas de ajuste 5, 6, 10, 11, 12, 13, 14 (véanse también las figs. 3, 4, 5) que incluyen una etapa de control del intervalo dinámico 5 para ajustar un intervalo dinámico de la señal de salida de audio AOS y una etapa de prevención guiada de recortes 6 para prevenir recortes en la señal de salida de audio AOS; y
un decodificador de metadatos 7 configurado para recibir la corriente de bits de metadatos MBS y configurado para extraer las secuencias de ganancia de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS de la corriente de bits de metadatos MBS, proporcionándose al menos una parte de las secuencias de ganancia de control del intervalo dinámico DS en la etapa de control del intervalo dinámico 5, y proporcionándose al menos una parte de las secuencias de ganancia de prevención guiada de recortes GS en la etapa de prevención guiada de recortes 6.
[0110] El decodificador de metadatos 7 recibe la corriente de bits de metadatos MBS que contiene las secuencias de ganancia de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS, por ejemplo, de un decodificador de una codificación unificada de voz y audio.
[0111] El decodificador de metadatos 7 genera la secuencia de ganancia de control del intervalo dinámico sin comprimir deseada DS de la corriente de bits de metadatos MBS. Además, las ganancias de control del intervalo dinámico resultantes se pueden escalar o mapear.
[0112] El decodificador de metadatos 7 genera además las secuencias de ganancia de prevención guiada de recortes sin comprimir GS de la corriente de bits MBS que contiene metadatos comprimidos de prevención guiada de recortes. Las ganancias de prevención guiada de recortes se pueden escalar o mapear. Esto es especialmente útil si el nivel objetivo del decodificador de audio es más bajo que el nivel objetivo que se ha utilizado para determinar la secuencia de ganancias de prevención guiada de recortes GS en el codificador de audio 1. Por lo tanto, es posible mapear las ganancias de prevención guiada de recortes, lo cual restaura de manera óptima el valor máximo de la señal al mismo tiempo que asegura, aunque no se registren recortes en la señal de salida del decodificador de audio AOS.
[0113] La etapa de control del intervalo dinámico 5 recibe las secuencias de ganancia de control del intervalo dinámico sin comprimir y opcionalmente escaladas o mapeadas DS para cada trama de audio en forma directa o indirecta desde el decodificador de metadatos 7. El decodificador de metadatos 7 también puede asegurar que los valores finales de ganancia de control del intervalo dinámico en el dominio del tiempo se interpolen con una resolución temporal correspondiente a la resolución temporal de las muestras de audio. Estas ganancias finales de control del intervalo dinámico pueden aplicarse entonces a la señal de audio decodificada DAS, donde se observa la asignación de una cierta secuencia de control del intervalo dinámico a los canales y/u objetos.
[0114] La etapa de prevención guiada de recortes 6 recibe las secuencias de ganancia de prevención guiada de recortes GS sin comprimir y opcionalmente escaladas o mapeadas para cada trama de audio en forma directa o indirecta desde el decodificador de metadatos 7. El decodificador de metadatos 7 también puede asegurar que los valores finales de ganancia de prevención guiada de recortes en el dominio del tiempo se interpolen con una resolución temporal correspondiente a la resolución temporal de las muestras de audio. Estas ganancias finales de prevención guiada de recortes se pueden aplicar entonces a las señales de audio decodificadas o a las señales ISG (o IGS en la fig. 3, fig. 4 y fig. 5) derivadas de las señales de audio decodificadas DAS, donde se observa la asignación de una cierta secuencia de prevención guiada de recortes a los canales y/u objetos.
[0115] El ejemplo proporciona flexibilidad en el lado del decodificador de audio al mismo tiempo que deja el control de toda la cadena de procesamiento en el lado del codificador. La separación de los metadatos usados para el control del intervalo dinámico y la prevención guiada de recortes permite modificar por separado (escalar o mapear) cada una de las ganancias, dependiendo dicha modificación de la configuración del decodificador y del escenario de reproducción.
[0116] El ejemplo permite cambiar la característica subyacente de control del intervalo dinámico de una secuencia de ganancia de control del intervalo dinámico DS de compresión pesada a compresión ligera si las ganancias de control del intervalo dinámico se transmiten separadamente de las ganancias de prevención guiada de recortes. Esto puede lograrse escalando o mapeando de forma apropiada los valores de la secuencia de ganancia de control del intervalo dinámico DS.
[0117] En el caso en que el nivel objetivo del decodificador sea menor que el nivel objetivo usado para computar las ganancias para la prevención guiada de recortes en el codificador de audio 1, se puede permitir una atenuación reducida de los picos de la señal en el decodificador de audio 3 al escalar adecuadamente las ganancias de prevención guiada de recortes. Así, se puede mantener o al menos aumentar el nivel de picos fuertes de la señal en comparación con el caso en que se aplican las ganancias de prevención guiada de recortes sin modificar, lo cual significa que se puede preservar el margen disponible.
[0118] Según un ejemplo, el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS al menos dos secuencias de ganancia de control del intervalo dinámico DS para la misma trama de audio que comprenden diferentes ganancias de control del intervalo dinámico.
[0119] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0120] Por medio de estas características es posible proporcionar múltiples secuencias de ganancia de control del intervalo dinámico DS para los canales de una pista de audio con el fin de posibilitar señales de salida de audio AOS en el decodificador 1 que tienen diferentes características de compresión.
[0121] Según un ejemplo, el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes bandas de frecuencia del decodificador de audio 3.
[0122] En una extensión opcional que admite múltiples bandas de control del intervalo dinámico, el decodificador de metadatos 7 se puede extender para aceptar, además, como entrada, secuencias de ganancia de control del intervalo dinámico DS que tienen diferentes ganancias de control del intervalo dinámico para diferentes bandas de frecuencia.
[0123] En el caso de una extensión del control del intervalo dinámico de múltiples bandas, la señal de audio en el dominio del tiempo se tiene que transformar en la representación adecuada en el dominio de la frecuencia antes de aplicar las ganancias de control del intervalo dinámico de múltiples bandas.
[0124] La información acerca de las características de control del intervalo dinámico que están asociadas con las diferentes secuencias de ganancia de control del intervalo dinámico DS puede incluirse en la instrucción de control del intervalo dinámico contenida en el encabezado del archivo en el caso de entrega basada en archivos o en las extensiones de la configuración de la codificación unificada de voz y audio.
[0125] Según un ejemplo, el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS al menos dos secuencias de ganancia de prevención guiada de recortes GS que comprenden diferentes ganancias de prevención guiada de recortes.
[0126] Mediante estas características es posible proporcionar múltiples secuencias de ganancia de prevención guiada de recortes GS para una pista de audio con el fin de coincidir con las correspondientes secuencias de ganancia de control del intervalo dinámico DS.
[0127] En un aspecto adicional la invención proporciona un procedimiento para el funcionamiento de un decodificador de audio 3, en particular un decodificador de audio 3 según los ejemplos, para decodificar una corriente de bits de audio y una corriente de bits de metadatos MBS relacionada con la corriente de bits de audio, que se producen en particular mediante un codificador de audio según los ejemplos, el procedimiento comprende las etapas de:
derivación de una señal de audio decodificada DAS de la corriente de bits de audio;
uso de una cadena de procesamiento de audio para tener una pluralidad de etapas de ajuste 5, 6, 10, 11, 12, 13, 14 para ajustar las características de una señal de salida de audio AOS de la cadena de procesamiento de audio 4 que incluye ajustar el intervalo dinámico de la señal de salida de audio AOS mediante una etapa de control del
intervalo dinámico 5, que es una etapa de ajuste 5 de la cadena de ajuste 4 y prevenir los recortes de la señal de salida de audio AOS mediante una etapa de prevención guiada de recortes 6, que es una etapa de ajuste 6 de la cadena de ajuste 4;
recepción, de parte del decodificador de metadatos 7, de la corriente de bits de metadatos MBS y extracción de las secuencias de ganancia de control del intervalo dinámico DS y las secuencias de ganancia de prevención guiada de recortes GS de la corriente de bits de metadatos MBS;
suministro de al menos una parte de las secuencias de ganancia de control del intervalo dinámico DS a la etapa de control del intervalo dinámico 5; y
suministro de al menos una parte de las secuencias de ganancia de prevención guiada de recortes GS a la etapa de prevención guiada de recortes 6.
[0128] En un aspecto adicional el ejemplo proporciona un programa informático para realizar, cuando se ejecuta en un ordenador o en un procesador, el procedimiento anteriormente mencionado.
[0129] La fig. 3 ilustra una primera realización de un decodificador de audio 3 según la invención en una vista esquemática.
[0130] Según una realización preferida de la invención el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes canales de audio.
[0131] Es posible definir dentro de cada secuencia de control del intervalo dinámico DS un conjunto de ganancias de control del intervalo dinámico diferentes para diferentes canales o grupos de canales, usualmente, cada canal está asociado exactamente con un grupo de canales. Por ejemplo, en el sonido de canales múltiples de las películas a menudo se desea aplicar una ganancia de control del intervalo dinámico específica al canal de los diálogos. Los canales restantes tales como delantero izquierdo, delantero derecho, posterior izquierdo, posterior derecho, por ejemplo, pueden procesarse utilizando una ganancia de control del intervalo dinámico diferente.
[0132] Según una realización preferida de la invención el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de prevención guiada de recortes GS que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con canales de audio diferentes.
[0133] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes canales o grupos de canales dentro de cada secuencia de prevención guiada de recortes, donde cada canal está asociado usualmente exactamente con un grupo de canales. En modos típicos de funcionamiento se aplican a todos los canales las mismas ganancias de prevención guiada de recortes.
[0134] Según la invención, el decodificador de audio 3 comprende además una etapa de control de metadatos y parámetros 8 configurada para proporcionar metadatos y parámetros DS, GS, CLA, DI, DTL, PRL, IS, OMD, ICT al menos a una de las etapas de ajuste 5, 6, 10, 11, l2, 13, 14 sobre la base de la información de configuración recibida de una etapa que proporcione configuración 9 (véanse también las figs. 4 y 5).
[0135] La etapa de control de metadatos y parámetros 8 en el decodificador de audio puede seleccionar la parte correcta de la corriente de bits de metadatos MBS según las secuencias de ganancia de control del intervalo dinámico deseadas DS al enviar una señal de selección de secuencia de ganancia GSS al decodificador de metadatos 7. La información de escalado y mapeo también puede formar parte o derivarse de la información de configuración del decodificador CI.
[0136] Por analogía, la etapa de control de metadatos y parámetros 8 en el decodificador de audio 3 selecciona la parte correcta de la corriente de bits MBS según las secuencias de ganancia de prevención guiada de recortes deseadas.
[0137] Según la invención, la etapa de control de metadatos y parámetros 8 está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de control del intervalo dinámico DS, cuál de la pluralidad de secuencias de ganancia de control del intervalo dinámico DS se suministra a la etapa de control del intervalo dinámico 5. La selección de las secuencias de control del intervalo dinámico DS por parte de la etapa de control de metadatos y parámetros 8 puede estar basada en la información de configuración del decodificador CI, tal como composición del canal CLA, instrucciones de conversión descendente DI, metadatos de objetos OMD (véase la fig. 4), instrucciones de control del intervalo dinámico, información sobre sonoridad PRL, y
nivel objetivo del decodificador DTL, y pueden ejecutarse al enviar una señal de selección de secuencia de ganancia GSS al decodificador de metadatos 7.
[0138] Según la invención, la etapa de control de metadatos y parámetros 8 está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de prevención guiada de recortes GS, cuál de la pluralidad de secuencias de ganancia de prevención guiada de recortes GS se suministra a la etapa de prevención guiada de recortes 6.
[0139] La selección de la secuencia de ganancia de prevención guiada de recortes GS por parte del bloque de control de metadatos y parámetros 8 está basada generalmente en la información de configuración del decodificador de audio CI descrita anteriormente.
[0140] Según una realización preferida de la invención, la etapa de control del intervalo dinámico 5 en la dirección del flujo de la señal es la primera etapa de ajuste de la cadena de ajuste de audio 4.
[0141] El procesamiento del control del intervalo dinámico para los canales se puede realizar antes de la potencial conversión descendente o conversión del formato de los canales de audio decodificados AC con el fin de posibilitar ganancias diferentes para los grupos de canales. Por consiguiente, las ganancias de control del intervalo dinámico se aplican a los objetos AO antes de la renderización (véase la fig. 4). En el caso en que ambos, canales AC y objetos Ao , estén presentes, la ubicación del procesamiento de control del intervalo dinámico permanece igual: el control del intervalo dinámico relacionado con canales deberá realizarse directamente antes de la etapa de conversión del formato 10 (véase la fig. 4), mientras que el control del intervalo dinámico relacionado con objetos se realiza antes del renderizador de objetos 13 (véase la fig. 4).
[0142] Según una realización preferida de la invención, la cadena de ajuste de audio 4 comprende una etapa de conversión del formato 10 configurada para ajustar la configuración del canal de la señal de salida de audio AOS. La etapa de conversión del formato 10, también denominada de conversión descendente (DMX), está configurada para adaptar la configuración del canal de la señal de audio de salida AOS a los transductores usados para la reproducción. Por ejemplo, la etapa de conversión del formato puede convertir una señal de sonido envolvente 5.1 en una señal estéreo.
[0143] Según la invención, la cadena de ajuste de audio 4 comprende una etapa de normalización sonora 11 configurada para normalizar la sonoridad de la señal de audio de salida AOS.
[0144] La etapa de normalización sonora 11 puede escalar su señal de audio de entrada OCF de tal forma que la señal de salida IGS tenga el nivel de sonoridad objetivo correcto. El factor de escala se deriva de la diferencia entre el nivel de referencia del programa PRL y el nivel objetivo del decodificador DTL y es proporcionado por los metadatos del decodificador y la etapa de control de parámetros 8 a la etapa de normalización de sonoridad 11. El nivel de referencia del programa PRL se puede obtener de la información de sonoridad que se incluye, por ejemplo, en el encabezado del archivo, mientras que el nivel objetivo del decodificador es un parámetro de configuración del decodificador. Es posible que se proporcionen múltiples valores de niveles de referencia del programa PRL dentro de la información de sonoridad, donde cada uno corresponde a una configuración específica de una secuencia de control del intervalo dinámico DS aplicada y/o a una conversión descendente aplicada. En este caso, la etapa de control de metadatos y parámetros 8 selecciona el valor del nivel de referencia del programa PRL correcto mientras considera la configuración del decodificador de audio dada. La ubicación de la etapa de procesamiento de sonoridad depende de la configuración real de salida del decodificador de audio 3. En general, la normalización de sonoridad deberá realizarse en los canales de salida del decodificador de audio 3, por ejemplo, después del mezclado, o después de la etapa de conversión del formato 10, si corresponde.
[0145] Según una realización preferida de la invención, la cadena de ajuste de audio 4 comprende una etapa de limitación de picos 12 configurada para limitar los picos de la señal de audio de salida AOS en el caso de que se exceda ese umbral.
[0146] Según una realización preferida de la invención la etapa de limitación de picos 12 en la dirección del flujo de la señal es la última etapa de ajuste de la cadena de ajuste de audio 4.
[0147] Existe una cantidad de fuentes potenciales de distorsión de muestra inevitables en la cadena de procesamiento de audio 4 de un decodificador de audio típico, que incluye:
• Herramientas de codificación paramétrica.
• Procesamiento binaural.
• Conversión descendente, conversión de formato, renderización.
• Normalización sonora (especialmente para niveles objetivo altos).
• Cuantización a la salida del decodificador.
[0148] La etapa de limitación de picos se ubica por lo tanto al final de la cadena de procesamiento 4 del decodificador de audio 3 para evitar cualquier recorte no deseado de las muestras de audio, por ejemplo, justo antes de que la señal de salida en el dominio del tiempo se convierta del punto flotante al punto fijo de la modulación por codificación de pulsos (formato PCM). Esto también significa que cualquier etapa de control del intervalo dinámico 5 y etapa de normalización sonora 11 descrita en la sección anterior se ubica antes de la etapa de limitación de picos 12. En el contexto de las normas de audio MPEG (Grupo de expertos en imágenes en movimiento, por sus siglas en inglés)-H 3D [M30324], la etapa de limitación de picos recibe diferentes señales IPL como entrada, según la configuración real de reproducción. En el caso de la renderización binaural, los dos canales de salida para auriculares se pueden procesar mediante la etapa de limitación de picos 12. Si los canales de salida del mezclador se reproducen directamente, la etapa de limitación de picos 12 puede procesar los canales correspondientes del altavoz. Lo mismo aplica si los canales de salida del mezclador se convierten a una configuración de altavoz diferente (por ejemplo, conversión descendente) mediante el convertidor de formato 10 en primer lugar.
[0149] La etapa de limitación de picos 12 puede detectar muestras de audio en la señal en el dominio del tiempo que exceden el límite del umbral, y aplica una reducción del nivel a las porciones respectivas de la señal de modo que las muestras de la señal de audio de salida AOS siempre permanezcan debajo del límite del umbral. Para evitar distorsiones audibles, la reducción del nivel deberá realizarse gradualmente, es decir que el factor de ganancia aplicado a la señal puede cambiar solo lentamente a lo largo del tiempo, lo que se asegura mediante un filtro de alisado de ganancia. También se utiliza un retardo anticipado de la señal de entrada de la etapa de limitación de picos antes de aplicar el factor de ganancia del limitador para permitir una reducción suave de la ganancia que comienza antes de los picos agudos de la señal. El retardo se puede ajustar a un requisito dado, en la práctica se selecciona de 5 ms. En el caso de audio de canales múltiples se puede aplicar un factor de ganancia en común a todos los canales de audio para reducir la complejidad computacional.
[0150] La información acerca del pico máximo IS de la señal de audio DAS, que puede estar incluida en la información de sonoridad de un encabezado de archivo, se puede aprovechar para descartar la etapa de limitación de picos 12 si la configuración del decodificador implica que no puede ocurrir ningún recorte en la cadena de procesamiento de audio. La etapa de limitación de picos 12 también puede descartarse, por ejemplo, si el decodificador de audio 3 emite muestras de audio con precisión de punto fijo y la prevención de recortes se realiza en un punto posterior en la cadena de audio del dispositivo de reproducción. Naturalmente, si la configuración del decodificador para un escenario dado de reproducción permite aplicar ganancias correctas de prevención guiada de recortes, la etapa de limitación de picos también se puede deshabilitar si no se produce un recorte adicional de códec.
[0151] Se puede considerar que el limitador de picos 12 es un componente esencial en la práctica. Existen numerosas fuentes de recorte dentro de la cadena de procesamiento de audio del decodificador de audio 3. Se pueden abarcar configuraciones especiales al proporcionar secuencias de ganancia de prevención guiada de recortes. No obstante, para una operación flexible del decodificador, se puede proporcionar el limitador de picos para asegurar que no se produzca ningún recorte.
[0152] Como se muestra en la fig. 3, el procesamiento de prevención guiada de recortes puede realizarse después de la conversión del formato y la normalización de sonoridad de los canales de audio. Si no se aplica conversión del formato, las ganancias de prevención guiada de recortes se pueden aplicar directamente a la salida ISG de la etapa de control del intervalo dinámico 5.
[0153] La fig. 4 ilustra una segunda realización de un decodificador de audio según la invención en una vista esquemática. La fig. 4 ilustra una configuración de procesamiento de control del intervalo dinámico para objetos de audio AO. El procesamiento de control del intervalo dinámico se realiza sobre las señales de objetos de audio antes de la renderización. La normalización de sonoridad y la prevención de recortes se realizan después de la renderización de objetos a los canales.
[0154] Según una realización preferida de la invención, la cadena de ajuste de audio 4 comprende una etapa de renderización de objetos 13 configurada para mezclar objetos de audio AO en los canales de la señal de salida de audio AOS.
[0155] Según una realización preferida de la invención el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de control del intervalo dinámico DS que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes objetos de audio AO.
[0156] De forma análoga al caso de los canales, se pueden admitir múltiples secuencias de control del intervalo dinámico DS que están asociadas con objetos de audio o grupos de objetos. También se puede considerar que estas secuencias de control del intervalo dinámico asociadas con objetos están asociadas con un grupo de canales específico dentro de un conjunto relacionado con canales de las ganancias de control del intervalo dinámico. El término objetos de audio AO se refiere en esta invención a fuentes únicas de sonido tales como el timbre de una
puerta.
[0157] Según una realización preferida de la invención, el decodificador de metadatos 7 está configurado para extraer de la corriente de bits de metadatos MBS una secuencia de ganancia de prevención guiada de recortes GS que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con objetos de audio diferentes.
[0158] Como en el caso de las ganancias de control del intervalo dinámico, es posible definir un conjunto de diferentes ganancias de prevención guiada de recortes para diferentes objetos de audio o grupos de objetos de audio dentro de cada secuencia de prevención guiada de recortes, donde cada canal usualmente está asociado exactamente con un objeto de audio. En modos de funcionamiento típicos se aplican a todos los objetos de audio las mismas ganancias de prevención guiada de recortes.
[0159] Las definiciones de secuencias de ganancia de prevención guiada de recortes para objetos son análogas a las del caso del control del intervalo dinámico.
[0160] La fig. 5 ilustra una tercera realización de un decodificador de audio según la invención en una vista esquemática.
[0161] En la fig. 5 se muestra otra realización del concepto, donde se incluye un bloque adicional de adaptación del transductor 14 antes del limitador de picos 12. La etapa de conversión del formato 10 se refiere a la etapa de procesamiento de conversión descendente o a una conversión del formato entre diferentes configuraciones de canales de entrada/salida. Por analogía, el bloque de adaptación del transductor se puede incluir en una cadena de procesamiento relacionada con objetos según la fig. 4.
[0162] Según una realización preferida de la invención la cadena de ajuste de audio 4 comprende una etapa de adaptación del transductor 14 configurada para ajustar las características de la señal de salida de audio AOS al sistema de transducción usado para reproducir la señal de salida de audio.
[0163] Con el fin de reducir la fuerza limitante requerida de la etapa de limitación de picos 12, se puede incluir en la cadena de procesamiento 4 un procedimiento de adaptación del transductor dependiente de la frecuencia, por ejemplo, implementado mediante un filtro de ecualización.
[0164] La etapa de adaptación del transductor 14 recibe una señal de entrada de audio ITA e información ICT acerca de las características del transductor utilizado para la reproducción (altavoz o auriculares).
[0165] La función de la etapa de adaptación del transductor 14 es adaptar la señal de salida de audio AOS a las características del transductor, especialmente cuando los transductores tienen un intervalo de frecuencia limitado y por lo tanto limitarán el intervalo de frecuencia de la señal de salida de audio. Al limitar el intervalo de la frecuencia mediante el uso de filtros adecuados que imitan la función de transferencia del transductor antes de la etapa de limitación de picos 12, la señal de entrada IPL de la etapa de limitación de picos tiene un nivel reducido. En consecuencia, los picos de la señal que exceden los umbrales límite tienen un nivel reducido. Por lo tanto, el efecto de la etapa de limitación de picos 12 es menos severo. Esto resulta ventajoso dado que
- la limitación de picos puede cambiar la señal audiblemente, mientras que la adaptación del transductor no introduce cambios audibles en la señal, y
- cuando las señales se modifican de tal manera que el nivel de pico máximo está por debajo del límite del umbral, el limitador de picos introducirá menos carga computacional.
[0166] Además del filtrado, la etapa de adaptación del transductor 14 también puede incluir procesamiento adaptable a la señal de tal manera que se compensa la limitación de banda del transductor. Los transductores especialmente muy pequeños no son capaces de reproducir señales de baja frecuencia.
[0167] Esto se puede compensar al aumentar la respuesta del transductor a la percepción de los bajos, por ejemplo, generando artificialmente y agregando armónicos de las notas de baja frecuencia a la señal.
[0168] Con respecto al decodificador, al codificador, y a los procedimientos de las realizaciones descritas, se deberá mencionar lo siguiente:
[0169] Aunque algunos aspectos se han descrito en el contexto de un aparato, es claro que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa del procedimiento o a una característica de una etapa del procedimiento. De forma análoga, los aspectos descritos en el contexto de una etapa del procedimiento también representan una descripción de un bloque o elemento o característica de un aparato correspondiente.
[0170] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede realizar utilizando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tienen almacenadas señales de control legibles electrónicamente, que colaboran (o son capaces de colaborar) con un sistema informático programable de tal forma que se lleve a cabo el procedimiento respectivo.
[0171] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable de tal forma que se lleva a cabo uno de los procedimientos descritos en esta invención.
[0172] Generalmente, las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. El código del programa puede almacenarse, por ejemplo, en un soporte legible por una máquina.
[0173] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, el cual se almacena en un soporte legible por una máquina o en un medio de almacenamiento no transitorio.
[0174] En otras palabras, una realización del procedimiento de la invención, es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador.
[0175] Una realización adicional de los procedimientos de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que contiene, grabado en él, el programa informático para realizar uno de los procedimientos descritos en esta invención.
[0176] Una realización adicional del procedimiento de la invención es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para realizar uno de los procedimientos descritos en esta invención. La corriente de datos o la secuencia de señales se pueden configurar para, por ejemplo, transferirse mediante una conexión de comunicación de datos, por ejemplo, a través de Internet.
[0177] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado o adaptado para realizar uno de los procedimientos descritos en esta invención.
[0178] Una realización adicional comprende un ordenador que tiene instalado en él el programa informático para realizar uno de los procedimientos descritos en esta invención.
[0179] En algunas realizaciones, se puede utilizar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables por campo) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programables por campo puede colaborar con un microprocesador con el fin de realizar uno de los procedimientos descritos en esta invención. Generalmente, los procedimientos se realizan de forma ventajosa mediante cualquier aparato de hardware.
[0180] Aunque esta invención se ha descrito en términos de diversas realizaciones, existen modificaciones, permutaciones y equivalentes que están comprendidas dentro del alcance de la invención como se define por las reivindicaciones adjuntas. También cabe destacar que existen numerosas formas alternativas de implementar los procedimientos y composiciones de la presente invención.
Signos de referencia:
[0181]
1 codificador de audio
2 codificador de metadatos
3 decodificador de audio
4 cadena de procesamiento de audio
5 etapa de control del intervalo dinámico
6 etapa de prevención guiada de recortes
7 decodificador de metadatos
8 etapa de control de metadatos y parámetros
9 etapa que proporciona configuración
10 etapa de conversión del formato
11 etapa de normalización de sonoridad
12 etapa de limitación de picos
13 etapa de renderizador de objetos
14 etapa de adaptación de transductor
MBS corriente de bits de metadatos
DS secuencia de ganancia de control del intervalo dinámico
GS secuencia de ganancia de prevención guiada de recortes
DAS señal de audio decodificada
AOS señal de salida de audio
ISG señal derivada de la señal de audio decodificada
CI información de configuración
AC canal de audio
AO objeto de audio
IPL señal de entrada de la etapa de limitación de picos
ITA señal de entrada de la etapa de adaptación del transductor
ICT información acerca de las características del transductor
IGS señal de salida de la etapa de normalización de sonoridad
OCF salida de la etapa de conversión del formato o de la etapa de renderizador de objetos
GSS señal de selección de secuencia de ganancia
CLA formato del canal
DI instrucciones de conversión descendente
PRL nivel de referencia del programa
IS valor de pico máximo para la etapa de limitación de picos
DTL nivel objetivo del decodificador
OMD objetos de metadatos
Referencias:
[0182]
[M30100] ISO/IEC JTC1/SC29/WG11 M30100, "Proposed Revision of Audio aspects of WD: Addition of Sample aspect ratio and further audio code-points", julio de 2013, Viena
[M30101] ISO/IEC JTC1/SC29/WG11 M30101, "Editors draft of 14496-12 PDAM 3 - Enhanced audio and other improvements", julio de 2013, Viena
[M30324] ISO/iEc JTC1/SC29/WG11 M30324, "Description of the Fraunhofer IIS Submission for the 3D-Audio CfP", julio de 2013, Viena
[M28901] ISO/IEC JTC1/SC29/WG11 M28901, "Enhanced Metadata for Dynamic Range Compression", abril de 2013, Incheon, Corea
Claims (16)
1. Decodificador de audio para la decodificación de una corriente de bits de audio y una corriente de bits de metadatos (MBS) relacionada con la corriente de bits de audio, comprendiendo el decodificador de audio:
una cadena de procesamiento de audio (4) configurada para recibir una señal de audio decodificada (DAS) derivada de la corriente de bits de audio y para ajustar las características de una señal de salida de audio (AOS) de la cadena de procesamiento de audio (4), comprendiendo la cadena de procesamiento de audio (4) una pluralidad de etapas de ajuste (5, 6, 10, 11, 12, 13, 14) que incluyen una etapa de control del intervalo dinámico (5) para ajustar un intervalo dinámico de la señal de salida de audio (AOS), una etapa de normalización de sonoridad (11) configurada para normalizar una sonoridad de la señal de salida de audio (AOS) y una etapa de prevención guiada de recortes (6) para prevenir recortes en la señal de salida de audio (AOS); y
un decodificador de metadatos (7) configurado para recibir la corriente de bits de metadatos (MBS) y para extraer las secuencias de ganancia de control del intervalo dinámico (DS) y las secuencias de ganancia de prevención guiada de recortes (GS) de la corriente de bits de metadatos (MBS), proporcionándose al menos una parte de las secuencias de ganancia de control del intervalo dinámico (DS) en la etapa de control del intervalo dinámico (5), y proporcionándose al menos una parte de las secuencias de ganancia de prevención guiada de recortes (GS) en la etapa de prevención guiada de recortes (6); y
una etapa de control de metadatos y parámetros (8) configurada para proporcionar metadatos y parámetros (DS, GS, CLA, DI, DTL, PRL, IS, OMD, ICT) al menos a una de las etapas de ajuste (5, 6, 10, 11, 12, 13, 14) sobre la base de la información de configuración (CI) recibida de una etapa que proporciona la configuración (9); donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de control del intervalo dinámico (DS) que se van a suministrar a la etapa de control del intervalo dinámico (5);
donde la etapa de control del intervalo dinámico (5) está configurada para recibir las secuencias de ganancia de control del intervalo dinámico (DS) para cada trama de audio de la etapa de control de metadatos y parámetros (8) en una forma no comprimida, donde los valores de ganancia de control del intervalo dinámico en el dominio de tiempo final se interpolan con una resolución temporal correspondiente a una resolución temporal de las muestras de audio, donde las ganancias de control del intervalo dinámico final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de control del intervalo dinámico final a canales y/u objetos;
donde la etapa de normalización de la sonoridad (11) está configurada para escalar su señal de entrada de audio (OCF) de tal manera que la señal de salida de audio (AOS) tenga un nivel de sonoridad objetivo, donde un factor de escala se deriva de una diferencia entre un nivel de referencia de programa (PRL) y un nivel objetivo de decodificador (DTL) y proporcionado por la etapa de control de metadatos y parámetros (8) a la etapa de normalización de sonoridad (11), donde el nivel de referencia del programa (PRL) se obtiene a partir de una información de sonoridad, mientras que el nivel objetivo de decodificador (DTL) es un parámetro de configuración del decodificador; y
donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de prevención de recorte guiada (GS) que se van a suministrar a la etapa de prevención de recortes guiada (6);
donde la etapa de prevención de recortes guiada (6) está configurada para recibir las secuencias de ganancia de prevención de recorte guiada (GS) para cada trama de audio desde la etapa de control de parámetros y metadatos (8) en una forma no comprimida, donde los valores de ganancia de prevención de recorte guiada en el dominio del tiempo final se interpolan con una resolución temporal correspondiente a la resolución temporal de las muestras de audio, donde las ganancias de prevención de recorte guiada final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de prevención de recorte guiada final a canales y/u objetos.
2. Decodificador de audio según la reivindicación 1, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) al menos dos secuencias de ganancia de control del intervalo dinámico (DS) para la misma trama de audio que comprende diferentes ganancias de control del intervalo dinámico.
3. Decodificador de audio según la reivindicación 1 o 2, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) una secuencia de ganancia de control del intervalo dinámico (DS) que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con canales de audio diferentes y/o con objetos de audio diferentes.
4. Decodificador de audio según una de las reivindicaciones 1 a 3, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) una secuencia de ganancia de control del intervalo dinámico (DS) que comprende al menos dos ganancias de control del intervalo dinámico relacionadas con diferentes bandas de frecuencia del decodificador de audio (3).
5. Decodificador de audio según una de las reivindicaciones 1 a 4, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) al menos dos secuencias de ganancia de prevención guiada de recortes (GS) que comprenden diferentes ganancias de prevención guiada de recortes.
6. Decodificador de audio según una de las reivindicaciones 1 a 5, donde el decodificador de metadatos (7) está configurado para extraer de la corriente de bits de metadatos (MBS) una secuencia de ganancia de prevención guiada de recortes (GS) que comprende al menos dos ganancias de prevención guiada de recortes relacionadas con canales de audio diferentes y/o con objetos de audio diferentes.
7. Decodificador de audio según una de las reivindicaciones 1 a 6, donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de control del intervalo dinámico (DS), cuál de la pluralidad de secuencias de ganancia de control del intervalo dinámico (DS) se suministra a la etapa de control del intervalo dinámico (5).
8. Decodificador de audio según una de las reivindicaciones 1 a 6, donde la etapa de control de metadatos y parámetros (8) está configurada para seleccionar, en el caso de que se reciba una pluralidad de secuencias de ganancia de prevención de recortes guiadas (GS), cuál de la pluralidad de secuencias de ganancia de prevención de recortes guiadas (GS) se suministran a la etapa de prevención de recortes guiada (6).
9. Decodificador de audio según una de las reivindicaciones 1 a 8, donde la etapa de control del intervalo dinámico (5) en la dirección del flujo de señal es la primera etapa de ajuste de la cadena de ajuste de audio (8).
10. Decodificador de audio según una de las reivindicaciones 1 a 9, donde la cadena de ajuste de audio (4) comprende una etapa de convertidor de formato (10) configurada para ajustar una configuración de canal de la señal de salida de audio (AOS).
11. Decodificador de audio según una de las reivindicaciones 1 a 10, donde la cadena de ajuste de audio (4) comprende una etapa de limitación de picos (12) configurada para limitar los picos de la salida de audio (AOS) en el caso de que se exceda un umbral en la dirección del flujo de la señal es la última etapa de ajuste de la cadena de ajuste de audio (4).
12. Decodificador de audio según una de las reivindicaciones 1 a 11, donde la cadena de ajuste de audio (4) comprende una etapa de renderizador de objetos (13) configurada para mezclar objetos de audio en canales de la señal de salida de audio (AOS).
13. Decodificador de audio según una de las reivindicaciones 1 a 12, donde la cadena de ajuste de audio (4) comprende una etapa de adaptación de transductor (14) configurada para ajustar las características de la señal de salida de audio (AOS) a un sistema de transductor utilizado para reproducir la señal de salida de audio (AOS).
14. Decodificador de audio según una de las reivindicaciones 1 a 13, donde la etapa de limitación de picos (12) en la dirección del flujo de la señal es la última etapa de ajuste de la cadena de ajuste de audio (4).
15. Procedimiento para el funcionamiento de un decodificador de audio (3) para la decodificación de una corriente de bits de audio y una corriente de bits de metadatos (MBS) relacionado con la corriente de bits de audio, comprendiendo el procedimiento las etapas de:
derivación de una señal de audio decodificada (DAS) de la corriente de bits de audio;
uso de una cadena de procesamiento de audio (4) que tiene una pluralidad de etapas de ajuste para ajustar las características de una señal de salida de audio (AOS) de la cadena de procesamiento de audio (4) que incluye el ajuste del intervalo dinámico de la señal de salida de audio (AOS) mediante una etapa de control del intervalo dinámico (5), que es una etapa de ajuste (5, 6, 10, 11, 12, 13, 14) de la cadena de ajuste (4); la normalización de una sonoridad de la señal de salida de audio (AOS) mediante una etapa de normalización de sonoridad (11) y la prevención de los recortes de la señal de audio de salida (AOS) mediante una etapa de prevención guiada de recortes (6), que es una etapa de ajuste (5, 6, 10, 11, 12, 13, 14) de la cadena de ajuste (4);
recepción, de parte del decodificador de metadatos (7), de la corriente de bits de metadatos (MBS) y extracción de las secuencias de ganancia de control del intervalo dinámico (DS) y las secuencias de ganancia de prevención guiada de recortes (GS) de la corriente de bits de metadatos (MBS);
suministro de al menos una parte de las secuencias de ganancia de control del intervalo dinámico (DS) a la etapa de control del intervalo dinámico (5);
suministro de al menos una parte de las secuencias de ganancia de prevención guiada de recortes (GS) a la etapa de prevención guiada de recortes (6) usando una etapa de control de metadatos y parámetros (8) para el suministro de metadatos y parámetros (DS, GS, CLA, DI, DTL, PRL, IS, OMD, ICT) al menos a una de las etapas de ajuste (5, 6, 10, 11, 12, 13, 14) sobre la base de la información de configuración (CI) recibida de una etapa que proporciona configuración (9);
uso de la etapa de control de metadatos y parámetros (8) para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de control del intervalo dinámico (DS) que se va a suministrar a la etapa de control del intervalo dinámico (5);
uso de la etapa de control del intervalo dinámico (5) para recibir las secuencias de ganancia de control del intervalo dinámico (DS) para cada trama de audio directa o indirectamente desde la etapa de control de parámetros y metadatos (8) en una forma no comprimida, donde los valores de ganancia de control del intervalo dinámico de dominio de tiempo final se interpolan con una resolución temporal correspondiente a una resolución temporal de las muestras de audio, donde las ganancias de control del intervalo dinámico final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de control del intervalo dinámico final a canales y/u objetos;
uso de la etapa de normalización de sonoridad (11) para escalar su señal de entrada de audio (OCF) de tal manera que la señal de salida de audio (AOS) tenga un nivel de sonoridad objetivo, donde un factor de escala se deriva de una diferencia entre un nivel de referencia de programa (PRL) y un nivel objetivo de decodificador (DTL) y proporcionado por la etapa de control de parámetros y metadatos (8) a la etapa de normalización de sonoridad (11), donde el nivel de referencia del programa (PRL) se obtiene de una información de sonoridad, mientras que el nivel objetivo de decodificador (DTL) es un parámetro de configuración del decodificador; uso de la etapa de control de metadatos y parámetros (8) para seleccionar una parte de la corriente de bits de metadatos (MBS) correspondiente a las secuencias de ganancia de prevención de recortes guiadas (GS) que se van a proporcionar a la etapa de prevención de recorte guiada (6); y
uso de la etapa de prevención de recorte guiada (6) para recibir las secuencias de ganancia de prevención de recorte guiada (GS) para cada trama de audio desde la etapa de control de parámetros y metadatos (8) en una forma no comprimida, donde los valores de ganancia de prevención de recorte guiada final en el dominio del tiempo son interpolados con una resolución temporal correspondiente a la resolución temporal de las muestras de audio, donde las ganancias de prevención de recorte guiada final se aplican a la señal de audio decodificada (DAS), donde se observa la asignación de una de las secuencias de prevención de recorte guiada final a canales y/u objetos.
16. Programa informático configurado para realizar, cuando se ejecuta en un ordenador o en un procesador, el procedimiento de la reivindicación anterior.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13189754 | 2013-10-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2900065T3 true ES2900065T3 (es) | 2022-03-15 |
Family
ID=49447470
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14786881T Active ES2732304T3 (es) | 2013-10-22 | 2014-10-20 | Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio |
ES19160596T Active ES2900065T3 (es) | 2013-10-22 | 2014-10-20 | Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14786881T Active ES2732304T3 (es) | 2013-10-22 | 2014-10-20 | Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio |
Country Status (20)
Country | Link |
---|---|
US (3) | US11170795B2 (es) |
EP (3) | EP3522157B1 (es) |
JP (2) | JP6588899B2 (es) |
KR (1) | KR101882898B1 (es) |
CN (2) | CN105814630B (es) |
AR (2) | AR098153A1 (es) |
AU (1) | AU2014339086B2 (es) |
BR (1) | BR112016008933B1 (es) |
CA (1) | CA2927664A1 (es) |
ES (2) | ES2732304T3 (es) |
MX (1) | MX358483B (es) |
MY (1) | MY181977A (es) |
PL (2) | PL3061090T3 (es) |
PT (2) | PT3061090T (es) |
RU (1) | RU2659490C2 (es) |
SG (1) | SG11201603116XA (es) |
TR (1) | TR201908748T4 (es) |
TW (1) | TWI571865B (es) |
WO (1) | WO2015059087A1 (es) |
ZA (1) | ZA201603299B (es) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2581810C (en) | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI529703B (zh) | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
CN104303229B (zh) | 2012-05-18 | 2017-09-12 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
TR201802631T4 (tr) | 2013-01-21 | 2018-03-21 | Dolby Laboratories Licensing Corp | Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder |
KR102071860B1 (ko) | 2013-01-21 | 2020-01-31 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화 |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
US9607624B2 (en) * | 2013-03-29 | 2017-03-28 | Apple Inc. | Metadata driven dynamic range control |
CN110083714B (zh) | 2013-04-05 | 2024-02-13 | 杜比实验室特许公司 | 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配 |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
US10095468B2 (en) | 2013-09-12 | 2018-10-09 | Dolby Laboratories Licensing Corporation | Dynamic range control for a wide variety of playback environments |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
CN110808723B (zh) | 2014-05-26 | 2024-09-17 | 杜比实验室特许公司 | 音频信号响度控制 |
CN112185401B (zh) | 2014-10-10 | 2024-07-02 | 杜比实验室特许公司 | 基于发送无关的表示的节目响度 |
CA3149389A1 (en) * | 2015-06-17 | 2016-12-22 | Sony Corporation | Transmitting device, transmitting method, receiving device, and receiving method |
US9837086B2 (en) * | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US9934790B2 (en) * | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
US10341770B2 (en) | 2015-09-30 | 2019-07-02 | Apple Inc. | Encoded audio metadata-based loudness equalization and dynamic equalization during DRC |
FR3044814A1 (fr) * | 2016-04-21 | 2017-06-09 | Continental Automotive France | Systeme et procede de controle du volume sonore dans un systeme multimedia |
EP3479378B1 (en) * | 2016-07-04 | 2023-05-24 | Harman Becker Automotive Systems GmbH | Automatic correction of loudness level in audio signals containing speech signals |
CN106504766B (zh) * | 2016-11-28 | 2019-11-26 | 湖南国科微电子股份有限公司 | 一种数字音频信号的动态范围压缩方法 |
CN111819863A (zh) | 2018-11-13 | 2020-10-23 | 杜比实验室特许公司 | 用音频信号及相关联元数据表示空间音频 |
CN109889170B (zh) * | 2019-02-25 | 2021-06-04 | 珠海格力电器股份有限公司 | 音频信号的控制方法和装置 |
CN116866816A (zh) | 2019-03-14 | 2023-10-10 | 高迪奥实验室公司 | 用于控制响度级的音频信号处理方法和装置 |
US11545166B2 (en) * | 2019-07-02 | 2023-01-03 | Dolby International Ab | Using metadata to aggregate signal processing operations |
WO2021021750A1 (en) * | 2019-07-30 | 2021-02-04 | Dolby Laboratories Licensing Corporation | Dynamics processing across devices with differing playback capabilities |
AU2021385196A1 (en) | 2020-11-24 | 2023-06-22 | Gaudio Lab, Inc. | Method for normalizing audio signal, and device therefor |
US11837254B2 (en) | 2021-08-03 | 2023-12-05 | Zoom Video Communications, Inc. | Frontend capture with input stage, suppression module, and output stage |
WO2023014738A1 (en) * | 2021-08-03 | 2023-02-09 | Zoom Video Communications, Inc. | Frontend capture |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070029647A (ko) * | 2004-01-16 | 2007-03-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 비트 스트림 프로세싱 방법 |
US7272567B2 (en) * | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
TW200638335A (en) * | 2005-04-13 | 2006-11-01 | Dolby Lab Licensing Corp | Audio metadata verification |
CN102237094B (zh) * | 2005-10-12 | 2013-02-20 | 三星电子株式会社 | 处理/发送比特流以及接收/处理比特流的方法和设备 |
CN101098201A (zh) * | 2006-06-29 | 2008-01-02 | 乐金电子(昆山)电脑有限公司 | 广播接收用移动装置的音频输出装置及其控制方法 |
CA2645915C (en) * | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
JP5530720B2 (ja) * | 2007-02-26 | 2014-06-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
CN101221766B (zh) * | 2008-01-23 | 2011-01-05 | 清华大学 | 音频编码器切换的方法 |
EP4407610A1 (en) * | 2008-07-11 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
US8315396B2 (en) * | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
ES2963744T3 (es) * | 2008-10-29 | 2024-04-01 | Dolby Int Ab | Protección de recorte de señal usando metadatos de ganancia de audio preexistentes |
US8600076B2 (en) * | 2009-11-09 | 2013-12-03 | Neofidelity, Inc. | Multiband DRC system and method for controlling the same |
TWI529703B (zh) * | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN101944362B (zh) * | 2010-09-14 | 2012-05-30 | 北京大学 | 一种基于整形小波变换的音频无损压缩编码、解码方法 |
JP5821431B2 (ja) * | 2011-09-02 | 2015-11-24 | 株式会社Jvcケンウッド | 音声信号加工装置、音声信号加工方法及びプログラム |
US9064497B2 (en) * | 2012-02-22 | 2015-06-23 | Htc Corporation | Method and apparatus for audio intelligibility enhancement and computing apparatus |
CN102768834B (zh) * | 2012-03-21 | 2018-06-26 | 新奥特(北京)视频技术有限公司 | 一种实现音频帧解码的方法 |
CN104303229B (zh) * | 2012-05-18 | 2017-09-12 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
US9805725B2 (en) * | 2012-12-21 | 2017-10-31 | Dolby Laboratories Licensing Corporation | Object clustering for rendering object-based audio content based on perceptual criteria |
CN116665683A (zh) * | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
US9173021B2 (en) * | 2013-03-12 | 2015-10-27 | Google Technology Holdings LLC | Method and device for adjusting an audio beam orientation based on device location |
US9559651B2 (en) * | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
CN103280221B (zh) * | 2013-05-09 | 2015-07-29 | 北京大学 | 一种基于基追踪的音频无损压缩编码、解码方法及系统 |
FR3006622B1 (fr) | 2013-06-07 | 2015-07-17 | Essilor Int | Procede de fabrication d'une lentille ophtalmique |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
-
2014
- 2014-10-20 SG SG11201603116XA patent/SG11201603116XA/en unknown
- 2014-10-20 AU AU2014339086A patent/AU2014339086B2/en active Active
- 2014-10-20 CN CN201480064722.1A patent/CN105814630B/zh active Active
- 2014-10-20 PL PL14786881T patent/PL3061090T3/pl unknown
- 2014-10-20 MX MX2016004921A patent/MX358483B/es active IP Right Grant
- 2014-10-20 EP EP19160596.3A patent/EP3522157B1/en active Active
- 2014-10-20 CN CN202010267349.7A patent/CN111580772B/zh active Active
- 2014-10-20 PT PT14786881T patent/PT3061090T/pt unknown
- 2014-10-20 PT PT191605963T patent/PT3522157T/pt unknown
- 2014-10-20 WO PCT/EP2014/072431 patent/WO2015059087A1/en active Application Filing
- 2014-10-20 PL PL19160596T patent/PL3522157T3/pl unknown
- 2014-10-20 RU RU2016119525A patent/RU2659490C2/ru active
- 2014-10-20 EP EP14786881.4A patent/EP3061090B1/en active Active
- 2014-10-20 EP EP21186145.5A patent/EP3951778A1/en active Pending
- 2014-10-20 ES ES14786881T patent/ES2732304T3/es active Active
- 2014-10-20 KR KR1020167013335A patent/KR101882898B1/ko active IP Right Grant
- 2014-10-20 TR TR2019/08748T patent/TR201908748T4/tr unknown
- 2014-10-20 MY MYPI2016000688A patent/MY181977A/en unknown
- 2014-10-20 ES ES19160596T patent/ES2900065T3/es active Active
- 2014-10-20 BR BR112016008933-2A patent/BR112016008933B1/pt active IP Right Grant
- 2014-10-20 CA CA2927664A patent/CA2927664A1/en active Pending
- 2014-10-20 JP JP2016525967A patent/JP6588899B2/ja active Active
- 2014-10-21 TW TW103136286A patent/TWI571865B/zh active
- 2014-10-22 AR ARP140103968A patent/AR098153A1/es active IP Right Grant
-
2016
- 2016-04-22 US US15/136,324 patent/US11170795B2/en active Active
- 2016-05-16 ZA ZA2016/03299A patent/ZA201603299B/en unknown
-
2018
- 2018-04-12 JP JP2018077152A patent/JP6768735B2/ja active Active
-
2019
- 2019-08-09 AR ARP190102271A patent/AR115941A2/es active IP Right Grant
-
2021
- 2021-02-11 US US17/174,269 patent/US11551703B2/en active Active
-
2022
- 2022-12-29 US US18/148,360 patent/US12051432B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2900065T3 (es) | Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio | |
US20200265845A1 (en) | Decoding apparatus and method, and program | |
US8892450B2 (en) | Signal clipping protection using pre-existing audio gain metadata | |
ES2912586T3 (es) | Descodificación de una señal de audio codificada usando perfiles DRC | |
KR20200143517A (ko) | 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화 |