ES2912586T3 - Descodificación de una señal de audio codificada usando perfiles DRC - Google Patents

Descodificación de una señal de audio codificada usando perfiles DRC Download PDF

Info

Publication number
ES2912586T3
ES2912586T3 ES20177137T ES20177137T ES2912586T3 ES 2912586 T3 ES2912586 T3 ES 2912586T3 ES 20177137 T ES20177137 T ES 20177137T ES 20177137 T ES20177137 T ES 20177137T ES 2912586 T3 ES2912586 T3 ES 2912586T3
Authority
ES
Spain
Prior art keywords
drc
loudness
audio data
audio signal
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20177137T
Other languages
English (en)
Inventor
Holger Hoerich
Jeroen Koppens
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2912586T3 publication Critical patent/ES2912586T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams

Abstract

Un método (600) para decodificar una señal (102) de audio codificada, en donde la señal (102) de audio codificada comprende una secuencia de tramas que comprenden datos y metadatos de audio codificados, incluyendo los metadatos una pluralidad de diferentes conjuntos de control de rango dinámico, referidos como ganancias DRC, en donde la señal de audio codificada comprende además una indicación de un nivel de sonoridad de la señal de audio, en donde los metadatos indican una pluralidad de perfiles DRC para la señal de audio codificada, en donde cada perfil DRC comprende datos de definición que definen un rango de niveles de referencia de salida para los que el perfil DRC es aplicable, y en donde cada conjunto de ganancias DRC corresponde a uno de la pluralidad de perfiles DRC, comprendiendo el método (600) establecer un nivel de referencia de salida deseado; estando el método caracterizado por comprender además: seleccionar un perfil DRC específico para el que el rango aplicable de niveles de referencia incluya el nivel de referencia de salida deseado; extraer los datos y metadatos de audio de la señal de audio codificada; extraer de los metadatos, y aplicar, las ganancias DRC correspondientes al perfil DRC específico seleccionado a los datos de audio extraídos para ajustar el rango dinámico de los datos de audio extraídos obteniendo de este modo los datos de audio ajustados al rango dinámico, en donde las ganancias DRC que corresponden al perfil DRC específico seleccionado son temporalmente equidistantes; determinar una ganancia relacionada a la sonoridad en base a la indicación del nivel de sonoridad de la señal de audio y el nivel de referencia de salida deseado para provocar un cambio del nivel de sonoridad de los datos de audio al nivel de referencia de salida deseado; aplicar la ganancia relacionada a la sonoridad a los datos de audio ajustados al rango dinámico para obtener datos de audio ajustados a la sonoridad que tienen el nivel de referencia de salida deseado; y generar elementos de datos de audio de salida a partir de los datos de audio ajustados a la sonoridad.

Description

DESCRIPCIÓN
Descodificación de una señal de audio codificada usando perfiles DRC
Referencia cruzada a la solicitud relacionada
Esta solicitud es una solicitud divisional europea de la solicitud de patente europea EP 18202206.1 (referencia: D14094EP02), cuyo formulario OEP 1001 fue presentado el 24 de octubre de 2018.
Campo técnico
El presente documento se relaciona al procesamiento de señales de audio. En concreto, el presente documento se relaciona con un método y un sistema correspondiente para transmitir perfiles de Control de Rango Dinámico (DRC) de una manera eficiente en ancho de banda.
Antecedentes
La creciente popularidad de los dispositivos de consumo de medios ha creado nuevas oportunidades y retos para los creadores y distribuidores de contenido de medios para la reproducción en estos dispositivos, así como para los diseñadores y fabricantes de los dispositivos. Muchos dispositivos de consumo son capaces de reproducir un amplio rango de tipos y formatos de contenido de medios que incluyen aquellos asociados a menudo con el contenido de audio de alta calidad, de amplio ancho de banda y de amplio rango dinámico para HDTV, Blu-ray o DVD. Los dispositivos de procesamiento de medios se puede usar para reproducir este tipo de contenido de audio bien en sus propios transductores acústicos internos o en transductores externos tales como auriculares o sistemas de cine en casa; sin embargo, todos estos sistemas y entornos de reproducción plantean requisitos significativamente diferentes sobre el rango dinámico de la señal de audio debido a los niveles de ruido variantes en el entorno o debido a la capacidad limitada del sistema de reproducción para reproducir los niveles de presión acústica requeridos sin distorsión. Limitar el rango dinámico dependiendo del entorno es un enfoque para proporcionar alta calidad e inteligibilidad a través de un amplio rango de diferentes niveles de representación que tengan diferentes capacidades de representación y entornos de escucha, esto es, a través de un amplio rango de modos de representación. Las técnicas para ajustar un rango dinámico de una señal de audio codificado en una etapa de reproducción son conocidas en la técnica anterior a partir de los siguientes documentos: “Sonoridad Inteligente AC-3, E-AC-3 y AC-4, Señalización DRC de Conformidad & Avanzada V1.00”, Laboratorios Dolby Inc., 6 de abril, 2014; ETSI TS 103190 V1.1.1 (2014-04); WO2014/113471 A1.
El presente documento aborda el problema técnico de proporcionar a los creadores y distribuidores de contenido de medios con medios de ancho de banda eficiente para permitir la reproducción de señales de audio a alta calidad e inteligibilidad en un amplio rango de diferentes dispositivos de representación que tengan diferentes capacidades de representación.
Compendio
La invención proporciona un método para decodificar según la reivindicación 1, un decodificador según la reivindicación 9 y un producto de programa de ordenador según la reivindicación 14. Debe tenerse en cuenta que los métodos y sistemas incluyendo sus realizaciones preferidas tal como se describen en la presente solicitud de patente pueden ser usadas por separado o en combinación con los demás métodos y sistemas divulgados en este documento.
Breve descripción de los dibujos
A continuación se explica la invención de una manera ejemplar con referencia a los dibujos adjuntos en donde La Fig. 1 y la Fig. 2 ilustran un decodificador de audio de ejemplo y un codificador de audio de ejemplo, respectivamente;
La Fig. 3 y la Fig. 4 ilustran curvas de compresión de rango dinámico de ejemplo;
La Fig. 5 ilustra una secuencia de ejemplo de tramas; y
La Fig. 6 muestra un diagrama de flujo de un método de ejemplo para seleccionar un perfil DRC.
Descripción detallada
Tal como se indicó anteriormente, el presente documento aborda el problema técnico de permitir a un diseñador y/o un distribuidor de contenido de audio controlar la calidad y la inteligibilidad del contenido de audio para diferentes tipos de modos de representación. Un modo de representación de ejemplo es un modo de representación de cine en casa, donde el contenido de audio es reproducido usando transductores que normalmente permiten un muy amplio rango dinámico en un entorno silencioso. Otro modo de representación de ejemplo es un modo de panel plano, donde el contenido de audio es reproducido usando un transductor de por ejemplo una TV, que normalmente permite un rango dinámico reducido comparado con el de un sistema de cine en casa. Un modo de representación de ejemplo adicional es un modo de altavoz portátil, donde el contenido de audio es reproducido usando los altavoces de un dispositivo electrónico portátil (tal como un teléfono inteligente). El rango dinámico de este modo de representación es normalmente pequeño comparado con los modos de representación anteriormente mencionados y a menudo el entorno es ruidoso. Otro modo de representación de ejemplo es un modo de auricular portátil, donde el contenido de audio es reproducido usando auriculares en conjunción con un dispositivo electrónico portátil. El rango dinámico está limitado pero normalmente es mayor que el rango dinámico que es proporcionado por los altavoces del dispositivo electrónico portátil.
Para permitir una gran calidad e inteligibilidad para los diferentes modos de representación, se pueden proporcionar diferentes perfiles DRC (Control de Rango Dinámico) para los diferentes modos de representación junto con el contenido de audio. El contenido de audio se puede transmitir en una secuencia de tramas. La secuencia de tramas puede comprender tramas I (esto es independientes) que se pueden decodificar de manera independiente a partir de las tramas anteriores o posteriores. Además, la secuencia de tramas puede comprender otros tipos de tramas (por ejemplo tramas P y/o B) que normalmente muestran una dependencia con respecto a la trama anterior y/o posterior. Al menos algunas de las tramas de la secuencia de tramas pueden comprender una pluralidad de diferentes perfiles DRC para una pluralidad de diferentes modos de representación. En concreto, las tramas I de la secuencia de tramas pueden comprender la pluralidad de perfiles DRC.
Insertando una pluralidad de diferentes perfiles DRC en una secuencia de tramas de audio, un decodificador de audio es capaz de seleccionar un perfil DRC apropiado para un modo de representación concreto. Como resultado, se puede asegurar que la señal de audio representada tiene una alta calidad (especialmente sin cortes o sin la distorsión introducida por los transductores) y una alta inteligibilidad.
A continuación, se describen diversos aspectos del control de rango dinámico. Sin el control de rango dinámico, la información de audio de entrada (por ejemplo, las muestras PCM, las muestras tiempo-frecuencia en una matriz QMF, etc.)se reproduce a menudo en un dispositivo de reproducción a niveles sonoros que son inapropiados para el entorno de reproducción específico del dispositivo de reproducción (esto es, incluyendo las limitaciones de reproducción físicas y/o mecánicas del dispositivo), ya que el entorno de reproducción específico del dispositivo de reproducción puede ser diferente de un entorno de reproducción objetivo para el que el contenido de audio codificado ha sido codificado en un dispositivo de codificación.
Las técnicas tal como se describen en la presente memoria se pueden usar para soportar el control de rango dinámico de una amplia variedad de contenido de audio personalizado para cualquiera de entre una amplia variedad de entornos de reproducción mientras se mantienen las calidades perceptuales del contenido de audio y mientras se mantiene el intento del artista de adaptar el contenido a diferentes entornos de escucha.
El Control de Rango Dinámico (DRC) se refiere a las operaciones de procesamiento de audio variantes en el tiempo, dependientes de nivel que alteran (por ejemplo, comprimen, cortan, expanden, impulsan, etc.) la señal para convertir un rango dinámico de entrada de los niveles de sonoridad en contenido de audio a un rango dinámico de salida que es diferente del rango dinámico de entrada. Por ejemplo, en un escenario de control del rango dinámico, los sonidos suaves se pueden hacer corresponder (por ejemplo, impulsar, etc.) a niveles de sonido mayores y los sonidos fuertes se pueden hacer corresponder (por ejemplo, cortar, etc.) a valores de sonido inferiores. Como resultado en un dominio de sonoridad, un rango de salida de los niveles de sonoridad resulta menor que el rango de entrada de niveles de sonoridad en este ejemplo. En algunas realizaciones, el control de rango dinámico, sin embargo, puede ser reversible de manera que el rango original se restaura. Por ejemplo, se puede realizar una operación de expansión para recuperar el rango original siempre y cuando los niveles de sonoridad hechos corresponder en el rango dinámico de salida, así como hechos corresponder a partir de los niveles de sonoridad originales, estén en o por debajo de un nivel de corte, cada nivel de sonoridad original único es hecho corresponder a un nivel de sonoridad de salida único, etc.
Las técnicas DRC tal como se describen en la presente memoria se pueden usar para proporcionar una mejor experiencia de escucha en ciertos entornos o situaciones de reproducción. Por ejemplo, los sonidos suaves en un entorno ruidoso pueden ser enmascarados por el ruido que hace a los sonidos suaves inaudibles. Al contrario, los sonidos fuertes pueden no ser deseados en algunas situaciones, por ejemplo, molestando a los vecinos (por ejemplo dentro de un modo de escucha “de sesión de noche”). Muchos dispositivos, normalmente con altavoces con pequeños factores de forma, no pueden reproducir sonido a altos niveles de salida o no pueden reproducir sonido sin una distorsión perceptible. En algunos casos los niveles de señal inferiores se pueden reproducir por debajo del umbral de escucha humano. Las técnicas DRC puede realizar la correspondencia de los niveles de sonoridad de entrada a los niveles de sonoridad de salida en base a ganancias DRC (por ejemplo, factores de escala que escalan las amplitudes de audio, las relaciones de impulso, las relaciones de corte, etc.) buscadas con una curva de compresión de rango dinámico.
Una curva de compresión de rango dinámico se refiere a una función (por ejemplo, una tabla de búsqueda, una curva, unas líneas de múltiples segmentos a trozos, etc.) que hace corresponder los niveles de sonoridad de entrada individuales (por ejemplo, de sonidos distintos de diálogos, etc.) como determinados a partir de tramas de datos de audio individuales a los niveles de sonoridad de salida correspondientes, y en consecuencia a las ganancias individuales o las ganancias de control de rango dinámico para traducir los niveles de sonoridad de entrada a los correspondientes niveles de sonoridad de salida. Cada una de las múltiples ganancias indica una cantidad de ganancia a ser aplicada a la señal para hacerle corresponder un nivel de sonoridad de entrada individual correspondiente al nivel de sonoridad de salida previsto. Los niveles de sonoridad de salida después de aplicar las ganancias individuales representan los niveles de sonoridad objetivos para el contenido de audio en las tramas de datos de audio individuales en un entorno de reproducción específico.
Además de especificar las correspondencias entre las ganancias y los niveles de sonoridad, una curva de compresión de rango dinámico puede incluir, o puede ser proporcionada con, tiempos de liberación y tiempos de ataque específicos para aplicar las ganancias específicas. Un ataque se refiere a un aumento de la energía (o de sonoridad) de la señal entre muestras de tiempo sucesivas, mientras que una liberación se refiere a una disminución de la energía (o sonoridad) entre muestras de tiempo sucesivas. Un tiempo de ataque (por ejemplo 10 milisegundos, 20 milisegundos, etc.) se refiere a una constante de tiempo usada en las ganancias DRC de suavizado cuando la señal correspondiente está en un modo de ataque. Un tiempo de liberación (por ejemplo, 80 milisegundos, 100 milisegundos, etc.) se refiere a una constante de tiempo usada en las ganancias DRC de suavizado cuando la señal correspondiente está en un modo de liberación. En algunas realizaciones, de manera adicional, opcional o alternativa, las constantes de tiempo se usan para suavizar la energía (o sonoridad) de la señal antes de determinar la ganancia DRC.
Las diferentes curvas de compresión de rango dinámico pueden corresponder a diferentes entornos de reproducción (esto es a diferentes modos de representación). Por ejemplo, una curva de compresión de rango dinámico para un entorno de reproducción de una TV de panel plano puede ser diferente de la curva de compresión de rango dinámico para un entorno de reproducción de un dispositivo portátil. Un dispositivo de reproducción puede tener dos o más entornos de reproducción. Por ejemplo, una primera curva de compresión de rango dinámico para un primer entorno de reproducción de un dispositivo portátil con altavoces puede ser diferente de una segunda curva de compresión de rango dinámico para un segundo entorno de reproducción del mismo dispositivo portátil con auricular.
La Fig. 1 muestra un diagrama de bloques de componentes de ejemplo de un decodificador 100 de audio. El decodificador 100 de audio comprende un extractor 104 de datos, un controlador 106 de rango dinámico, y un representador 108. El extractor 104 de datos se configura para recibir una señal 102 de entrada codificada. Una señal 102 de entrada codificada tal como se describe en la presente memoria puede ser un flujo de bits que contiene tramas (especialmente una secuencia de tramas de audio) de datos de audio de entrada codificados (por ejemplo, comprimidos, etc.) y posiblemente metadatos. El flujo de bits puede ser un flujo de bits AC-4. El extractor 104 de datos se configura para extraer/decodificar las tramas de datos de audio de entrada y los metadatos desde la señal 102 de entrada codificada. Cada una de las tramas de datos de audio de entrada comprende una pluralidad de bloques de datos de audio codificados cada uno de los cuales representa una pluralidad de muestras de audio. Cada trama representa un intervalo de tiempo (por ejemplo, constante) que comprende un cierto número de muestras de audio. El tamaño de trama puede variar con la tasa de muestras y la tasa de datos codificados. Las muestras de audio son elementos de datos de audio cuantificados (por ejemplo, muestras PCM de entrada, muestras de tiempo-frecuencia de entrada en una matriz QMF, etc.) que representan contenido espectral en una, dos o más bandas de frecuencias (de audio) o rangos de frecuencias. Los elementos de datos de audio cuantificados en las tramas de datos de audio de entrada pueden representar ondas de presión sonora en un dominio digital (cuantificado). Los elementos de datos de audio cuantificados pueden cubrir un rango finito de niveles de sonoridad a o por debajo de un valor máximo posible (por ejemplo, un nivel de corte, un nivel de sonoridad máximo, etc.).
Los metadatos pueden ser usados por el decodificador 100 de audio para procesar las tramas de datos de audio de entrada. Los metadatos pueden incluir una variedad de parámetros operacionales en relación con una o más operaciones a ser realizadas por el decodificador 100, una o más curvas de compresión de rango dinámico (según la invención los metadatos indican uno o más perfiles DRC), parámetros de normalización en relación con niveles de sonoridad de diálogo representados en las tramas de datos de audio de entrada, etc. Un nivel de sonoridad de diálogo puede referirse a un nivel (por ejemplo, psico acústico, perceptual, etc.) de sonoridad de diálogo, sonoridad de programa, sonoridad de diálogo promedio, etc., en un programa completo (por ejemplo, una película, un programa de TV, una difusión de radio, etc.), una parte de un programa, un diálogo de un programa, etc.
La operación y funciones del decodificador 100, o algunos o todos los módulos (por ejemplo, los datos del extractor 104, el controlador 106 de rango dinámico, etc.), se pueden adaptar en respuesta a los metadatos extraídos desde la señal 102 de entrada codificada. Por ejemplo, los metadatos - que incluyen pero no se limitan a las curvas de compresión de rango dinámico, los niveles de sonoridad de diálogo, etc. - pueden ser usados por el decodificador 100 para generar elementos de datos de audio de salida (por ejemplo, muestras PCM de salida, muestras de tiempo-frecuencia de salida en una matriz QMF, etc.) en el dominio digital. Los elementos de datos de salida pueden ser usados después para accionar los canales de audio o los altavoces para alcanzar un nivel de sonoridad específico o de reproducción de referencia durante la reproducción en un entorno de reproducción específico.
El controlador 106 de rango dinámico se puede configurar para recibir algunos o todos los elementos de datos de audio en las tramas de datos de audio de entrada y los metadatos, realizar las operaciones de procesamiento de audio (por ejemplo, las operaciones de control de rango dinámico, las operaciones de suavizado de ganancia, las operaciones de limitación de ganancia, etc.) en los elementos de datos de audio en las tramas de datos de audio de entrada en base a al menos en parte los metadatos extraídos desde la señal 102 de audio codificada, etc.
En concreto, el controlador 106 de rango dinámico puede comprender un selector 110, un calculador 112 de sonoridad y/o una unidad 114 de ganancia DRC. El selector 110 se puede configurar para determinar una configuración de altavoz (por ejemplo, modo cine en casa, modo panel plano, modo dispositivo portátil con altavoz, modo dispositivo portátil con auriculares, modo de configuración de altavoz 5.1, modo de configuración de altavoz 7.1, etc.) en relación con un entorno de reproducción específico en el decodificador 100. La configuración de altavoz puede ser referida también como modo de representación. Además, el selector 110 se puede configurar para seleccionar una curva de compresión de rango dinámico específica (esto es un perfil DRC) a partir de las curvas de compresión de rango dinámico (esto es a partir de la pluralidad de perfiles DRC) extraídas a partir de los metadatos de la señal 102 de entrada codificada.
El calculador 112 de sonoridad se puede configurar para calcular uno o más tipos de niveles de sonoridad como representados por los elementos de datos de audio en las tramas de datos de audio de entrada. Los ejemplos de los tipos de niveles de sonoridad incluyen, pero no se limitan a: cualquiera de los niveles de sonoridad individuales sobre bandas de frecuencias individuales en canales individuales sobre intervalos de tiempo individuales, niveles de sonoridad de banda ancha (o banda amplia) sobre un rango de frecuencias ancho (o amplio) en canales individuales, niveles de sonoridad como determinados a partir de o suavizados en más de un bloque o trama de datos de audio, niveles de sonoridad suavizados en uno o más intervalos de tiempo, etc. Cero, uno o más de estos niveles de sonoridad pueden ser alterados por el decodificador 100 con el propósito del control del rango dinámico. Para determinar los niveles de sonoridad, el calculador 112 de sonoridad puede determinar una o más propiedades de onda sonora física dependiente del tiempo tales como los niveles de presión espacial y/o local en las frecuencias de audio específicas, etc., como representados por los elementos de datos de audio en las tramas de datos de audio de entrada. El calculador 112 de sonoridad puede usar la una o más propiedades de onda física variantes en el tiempo para derivar uno o más tipos de niveles de sonoridad en base a una o más funciones psico acústicas que modelan la percepción de sonoridad humana. Una función psico acústica puede ser una función no lineal - tal como construida en base a un modelo del sistema auditivo humano - que convierte/hace corresponder los niveles de presión espaciales específicos a frecuencias de audio específicas a una sonoridad específica para las frecuencias de audio específicas.
Un nivel de sonoridad (por ejemplo, de banda ancha, banda amplia, etc.) sobre múltiples frecuencias o múltiples bandas de frecuencias (audio) se puede derivar mediante la integración de niveles de sonoridad específicos sobre las múltiples frecuencias o las múltiples bandas de frecuencias (de audio). Niveles de sonoridad promediados en el tiempo, suavizados, etc., sobre uno o más intervalos de tiempo (por ejemplo, mayores que los representados por los elementos de datos de audio en un bloque o trama de datos de audio, etc.) pueden ser obtenidos usando uno o más filtros de suavizado que se implementan como parte de las operaciones de procesamiento de audio en el decodificador 100. Otro método de ejemplo para determinar un nivel de sonoridad (de banda ancha) se especifica en la ITU-R BS.1770. El método que se especifica en la ITU-R BS.1770 aplica filtrado en el dominio del tiempo en una señal de audio de entrada en el dominio del tiempo y después calcula un nivel RMS (valor cuadrático medio) en cada canal de la señal de audio de entrada antes de integrarla sobre los canales y pasar el nivel de sonoridad resultante.
Se puede calcular un nivel de sonoridad especificado para las diferentes bandas de frecuencias por bloque de datos de audio de ciertas muestras (por ejemplo, 256, etc.). Los prefiltros se pueden usar para aplicar ponderación de frecuencia (por ejemplo, similar a la ponderación-B IEC, etc.) a los niveles de sonoridad específicos en la integración de los niveles de sonoridad específicos en un nivel de sonoridad de banda ancha (o banda amplia). Se puede realizar la suma de los niveles de sonoridad amplios sobre dos o más canales (por ejemplo, izquierdo central, derecho central, central, izquierdo envolvente, derecho envolvente, etc.) para proporcionar un nivel de sonoridad general de los dos o más canales.
Un nivel de sonoridad general puede referirse a un nivel de sonoridad de banda ancha (banda amplia) en un único canal (por ejemplo, el central, etc.) de una configuración de altavoz. Un nivel de sonoridad general puede referirse a un nivel de sonoridad de banda ancha (banda amplia) en una pluralidad de canales. La pluralidad de canales pueden ser todos los canales en una configuración de altavoz (esto es para un modo de representación). De manera adicional, opcional o alternativa, la pluralidad de canales puede comprender un subconjunto de canales (por ejemplo, un subconjunto de canales que comprende el izquierdo frontal, derecho frontal, y el efecto de baja frecuencia (LFE); un subconjunto de canales que comprende el izquierdo envolvente y el derecho envolvente; un subconjunto de canales que comprende el central, etc.) en una configuración de altavoz.
Se puede usar un nivel de sonoridad (por ejemplo, de banda ancha, banda amplia, general, específico, etc.) como entrada para buscar una ganancia DRC correspondiente (por ejemplo, estática, pre suavizada, pre limitada, etc.) de la curva de comprensión de rango dinámico seleccionada. El nivel de sonoridad a ser usado como entrada para buscar la ganancia DRC puede ser ajustada o normalizada primero con respecto al nivel de sonoridad de diálogo de los metadatos extraídos de la señal 102 de audio codificada y/o con respecto a un nivel de referencia de salida del modo de representación. Los ajustes y la normalización relacionada al ajuste del nivel de sonoridad de diálogo/nivel de referencia de salida pueden ser realizados en una parte del contenido de audio en la señal 102 de audio codificada en un dominio de no sonoridad (por ejemplo, un dominio SPL, etc.), antes de que los niveles de presión espacial específicos representados en la parte del contenido de audio en la señal 102 de audio codificada sean convertidos o hechos corresponder a niveles de sonoridad específicos de la parte del contenido de audio en la señal 102 de audio codificada.
La unidad 114 de ganancia DRC se puede configurar con un algoritmo DRC para generar ganancias (por ejemplo, para el control de rango dinámico, para la limitación de ganancia, para el suavizado de ganancia, etc.) y para aplicar las ganancias a uno o más niveles de sonoridad en el uno o más tipos de niveles de sonoridad representados por los elementos de datos de audio en las tramas de datos de audio de entrada para conseguir los niveles de sonoridad objetivo para el entorno de reproducción específico. La aplicación de las ganancias tal como se describe en la presente memoria (por ejemplo, las ganancias DRC, etc.) puede ocurrir en el dominio de la sonoridad. A modo de ejemplo, las ganancias se pueden generar en base al cálculo de sonoridad (que puede estar en Sonios o sólo el valor SPL compensado para el nivel de sonoridad de diálogo, por ejemplo, sin conversión), suavizado y aplicado directamente a la señal de entrada. Las técnicas tal como se describen en la presente memoria puede aplicar las ganancias a una señal en el dominio de sonoridad, y después convertir la señal del dominio de sonoridad de vuelta al dominio SPL (lineal) y calcular las ganancias correspondientes que se han de aplicar a la señal evaluando la señal antes y después de que se aplicara la ganancia a la señal en el dominio de sonoridad. La relación (o diferencia cuando se representa en una representación dB logarítmica) determina después la ganancia correspondiente para la señal.
El algoritmo DRC puede operar con una pluralidad de parámetros DRC. Los parámetros DRC incluyen el nivel de sonoridad de diálogo que ya se ha calculado e incrustado en la señal 102 de audio codificada por un codificador 150 de flujo ascendente (tal como se describe en el contexto de la Fig. 2) y se puede obtener a partir de los metadatos en la señal 102 de audio codificada por el decodificador 100. El nivel de sonoridad de diálogo desde el codificador 150 de flujo ascendente indica un nivel de sonoridad de diálogo promedio (por ejemplo, por programa, en relación con la energía de una onda seno de 1 kHz a escala completa, en relación con la energía de una onda rectangular de referencia, etc.). El nivel de sonoridad de diálogo extraído desde la señal 102 de audio codificada se puede usar para reducir las diferencias de nivel de sonoridad entre programas. El nivel de sonoridad de diálogo de referencia se puede establecer al mismo valor entre los diferentes programas en el mismo entorno de reproducción específico en el decodificador 100. En base al nivel de sonoridad de diálogo de los metadatos, la unidad 114 de ganancia DRC puede aplicar una ganancia relacionada a la sonoridad de diálogo a cada bloque de datos de audio en un programa de manera que un nivel de sonoridad de diálogo (o nivel de referencia de salida) promediado sobre una pluralidad de bloques de datos de audio del programa esté aumentado/disminuido a un nivel de sonoridad de diálogo de referencia (por ejemplo, pre configurado, por defecto del sistema, configurable por usuario, dependiente de perfil, etc.) para el programa. El nivel de sonoridad de diálogo se puede usar también para calibrar el algoritmo DRC, especialmente la banda nula del algoritmo DRC se puede ajustar al nivel de sonoridad de diálogo. De manera alternativa, según la invención el nivel de referencia de salida deseado se usa para calibrar el algoritmo DRC cuando el algoritmo DRC se aplica a una señal a la que se ha aplicado una ganancia para cambiar el nivel de sonoridad de diálogo para ser igual al nivel de referencia de salida deseado. El nivel de sonoridad de diálogo puede corresponder a un así llamado parámetro dialnorm, si se ha aplicado paso de voz para determinar el parámetro dialnorm. En algunas realizaciones, el nivel de sonoridad de diálogo corresponde a un parámetro dialnorm que no está determinado usando paso de voz, sino mediante un paso basado en un umbral de nivel de sonoridad.
Las ganancias DRC se pueden usar para abordar las diferencias de nivel de sonoridad intraprograma impulsando o cortando partes de la señal en sonidos suaves o fuertes de acuerdo con la curva de compresión de rango dinámico seleccionada. Una o más de estas ganancias DRC se pueden calcular/determinar por el algoritmo DRC en base a la curva de compresión de rango dinámico seleccionada y los niveles de sonoridad (por ejemplo, de banda ancha, banda amplia, general, específica, etc.) según son determinados a partir de uno o más de los bloques de datos de audio, tramas de datos de audio, etc. correspondientes.
Los niveles de sonoridad usados para determinar las ganancias DRC (por ejemplo, estático, pre suavizado, limitante de preganancia, etc.) buscando la curva de compresión de rango dinámico seleccionada se pueden calcular en intervalos cortos (por ejemplo, aproximadamente de 5,3 milisegundos, etc.). El tiempo de integración del sistema auditivo humano (por ejemplo, de aproximadamente 200 milisegundos, etc.) puede ser mucho mayor. Las ganancias DRC obtenidas a partir de la curva de compresión de rango dinámico seleccionada pueden ser suavizadas con una constante de tiempo para tener en cuenta el largo tiempo de integración del sistema auditivo humano. Para efectuar tasas rápidas de cambios (aumentos o disminuciones) en los niveles de sonoridad, se pueden usar grandes constantes de tiempo para los cambios en los niveles de sonoridad en los grandes intervalos de tiempo correspondientes a las grandes constantes de tiempo.
El sistema auditivo humano puede reaccionar a niveles de sonoridad que aumentan y niveles de sonoridad que disminuyen con un tiempo de integración diferente. Las diferentes constantes de tiempo se pueden usar para suavizar las ganancias DRC estáticas buscadas a partir de las curvas de compresión de rango dinámico seleccionadas, dependiendo de si el nivel de sonoridad está en aumento o disminución. Por ejemplo, en correspondencia con las características del sistema auditivo humano, los ataques (aumento del nivel de sonoridad) se pueden suavizar con constantes de tiempo relativamente cortas (por ejemplo, tiempos de ataque, etc.), mientras que las liberaciones (disminución del nivel de sonoridad) se pueden suavizar con constantes de tiempo relativamente grandes (por ejemplo, tiempo de liberación, etc.).
Una ganancia DRC para una parte (por ejemplo, uno o más bloques de datos de audio, tramas de datos de audio, etc.) de contenido de audio se puede calcular usando un nivel de sonoridad determinado a partir de la parte de contenido de audio. El nivel de sonoridad a ser usado para buscar en la curva de compresión de rango dinámico seleccionada puede ser ajustado primero con respecto a (por ejemplo, en relación con, etc.) un nivel de sonoridad de diálogo (por ejemplo, en un programa del que el contenido de audio es una parte, etc.) en los metadatos extraídos de la señal 102 de audio codificada.
Se puede especificar o establecer un nivel de sonoridad de diálogo de referencia / nivel de referencia de salida (por ejemplo, -31 dBFS en el modo “Línea”, -20 dBFS en el modo “RF”, etc.) para el entorno de reproducción específico en el decodificador 100. De manera adicional, alternativa u opcional, en algunas realizaciones, los usuarios pueden tener el control sobre la configuración o el cambio del nivel de sonoridad de diálogo de referencia en el decodificador 100. La unidad 114 de ganancia DRC se configura para determinar una ganancia relacionada a la sonoridad del diálogo al contenido de audio para provocar un cambio desde el nivel de sonoridad de diálogo de entrada al nivel de sonoridad de diálogo de referencia como el nivel de sonoridad de diálogo de salida.
El representador 108 de audio se puede configurar para generar los datos 116 de audio específicos de canal (por ejemplo, de multi canal, etc.) para la configuración específica del altavoz después de aplicar ganancias determinadas en base al DRC, la limitación de ganancia, el suavizado de ganancia, etc., a los datos de audio de entrada extraídos de la señal 102 de audio codificada. Los datos 116 de audio específicos de canal se pueden usar para accionar altavoces, auriculares, etc., representados en la configuración de altavoz. De manera adicional y/u opcional, el decodificador 100 se puede configurar para realizar una o más de otras operaciones en relación con el procesamiento, representación, mezcla descendente, remuestreo, etc., en relación con los datos de audio de entrada.
Las técnicas como las descritas en la presente memoria se pueden usar con una variedad de configuraciones de altavoz correspondientes a una variedad de diferentes configuraciones de sonido envolvente (por ejemplo, 2.0, 3.0, 4.0, 4.1, 4.1, 5.1, 6.1, 7.1, 7.2, 10.2, una configuración 10-60 de altavoz, una configuración 60+ de altavoz, señales objetivo o combinaciones de señales objetivo, etc.) y una variedad de diferentes configuraciones de entorno de representación (por ejemplo, cine, parque, salas de ópera, salas de conciertos, bares, casas, auditorios, etc.).
La Fig. 2 ilustra un codificador 150 de ejemplo. El codificador 150 de ejemplo puede comprender una interfaz 152 de contenido de audio, un analizador 154 de sonoridad de diálogo, un repositorio 156 de referencia de DRC y un codificador 158 de señal de audio. El codificador 150 puede ser una parte de un sistema de difusión, un servidor de contenido basado en internet, y sistema operador de red a través de aire, un sistema de producción de película, etc. La interfaz 152 de contenido de audio se puede configurar para recibir contenido 160 de audio y una entrada 162 de control de contenido para generar una señal 102 de audio codificada en base a al menos algo o todo del contenido 160 de audio y la entrada 162 de control de contenido de audio. Por ejemplo, la interfaz 152 de contenido de audio se puede usar para recibir el contenido 160 de audio y la entrada 162 de control de contenido de audio desde un creador de contenido, un proveedor de contenido, etc.
El contenido 160 de audio puede constituir alguno o todos los datos de medios globales que comprenden sólo audio, audiovisual, etc. El contenido 160 de audio puede comprender una o más partes de un programa, un programa, varios programas, uno o más anuncios, etc.
El analizador 154 de sonoridad de diálogo se puede configurar para determinar/establecer uno o más niveles de sonoridad de diálogo de una o más partes (por ejemplo, uno o más programas, uno o más anuncios, etc.) del contenido 152 de audio. El contenido de audio puede estar representado por uno o más conjuntos de pistas de audio. El contenido de audio de diálogo del contenido de audio puede estar en pistas de audio separadas y/o al menos una parte del contenido de audio de diálogo del contenido de audio puede estar en pistas de audio que comprenden contenido de audio de no diálogo.
La entrada 162 de control de contenido de audio puede comprender algo o todo de la entrada de control de usuario, la entrada de control proporcionada por un sistema/dispositivo externo al codificador 150, la entrada de control desde un creador de contenido, la entrada de control desde un proveedor de contenido, etc. Por ejemplo, un usuario tal como un ingeniero de mezcla, etc. puede proporcionar/especificar uno o más identificadores de curva de compresión de rango dinámico; los identificadores se pueden usar para recuperar una o más curvas de rango dinámico que mejor se ajusten al contenido 160 de audio desde un repositorio de datos tal como un repositorio (156) de referencia DRC, etc.
El repositorio 156 de referencia DRC se puede configurar para almacenar conjuntos de parámetros de referencia DRC, etc. Los conjuntos de parámetros de referencia DRC pueden incluir los datos de definición para una o más curvas de compresión de rango dinámico, etc. El codificador 150 puede codificar (por ejemplo de manera concurrente) más de una curva de compresión de rango dinámico en la señal 102 de audio codificada. Cero, una, o más de las curvas de compresión de rango dinámico pueden estar basadas en un estándar, ser propietarias, personalizadas, modificables por decodificador, etc. A modo de ejemplo, las curvas de compresión de rango dinámico de la Fig. 3 y la Fig. 4 pueden ser (por ejemplo de manera concurrente) codificadas en la señal 102 de audio codificada.
El codificador 158 de señal de audio se puede configurar para recibir el contenido de audio desde la interfaz 152 de contenido de audio, los niveles de sonoridad de diálogo desde el analizador 154 de sonoridad de diálogo, recuperar uno o más conjuntos de parámetros de referencia DRC (esto es perfiles DRC) desde el repositorio 156 de referencia DRC, el formato de contenido de audio en bloques/tramas de datos de audio, el formato de niveles de sonoridad de diálogo, los conjuntos de parámetros de referencia DRC, etc., en metadatos (por ejemplo, contenedores de metadatos, campos de metadatos, estructuras de metadatos, etc.) y codificar los bloques/tramas de datos de audio y los metadatos en la señal 102 de audio codificada.
El contenido de audio a ser codificado en una señal 102 de audio codificada tal como se describe en la presente memoria se puede recibir en una o más de entre una variedad de formatos de audio de origen en una o más de entre una variedad de maneras, tal como de manera inalámbrica, a través de una conexión por cable, a través de un archivo, a través de una descarga de internet, etc.
Una señal 102 de audio codificada tal como se describe en la presente memoria puede ser una parte de un flujo de bits de datos de medios general (por ejemplo, para una difusión de audio, un programa de audio, un programa audiovisual, una difusión audiovisual, etc.). El flujo de bits de datos de medios puede ser accedido desde un servidor, un ordenador, un dispositivo de almacenamiento de medios, una base de datos de medios, un archivo de medios, etc. El flujo de bits de datos de medios puede ser difundido, transmitido o recibido a través de uno o más enlaces de red inalámbricos o por cable. Un flujo de bits de datos de medios se puede comunicar también a través de un intermediario tal como una o más conexiones de red, conexiones USB, redes de área amplia, redes de área local, conexiones inalámbricas, conexiones ópticas, buses, barra de conexiones, conexiones en serie, etc.
Cualquiera de los componentes representados (por ejemplo, la Fig. 1, la Fig. 2) se pueden implementar como uno o más procesos y/o uno o más circuitos IC (por ejemplo, ASIC, FPGA, etc.), en hardware, software, o una combinación de hardware y software.
La Fig. 3 y la Fig. 4 ilustran curvas de compresión de rango dinámico de ejemplo que pueden ser usadas por la unidad 104 de ganancia DRC en el decodificador 100 para derivar las ganancias DRC desde los niveles de sonoridad de entrada. Tal como se ilustra, una curva de compresión de rango dinámico puede estar centrada alrededor de un nivel de sonoridad de referencia (por ejemplo el nivel de referencia de salida) en un programa para proporcionar ganancias generales que sean apropiadas para el entorno de reproducción específico. Los datos de definición de ejemplo (por ejemplo, en los metadatos de la señal 102 de audio codificada) de la curva de compresión de rango dinámico (por ejemplo que incluye pero no se limita a alguno de entre: las relaciones de impulsión, las relaciones de corte, los tiempos de ataque, los tiempos de liberación, etc.) se muestran en la siguiente tabla. Los diferentes perfiles (por ejemplo, estándar de película, película ligera, estándar de música, música ligera, voz, etc.) pueden ser diferentes para los diferentes entornos de reproducción (por ejemplo, en el decodificador 100):
Tabla 1
Figure imgf000008_0001
Figure imgf000009_0001
Se pueden recibir una o más curvas de compresión descritas en términos de niveles de sonoridad en dBsPL o dBFs y ganancias en dB en relación con dBSPL, mientras que se calcula el cálculo de la ganancia DRC en una representación de sonoridad diferente que tiene una relación no lineal con los niveles de sonoridad dBSPL (por ejemplo en Sonios). La curva de compresión usada en el cálculo de la ganancia DRC se puede convertir después para ser descrita en términos de una representación de sonoridad diferente (por ejemplo en Sonios).
La Fig. 5 ilustra una señal 102 de audio codificada de ejemplo que comprende una secuencia de tramas (numeradas como n+1 hasta n+30, con n siendo un número entero). En el ejemplo ilustrado, cada 5a trama es una trama-I. En el ejemplo ilustrado, la trama-I (n+1) comprende una pluralidad de perfiles DRC (identificados como AVR (Receptor de Audio/Video) para un dispositivo de cine en casa, panel Plano, HP (auricular) Portátil y SP (altavoces) portátiles. Cada perfil DRC comprende una curva de compresión de rango dinámico tal como se muestra en las Fig. 3 y 4. La pluralidad de perfiles DRC se puede insertar de manera repetida dentro de las tramas-I de la secuencia de tramas. Esto permite a un decodificador 100 determinar el perfil DRC apropiado para la señal 102 de audio codificada y para un modo de representación actual al inicio de la señal 102 de audio codificado, tras sintonizar un programa de audio en ejecución y/o posterior a un punto de unión. Por otro lado, la transmisión repetida de un conjunto completo de perfiles DRC lleva a una relativamente alta sobrecarga del flujo de bits. En vista de esto, se propone transmitir los subconjuntos cambiantes de perfiles DRC dentro de las tramas-1 de la señal 102 de audio codificada.
La Fig. 5 ilustra un ejemplo para insertar perfiles DRC dentro de una secuencia de tramas. En el ejemplo ilustrado, sólo se inserta un único perfil DRC del conjunto completo de perfiles DRC en una trama-I. El perfil DRC que se inserta en una trama-I cambia de trama-I a trama-1, y en consecuencia, después de N tramas-1 (con N=4 en el ejemplo ilustrado), el decodificador 100 ha recibido el conjunto completo de perfiles DRC. Haciendo esto, la tasa de datos para transmitir el conjunto completo de perfiles DRC se puede reducir, mientras que al mismo tiempo se puede asegurar que el decodificador 100 recibe el conjunto completo de perfiles DRC dentro de una cantidad de tiempo razonable.
Las Fig. 6a y 6b muestran un diagrama de flujo de un método 600 de ejemplo para determinar un perfil DRC para decodificar una trama de una señal 102 de audio codificada. El método 600 se puede ejecutar por el decodificador 100 (especialmente por el selector 110). Tras el inicio de la recepción de la señal 102 de audio codificada, se debe inicializar el perfil d Rc que es usado por el decodificador 100. El perfil DRC que se usa para decodificar una trama actual de la señal 102 de audio codificada puede ser referido como el perfil DRC actual. Como tal, tras el inicio, el perfil DRC actual se puede inicializar. En concreto, un perfil DRC por defecto (que está disponible en el decodificador 100) se puede establecer para ser el perfil DRC actual que se usa para representar la trama actual (paso 601 del método). Por tanto, un “perfil” variable se puede establecer a un perfil DRC por defecto (perfil = Perfil DRC por defecto). Además, el decodificador 100 puede rastrear un perfil usado anteriormente. El perfil usado anteriormente se puede establecer a indefinido (perfil_ant = indefinido).
El método 600 puede comprender además el paso 602 de búsqueda de una nueva trama que se ha de decodificar (esto es la trama actual) desde la señal 102 de audio codificada. En el paso 603, se verifica, si la nueva trama es una trama-1 que podría comprender un perfil DRC. Si la nueva trama no es una trama-1, entonces el método 600 procede con el paso 604 y procesa la nueva trama usando el perfil DRC actual. Además, el perfil anteriormente usado se establece al perfil DRC actual en el paso 605 del método (pe rfi l_a nt= pe rfil).
Si la nueva trama es una trama-I entonces se puede comprobar en el paso 606 del método, si la trama-I comprende datos DRC. A modo de ejemplo, los metadatos de la trama-1 pueden comprender una bandera que es indicativa de si la trama-1 comprende datos DRC. Si no hay presente datos DRC, entonces el método 300 puede proceder con los pasos 604, 605. En otro caso, el método puede proceder con el paso 607 del método.
En el paso 607 del método se puede verificar, si la nueva trama es la primera trama de la señal 102 de audio codificada que se ha de decodificar. Tal como se puede ver a partir de los diagramas de flujo de las Fig. 6a y 6b, esto puede ser verificado comprobando la variable perfil_ant. Si la variable perfil_ant está sin definir, entonces la nueva trama es la primera trama a ser decodificada. Si la nueva trama es la primera trama a ser decodificada, entonces el decodificador 100 puede usar un perfil DRC predefinido distinto del perfil DRC por defecto. Para este propósito, los metadatos de la nueva trama pueden comprender un identificador (ID) para dicho perfil DRC predefinido. Dicho perfil DRC predefinido se puede almacenar dentro de una base de datos en el decodificador 100. El uso de un perfil DRC predefinido puede proporcionar unos medios eficientes en tasa de bit para señalizar un perfil DRC a ser usado al decodificador 100, ya que sólo el ID del perfil predefinido necesita ser transmitido (paso 608 del método). Los perfiles DRC predefinidos que se señalizan usando un ID pueden ser referidos también como perfiles DRC implícitos.
Se debería observar que en algunos casos, puede ser beneficioso usar sólo un único perfil DRC predefinido distinto del perfil DRC por defecto. En tal caso, el decodificador 100 se puede configurar para establecer el perfil variable al perfil DRC predefinido (esto es implícito), sin recibir ningún ID dentro de los metadatos de la nueva trama.
El método 600 puede comprender además verificar si los metadatos de la nueva trama comprenden uno o más perfiles DRC explícitos (paso 609). Un perfil DRC explícito puede comprender un ID para identificar el perfil DRC explícito. Además, el perfil DRC explícito normalmente comprende los datos de definición para una curva de compresión de rango dinámico tal como se ilustra en las Fig. 3 y 4. La curva de compresión de rango dinámico se puede definir como una función lineal a trozos. Además, el perfil DRC explícito indica un rango de niveles de referencia de salida (ORL) para los que el perfil DRC explícito es aplicable. A modo de ejemplo, el perfil DRC por defecto y/o el perfil DRC predefinido (implícito) puede ser aplicable para niveles de referencia de salida con rango desde -31dB FS hasta 0 dB FS.
Los ORL de un dispositivo de representación pueden indicar las capacidades de rango dinámico del dispositivo de representación. Normalmente las capacidades de rango dinámico disminuyen con el aumento de los ORL. En caso de altos ORL, se podrían usar las curvas de compresión con un gran grado de compresión, para representar una señal de audio de una manera inteligible sin cortes. Por otro lado, en caso de unos bajos ORL, se puede reducir la compresión para representar señales de audio con un alto rango dinámico. Debido a las altas capacidades de rango dinámico del dispositivo de representación, la inteligibilidad está sin embargo asegurada.
Si los metadatos de la nueva trama comprenden al menos un perfil DRC explícito, se leen los datos de perfil de un primer perfil DRC (paso 610). Además, se verifica si el rango de los ORL del primer perfil DRC es aplicable al dispositivo de representación actualmente usado (paso 611). Si este no es el caso, entonces el método 600 procede a buscar otro perfil DRC explícito dentro de los metadatos de la nueva trama. Por otro lado, si un perfil DRC explícito es aplicable al dispositivo de representación, entonces este perfil DRC explícito se puede establecer para ser el perfil DRC actual, que se ha de usar para procesar la nueva trama (paso 614).
El método 600 puede comprender además verificar si se usa un modo de representación en auricular y si es aplicable un perfil DRC explícito a un modo de representación en auricular (paso 612). Además, el método 600 puede comprender verificar si un perfil DRC explícito es un perfil actualizado comparado con un perfil anteriormente usado (paso 613). Con este propósito, el ID del perfil DRC explícito se puede comparar con el ID de un perfil actualmente usado. Haciendo esto, se puede asegurar que el decodificador 100 siempre usa el perfil DRC más actual.
Usando el método 600, se puede asegurar que el decodificador 100 siempre identifica un perfil DRC para representar una trama de una señal 102 de audio codificada, incluso si el decodificador 100 no ha recibido aún el perfil DRC para el modo de representación actual (esto es para el dispositivo de representación actual). Además, se asegura que el perfil DRC para el modo de representación actual se aplica tan pronto como el decodificador 100 recibe el perfil DRC correspondiente.
Como tal, se describe un método 600 para decodificar una señal 102 de audio codificada. La señal 102 de audio codificada comprende una secuencia de tramas. Además, la señal 102 de audio codificada es indicativa de una pluralidad de diferentes perfiles de control de rango dinámico (DRC) para una pluralidad correspondiente de diferentes modos de representación. Los ejemplos para los diferentes modos de representación (o diferentes entornos de reproducción) son un primer perfil d Rc para su uso en un modo de representación de cine en casa; un segundo perfil DRC para su uso en un modo de representación de panel plano; un tercer perfil DRC para su uso en un modo de representación de altavoz de dispositivo portátil; y/o un cuarto perfil DRC para su uso en un modo de representación de auricular. Un perfil DRC define un comportamiento DRC específico. El comportamiento DRC puede ser descrito por medio de una curva de compresión (y constantes de tiempo) y/o mediante ganancias DRC. Las ganancias DRC según la invención, son ganancias equidistantes temporales que se aplican a la señal 102 de audio codificada para desplegar el DRC. Las curvas de compresión pueden estar acompañadas por constantes de tiempo que configuran entre sí un algoritmo DRC. DRC normalmente reduce el volumen de los sonidos fuertes y amplifica los sonidos bajos, comprimiendo de este modo el rango dinámico de la señal de audio para una experiencia mejorada en entornos de reproducción no ideales.
Una secuencia de tramas normalmente comprende una pluralidad de tramas sucesivas que forman una señal de audio. Un programa de audio (por ejemplo un programa de TV o radio difundido) puede comprender una pluralidad de señales de audio que se concatenen en puntos de unión. A modo de ejemplo, un programa de audio principal puede ser interrumpido de manera repetida por cortes comerciales. La secuencia de tramas puede corresponder al programa de audio completo. De manera alternativa, la secuencia de tramas puede corresponder a una de una pluralidad de señales de audio que forman el programa de audio completo.
Los diferentes subconjuntos de perfiles DRC de la pluralidad de perfiles DRC pueden estar comprendidos dentro de diferentes tramas de la secuencia de tramas, tales como dos o más tramas de la secuencia de tramas que de manera conjunta comprenden la pluralidad de perfiles DRC. Tal como se indicó anteriormente, la distribución de perfiles DRC a lo largo de la pluralidad de tramas de la secuencia de tramas lleva a una reducción de una sobrecarga del flujo de bits para señalizar la pluralidad de perfiles DRC.
El método 600 puede comprender determinar un primer modo de representación a partir de la pluralidad de diferentes modos de representación. En concreto, se puede determinar qué modo de representación se usa para representar la señal 102 de audio codificado. Además, el método 600 puede comprender determinar en 609, 610 uno o más perfiles DRC a partir de la pluralidad de perfiles DRC que están comprendidos dentro de una trama actual de la secuencia de tramas. En otras palabras, se puede determinar uno o más perfiles DRC de un subconjunto de perfiles DRC que están comprendidos dentro de la trama actual. Además, se puede determinar en 611 si al menos uno de entre el uno o más perfiles DRC es aplicable al primer modo de representación. La determinación en 611 de si al menos uno de entre el uno o más perfiles d Rc es aplicable al primer modo de representación puede comprender determinar un primer nivel de referencia de salida para el primer modo de representación, determinar un rango de niveles de referencia de salida al que un perfil DRC del uno o más perfiles DRC es aplicable, y determinar si el primer nivel de referencia de salida cae dentro del rango de los niveles de referencia de salida.
El método 600 puede comprender además seleccionar en 604 un perfil DRC por defecto como un perfil DRC actual, si ninguno de entre el uno o más perfiles DRC es aplicable al primer modo de representación. Los datos de definición del perfil DRC por defecto son conocidos normalmente en el decodificador 100 para decodificar la señal 102 de audio codificada. Además, el método 600 puede comprender decodificar (y/o representar) la trama actual usando el perfil DRC actual. Como tal, se puede asegurar que un decodificador 100 hace uso de un perfil DRC (y una curva de compresión de rango dinámico) incluso si el decodificador 100 no ha recibido aún un perfil DRC que es específico para la señal 102 de audio codificada.
De manera alternativa o adicional, el método 600 puede comprender seleccionar en 604 un primer perfil DRC desde el uno o más perfiles DRC como el perfil DRC actual, si se determina que el primer perfil DRC es aplicable al primer modo de representación. Como resultado de esto, el decodificador 100 se configura para usar el primer perfil DRC óptimo para la señal 102 de audio codificada y para el primer modo de representación, tan pronto como el decodificador 100 recibe el primer perfil DRC.
El método 600 puede comprender además determinar en 603, 606 si la trama actual de la secuencia de tramas comprende uno o más perfiles DRC de la pluralidad de perfiles DRC, esto es, si la trama actual comprende un subconjunto de perfiles DRC. Tal como se describe en el contexto de la Fig. 5, los subconjuntos de perfiles DRC están normalmente comprendidos dentro de tramas-I de la secuencia de tramas. Como tal, la determinación en 603, 606 de si la trama actual comprende uno o más perfiles DRC de la pluralidad de perfiles DRC o si la trama actual comprende un subconjunto de perfiles DRC puede comprender la determinación en 603 de si la trama actual es una trama-I. Como se indicó anteriormente, una trama-1 puede ser una trama que sea decodificable de manera independiente de cualesquiera otras tramas de la secuencia de tramas. Esto puede ser debido al hecho de que los datos comprendidos en dicha trama-I se transmiten de una manera que no es dependiente de los datos de las tramas anterior o posterior. En concreto, los datos comprendidos dentro de una trama-1 no se codifican de manera diferencial con respecto a los datos comprendidos dentro de una trama anterior o posterior.
Además, determinar en 603, 606 si la trama actual comprende uno o más perfiles DRC de la pluralidad de perfiles DRC o si la trama actual comprende un subconjunto de perfiles DRC puede comprender verificar en 606 una bandera de perfil DRC comprendida dentro de la trama actual. Una bandera de perfil DRC dentro del flujo de bits de la señal de audio codificada proporciona un ancho de banda y unos medios computacionalmente eficientes para identificar las tramas que transportan los perfiles DRC.
El método 600 puede comprender además determinar si la trama actual es indicativa de un perfil DRC implícito a partir de una pluralidad de perfiles DRC implícitos. Un perfil DRC implícito puede comprender una curva de compresión heredada predefinida y constantes de tiempo que se pueden usar para transcodificar a E-AC-3. Tal como se indicó anteriormente, los datos de definición de un perfil DRC implícito pueden ser conocidos en el decodificador 100 para decodificar la señal 102 de audio de entrada. Al contrario que el perfil DRC por defecto, los perfiles DRC implícitos pueden ser específicos para diferentes tipos de señales de audio (tal como se especifica por ejemplo en la Tabla 1). Una trama actual de la secuencia de tramas puede indicar un perfil DRC implícito concreto (por ejemplo usando un identificador, ID). Esto puede proporcionar unos medios eficientes en ancho de banda para señalizar un perfil DRC apropiado para la señal 102 de audio codificada. El perfil DRC implícito se puede seleccionar en 608 como el perfil DRC actual, si se determina que la trama actual es indicativa de un perfil DRC implícito.
La descodificación de la trama actual puede comprender la nivelación de la secuencia de tramas al primer nivel de referencia de salida del primer modo de representación. Además, la descodificación de la trama actual puede comprender adaptar un nivel de sonoridad de la trama actual usando la curva de compresión de rango dinámico que se especifica dentro del perfil DRC actual. La adaptación del nivel de sonoridad se puede realizar tal como se describió en el contexto de la Fig. 1.
Dependiendo del número de tramas de la secuencia de tramas, el perfil DRC actual puede corresponder a un perfil DRC por defecto (que normalmente es independiente de la señal 102 de audio de entrada), a un perfil DRC implícito (que se puede adaptar a la señal 102 de audio de entrada de una manera limitada) o al primer perfil DRC explícito (que puede haber sido diseñado para la señal 102 de audio de entrada y/o para el primer modo de representación). Normalmente, sólo un subconjunto de tramas comprende perfiles DRC. Una vez que se ha seleccionado un perfil DRC actual, el perfil DRC actual puede ser mantenido para decodificar tramas de la secuencia de tramas que no comprenden ninguno de los perfiles DRC. Además, el perfil DRC actual se puede mantener, incluso tras la recepción de tramas con perfiles DRC, siempre que no se reciba ningún perfil DRC que esté más actualizado que el perfil DRC actual y/o que sea de mayor relevancia para la señal 102 de audio codificada (en donde el primer perfil DRC explícito seleccionado tiene una mayor relevancia que un perfil DRC implícito seleccionado que tenga una mayor relevancia que el perfil DRC por defecto). Haciendo esto, se puede asegurar la continuidad y optimización del perfil DRC usado.
Además del método 600 para decodificar una señal 102 de audio codificada, se describe un método para generar o codificar una señal 102 de audio codificada. La señal 102 de audio codificada comprende una secuencia de tramas. Además, la señal 102 de audio codificada es indicativa de una pluralidad de diferentes perfiles de control de rango dinámico (DRC) para una pluralidad correspondiente de diferentes modos de representación. El método puede comprender insertar diferentes subconjuntos de perfiles DRC de la pluralidad de perfiles DRC en diferentes tramas de la secuencia de tramas, de manera que dos o más tramas de la secuencia de tramas comprenden de manera conjunta la pluralidad de perfiles DRC. En otras palabras, se pueden proporcionar los subconjuntos de perfiles DRC, con menos del número total de perfiles DRC junto con las diferentes tramas de la secuencia de tramas. Haciendo esto, la sobrecarga de la señal 102 de audio codificada se puede reducir, mientras que al mismo tiempo se proporciona el conjunto completo de perfiles DRC a un decodificador 100 correspondiente. En otras palabras, una ventaja de este enfoque es que un codificador 150 tiene una libertad mejorada sobre cómo transmitir los datos DRC. Esta libertad se puede usar para reducir la tasa de bits.
La secuencia de tramas puede comprender una subsecuencia de tramas-I (por ejemplo cada X-ésima trama de la secuencia de tramas puede ser una trama-I). Los diferentes subconjuntos de perfiles DRC se pueden insertar en diferentes tramas-1 (por ejemplo las sucesivas) de la subsecuencia de tramas-I. Para reducir más el ancho de banda las tramas-1 se pueden saltar, esto es, algunas de las tramas-1 pueden no comprender ningunos datos de perfiles DRC.
Un (por ejemplo, cada) subconjunto de perfiles DRC puede comprender sólo un perfil DRC único. En concreto, la pluralidad de perfiles DRC puede comprender N perfiles DRC, siendo N un número entero, N>1. Los N perfiles DRC se pueden insertar en N tramas diferentes de la secuencia de tramas. Haciendo esto, la tasa de bits que se requiere para la transmisión de los perfiles DRC se puede minimizar.
El método puede comprender además insertar todos de la pluralidad de perfiles DRC en una primera trama de la secuencia de tramas (por ejemplo dentro de la primera trama de la secuencia de tramas de la señal de audio). Como resultado de esto, la representación de la señal 102 de audio codificada se puede iniciar directamente con el perfil DRC explícito correcto. Tal como se indicó anteriormente, un programa de audio se puede subdividir en una pluralidad de sub programas de audio, por ejemplo un programa de audio principal que es interrumpido por cortes comerciales. Puede ser beneficioso insertar todos los perfiles de la pluralidad de perfiles en la primera trama de cada sub programa de audio. En otras palabras, puede ser beneficioso insertar todos los perfiles de la pluralidad de perfiles DRC directamente después del uno o más puntos de unión de un programa de audio que comprende una pluralidad de sub programas de audio.
Los diferentes subconjuntos de perfiles DRC de la pluralidad de perfiles DRC se pueden insertar dentro de diferentes tramas de la secuencia de tramas, de manera que cada subsecuencia de M tramas directamente sucesivas de la secuencia de tramas comprenden de manera conjunta la pluralidad de perfiles DRC, en donde M es un número entero, con M>1. En otras palabras, la pluralidad de perfiles DRC se puede transmitir de manera repetida dentro de los bloques de las M tramas. Como resultado de esto, un decodificador 100 ha de esperar a lo sumo M tramas antes de obtener un perfil DRC explícito para la señal 102 de audio codificada.
El método puede comprender además insertar una bandera dentro de una trama de la secuencia de tramas, en donde la bandera es indicativa de si la trama comprende un perfil DRC o no. Proporcionar dicha bandera permite al decodificador 100 correspondiente identificar de manera eficiente una trama que comprende datos de perfil DRC. Los perfiles DRC de la pluralidad de perfiles DRC pueden ser perfiles DRC explícitos que comprenden (esto es, que transportan) datos de definición para definir una curva de compresión de rango dinámico.
Tal como se describió en el presente documento, una curva de compresión de rango dinámico proporciona una correspondencia entre una sonoridad de entrada y una sonoridad de salida y/o una ganancia a ser aplicada a la señal de audio. En concreto, los datos de definición pueden comprender uno o más de entre: una ganancia de impulso para impulsar la sonoridad de entrada; un rango de ganancia de impulso que indica un rango para la sonoridad de entrada, a la que la ganancia de impulso es aplicable, un rango de banda nulo que indica un rango para la sonoridad de entrada, a la que es aplicable una ganancia de 0dB; una ganancia de corte para atenuar la sonoridad de entrada; un rango de ganancia de corte que indica un rango para la sonoridad de entrada, a la que la ganancia de corte es aplicable; una relación de ganancia de impulso que indica una transición entre una ganancia nula y la ganancia de impulso; y/o una relación de ganancia de corte que indica una transición entre la ganancia nula y la ganancia de corte.
El método puede comprender además insertar una indicación (por ejemplo un identificador, ID) de un perfil DRC implícito, en donde los datos de definición de un perfil DRC implícito son normalmente conocidos para un decodificador 100 de la señal 102 de audio codificada. La indicación de un perfil DRC implícito puede proporcionar unos medios eficientes en ancho de banda para señalizar un perfil DRC que se adapta (de una manera limitada) a la señal 102 de audio codificada.
Como se describió anteriormente, una trama de la secuencia de tramas comprende normalmente datos de audio y metadatos. Un subconjunto de perfiles DRC se inserta normalmente como metadatos.
Un perfil DRC puede comprender datos de definición para definir un rango de niveles de referencia de salida para los que el perfil DRC es aplicable. El nivel de referencia de salida es indicativo de un rango dinámico de un modo de representación. En concreto, el rango dinámico del modo de representación puede disminuir con el aumento del nivel de referencia de salida, y viceversa. Además, puede aumentar una ganancia de impulso máxima y una ganancia de corte máxima de una curva de compresión de rango dinámico de un perfil DRC con el aumento del nivel de referencia de salida, y viceversa. Como tal, el nivel de referencia de salida proporciona unos medios eficientes para seleccionar un perfil DRC apropiado (con una curva de compresión de rango dinámico apropiada) para un modo de representación concreto.
El método puede comprender además generar un flujo de bits que comprenda la señal 102 de audio codificada. El flujo de bits puede ser un flujo de bits AC4, esto es el flujo de bits puede ser compatible con un formato de flujo de bits AC4.
El método puede comprender además insertar ganancias DRC explícitas para la señal 102 de audio codificada en una trama de la secuencia de tramas. En concreto, se puede insertar una ganancia DRC que es aplicable a una trama concreta de la secuencia de tramas en la trama concreta. Como tal cada trama de la secuencia de tramas puede comprender un componente de datos DRC que comprende una o más ganancias DRC explícitas a ser aplicadas a la trama respectiva. En concreto, cada trama puede comprender diferentes ganancias DRC explícitas para los diferentes modos de representación. Con este propósito, se pueden aplicar los algoritmos DRC para los diferentes modos de representación dentro de un codificador 150, y se pueden determinar diferentes ganancias DRC para los diferentes modos de representación en el codificador 150. Las diferentes ganancias DRC se pueden insertar después de manera explícita dentro de la secuencia de tramas. Como resultado de esto, el decodificador 100 correspondiente puede aplicar las ganancias DRC explícitas de manera directa, sin realizar el algoritmo DRC usando una curva de compresión de rango dinámico.
Por tanto, una secuencia de tramas puede comprender o puede ser indicativa de una pluralidad de perfiles DRC explícitos para señalizar las curvas de compresión de rango dinámico para una pluralidad de modos de representación correspondientes. La pluralidad de perfiles DRC se puede insertar en alguna (no todas) de las tramas (por ejemplo, las tramas-I) de la secuencia de tramas. Además, la secuencia de tramas puede comprender o puede ser indicativa de uno o más perfiles DRC para uno o más modos de representación correspondientes, en donde el uno o más perfiles DRC indican que las ganancias DRC explícitas para uno o más modos de representación se insertan en las tramas de la secuencia de tramas. A modo de ejemplo, el uno o más perfiles DRC para señalizar ganancias DRC explícitas puede comprender una bandera que india si las ganancias DRC explícitas están comprendidas en las tramas de la secuencia de tramas. Las ganancias DRC se pueden insertar dentro de cada trama de la secuencia de tramas. En concreto, cada trama puede comprender la una o más ganancias DRC que se han de usar para decodificar la trama.
El método puede comprender insertar un perfil DRC para las ganancias DRC explícitas dentro de un subconjunto de tramas de la secuencia de tramas. A modo de ejemplo, el perfil DRC para el que se transmiten las ganancias DRC puede ser indicativo de datos de configuración DRC para las ganancias explícitas. Específicamente, el perfil DRC para el que se transmiten las ganancias DRC puede estar incluido en todos dichos subconjuntos de perfiles DRC. Los datos de configuración DRC (por ejemplo, una bandera) pueden indicar que la secuencia de tramas comprende ganancias DRC explícitas para un modo de representación concreto. Haciendo esto, el decodificador 100 es informado sobre el hecho de que para el modo de representación concreto, las ganancias DRC explícitas han de ser derivadas de manera directa de las tramas de la secuencia de tramas.
Por tanto, el método puede comprender además determinar las ganancias DRC explícitas para la señal 102 de audio codificada para un modo de representación concreto. Además, el método puede comprender insertar las ganancias DRC explícitas en las tramas de la secuencia de tramas. Una ganancia d Rc explícita se puede insertar en la trama de la secuencia de tramas para la que la ganancia DRC explícita es aplicable. Además, una trama de la secuencia de tramas puede comprender la una o más ganancias DRC explícitas que se requieren para decodificar la trama dentro del modo de representación concreto.
El método puede comprender además insertar un perfil DRC indicativo de datos de configuración DRC para el modo de representación concreto dentro de un subconjunto de tramas de la secuencia de tramas (por ejemplo dentro de las tramas-I). Los datos de configuración DRC (que comprenden por ejemplo una bandera) pueden ser indicativos del hecho de que para el modo de representación concreto, las ganancias DRC explícitas están comprendidas dentro de las tramas de la secuencia de tramas. Como tal, el decodificador 100 puede determinar de manera eficiente si usar las curvas de compresión de una pluralidad de perfiles DRC para señalizar las curvas de compresión de rango dinámico o si usar ganancias DRC explícitas.
Los perfiles DRC para señalizar curvas de compresión de rango dinámico y el uno o más perfiles DRC que apuntan a ganancias DRC explícitas pueden estar comprendidos dentro de un elemento de sintaxis dedicado (referido por ejemplo como un elemento de sintaxis de perfil DRC) de una trama-I de la secuencia de tramas.
Los métodos y sistema descritos en el presente documento se pueden implementar como software, firmware y/o hardware. Ciertos componentes pueden estar implementados por ejemplo como software que se ejecuta en un procesador o microprocesador digital de señales. Otros componentes se pueden implementar por ejemplo como hardware y/o como circuitos integrados específicos de aplicación. Las señales encontradas en los métodos y sistemas descritos se pueden almacenar en medios tales como una memoria de acceso aleatorio y medios de almacenamiento óptico. Estas pueden ser transferidas a través de redes, tales como redes de radio, redes satelitales, redes inalámbricas o redes por cable, por ejemplo Internet. Los dispositivos típicos que hacen uso de los métodos y sistemas descritos en el presente documento son dispositivos portátiles electrónicos u otros equipos de consumo que se usan para almacenar y/o representar señales de audio.

Claims (14)

REIVINDICACIONES
1. Un método (600) para decodificar una señal (102) de audio codificada, en donde la señal (102) de audio codificada comprende una secuencia de tramas que comprenden datos y metadatos de audio codificados, incluyendo los metadatos una pluralidad de diferentes conjuntos de control de rango dinámico, referidos como ganancias DRC, en donde la señal de audio codificada comprende además una indicación de un nivel de sonoridad de la señal de audio, en donde los metadatos indican una pluralidad de perfiles DRC para la señal de audio codificada, en donde cada perfil DRC comprende datos de definición que definen un rango de niveles de referencia de salida para los que el perfil DRC es aplicable, y en donde cada conjunto de ganancias DRC corresponde a uno de la pluralidad de perfiles DRC, comprendiendo el método (600)
establecer un nivel de referencia de salida deseado;
estando el método caracterizado por comprender además:
seleccionar un perfil DRC específico para el que el rango aplicable de niveles de referencia incluya el nivel de referencia de salida deseado;
extraer los datos y metadatos de audio de la señal de audio codificada;
extraer de los metadatos, y aplicar, las ganancias DRC correspondientes al perfil DRC específico seleccionado a los datos de audio extraídos para ajustar el rango dinámico de los datos de audio extraídos obteniendo de este modo los datos de audio ajustados al rango dinámico, en donde las ganancias DRC que corresponden al perfil DRC específico seleccionado son temporalmente equidistantes;
determinar una ganancia relacionada a la sonoridad en base a la indicación del nivel de sonoridad de la señal de audio y el nivel de referencia de salida deseado para provocar un cambio del nivel de sonoridad de los datos de audio al nivel de referencia de salida deseado;
aplicar la ganancia relacionada a la sonoridad a los datos de audio ajustados al rango dinámico para obtener datos de audio ajustados a la sonoridad que tienen el nivel de referencia de salida deseado; y
generar elementos de datos de audio de salida a partir de los datos de audio ajustados a la sonoridad.
2. El método de la reivindicación 1, en donde uno o más de los perfiles DRC son aplicables para la reproducción en un entorno ruidoso.
3. El método de la reivindicación 2, en donde el perfil DRC seleccionado es aplicable para la reproducción en un entorno ruidoso.
4. El método de la reivindicación 1, en donde uno o más de los perfiles DRC son aplicables para la reproducción en dispositivos con rango dinámico limitado.
5. El método de la reivindicación 4, en donde el perfil DRC seleccionado es aplicable para la reproducción en dispositivos con rango dinámico limitado.
6. El método de la reivindicación 1, en donde uno o más de los perfiles DRC son aplicables para la reproducción en un entorno de sesión de noche.
7. El método de la reivindicación 4, en donde el perfil DRC seleccionado es aplicable para la reproducción en un entorno de sesión de noche.
8. El método de la reivindicación 1, comprendiendo además la generación de datos (116) de audio específicos de canal para una configuración de altavoz específica.
9. Un decodificador (100) para decodificar una señal (102) de audio codificada, en donde la señal (102) de audio codificada comprende una secuencia de tramas que comprenden datos y metadatos de audio codificados, incluyendo los metadatos una pluralidad de diferentes conjuntos de control de rango dinámico, referidos como ganancias DRC, en donde la señal de audio codificada comprende además una indicación de un nivel de sonoridad de la señal de audio, en donde los metadatos indican una pluralidad de perfiles DRC para la señal de audio codificada, en donde cada perfil DRC comprende datos de definición que definen un rango de niveles de referencia de salida para los que el perfil DRC es aplicable, y en donde cada conjunto de ganancias DRC corresponde a uno de la pluralidad de perfiles DRC, en donde el decodificador (100) se configura para
establecer un nivel de referencia de salida deseado;
estando el decodificador caracterizado en que se configura además para:
seleccionar un perfil DRC específico para el que el rango aplicable de niveles de referencia de salida incluye el nivel de referencia de salida deseado;
extraer los datos y metadatos de audio de la señal de audio codificada;
extraer de los metadatos, y aplicar, las ganancias DRC correspondientes al perfil DRC específico a los datos de audio extraídos para ajustar el rango dinámico de los datos de audio extraídos obteniendo de este modo los datos ajustados al rango dinámico, en donde las ganancias DRC que corresponden al perfil DRC específico seleccionado son temporalmente equidistantes;
determinar una ganancia relacionada a la sonoridad en base a la indicación del nivel de sonoridad de la señal de audio y el nivel de referencia de salida deseado para provocar un cambio del nivel de sonoridad de los datos de audio al nivel de referencia de salida deseado;
aplicar la ganancia relacionada a la sonoridad a los datos de audio ajustados al rango dinámico para obtener los datos de audio ajustados a la sonoridad que tienen el nivel de referencia de salida deseado; y
generar elementos de datos de audio de salida a partir de los datos de audio ajustados a la sonoridad.
10. El decodificador de la reivindicación 9, en donde uno o más de los perfiles DRC son aplicables para la reproducción en un entorno ruidoso.
11. El decodificador de la reivindicación 9, en donde uno o más de los perfiles DRC son aplicables para la reproducción en dispositivos con rango dinámico limitado.
12. El decodificador de la reivindicación 9, en donde uno o más de los perfiles DRC son aplicables para la reproducción en un entorno de sesión de noche.
13. El decodificador de la reivindicación 9, comprendiendo además la generación de datos (116) de audio específicos de canal para una configuración de altavoz específica.
14. Un producto de programa de ordenador que comprende una secuencia de instrucciones, en donde, la secuencia de instrucciones al ser ejecutadas por un dispositivo de procesamiento de señales de audio provoca que el dispositivo de procesamiento de señales de audio realice el método de cualquiera de las reivindicaciones 1 a 8.
ES20177137T 2014-10-01 2015-09-29 Descodificación de una señal de audio codificada usando perfiles DRC Active ES2912586T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201462058228P 2014-10-01 2014-10-01

Publications (1)

Publication Number Publication Date
ES2912586T3 true ES2912586T3 (es) 2022-05-26

Family

ID=54288763

Family Applications (2)

Application Number Title Priority Date Filing Date
ES20177137T Active ES2912586T3 (es) 2014-10-01 2015-09-29 Descodificación de una señal de audio codificada usando perfiles DRC
ES18202206T Active ES2814900T3 (es) 2014-10-01 2015-09-29 Descodificación de una señal de audio codificada usando perfiles DRC

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES18202206T Active ES2814900T3 (es) 2014-10-01 2015-09-29 Descodificación de una señal de audio codificada usando perfiles DRC

Country Status (6)

Country Link
US (6) US10020001B2 (es)
EP (4) EP3201915B1 (es)
JP (5) JP6727194B2 (es)
CN (4) CN113257273A (es)
ES (2) ES2912586T3 (es)
WO (1) WO2016050740A1 (es)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257273A (zh) * 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
KR102360613B1 (ko) * 2014-11-07 2022-02-09 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US10999678B2 (en) * 2017-03-24 2021-05-04 Sharp Kabushiki Kaisha Audio signal processing device and audio signal processing system
EP3618463A4 (en) * 2017-04-25 2020-04-29 Sony Corporation SIGNAL PROCESSING DEVICE, METHOD AND PROGRAM
EP3506661A1 (en) * 2017-12-29 2019-07-03 Nokia Technologies Oy An apparatus, method and computer program for providing notifications
US11330370B2 (en) 2018-02-15 2022-05-10 Dolby Laboratories Licensing Corporation Loudness control methods and devices
WO2020020043A1 (en) * 2018-07-25 2020-01-30 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
KR102253524B1 (ko) * 2019-09-02 2021-05-20 네이버 주식회사 라우드니스 정규화 방법 및 시스템
CN111933173B (zh) * 2020-08-03 2022-03-01 南京工程学院 一种增益平稳调节的动态范围控制方法及系统
US11907611B2 (en) 2020-11-10 2024-02-20 Apple Inc. Deferred loudness adjustment for dynamic range control
AU2021385196A1 (en) * 2020-11-24 2023-06-22 Gaudio Lab, Inc. Method for normalizing audio signal, and device therefor
WO2022189341A1 (en) * 2021-03-10 2022-09-15 Dolby International Ab Apparatus and method for leveling main and supplementary audio from a hbbtv service

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659539A (en) 1995-07-14 1997-08-19 Oracle Corporation Method and apparatus for frame accurate access of digital audio-visual information
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6104441A (en) 1998-04-29 2000-08-15 Hewlett Packard Company System for editing compressed image sequences
BR0009534B1 (pt) * 1999-04-02 2012-01-24 disco ótico, método e dispositivo de gravação para gravação de um disco ótico e método e dispositivo de reprodução para reprodução de um disco ótico.
US6959275B2 (en) * 2000-05-30 2005-10-25 D.S.P.C. Technologies Ltd. System and method for enhancing the intelligibility of received speech in a noise environment
WO2004056028A1 (en) 2002-12-18 2004-07-01 Koninklijke Philips Electronics N.V. Adaptive encoding of digital multimedia information
US20040261111A1 (en) 2003-06-20 2004-12-23 Aboulgasem Abulgasem Hassan Interactive mulitmedia communications at low bit rates
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
TWI247546B (en) 2004-04-22 2006-01-11 Newsoft Technology Corp A video encoding method which carries out the encoding of P frame or B frame by utilizing I frame
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
JP2007109328A (ja) * 2005-10-14 2007-04-26 Kenwood Corp 再生装置
US8199834B2 (en) 2006-01-04 2012-06-12 University Of Dayton Frame decimation through frame simplification
EP2011234B1 (en) 2006-04-27 2010-12-29 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
ES2391228T3 (es) 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
CN101295504B (zh) * 2007-04-28 2013-03-27 诺基亚公司 用于仅文本的应用的娱乐音频
BRPI0805829B1 (pt) 2007-05-14 2020-05-26 Samsung Electronics Co., Ltd Método de transmissão de um serviço de difusão móvel, e aparelho para transmissão de um serviço de difusão móvel
US8468426B2 (en) 2008-07-02 2013-06-18 Apple Inc. Multimedia-aware quality-of-service and error correction provisioning
WO2010025686A1 (en) 2008-09-05 2010-03-11 The Chinese University Of Hong Kong Methods and devices for live streaming using pre-indexed file formats
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8606009B2 (en) * 2010-02-04 2013-12-10 Microsoft Corporation High dynamic range image generation and rendering
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
ES2526761T3 (es) * 2010-04-22 2015-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para modificar una señal de audio de entrada
WO2012026092A1 (ja) 2010-08-23 2012-03-01 パナソニック株式会社 音声信号処理装置及び音声信号処理方法
WO2014124377A2 (en) * 2013-02-11 2014-08-14 Dolby Laboratories Licensing Corporation Audio bitstreams with supplementary data and encoding and decoding of such bitstreams
US9055367B2 (en) * 2011-04-08 2015-06-09 Qualcomm Incorporated Integrated psychoacoustic bass enhancement (PBE) for improved audio
US9135929B2 (en) * 2011-04-28 2015-09-15 Dolby International Ab Efficient content classification and loudness estimation
KR101858695B1 (ko) 2012-04-09 2018-05-16 엘지전자 주식회사 데이터 관리 방법
JP5885571B2 (ja) * 2012-04-16 2016-03-15 アルパイン株式会社 ディジタル放送の受信装置
CN107276551B (zh) * 2013-01-21 2020-10-02 杜比实验室特许公司 解码具有保留数据空间中的元数据容器的编码音频比特流
EP2946469B1 (en) * 2013-01-21 2017-03-15 Dolby Laboratories Licensing Corporation System and method for optimizing loudness and dynamic range across different playback devices
WO2014114781A1 (en) 2013-01-28 2014-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for normalized audio playback of media with and without embedded loudness metadata on new media devices
US9607624B2 (en) * 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
CN116741189A (zh) * 2013-09-12 2023-09-12 杜比实验室特许公司 用于下混合音频内容的响度调整
CN109920440B (zh) * 2013-09-12 2024-01-09 杜比实验室特许公司 用于各种回放环境的动态范围控制
US20170193638A1 (en) * 2014-09-11 2017-07-06 Kevin Patrick GRUNDY System and method for controlling dynamic range compression image processing
CN113257273A (zh) * 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输

Also Published As

Publication number Publication date
CN113257275A (zh) 2021-08-13
US11727948B2 (en) 2023-08-15
JP2023099123A (ja) 2023-07-11
US20190139561A1 (en) 2019-05-09
EP4044180A1 (en) 2022-08-17
JP2021193817A (ja) 2021-12-23
CN106796799A (zh) 2017-05-31
EP3467827A1 (en) 2019-04-10
EP3467827B1 (en) 2020-07-29
EP3201915A1 (en) 2017-08-09
US10783897B2 (en) 2020-09-22
US20210065728A1 (en) 2021-03-04
US20220254362A1 (en) 2022-08-11
JP2017534903A (ja) 2017-11-24
JP2020171041A (ja) 2020-10-15
US20240029748A1 (en) 2024-01-25
ES2814900T3 (es) 2021-03-29
CN106796799B (zh) 2021-06-04
US11250868B2 (en) 2022-02-15
US20190279652A1 (en) 2019-09-12
JP6945092B2 (ja) 2021-10-06
EP3736809B1 (en) 2022-03-09
US10354670B2 (en) 2019-07-16
CN113257273A (zh) 2021-08-13
JP6727194B2 (ja) 2020-07-22
JP2021073814A (ja) 2021-05-13
WO2016050740A1 (en) 2016-04-07
EP3201915B1 (en) 2018-12-12
EP3736809A1 (en) 2020-11-11
CN113257274A (zh) 2021-08-13
JP6834049B2 (ja) 2021-02-24
JP7273914B2 (ja) 2023-05-15
US20170249950A1 (en) 2017-08-31
US10020001B2 (en) 2018-07-10

Similar Documents

Publication Publication Date Title
ES2912586T3 (es) Descodificación de una señal de audio codificada usando perfiles DRC
JP6859420B2 (ja) 多様な再生環境のためのダイナミックレンジ制御
JP7038788B2 (ja) ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整
JP6680858B2 (ja) 異なる再生装置を横断するラウドネスおよびダイナミックレンジの最適化
KR102660144B1 (ko) 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
KR20240055146A (ko) 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화