ES2994834T3

ES2994834T3 - System and method for non-destructively normalizing loudness of audio signals within portable devices

Info

Publication number: ES2994834T3
Application number: ES22160243T
Authority: ES
Inventors: Jeffrey Riedmiller; Harald Mundt; Michael Schug
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2010-02-11
Filing date: 2011-02-03
Publication date: 2025-02-03
Anticipated expiration: 2031-02-03
Also published as: WO2011100155A1; KR101381588B1; MY169981A; US12183355B2; CA2995461A1; CA2787466C; EP4571738B1; EP3444816B8; CN102754151A; KR20120124484A; US20200176008A1; JP2013519918A; US11341982B2; US8903729B2; ES2916403T3; JP5666625B2; CA3075793A1; EP4047602C0; US20170213566A1; TW201506912A

Abstract

Muchos dispositivos de reproducción portátiles no pueden decodificar y reproducir contenido de audio codificado que tenga un ancho de banda amplio y un amplio rango dinámico con un volumen y una inteligibilidad constantes a menos que el contenido de audio codificado haya sido preparado especialmente para estos dispositivos. Este problema se puede superar incluyendo con el contenido codificado algunos metadatos que especifiquen un perfil de compresión de rango dinámico adecuado mediante valores absolutos o valores diferenciales en relación con otro perfil de compresión conocido. Un dispositivo de reproducción también puede aplicar de forma adaptativa ganancia y limitación al audio de reproducción. Se describen implementaciones en codificadores, transcodificadores y decodificadores. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Sistema y método para normalizar de manera no destructiva la sonoridad de señales de audio en dispositivos portátiles

Referencia cruzada a la aplicación relacionada

Esta solicitud es una solicitud divisional europea de la solicitud de patente europea EP18191911.9 (referencia: D10006EP04), cuyo formulario 1001 de la OEP fue presentado el 31 de agosto de 2018.

Campo técnico

La presente invención se refiere en general a la codificación y decodificación de señales de audio y se refiere más específicamente a técnicas que pueden usarse para codificar y decodificar señales de audio para una gama más amplia de dispositivos de reproducción y entornos de escucha.

Antecedentes de la técnica

La creciente popularidad de los dispositivos de mano y otros tipos de dispositivos portátiles ha creado nuevas oportunidades y desafíos para los creadores y distribuidores de contenido multimedia para reproducir en esos dispositivos, así como para los diseñadores y fabricantes de los dispositivos. Muchos dispositivos portátiles son capaces de reproducir una amplia gama de tipos y formatos de contenido multimedia, incluidos los que a menudo se asocian con contenido de audio de alta calidad, amplio ancho de banda y amplio rango dinámico para HDTV, Blu-ray o DVD. Se pueden usar dispositivos portátiles para reproducir este tipo de contenido de audio en sus propios transductores acústicos internos o en transductores externos como auriculares; sin embargo, por lo general no pueden reproducir este contenido con una sonoridad e inteligibilidad consistentes en diferentes formatos de medios y tipos de contenido.

La publicación Jeffrey C. Riedmiller: “An Analysis of Audio for Digital Cable Television Recommendations for the Digital Transition via Audio Metadata”, Dolby Laboratories Inc., documento técnico de la NCTA, 2001, páginas 1 18, aborda estos asuntos.

Divulgación de la invención

La presente invención está dirigida a proporcionar métodos mejorados para codificar y decodificar señales de audio para su reproducción en una variedad de dispositivos, incluidos dispositivos de mano y otros tipos de dispositivos portátiles.

Varios aspectos de la presente invención se exponen en las reivindicaciones independientes que se muestran a continuación.

Las diversas características de la presente invención y sus realizaciones preferidas pueden entenderse mejor con referencia a la siguiente discusión y los dibujos adjuntos en los que los mismos números de referencia se refieren a elementos similares en las diversas figuras. El contenido de la siguiente discusión y los dibujos se exponen solo como ejemplos y no debe entenderse que representan limitaciones sobre el alcance de la presente invención.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques esquemático de un dispositivo de reproducción.

La figura 2 es un diagrama de bloques esquemático de un dispositivo de codificación.

Las figuras 3 a 5 son diagramas de bloques esquemáticos de dispositivos de transcodificación.

La figura 6 es un diagrama de bloques esquemático de un dispositivo que puede usarse para implementar varios aspectos de la presente invención.

Modos de llevar a cabo la invención

A. Introducción

La presente invención está dirigida a la codificación y decodificación de información de audio para su reproducción en entornos de escucha desafiantes como los que encuentran los usuarios de dispositivos de mano y otros tipos de dispositivos portátiles. Algunos ejemplos de codificación y decodificación de audio se describen en estándares publicados, como los que se describen en el “Digital Audio Compression Standard (AC-3, E-AC3)”, revisión B, documento A/52B, 14 de junio de 2005, publicado por Advanced Televisión Systems Committee, Inc. (denominado en el presente documento “Estándar ATSC”), y en ISO/IEC 13818-7, Codificación de audio avanzada (AAC) (denominado en el presente documento “Estándar MPEG-2 AAC”) y ISO/IEC 14496-3, subparte 4 (denominado en el presente documento “Estándar de audio MPEG-4”) publicado por la Organización Internacional de Normalización (ISO). Los procesos de codificación y decodificación que cumplen a estos estándares se mencionan solo como ejemplos. Los principios de la presente invención se pueden usar con sistemas de codificación que cumplan también otras normas.

Los inventores descubrieron que las características disponibles de los dispositivos que cumplen algunos estándares de codificación a menudo no son suficientes para las aplicaciones y los entornos de escucha que son típicos de los dispositivos de mano y otros tipos de dispositivos portátiles. Cuando estos tipos de dispositivos se usan para decodificar el contenido de audio de las señales de entrada codificadas que cumplen con estos estándares, el contenido de audio decodificado a menudo se reproduce a niveles de sonoridad significativamente más bajos que los niveles de sonoridad del contenido de audio obtenidos mediante la decodificación de señales de entrada codificadas que se prepararon especialmente para su reproducción en estos dispositivos.

Las señales de entrada codificadas que cumplen con el estándar ATSC (denominadas en el presente documento “señales codificadas compatibles con ATSC”), por ejemplo, contienen información de audio codificada y metadatos que describen cómo se puede decodificar esta información. Algunos de los parámetros de metadatos identifican un perfil de compresión de rango dinámico que especifica cómo se puede comprimir el rango dinámico de la información de audio cuando se decodifica la información de audio codificada. El rango dinámico completo de la señal decodificada se puede retener o se puede comprimir en diversos grados en el momento de la decodificación para satisfacer las demandas de diferentes aplicaciones y entornos de escucha. Otros metadatos identifican alguna medida de sonoridad de la información de audio codificada, como un nivel de programa promedio o nivel de diálogo en la señal codificada. Estos metadatos pueden ser usados por un decodificador para ajustar amplitudes de la señal decodificada para lograr una sonoridad específica o un nivel de reproducción de referencia durante la reproducción. En algunas aplicaciones, se pueden especificar o asumir uno o más niveles de reproducción de referencia, mientras que en otras aplicaciones se le puede dar al usuario el control sobre el establecimiento del nivel de reproducción de referencia. Por ejemplo, los procesos de codificación usados para codificar y decodificar señales codificadas compatibles con ATSC asumen que el diálogo se reproducirá en uno de los dos niveles de reproducción de referencia. Un nivel está 31 dB por debajo de un nivel de recorte, que es el valor digital o valor de escala completa (FS) más grande posible, indicado aquí como -31 dBFS. El modo de decodificación que usa este nivel a veces se denomina “modo de línea” y está diseñado para usarse en aplicaciones y entornos donde son adecuados rangos dinámicos más amplios. El otro nivel se establece en -20 dBFS. El modo de decodificación que usa este segundo nivel a veces se denomina “modo RF”, que está diseñado para usarse en aplicaciones y entornos como los que se encuentran en la difusión por modulación de señales de radiofrecuencia (RF) donde se necesitan rangos dinámicos más estrechos para evitar la sobremodulación.

Para otro ejemplo, las señales codificadas que se adecúan a los estándares MPEG-2 AAC y audio MPEG-4 incluyen metadatos que identifican un nivel de sonoridad promedio para la información de audio codificada. Los procesos que decodifican señales codificadas compatibles con MPEG-2 AAC y audio MPEG-4 pueden permitir al oyente especificar el nivel de reproducción deseado. El decodificador usa el nivel de reproducción deseado y los metadatos de sonoridad promedio para ajustar las amplitudes de la señal decodificada de modo que se logre el nivel de reproducción deseado.

Cuando se usan dispositivos de mano y otros tipos de dispositivos portátiles para decodificar y reproducir el contenido de audio de señales codificadas compatibles con ATSC, compatibles con MPEG-2 AAC y compatibles con audio MPEG-4 de acuerdo con estos parámetros de metadatos, el rango dinámico y el nivel de sonoridad a menudo no son adecuados debido a los entornos de escucha adversos que se encuentran con este tipo de dispositivos o debido a las limitaciones eléctricas debido a los voltajes operativos más bajos que se usan en estos dispositivos.

Las señales codificadas que cumplen otros estándares usan tipos similares de metadatos y pueden incluir una disposición para especificar el nivel de sonoridad de reproducción previsto. A menudo, se encuentran los mismos problemas con los dispositivos portátiles que decodifican estas señales.

La presente invención se puede usar para mejorar la experiencia de escucha de los usuarios de dispositivos de mano y portátiles sin requerir contenido que haya sido preparado especialmente para estos dispositivos.

B. Descripción general del dispositivo

La figura 1 es un diagrama de bloques esquemático de un tipo de dispositivo 10 de receptor/decodificador que incorpora varios aspectos de la presente invención. El dispositivo 10 recibe una señal de entrada codificada de la ruta 11 de señal, aplica procesos adecuados en el desformateador 12 para extraer información de audio codificada y metadatos asociados de la señal de entrada, pasa la información de audio codificada al decodificador 14 y pasa los metadatos a lo largo de la ruta 13 de señal. La información de audio codificada incluye señales de subbanda codificadas que representan el contenido espectral de los estímulos auditivos y los metadatos especifican valores para una variedad de parámetros que incluyen uno o más parámetros de control de decodificación y uno o más parámetros que especifican la compresión del rango dinámico de acuerdo con un perfil de compresión de rango dinámico. El término “perfil de compresión de rango dinámico” se refiere a características tales como factores de ganancia, tiempos de ataque de compresión y tiempos de liberación de compresión que definen las características operativas de un compresor de rango dinámico.

El decodificador 14 aplica un proceso de decodificación a la información de audio codificada para obtener señales de subbanda decodificadas, que se pasan al control 16 de rango dinámico. El funcionamiento y las funciones del proceso de decodificación pueden adaptarse en respuesta a los parámetros de control de decodificación recibidos desde la ruta 13 de señal. Ejemplos de parámetros de control de decodificación que pueden usarse para adaptar el funcionamiento y funciones del proceso de decodificación son parámetros que identifican el número y la configuración de los canales de audio representados por la información de audio codificada.

El control 16 de rango dinámico ajusta opcionalmente el rango dinámico de la información de audio decodificada. Este ajuste puede activarse o desactivarse y adaptarse en respuesta a los metadatos recibidos desde la ruta 13 de señal y/o desde las señales de control que pueden proporcionarse en respuesta a la entrada de un oyente. Por ejemplo, se puede proporcionar una señal de control en respuesta a que un oyente accione un interruptor o seleccione una opción operativa para el dispositivo 10.

En implementaciones que cumplen con el estándar ATSC, el estándar MPEG-2 AAC o el estándar de audio MPEG-4, por ejemplo, la señal de entrada codificada incluye información de audio codificada organizada en una secuencia de segmentos o tramas. Cada trama contiene señales de subbanda codificadas que representan los componentes espectrales de una señal de audio con su rango dinámico completo. El control 16 de rango dinámico puede no realizar ninguna acción, lo que permite que la señal de audio se reproduzca con una cantidad máxima de rango dinámico, o puede modificar las señales de subbanda decodificadas para comprimir el rango dinámico en diversos grados.

El banco 18 de filtros de síntesis aplica un banco de filtros de síntesis a las señales de subbanda decodificadas, que pueden haber sido ajustadas por el control 16 de rango dinámico, y proporciona a su salida una señal de audio de dominio tiempo que puede ser una señal digital o analógica.

El limitador 20 de ganancia se usa en algunas implementaciones de la presente invención para ajustar la amplitud de la señal de audio de dominio tiempo. La salida del limitador 20 de ganancia pasa a lo largo de la ruta 21 para su posterior presentación por un transductor acústico.

La figura 2 es un diagrama de bloques esquemático de un dispositivo 30 de codificador/transmisor que incorpora varios aspectos de la presente invención. El dispositivo 30 recibe una señal de entrada de audio desde la ruta 31 de señal que representa estímulos auditivos. El dispositivo 30 aplica un banco de filtros de análisis a la señal de audio para obtener señales de subbanda en una representación de dominio frecuencia de la señal de audio de entrada o un conjunto de señales de ancho de banda limitado que representan la señal de audio de entrada. La calculadora 34 de metadatos analiza la señal de entrada de audio y/o una o más señales derivadas de la señal de entrada de audio, como una versión modificada de la señal de entrada de audio o las señales de subbanda del banco 32 de filtros de análisis para calcular metadatos que especifican valores para un variedad de parámetros que incluyen parámetros de control de codificación, uno o más parámetros de control de decodificación y uno o más parámetros que especifican la compresión del rango dinámico de acuerdo con un perfil de compresión de rango dinámico. La calculadora 34 de metadatos puede analizar señales de dominio tiempo, señales en el dominio frecuencia o una combinación de señales de dominio tiempo y de dominio frecuencia. Los cálculos realizados por la calculadora 34 de metadatos también pueden adaptarse en respuesta a uno o más parámetros de metadatos recibidos desde la ruta 33. El codificador 36 aplica un proceso de codificación a la salida del banco 32 de filtros de análisis para obtener información de audio codificada que incluye señales de subbanda codificadas, que se pasa al formateador 38. El proceso de codificación puede adaptarse en respuesta a los parámetros de control de codificación recibidos desde la ruta 33. El proceso de codificación también puede generar otros parámetros de control de decodificación a lo largo de la ruta 33 para que los usen los procesos realizados en el dispositivo 10 para decodificar la información de audio codificada. El formateador 38 ensambla la información de audio codificada y al menos algunos de los metadatos, incluidos uno o más parámetros de control de decodificación y uno o más parámetros que especifican la compresión del rango dinámico en una señal de salida codificada que tiene un formato adecuado para transmisión o almacenamiento.

En implementaciones que cumplen con el estándar ATSC, el estándar MPEG-2 AAC o el estándar de audio MPEG-4, por ejemplo, la señal de salida codificada incluye información de audio codificada organizada en una secuencia de segmentos o tramas. Cada trama contiene señales de subbanda codificadas que representan los componentes espectrales de una señal de audio con su rango dinámico completo y que tienen amplitudes para la reproducción a un nivel de reproducción de referencia.

El desformateador 12, el decodificador 14, el banco 18 de filtros de síntesis, el banco 32 de filtros de análisis, el codificador 36 y el formateador 38 pueden ser de diseño y funcionamiento convencionales. Algunos ejemplos incluyen los componentes correspondientes que cumplen con los estándares publicados mencionados anteriormente. Las implementaciones de los componentes especificados o sugeridos en estos estándares son adecuadas para usar con la presente invención pero no son necesarios. Ninguna implementación particular de estos componentes es crítica.

Las figuras 3 a 5 son diagramas de bloques esquemáticos de diferentes implementaciones de un dispositivo 40 de transcodificador que comprende algunos de los componentes en el dispositivo 10 y el dispositivo 30, descritos anteriormente. Estos componentes funcionan sustancialmente igual que sus contrapartes. El dispositivo 40 que se muestra en la figura 3 es capaz de transcodificar la señal de entrada codificada recibida desde la ruta 11 en una versión modificada que cumple el mismo estándar de codificación. En esta implementación, el dispositivo 40 recibe una señal de entrada codificada de la ruta 11 de señal, aplica procesos adecuados en el desformateador 12 para extraer la primera información de audio codificada y los metadatos asociados de la señal de entrada codificada, pasa la primera información de audio codificada al decodificador 14 y al formateador 38, y pasa los metadatos a lo largo de la ruta 43 de señal. La primera información de audio codificada incluye señales de subbanda codificadas que representan el contenido espectral de los estímulos auditivos y los metadatos especifican valores para una variedad de parámetros que incluyen uno o más parámetros de control de decodificación y uno o más parámetros que especifican la compresión del rango dinámico de acuerdo con un primer perfil de compresión de rango dinámico. El decodificador 14 aplica un proceso de decodificación a la primera información de audio codificada para obtener señales de subbanda decodificadas. El funcionamiento y las funciones del proceso de decodificación pueden adaptarse en respuesta a uno o más parámetros de control de decodificación recibidos desde la ruta 43 de señal. Las señales de subbanda pueden ser una representación en el dominio frecuencia de los estímulos auditivos o un conjunto de señales de ancho de banda limitado que representan los estímulos auditivos.

La calculadora 44 de metadatos analiza las señales de subbanda decodificadas y/o una o más señales derivadas de las señales de subbanda decodificadas para calcular uno o más valores de parámetro que especifican la compresión de rango dinámico de acuerdo con un segundo perfil de compresión de rango dinámico. Por ejemplo, una o más señales pueden obtenerse aplicando el banco 18 de filtros de síntesis a las señales de subbanda decodificadas. Los cálculos realizados por la calculadora 44 de metadatos pueden adaptarse en respuesta a los metadatos recibidos desde la ruta 43. El banco 18 de filtros de síntesis puede omitirse de esta implementación si su salida no es necesaria para el cálculo de metadatos.

Otra implementación del dispositivo 40 se muestra en la figura 4. Esta implementación es similar a la que se muestra en la figura 3 pero incluye el codificador 36. La inclusión del codificador 36 permite que el dispositivo 40 transcodifique la señal de entrada codificada recibida de la ruta 11, que cumple un primer estándar de codificación, en una señal de salida codificada que cumple un segundo estándar de codificación que puede ser igual o diferente del primer estándar de codificación siempre que las señales de subbanda de los dos estándares de codificación sean compatibles. Esto se puede hacer en esta implementación haciendo que el codificador 36 aplique un proceso de codificación a las señales de subbanda para obtener una segunda información de audio codificada que cumpla segundo estándar de codificación. La segunda información de audio codificada se pasa al formateador 38. El proceso de codificación puede adaptarse en respuesta a los metadatos recibidos desde la ruta 43. El proceso de codificación también puede generar otros metadatos a lo largo de la ruta 43 para que los usen los procesos realizados en el dispositivo 10 para decodificar la información de audio codificada. El formateador 38 ensambla los metadatos recibidos de la ruta 43 y la información de audio codificada que recibe en una señal de salida codificada que tiene un formato que es adecuado para transmisión o almacenamiento.

Otra implementación más del dispositivo 40 se muestra en la figura 5. Esta implementación incluye el banco 18 de filtros de síntesis, que se aplica a las señales de subbanda decodificadas para obtener una representación de dominio tiempo o de banda ancha de la información de audio codificada. La inclusión del banco 18 de filtros de síntesis y el banco 32 de filtros de análisis permite que el dispositivo 40 transcodifique entre esencialmente cualquier opción de estándares de codificación. La salida del banco 18 de filtros de síntesis se pasa al banco 32 de filtros de análisis, que genera señales de subbanda para que las codifique el codificador 36. El codificador 36 aplica un proceso de codificación a la salida del banco 32 de filtros de análisis para obtener una segunda información de audio codificada, que se pasa al formateador 38. El proceso de codificación también puede generar otros metadatos a lo largo de la ruta 43 para que los usen los procesos realizados en el dispositivo 10 para decodificar la información de audio codificada. La calculadora 44 de metadatos puede calcular valores de parámetro de metadatos a partir de su análisis de cualquiera o todas las señales de subbanda recibidas del decodificador 14, la salida del banco 18 de filtros de síntesis y la salida del banco 32 de filtros de análisis.

Algunos aspectos del dispositivo 10 y el dispositivo 30 se describen a continuación con más detalle. Estas descripciones se aplican a las características correspondientes del dispositivo 40. Estos aspectos se describen en términos de funciones y características de los métodos y dispositivos que cumplen el estándar ATSC mencionado anteriormente. Estas funciones y características específicas se tratan únicamente a modo de ejemplo. Los principios que subyacen a estas implementaciones son directamente aplicables a los métodos y dispositivos que cumplen otros estándares.

C. Receptor/Decodificador

Los problemas de reproducción descritos anteriormente se pueden abordar mediante el uso de una o más de las tres técnicas diferentes que se describen a continuación. La primera técnica usa la limitación de ganancia y puede implementarse mediante características solo en el dispositivo 10. La segunda y la tercera técnica usan compresión de rango dinámico y sus implementaciones requieren características tanto en el dispositivo 10 como en el dispositivo 30.

1. Limitador de ganancia

La primera técnica opera el dispositivo 10 en modo RF en lugar de en modo de línea para que decodifique una señal de entrada codificada compatible con ATSC con el control 16 de rango dinámico proporcionando niveles más altos de compresión de rango dinámico y un nivel de reproducción de referencia más alto. El limitador 20 de ganancia proporciona una ganancia adicional, elevando el nivel de reproducción de referencia efectivo a un valor de -14 dBFS a -8 dBFS. Los resultados empíricos indican que un nivel de referencia igual a -11 dBFS da buenos resultados para muchas aplicaciones.

El limitador 20 de ganancia también aplica una operación de limitación para evitar que la señal digital amplificada exceda 0 dBFS. Las características operativas del limitador pueden afectar la calidad percibida del audio reproducido pero ningún limitador en particular es crítico para la presente invención. El limitador puede implementarse esencialmente de cualquier forma que se desee. Preferiblemente, el limitador está diseñado para proporcionar una función de limitación “suave” en lugar de una función de recorte “duro”.

2. Valores diferenciales de compresión

La segunda técnica permite que el dispositivo 10 aplique uno o más parámetros de compresión de rango dinámico modificados en el control 16 de rango dinámico. El desformateador 12 obtiene valores de parámetro de compresión de rango dinámico (DRC) diferenciales de la señal de entrada codificada y pasa los valores de parámetro diferenciales junto con los valores de parámetro DRC convencionales a lo largo de la ruta 13 al control 16 de rango dinámico. El control 16 de rango dinámico calcula uno o más valores de parámetro DRC que necesita combinando aritméticamente los valores de parámetro DRC convencionales con los correspondientes valores de parámetro diferenciales DRC. No es necesario usar el limitador 20 de ganancia en esta situación. Los valores de parámetro diferenciales DRC son proporcionados en la señal de entrada codificada por el dispositivo 30 de codificador/transmisor que generó la señal de entrada codificada. Esto se describe a continuación.

Si la señal de entrada codificada no contiene estos valores diferenciales DRC, el dispositivo 10 puede usar el limitador 20 de ganancia de acuerdo con la primera técnica descrita anteriormente.

3. Perfil de compresión distinto

La tercera técnica permite que el dispositivo 10 aplique compresión de rango dinámico de acuerdo con un nuevo perfil de compresión de rango dinámico en el control 16 de rango dinámico. El desformateador 12 obtiene uno o más valores de parámetro DRC para el nuevo perfil de la señal de entrada codificada y los pasa a lo largo de la ruta 13 al control 16 de rango dinámico. No es necesario usar el limitador 20 de ganancia en esta situación. Los valores de parámetro DRC para el nuevo perfil de compresión de rango dinámico se proporcionan en la señal de entrada codificada por el dispositivo 30 de codificador/transmisor que generó la señal de entrada codificada. Esto se describe a continuación.

Si la señal de entrada codificada no contiene uno o más valores de parámetro DRC para el nuevo perfil DRC, el dispositivo 10 puede usar el limitador 20 de ganancia de acuerdo con la primera técnica descrita anteriormente. D. Codificador/Transmisor

1. Valores de compresión diferencial

Los procesos para la segunda técnica discutida anteriormente se implementan en el dispositivo 10 usando valores de parámetro diferenciales DRC que se extraen de la señal de entrada codificada. Estos valores de parámetro diferenciales son proporcionados por el dispositivo 30 que generó la señal codificada.

El dispositivo 30 proporciona un conjunto de valores de parámetro diferenciales DRC que representan la diferencia entre un conjunto de valores de parámetro DRC que estarán presentes en la señal codificada y un conjunto de valores de parámetro base correspondientes para un nuevo perfil DRC que se requieren para evitar que las muestras de señales de audio decodificadas excedan 0 dBFS para un nivel de reproducción de referencia más alto. Ningún método particular para calcular los valores de parámetro DRC es crítico para la presente invención. Métodos conocidos para calcular valores de parámetro que se adecúan al estándar ATSC se divulgan en “ATSC Recommended Practice: Techniques for Estalishing an Maintaining Audio Loudness for Digital Television”, documento A/85, 4 de noviembre de 2009, publicado por Advanced Television Systems Committee, Inc., especialmente la Sección 9 y el Anexo F, y en Robinson et al., “Dynamic Range Control via Metadata”, prepublicación n.° 5028, 107a Convención AES, Nueva York, septiembre de 1999.

Si la señal de salida codificada cumple con el estándar ATSC, el estándar MPEG-2 AAC o el estándar de audio MPEG-4, el nivel de reproducción de referencia aumenta a un valor de -14 dBFS a -8 dBFS. Los resultados empíricos indican que un nivel de referencia igual a -11 dBFS da buenos resultados para muchas aplicaciones. Para señales de salida codificadas compatibles con ATSC, la calculadora 34 de metadatos calcula un valor de parámetro diferencial para el parámetro base correspondiente “compr” especificado en el estándar. El formateador 38 puede ensamblar el valor de parámetro diferencial en porciones de cada trama de señal codificada indicada como “addbsi” (información de flujo de bits adicional) y/o “auxdata” (datos auxiliares). Si los valores de parámetro diferenciales se ensamblan en las porciones “addbsi” o “auxdata”, la señal codificada será compatible con todos los decodificadores compatibles con ATSC. Los decodificadores que no reconocen los valores de parámetro diferenciales aún pueden procesar y decodificar correctamente las tramas de señales codificadas ignorando las porciones “addbsi” y “auxdata”. Consúltese el documento A/52b citado anteriormente para obtener más detalles.

Para señales de salida codificadas que se adecúan a los estándares MPEG-2 AAC o audio MPEG-4, el formateador 38 puede ensamblar los valores de parámetro diferenciales en porciones de cada trama de señal codificada indicada como “Fill_Element” o “Data_Stream_Element” en los dos estándares. Si los valores de parámetro diferenciales se ensamblan en cualquiera de estas porciones, la señal codificada será compatible con todos los decodificadores compatibles con los estándares MPEG-2 AAC y audio MPEG-4. Consúltense los documentos ISO/IEC 13818-7 e ISO/IEC 14496-3 citados anteriormente para obtener más detalles.

Los valores de parámetro diferenciales pueden calcularse e insertarse en la señal codificada a una tasa mayor, igual o menor que la tasa a la que los valores de parámetro base correspondientes están en la señal codificada. La tasa de los valores diferenciales puede variar. También se pueden incluir en la señal codificada indicadores o bits que indican si un valor diferencial anterior debe ser reutilizado.

2. Perfil de compresión distinto

Los procesos para la tercera técnica discutida anteriormente se implementan en el dispositivo 10 usando valores de parámetro DRC para el nuevo perfil de compresión de rango dinámico que se extraen de la señal de entrada codificada. Estos valores de parámetro son proporcionados por el dispositivo 30 que generó la señal codificada. El dispositivo 30 deriva valores de parámetro DRC para un nuevo perfil DRC calculando los valores de parámetro necesarios para evitar que las muestras de señales de audio decodificadas excedan 0 dBFS para un nivel de reproducción de referencia superior.

Si la señal de salida codificada cumple con el estándar ATSC, el estándar MPEG-2 AAC o el estándar de audio MPEG-4, la calculadora 34 de metadatos calcula un valor de compresión DRC basándose en la suposición de que el nivel de reproducción de referencia aumenta a un valor de - 14 dBFS a -8 dBFS. Los resultados empíricos indican que un nivel de referencia igual a -11 dBFS da buenos resultados para muchas aplicaciones. El formateador 38 puede ensamblar el valor de parámetro para el perfil DRC en porciones de cada trama de señal codificada como se describe anteriormente para los parámetros diferenciales. El uso de estas porciones de las tramas permite que la señal codificada sea compatible con todos los decodificadores que se adecúen al estándar respectivo.

E. Implementación

Los dispositivos que incorporan diversos aspectos de la presente invención pueden implementarse de diversas maneras, incluido el software para su ejecución por un ordenador o algún otro dispositivo que incluya componentes más especializados, como un circuito de procesador de señal digital (DSP) acoplado a componentes similares a los que se encuentran en un ordenador de propósito general. La figura 6 es un diagrama de bloques esquemático de un dispositivo 70 que puede usarse para implementar aspectos de la presente invención. El procesador 72 proporciona recursos informáticos. La rAm 73 es una memoria de acceso aleatorio (RAM) del sistema usada por el procesador 72 para el procesamiento. La ROM 74 representa alguna forma de almacenamiento persistente tal como memoria de sólo lectura (ROM) para almacenar programas necesarios para operar el dispositivo 70 y posiblemente para llevar a cabo varios aspectos de la presente invención. El control de E/S 75 representa un circuito de interfaz para recibir señales de entrada y transmitir señales de salida a través de los canales de comunicación 76, 77. En la realización mostrada, todos los componentes principales del sistema se conectan al bus 71, que puede representar más de un bus físico o lógico; sin embargo, no se requiere una arquitectura de bus para implementar la presente invención.

En las realizaciones implementadas por un sistema de ordenador de propósito general, se pueden incluir componentes adicionales para conectarse a dispositivos como un teclado o ratón y un visualizador, y para controlar un dispositivo 78 de almacenamiento que tiene un medio de almacenamiento como una cinta magnética o un disco, o un medio óptico. El medio de almacenamiento se puede usar para grabar programas de instrucciones para sistemas operativos, utilidades y aplicaciones, y puede incluir programas que implementen varios aspectos de la presente invención.

Las funciones requeridas para poner en práctica varios aspectos de la presente invención pueden ser realizadas por componentes que se implementan en una amplia variedad de formas que incluyen componentes lógicos discretos, circuitos integrados, uno o más ASIC y/o procesadores controlados por programa. La manera en que se implementan estos componentes no es importante para la presente invención.

Las implementaciones de software de la presente invención pueden transmitirse mediante una variedad de medios legibles por máquina, como rutas de comunicación de banda base o modulada en todo el espectro, incluidas desde frecuencias supersónicas hasta ultravioleta, o medios de almacenamiento que transmiten información usando esencialmente cualquier tecnología de grabación, incluidas cintas magnéticas, tarjetas o disco, tarjetas ópticas o disco, y marcas detectables en medios, incluido el papel.

Claims

REIVINDICACIONES

1. - Un método que comprende:

recibir, mediante un dispositivo de decodificación, información de audio codificada y metadatos asociados con una señal de audio, incluyendo los metadatos uno o más parámetros de control de decodificación, una medida de una sonoridad de la información de audio codificada y uno o más primeros valores de parámetro que especifican compresión de rango dinámico (DRC) de acuerdo con un primer perfil asociado con un primer nivel de reproducción de referencia, y uno o más segundos valores de parámetro que especifican DRC de acuerdo con un segundo perfil asociado con un segundo nivel de reproducción de referencia superior al primer nivel de reproducción de referencia y dentro de un rango de niveles de reproducción de referencia;

especificar, para el dispositivo de decodificación, un nivel de reproducción de referencia;

aplicar, mediante el dispositivo de decodificación, un proceso de decodificación a la información de audio codificada para obtener señales de subbanda que representan el contenido espectral de la señal de audio; modificar, mediante el dispositivo de decodificación, las señales de subbanda usando el uno o más segundos valores de parámetro DRC que especifican DRC de acuerdo con el segundo perfil para obtener señales de subbanda modificadas con características de rango dinámico cambiadas, en respuesta a especificar el nivel de reproducción de referencia, para el dispositivo de decodificación, al segundo nivel de reproducción de referencia; aplicar, mediante el dispositivo de decodificación, un banco de filtros de síntesis a las señales de subbanda modificadas para obtener una señal de audio de dominio tiempo; y

usar, mediante el dispositivo de decodificación, la medida de sonoridad para ajustar amplitudes de la señal de audio de dominio tiempo para lograr el nivel de reproducción de referencia para el dispositivo de decodificación.

2. - El método de la reivindicación 1, en el que el primer nivel de reproducción de referencia es -31 dBFS o -20 dBFS.

3. - El método de la reivindicación 1 o la reivindicación 2, en el que el rango de niveles de reproducción de referencia está entre -14 dBFS y -8 dBFS.

4. - El método de la reivindicación 1 o la reivindicación 2, en el que el segundo nivel de reproducción de referencia es -11 dBFS.

5. - Un aparato que comprende:

un procesador;

una memoria acoplada al procesador y configurada para almacenar instrucciones que, cuando son ejecutadas por el procesador, hacen que el procesador realice el método de cualquiera de las reivindicaciones anteriores. 6. - Un producto de programa de ordenador que incluye un soporte de datos que almacena instrucciones para realizar el método de una cualquiera de las reivindicaciones 1 a 4.