ES2373741T3 - Medición económica de la intensidad de una señal de audio codificada. - Google Patents

Medición económica de la intensidad de una señal de audio codificada. Download PDF

Info

Publication number
ES2373741T3
ES2373741T3 ES06739542T ES06739542T ES2373741T3 ES 2373741 T3 ES2373741 T3 ES 2373741T3 ES 06739542 T ES06739542 T ES 06739542T ES 06739542 T ES06739542 T ES 06739542T ES 2373741 T3 ES2373741 T3 ES 2373741T3
Authority
ES
Spain
Prior art keywords
audio signal
intensity
representations
audio
bit sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06739542T
Other languages
English (en)
Inventor
Brett Graham Crockett
Michael John Smithers
Alan Jeffrey Seefeldt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36636608&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2373741(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2373741T3 publication Critical patent/ES2373741T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Procedimiento para medir la intensidad de una señal de audio codificada en una secuencia de bits, que incluye datos a partir de los cuales puede derivarse una aproximación de un espectro de potencia de la señal de audio, sin decodificar completamente la señal de audio, incluyendo dichos datos representaciones toscas de la señal de audio y representaciones más finas de la señal de audio, siendo seleccionadas dichas representaciones toscas de entre un grupo que contiene factores de escala, envolventes espectrales y coeficientes predictivos lineales, comprendiendo el procedimiento derivar dicha aproximación del espectro de potencia de la señal de audio a partir de dichas representaciones toscas de la señal de audio en dicha secuencia de bits, sin decodificar completamente la señal de audio, y determinar una intensidad aproximada de la señal de audio en respuesta a la aproximación del espectro de potencia de la señal de audio.

Description

Medición económica de la intensidad de una señal de audio codificada.
Campo técnico
La invención se refiere al procesamiento de señales de audio. Más particularmente, se refiere a un cálculo económico de una medición objetiva de la intensidad de una señal de audio codificada con baja tasa de bits, tales como una señal de audio codificada con Dolby Digital (AC-3), Dolby Digital Plus o Dolby E. "Dolby", "Dolby Digital", "Dolby Digital Plus" y "Dolby E" son marcas comerciales de Dolby Laboratories Licensing Corporation. Los aspectos de la invención también pueden ser usados en otros tipos de codificación de audio.
Antecedentes de la técnica
Los detalles de la codificación Dolby Digital se exponen en las referencias siguientes:
ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 Ag. 2001. El documento A/52A está disponible en la Web en la dirección http://www.atsc.org/standards.html. Flexible Perceptual Coding for Audio Transmission and Storage," por Craig C. Todd, et al, 96ª Convención de la Audio Engineering Society, 26 Feb. 1994, Preprint 3796; "Design and Implementation of AC-3 Coders," por Steve Vernon, IEEE Trans. Consumer Electronics, Vol. 41, No. 3, Ag. 1995. "The AC-3 Multichannel Coder" by Mark Davis, Audio Engineering Society Preprint 3774, 95ª Convención AES, Octubre, 1993. "High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications," por Bosi et al, Audio Engineering Society Preprint 3365, 93ª Convención AES, Octubre, 1992.
Las patentes US Nos. 5.583.962, 5.632.005, 5.633.981, 5.727.119, 5.909.664 y 6.021.386.
Los detalles de la codificación Dolby Digital Plus se describen en "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System," Artículo de la convención AES 6196, 117ª Convención AES, 28 Oct, 2004.
Los detalles de la codificación Dolby E se describen en ""Efficient Bit Allocation, Quantization, and Coding in an Audio Distribution System", AES Preprint 5068, 107ª Conferencia AES, Agosto 1999 y "Professional Audio Coder Optimized for Use with Video", AES Preprint 5033, 107ª Conferencia AES Agosto 1999.
Una visión general de diversos codificadores perceptuales, incluyendo codificadores Dolby, codificadores MPEG, y otros, se describe en "Overview of MPEG Audio: Current and Future Standards for Low-Bit-Rate Audio Coding," por Karlheinz Brandenburg y Marina Bosi, J. Audio Eng. Soc., Vol. 45, No. 1/2, Enero/Febrero 1997.
Existen muchos procedimientos para medir objetivamente la intensidad percibida de las señales de audio. Los ejemplos de procedimientos incluyen mediciones de potencia ponderada (tales como LeqA, LeqB, LeqC), así como mediciones de intensidad basadas en psicoacústica, tales como "Acoustics – Method for Calculating Loudness Level”, ISO532 (1975). Las mediciones ponderadas de intensidad de potencia procesan la señal de audio de entrada mediante la aplicación de un filtro predeterminado que enfatiza las frecuencias perceptiblemente más sensibles, mientras que resta importancia a las frecuencias perceptiblemente menos sensibles y, a continuación, promedian la potencia de la señal filtrada durante un período de tiempo predeterminado. Los procedimientos psicoacústicos son, típicamente, más complejos y su objetivo es modelar mejor el funcionamiento del oído humano. Esto se consigue dividiendo la señal de audio en bandas de frecuencia que imitan la respuesta de frecuencia y la sensibilidad del oído y, a continuación, manipulan e integran estas bandas, teniendo en cuenta fenómenos psicoacústicos, tales como el enmascaramiento temporal y de frecuencia, así como la percepción no lineal de la intensidad con intensidades diferentes de la señal. El objetivo de todos los procedimientos de medición objetiva de la intensidad es obtener una medición numérica de la intensidad que se ajuste estrechamente a la percepción subjetiva de la intensidad de una señal de audio.
La codificación perceptual o codificación de señal de audio a baja tasa de bits es usada, normalmente, para comprimir datos de señales de audio para un almacenamiento, una transmisión y un suministro eficiente en aplicaciones tales como emisión de televisión digital y la venta en línea de música por Internet. La codificación perceptual consigue su eficiencia transformando la señal de audio en un espacio de información, donde tanto las redundancias como los componentes de la señal que están enmascarados psicoacústicamente, pueden ser descartados fácilmente. La información restante es empaquetada en una secuencia o en un archivo de información digital. Típicamente, la medición de la intensidad de la señal de audio, representada por una señal de audio codificada a baja tasa de bits, requiere decodificar de nuevo la señal de audio al dominio temporal (por ejemplo, PCM), lo que puede ser computacionalmente intensivo. Sin embargo, algunas
señales codificadas perceptualmente, a baja tasa de bits, contienen información que puede ser útil para un procedimiento de medición de intensidad, ahorrando, de esta manera, el costo computacional de decodificar totalmente la señal de audio. Dolby Digital (AC-3), Dolby Digital Plus y Dolby E se encuentran entre estos sistemas de codificación de audio.
Los codificadores de audio perceptuales, de baja tasa de bits, Dolby Digital, Dolby Digital Plus y Dolby E dividen las señales de audio en segmentos de ventanas de tiempo, superpuestas (o bloques de codificación de audio), que son transformados a una representación en el dominio de la frecuencia. La representación en el dominio de la frecuencia de los coeficientes espectrales es expresada mediante una notación exponencial que comprende conjuntos de un exponente y la mantisa asociada. Los exponentes, que funcionan como factores de escala, son empaquetados en la secuencia de audio codificada. Las mantisas representan los coeficientes espectrales después de haber sido normalizadas por los exponentes. A continuación, los exponentes son pasados a través de un modelo perceptual del oído y usados para cuantificar y empaquetar las mantisas en la secuencia de audio codificada. Tras la decodificación, los exponentes son desempaquetados desde la secuencia de audio codificada y, a continuación, son pasados a través del mismo modelo perceptual para determinar cómo desempaquetar las mantisas. A continuación, las mantisas son desempaquetadas, son combinadas con los exponentes para crear una representación en el dominio de la frecuencia de la señal de audio que, a continuación, es decodificada y convertida de nuevo a una representación en el dominio temporal.
Debido a que muchas mediciones de intensidad incluyen cálculos de potencia y del espectro de potencia, el ahorro computacional puede conseguirse decodificando solo parcialmente la señal de audio codificada a baja tasa de bits y pasando la información decodificada parcialmente (tal como el espectro de potencia) a la medición de intensidad. La invención es útil siempre que haya una necesidad de medir la intensidad, pero no de decodificar la señal de audio. Toma ventaja del hecho de que una medición de intensidad puede hacer uso de una versión aproximada de la señal de audio, no siendo dicha aproximación, normalmente, adecuada para ser escuchada. Un aspecto de la presente invención es el reconocimiento de que una representación tosca de la señal de audio, que está disponible, sin descodificar completamente una secuencia de bits, en muchos sistemas de codificación de audio, puede proporcionar una aproximación del espectro de audio que puede ser utilizada en la medición de la intensidad de la señal de audio. En la codificación de audio Dolby Digital, Dolby Digital Plus y Dolby E, los exponentes proporcionan una aproximación del espectro de potencia de la señal de audio. De manera similar, en ciertos sistemas de codificación diferentes, los factores de escala, envolventes espectrales y los coeficientes predictivos lineales pueden proporcionar una aproximación del espectro de potencia de la señal de audio. Estos y otros aspectos y ventajas de la invención se comprenderán mejor con la lectura y la comprensión del resumen y la descripción siguientes de la invención.
El documento US 2001/0027393 A1 divulga un sistema de audio conferencia compuesto por N terminales conectados respectivamente a una unidad de control multipunto. Cada terminal comprende un codificador cuya entrada recibe datos de audio a transmitir a los otros terminales y cuya salida está conectada a una entrada de la unidad de control multipunto. Cada terminal tiene también un decodificador cuya entrada está conectada a una salida de la unidad de control multipunto y cuya salida suministra datos que son transmitidos al terminal considerado por los otros terminales. La unidad de control multipunto está compuesta, esencialmente, de un combinador que combina las señales presentes en sus entradas y suministra a la entrada del decodificador de un terminal una señal que representa la suma de las señales suministradas respectivamente por todos los codificadores de los N terminales, excepto para la señal de ese un terminal. La unidad de control multipunto tiene también N decodificadores parciales destinados a recibir, respectivamente, las tramas de audio producidas por los N terminales para decodificarlas y suministrar las mismas, de esta manera, a las entradas del combinador. La unidad de control multipunto tiene N decodificadores parciales que tienen salidas conectadas, respectivamente, a las entradas de los decodificadores de los terminales y que tienen entradas conectadas a las salidas del combinador. El documento describe el cálculo de la energía total de todos los terminales, menos uno, en cada banda de frecuencia.
Un objeto de la invención es proporcionar una medición computacionalmente económica de la intensidad percibida de la señal de audio codificada en una baja tasa de bits.
Este objeto se consigue mediante el procedimiento según la reivindicación 1, el aparato según la reivindicación 12 y un programa de ordenador almacenado en un medio que puede ser leído por ordenador según la reivindicación 24, respectivamente. Las realizaciones preferentes de la invención se definen en las reivindicaciones dependientes.
La invención consigue el objeto según se reivindica en las reivindicaciones independientes, decodificando solo parcialmente el material de audio y pasando la información parcialmente decodificada a una medición de intensidad. El procedimiento aprovecha las propiedades específicas de la información de audio parcialmente decodificada, tales como los exponentes en la codificación de audio Dolby Digital, Dolby Digital Plus y Dolby E.
Un primer aspecto de la invención mide la intensidad de una señal de audio codificada en una secuencia de bits que incluye datos a partir de los cuales puede derivarse una aproximación del espectro de potencia de la señal de audio, sin decodificar completamente la señal de audio, derivando la aproximación del espectro de potencia de la señal de audio a partir de la secuencia de bits sin decodificar completamente la señal de audio, y determinando una intensidad aproximada de la señal de audio en respuesta a la aproximación del espectro de potencia de la señal de audio.
5 En este primer aspecto de la invención, los datos incluyen representaciones toscas de la señal de audio y representaciones más finas asociadas de la señal de audio, y la aproximación del espectro de potencia de la señal de audio es derivada a partir de las representaciones toscas de la señal de audio.
En un aspecto adicional de la invención, la señal de audio codificada en una secuencia de bits puede ser una señal de
10 audio codificada en sub-bandas, que tiene una pluralidad de sub-bandas de frecuencia, teniendo cada sub-banda un factor de escala y datos de muestra asociados con el mismo, y en el que las representaciones toscas de la señal de audio comprenden factores de escala y las representaciones más finas asociadas de la señal de audio comprenden datos de muestra asociados con cada factor de escala.
15 En todavía un aspecto adicional de la invención, el factor de escala y los datos de muestra de cada sub-banda pueden representar coeficientes espectrales en la sub-banda, por medio de una notación exponencial en la que el factor de escala comprende un exponente y los datos de muestra asociados comprenden mantisas.
En todavía un aspecto adicional de la invención, la señal de audio codificada en una secuencia de bits puede ser una
20 señal de audio con una codificación predictiva lineal, en la que las representaciones toscas de la señal de audio comprenden los coeficientes predictivos lineales y las representaciones más finas de la señal de audio comprenden información de excitación asociada con los coeficientes predictivos lineales.
En todavía un aspecto adicional de la invención, las representaciones toscas de la señal de audio pueden comprender al
25 menos una envolvente espectral y las representaciones más finas de la señal de audio pueden comprender componentes espectrales asociados con al menos una envolvente espectral.
En todavía otro aspecto adicional de la invención, la determinación de una intensidad aproximada de la señal de audio, en respuesta a la aproximación del espectro de potencia de la señal de audio, puede incluir la aplicación de una medición
30 ponderada de la intensidad de potencia. La medición ponderada de la intensidad de potencia puede emplear un filtro que resta importancia a las frecuencias menos audibles y calcula un promedio en el tiempo de la potencia de la señal de audio filtrada.
En todavía otro aspecto de la invención, la determinación de una intensidad aproximada de la señal de audio, en
35 respuesta a la aproximación del espectro de potencia de la señal de audio, puede incluir la aplicación de una medición de intensidad psicoacústica. La medición de intensidad psicoacústica puede emplear un modelo del oído humano para determinar la intensidad específica en cada una de entre una pluralidad de bandas de frecuencia, similares a las bandas críticas del oído humano. En un entorno de codificador de subbandas, las sub-bandas pueden ser similares a las bandas críticas del oído humano y la medición de intensidad psicoacústica puede emplear un modelo del oído humano para
40 determinar una intensidad específica en cada una de las sub-bandas.
Los aspectos de la invención incluyen procedimientos que ponen en práctica las funciones anteriores, medios que ponen en práctica las funciones, aparatos que ponen en práctica los procedimientos y un programa de ordenador, almacenado en un medio que puede ser leído por ordenador, para hacer que un ordenador realice los procedimientos que ponen en
45 práctica las funciones anteriores.
Descripción de los dibujos
La Fig. 1 muestra un diagrama de bloques funcional, esquemático, de una disposición general para la medición de la intensidad de una señal de audio codificada a baja tasa de bits.
50 La Fig. 2 muestra un diagrama de bloques funcional, esquemático, generalizado, de un decodificador Dolby Digital, Dolby Digital Plus y Dolby E. Las Figs. 3a y 3b muestran diagramas de bloques funcionales, esquemáticos, de dos disposiciones generales para el cálculo de una medición de intensidad objetiva usando la potencia ponderada y mediciones basadas en psicoacústica, respectivamente.
55 La Fig. 4 muestra las ponderaciones de frecuencias comunes usadas en la medición de intensidad según la disposición del ejemplo de la Fig. 3a. La Fig. 5 es un diagrama de bloques, esquemático, funcional, que muestra una disposición general más económica para la medición de la intensidad de la señal de audio codificada según los aspectos de la invención. Las Figs. 6a y 6b son diagramas de bloques, esquemáticos, funcionales, de la disposición más económica para la
60 medición de la intensidad, que incorporan las disposiciones de intensidad mostradas en los ejemplos de las Figs. 3a y 3b, según los aspectos de la invención.
Mejor modo de llevar a cabo la invención
Uno de las beneficios de los aspectos de la presente invención es la medición de la intensidad de audio codificada a baja tasa de bits, sin necesidad de decodificar completamente la señal de audio a PCM, cuya decodificación incluye etapas de procesamiento de decodificación caras, tales como la asignación de bits, de-cuantificación, una transformación inversa, etc. Los aspectos de la invención reducen de manera importante los requisitos de procesamiento (sobrecarga computacional). Este enfoque es beneficioso cuando se desea una medición de intensidad, pero no se necesita la señal de audio decodificada.
Los aspectos de la presente invención pueden ser usados, por ejemplo, en entornos tales como los divulgados en (1) la solicitud de patente US, no provisional, en trámite, 11/373.577 y la publicación No. 200600002572, presentada el 1 de Julio de 2004 y publicada el 5 de Enero de 2006, titulada "Method for Correcting Metadata Affecting the Playback Loudness and Dynamic Range of Audio Information", por Smithers et al., y (2) en la realización de una medición de intensidad y corrección en un almacenamiento compartido o en una cadena de transmisión en la que el acceso al audio decodificado no se necesita y no es deseable.
El ahorro de procesamiento proporcionado por los aspectos de la invención contribuyen también a hacer posible la realización de una medición de intensidad y una corrección de metadatos (por ejemplo, cambiar un parámetro DIALNORM al valor correcto) en tiempo real en un gran número de datos de señales de audio con una compresión de datos a baja tasa de bits. Frecuentemente, muchas señales codificadas a baja tasa de bits son multiplexadas y transportadas en flujos de transporte MPEG. La medición de intensidad según los aspectos de la presente invención realiza mediciones de intensidad en tiempo real en un gran número de señales de audio comprimidas, de manera mucho más fiable, en comparación con los requisitos de decodificar completamente las señales de audio comprimidas a PCM para realizar la medición de intensidad.
La Fig. 1 muestra una disposición 100 de la técnica anterior para medir la intensidad de una señal de audio codificada. La información o los datos 101 de audio digital codificado, tales como una señal de audio que ha sido codificada a baja tasa de bits, es decodificada por un decodificador o una función de decodificación ("Decodifica") 102, por ejemplo, en una señal de audio PCM 103. A continuación, esta señal es aplicada a un medidor de intensidad o a un procedimiento o un algoritmo de medición ("Mide Intensidad") 104, que genera un valor 105 de intensidad medida.
La Fig. 2 muestra un diagrama de bloques 200, estructural o funcional, de la técnica anterior, de una etapa Decodifica
102. La estructura o las funciones que muestra son representativas de los decodificadores Dolby Digital, Dolby Digital Plus y Dolby E. Las tramas de datos de audio codificado 101 son aplicadas a una función desempaquetadora o a un desempaquetador de datos ("Sinc. Tramas, detección de errores y Eliminación de Formato de Tramas") 202, que desempaqueta los datos aplicados en los datos de exponentes 203, datos de mantisas 204 y otra información variada de asignación de bits 207. Los datos de exponentes 203 son convertidos a un espectro de potencia logarítmico 206 por un dispositivo o una función ("Espectro Potencia Log") 205, y este espectro de potencia logarítmico es usado por un asignador de bits o una función de asignación de bits ("Asignación de Bits") 208, para calcular la señal 209, que es la longitud, en bits, de cada mantisa cuantificada. A continuación, las mantisas son de-cuantificadas y son combinadas con los exponentes por un dispositivo o una función ("De-cuantifica Mantisas") 210, para proporcionar una salida 211 y son convertidas de nuevo al dominio temporal mediante una función o un dispositivo de banco de filtros inverso ("Banco de Filtros inverso") 212. El banco de filtros inverso 212 también superpone y suma una porción del resultado del banco de filtros inverso actual con el resultado del banco de filtros inverso anterior (en el tiempo) para crear la señal de audio decodificada 103.En las implementaciones prácticas del decodificador, los dispositivos o funciones Asignación de Bits, De-Cuantifica Mantisas y Banco de Filtros Inverso requieren considerables recursos de computación. Pueden encontrarse más detalles sobre el proceso de decodificación en algunas de las referencias indicadas anteriormente.
Las Figs. 3a y 3b muestran disposiciones de la técnica para medir objetivamente la intensidad de una señal de audio. Estas representan variaciones de la etapa Mide Intensidad 104 (Fig 1). Aunque las Figs. 3a y 3b muestran, respectivamente, ejemplos de dos categorías generales de técnicas de medición objetiva de intensidad, la elección de una técnica objetiva de medición particular no es crítica para la invención y pueden emplearse otras técnicas de medición objetiva de intensidad.
La Fig. 3a muestra un ejemplo de la medición ponderada de potencia 300 usada normalmente en la medición de la intensidad. Una señal de audio 103 es pasada a través de un filtro de ponderación o una función de filtrado ("Filtro de Ponderación") 302, que está diseñado para enfatizar las frecuencias perceptiblemente más sensibles, mientras que resta importancia a las frecuencias perceptiblemente menos sensibles. La potencia 305 de la señal filtrada 303 es calculada mediante un dispositivo o una función ("Potencia") 304 y es promediada durante un período de tiempo definido por un dispositivo o una función ("Promedio") 306, para crear un valor de intensidad 105. Existen una serie de diferentes características de un filtro de ponderación estándar y algunos ejemplos normales se muestran en la Fig. 4. En la práctica,
se usan, frecuentemente, versiones modificadas de la disposición de la Fig. 3a, en las que las modificaciones, por ejemplo, previenen que períodos de tiempo de silencio sean incluidos en el promedio.
Frecuentemente, se usan también técnicas basadas en psicoacústica para medir la intensidad. La Fig. 3b muestra una disposición típica 310 de la técnica anterior de dicha una disposición basada en psicoacústica. Una señal de audio 103 es filtrada por un filtro de transmisión o una función de filtrado ("Filtro de Transmisión") 312, que representa la respuesta en magnitud a frecuencia variable del oído externo y medio. A continuación, la señal filtrada 313 es separada por un banco de filtros auditivo o una función banco de filtros ("Banco de filtros auditivo") 314, en bandas de frecuencia 315 que son equivalentes a, o más estrechas que, las bandas auditivas críticas. Esto puede conseguirse realizando una transformada rápida de Fourier (FFT) (tal como se implementa, por ejemplo, por medio de una transformada de frecuencia discreta (DFT)) y, a continuación, agrupando las bandas linealmente espaciadas en bandas que se aproximan a las bandas críticas del oído (tal como en una escala Barck o ERB). Como alternativa, esto puede conseguirse por medio de un único filtro pasa banda para cada banda Barck o ERB. A continuación, cada banda es convertida por un dispositivo o una función ("Excitación") 316 en una señal de excitación 317, que representa la cantidad de estímulos o de excitación experimentada por el oído humano dentro de la banda. La intensidad percibida o intensidad específica para cada banda 319 es calculada, a continuación, a partir de la excitación por un dispositivo o una función ("Intensidad Específica") 318, y la intensidad específica a lo largo de todas las bandas es sumada por un sumador o una función sumadora ("Suma") 320, para crear una única medición de intensidad 105. El procedimiento de suma puede tener en consideración varios efectos perceptuales, por ejemplo, el enmascaramiento de frecuencia. En implementaciones prácticas de estos procedimientos perceptuales, se necesitan considerables recursos computacionales para el filtro de transmisión y el banco de filtros auditivo.
La Fig. 5 muestra un diagrama de bloques 500 de un aspecto de la presente invención. Una señal de audio digital codificada 101 es parcialmente decodificada por un dispositivo o una función ("Decodificación Parcial") 502 y la intensidad es medida a partir de la información parcialmente decodificada 503 por un dispositivo o una función ("Mide Intensidad")
504. Dependiendo de cómo se realice la decodificación parcial, la medición de la intensidad resultante 505 puede ser muy similar a, pero no exactamente igual que, la medición de intensidad 105 calculada a partir de la señal de audio completamente decodificada 103 (Fig. 1). En el contexto de las implementaciones Dolby Digital, Dolby Digital Plus y Dolby E de los aspectos de la invención, una decodificación parcial puede incluir la omisión de los dispositivos o las funciones Asignación de Bits, De-cuantificación de Mantisas y Banco de Filtro Inverso de un decodificador, tal como el ejemplo de la Fig. 2.
Las Figs. 6a y 6b muestran dos ejemplos de implementaciones de la disposición general de la Fig. 5. Aunque ambos pueden emplear el mismo dispositivo o función Decodifica Parcial 502, cada uno puede tener un dispositivo o una función Mide Intensidad 504 diferente, siendo el del ejemplo de la Fig 6a 600 similar al del ejemplo de la Fig. 3A, y siendo el del ejemplo de la Fig. 6B similar al del ejemplo de la Fig. 3b. En ambos ejemplos, Decodifica Parcial 502 extrae sólo los exponentes 203 de la secuencia de audio codificada y convierte los exponentes a un espectro de potencia 206. Dicha extracción, puede ser realizada por un dispositivo o una función ("Sin. Trama, Detección de Errores y Eliminación de Formato de Trama") 202, tal como en el ejemplo de la Fig. 2, y dicha conversión puede ser realizada por un dispositivo o una función (“Espectro de Potencia Log”) 205, tal como en el ejemplo de la Fig. 2. No hay ningún requisito para decuantificar las mantisas, realizar una asignación de bits, y realizar un banco de filtros inverso, tal como se requeriría para una decodificación completa, tal como se muestra en el ejemplo de decodificación de la Fig. 2.
El ejemplo de la Fig. 6a incluye una función Mide Intensidad 504, que puede ser una versión modificada del medidor de intensidad o de la función de medición de intensidad de la Fig. 3a. En este ejemplo, se aplica un filtrado de ponderación modificado en el dominio de la frecuencia, aumentando o disminuyendo los valores de potencia en cada banda por un filtro de ponderación o una función de filtrado ponderado ("Filtro de ponderación Modificado") 601. Por el contrario, el ejemplo de la Fig. 3a aplica un filtrado de ponderación en el dominio temporal. Aunque opera en el dominio de la frecuencia, el Filtro de Ponderación Modificado afecta al audio de la misma manera que el Filtro de Ponderación en el dominio temporal de la Fig. 3a. El filtro 601 está "modificado" con respecto al filtro 302 de la Fig. 3a en el sentido de que opera en valores de amplitud logarítmica en lugar de valores lineales, y que opera sobre una escala de frecuencias no lineal, en lugar de en una escala de frecuencias lineal. El espectro de frecuencia de potencia ponderada 602 es convertido, a continuación, a potencia lineal y se suma en frecuencia y se promedia en el tiempo por un dispositivo o una función ("Convierte, Suma y Promedia") 603, aplicando, por ejemplo, la ecuación 5, a continuación. La salida es un valor de intensidad objetivo 505.
El ejemplo de la Fig. 6b incluye una función Mide Intensidad 504, que puede ser una versión modificada del medidor de intensidad o la función de medición de intensidad de la Fig. 3b. En este ejemplo, un filtro de transmisión modificado o una función de filtrado (“Filtro de Transmisión Modificado") 611 es aplicado directamente en el dominio de la frecuencia, aumentando o disminuyendo los valores de potencia logarítmica en cada banda. Por el contrario, el ejemplo de la Fig. 3b aplica un filtrado de ponderación en el dominio temporal. Aunque opera en el dominio de la frecuencia, el Filtro de
Transmisión Modificado afecta al audio en la misma manera que el Filtro de Transmisión en el dominio temporal de la Fig. 3b. Un banco de filtros auditivos modificado o una función Banco de Filtros ("Banco de Filtros Auditivo Modificado") 613 acepta como entrada el espectro de potencia logarítmica, bandas de frecuencia espaciadas linealmente y divide o combina estas bandas linealmente espaciadas en una salida 315 del banco de filtros de bandas críticas espaciadas (por ejemplo, bandas Barck o ERB). El banco de Filtros Auditivo Modificado 613 convierte también la señal de potencia en el dominio logarítmico en una señal lineal para el dispositivo o la función de excitación siguiente ("Excitación") 316. El Banco de Filtros Auditivo Modificado 613 está "modificado" con respecto al Banco de Filtros Auditivo 314 de la Fig. 3b en el sentido de que opera sobre valores de amplitud logarítmica en lugar de sobre valores lineales y convierte dichos valores de amplitud logarítmica en valores lineales. Como alternativa, la agrupación de bandas en las bandas Bark o ERB puede realizarse en el Banco de Filtros Modificado 613, en lugar de en el Filtro de Transmisión Modificado 611. El ejemplo de la Fig. 6b incluye también una Intensidad Específica 318 para cada banda y una Suma 320, tal como en el ejemplo de la Fig. 3b.
Para las disposiciones mostradas en las Figs. 6a y 6b, se consiguen ahorros computacionales considerables ya que la decodificación no requiere una asignación de bits, una de-cuantificación de mantisas y un Banco de Filtros inverso. Sin embargo, para ambas disposiciones de la Fig. 6a y la Fig. 6b, la medición objetiva de intensidad resultante puede que no sea exactamente la misma que la medición calculada a partir de una señal de audio decodificada totalmente. Esto se debe a que parte de la información es descartada y, de esta manera, la información de audio usada para la medición está incompleta. Cuando los aspectos de la presente invención son aplicados a Dolby Digital, Dolby Digital Plus o Dolby E, la información de la mantisa es descartada y sólo se retienen los valores de exponentes cuantificados toscamente. Para Dolby Digital y Dolby Digital Plus, los valores están cuantificados en incrementos de 6 dB y para Dolby E están cuantificados en incrementos de 3 dB. Las menores etapas de cuantificación en Dolby E resultan en valores de exponentes cuantificados más finamente y, consiguientemente, una estimación más precisa del espectro de potencia.
Frecuentemente, los codificadores perceptuales se diseñan para alterar la longitud de los segmentos de tiempo superpuestos, denominada también tamaño de bloque, en conjunción con ciertas características de la señal de audio. Por ejemplo, Dolby Digital usa dos tamaños de bloque, un bloque más grande de 512 muestras, principalmente para señales de audio estacionarias, y un bloque más corto de 256 muestras, para señales de audio más transitorias. El resultado es que el número correspondiente de valores de espectro de potencia logarítmica 206 varía bloque a bloque. Cuando el tamaño del bloque es de 512 muestras, hay 256 bandas, y cuando el tamaño del bloque es de 256 muestras, hay 128 bandas.
Hay muchas maneras en las que los procedimientos propuestos en las Figs. 6a y 6b pueden manipular tamaños de bloque variables y cada manera conduce a una medición de intensidad resultante similar. Por ejemplo, el Espectro de Potencia Logarítmica 205 puede ser modificado para sacar siempre un número de bandas constante a una tasa de bloques constante, combinando o promediando múltiples bloques más pequeños en bloques más grandes y esparciendo la potencia desde el menor número de bandas al mayor número de bandas. Como alternativa, Mide Intensidad puede aceptar tamaños de bloque variables y ajustar, consiguientemente, sus procedimientos de filtrado, excitación, intensidad específica, promedio y suma, por ejemplo, ajustando las constantes de tiempo.
Ejemplo de medición de potencia ponderada
Como ejemplo de los aspectos de la presente invención, una versión altamente económica de un procedimiento de medición de intensidad de potencia ponderada puede usar secuencias de bits de Dolby Digital y la medición de intensidad de potencia ponderada LeqA. En este ejemplo altamente económico, sólo los exponentes cuantificados contenidos en una secuencia de bits Dolby Digital son usados como una estimación del espectro de la señal de audio, para realizar la medición de intensidad. Esto evita los requisitos computacionales adicionales de realizar una asignación de bits para recrear la información de la mantisa, que, por otro lado, solo proporcionaría una estimación ligeramente más precisa del espectro de la señal.
Tal como se muestra en los ejemplos de las Figs. 5 y 6a, la secuencia de bits Dolby Digital es decodificada parcialmente para recrear y extraer el espectro de potencia logarítmico, calculado a partir de los datos de exponentes cuantificados contenidos en la secuencia de bits. Dolby Digital realiza una codificación de audio a baja tasa de bits, enmarcando en una ventana 512 muestras de audio PCM consecutivas, superpuestas al 50%, y realizando una transformada TCMD, resultando en 256 coeficientes TCMD que son usados para crear la secuencia de audio codificada a baja tasa de bits. La decodificación parcial realizada en las Figs. 5 y 6a, desempaqueta los datos de exponentes E(k) y convierte los datos desempaquetados a 256 valores de espectro de potencia logarítmica cuantificados, P(k), que forman una representación espectral tosca de la señal de audio. Los valores espectrales de la potencia logarítmica, P(k), están en unidades de dB. La conversión es tal como se indica a continuación
donde N = 256, el número de coeficientes de transformación para cada bloque en una secuencia de bits Dolby Digital. Para usar el espectro de potencia logarítmico en el cálculo de la medición de potencia ponderada de intensidad, el espectro de potencia logarítmico es ponderado usando una curva de intensidad adecuada, tal como una de las curvas de ponderación A, B o C que se muestran en la Fig. 4. En este caso, se está calculando la medición de potencia LeqA y, por lo tanto, la curva de ponderación A es apropiada. Los valores del espectro de potencia logarítmico P(k) son ponderados sumándolos a valores discretos de frecuencia de ponderación A, AW(k), también en unidades de dB
Los valores discretos de frecuencia de ponderación A, AW(k), son creados calculando de los valores de ganancia de ponderación A para las frecuencias discretas, fdiscreta, donde
donde
25 y donde la frecuencia de muestreo Fs es, típicamente, igual a 48 kHz para Dolby Digital. Cada conjunto de valores del espectro de potencia logarítmica ponderada, PW(k), es convertido, a continuación, de dB a potencia lineal y se suma para crear la estimación de potencia ponderada A, PPOW, de las 512 muestras de audio PCM como
35 Tal como se ha indicado anteriormente, cada secuencia de bits Dolby Digital contiene transformadas consecutivas creadas creando ventanas de 512 muestras PCM con un solapamiento del 50% y realizando la transformada MDCT. Por lo tanto, una aproximación de la potencia ponderada A total , PTOT, de la señal de audio codificada a baja tasa de bits en una secuencia de bits Dolby Digital puede ser calculada promediando los valores de potencia en todas las transformaciones en la secuencia de bits Dolby Digital, tal como se indica a continuación
donde M es igual al número total de transformadas contenidas en la secuencia de bits Dolby Digital. A continuación, la potencia media es convertida a unidades de dB, tal como se indica a continuación
donde C es un desplazamiento constante debido a los cambios de nivel realizados en el proceso de transformación 55 durante la codificación de la secuencia de bits Dolby Digital.
Ejemplo de medición psicoacústica
Como otro ejemplo de los aspectos de la presente invención, una versión altamente económica de un procedimiento de
medición de intensidad de potencia ponderada puede usar secuencias de bits Dolby Digital y una medición de intensidad 60 psicoacústica. En este ejemplo altamente económico, al igual que en el anterior, sólo los exponentes cuantificados
contenidos en una secuencia de bits Dolby Digital son usados como una estimación del espectro de la señal de audio para realizar la medición de intensidad. Al igual que en el otro ejemplo, esto evita los requisitos adicionales de realizar una asignación de bits para recrear la información de la mantisa, que, por otro lado, sólo proporcionaría una estimación ligeramente más precisa del espectro de la señal. La solicitud de patente internacional No. PCT/US2004/016964, presentada el 27 de mayo 2004, Seefeldt et al, publicada
5 como WO 2004/111994 A2 el 23 de diciembre de 2004, cuya solicitud designa los Estados Unidos, divulga, entre otras cosas, una medición objetiva de la intensidad percibida en base a un modelo psicoacústico. Los valores del espectro de potencia logarítmica, P(k), derivados a partir de la decodificación parcial de una secuencia de bits Dolby Digital, pueden servir como entradas para una técnica, tal como en dicha solicitud internacional, así como otras mediciones psicoacústicas similares, en lugar de la señal de audio PCM original. Dicha disposición se muestra en el ejemplo de la Fig.
10 6b. Tomando prestadas la terminología y la notación de dicha solicitud PCT, una señal de excitación E(b), que aproxima la distribución de energía a lo largo de la membrana basilar del oído interno, en la banda crítica B, puede ser aproximada a partir de los valores del espectro de potencia logarítmica, tal como se indica a continuación:
donde T(k) representa la respuesta de frecuencia del filtro de la transmisión y Hb(k) representa la respuesta de frecuencia
20 de la membrana basilar en una posición que corresponde a la banda crítica B, siendo muestreadas ambas respuestas a la frecuencia correspondiente para transformar bin k. A continuación, las excitaciones correspondientes a todas las transformadas en la secuencia de bits Dolby Digital son promediadas, para producir una excitación total:
Usando las curvas de igual nivel intensidad, la excitación total en cada banda es transformada en un nivel de excitación
30 que genera la misma intensidad a 1 kHz. La intensidad específica, una medición de la intensidad distribuida a través de la frecuencia, es calculada, a continuación, a partir de la excitación transformada, E1kHz(b), por medio de una no-linealidad compresiva:
40 donde TQ1kHz es el umbral en silencio a 1 kHz y las constantes G y α son elegidas para ajustar los datos generados a partir de experimentos psicoacústicos que describen el crecimiento de la intensidad. Por último, la intensidad total, L, representada en unidades sone, es calculada sumando la intensidad específica en las bandas:
Para los propósitos de ajustar la señal de audio, puede ser deseable calcular una ganancia de ajuste, Gajuste, que cuando
50 es multiplicada por la señal de audio hace que la intensidad de la señal de audio ajustada sea igual a cierta intensidad de referencia, lREF, medida por medio de la técnica psicoacústica descrita. Debido a que la medición psicoacústica implica una no-linealidad en el cálculo de la intensidad específica, no existe una solución en forma cerrada para Gajuste. Por el contrario, puede emplearse una técnica interactiva descrita en dicha solicitud PCT, en la que el cuadrado de la ganancia de ajuste es ajustada y multiplicada por la excitación total, E(b), hasta que la intensidad total correspondiente, L, se
55 encuentre dentro de una diferencia de umbral con respecto a la intensidad de referencia, lREF. Entonces, la intensidad de la señal de audio se puede expresar en dB con respecto a la referencia, como:
Otros codecs de audio perceptuales
Los aspectos de la presente invención no se limitan a los sistemas de codificación Dolby Digital, Dolby Digital Plus y Dolby
E. Las señales de audio codificadas usando ciertos otros sistemas de codificación diferentes, en los que una aproximación del espectro de potencia de audio es proporcionada, por ejemplo, por factores de escala, envolventes espectrales y coeficientes predictivos lineales, que pueden ser recuperados a partir de una secuencia de bits codificada, sin decodificar completamente la secuencia de bits para producir audio, pueden beneficiarse también de los aspectos de la presente invención.
Error en el cálculo de la potencia a partir de los exponentes de Dolby Digital Los exponentes de Dolby Digital E(k) representan una cuantificación tosca del logaritmo de los coeficientes espectrales de TCMD. Hay un número de fuentes de error cuando se usan estos valores como un espectro tosco de potencia.
En primer lugar, en Dolby Digital, el propio procedimiento de cuantificación resulta en un error medio de aproximadamente 2,7 dB, cuando se comparan los valores del espectro de potencia generado a partir de los exponentes (véase la Ecuación 1 anterior) y los valores de potencia calculados directamente a partir de los coeficientes TCMD. Este error medio, que ha sido determinado experimentalmente, puede ser incorporado al desplazamiento constante C en la Ecuación 7 anterior.
En segundo lugar, bajo ciertas condiciones de la señal, tales como transitorios, los valores de los exponentes se agrupan a lo largo de la frecuencia (denominados modos "D25" y "D45" en el documento A/52A indicado anteriormente). Esta agrupación a lo largo de la frecuencia hace que el error medio de exponente sea menos predecible y, de esta manera, más difícil de tener en cuenta mediante su incorporación en la constante C de la Ecuación 7. En la práctica, el error debido a este agrupamiento puede ser ignorado por dos razones: (1) la agrupación se usa en pocas ocasiones y (2) la naturaleza de las señales para las que se usa la agrupación resulta en un error medio de medición que es similar al del caso no promediado.
Implementación
La invención puede ser implementada en hardware o software, o una combinación de ambos (por ejemplo, matrices, lógicas programables). Si no se especifica lo contrario, los algoritmos o procedimientos incluidos como parte de la invención no están intrínsecamente relacionados a ningún ordenador u otros aparatos. En particular, varias máquinas de propósito general pueden ser usadas con programas escritos según las enseñanzas de la presente memoria, o puede ser más conveniente construir aparatos más especializados (por ejemplo, circuitos integrados) para realizar las etapas requeridas del procedimiento. De esta manera, la invención puede ser implementada en uno o más programas de ordenador que se ejecutan en uno o más sistemas de ordenadores programables, comprendiendo cada uno al menos un procesador, al menos un sistema de almacenamiento de datos (incluyendo memoria volátil y no volátil y/o elementos de almacenamiento), al menos un dispositivo de entrada o puerto y al menos un dispositivo de salida o puerto. El código del programa es aplicado a los datos de entrada para realizar las funciones descritas en la presente memoria y generar la información de salida. La información de salida es aplicada a uno o más dispositivos de salida, en una manera conocida.
Cada uno de estos programas puede ser implementado en cualquier lenguaje de programación deseado (incluyendo los lenguajes máquina, ensamblador (assembler) o procedimientos de alto nivel, lógica o de programación orientada a objetos) para comunicarse con un sistema informático. En cualquier caso, el lenguaje puede ser un lenguaje compilado o interpretado.
Se apreciará que algunas etapas o funciones mostradas en las figuras ejemplares realizan múltiples subetapas y pueden ser mostradas también como múltiples etapas o funciones, en lugar de una etapa o una función. También se apreciará que los diversos dispositivos, funciones, etapas y procedimientos mostrados y descritos en varios ejemplos en la presente memoria pueden ser mostrados combinados o separados, de maneras diferentes a la mostrada en las diversas figuras. Por ejemplo, cuando se implementan por medio de secuencias de instrucciones de software informático, varias funciones y etapas de las figuras ejemplares pueden ser implementadas por medio de secuencias de instrucciones de software multihilo ejecutándose en un hardware de procesamiento de señales digitales adecuado, en cuyo caso los diversos dispositivos y funciones en los ejemplos mostrados en las figuras pueden corresponder a porciones de las instrucciones de software.
Preferentemente, cada uno de dichos programas de ordenador es almacenado en, o es descargado a, un dispositivo o un medio de almacenamiento (por ejemplo, medio o memoria de estado sólido, o medio magnético u óptico) que puede ser leído por un ordenador programable de propósito general o especial, para configurar y operar el ordenador cuando el dispositivo o medio de almacenamiento es leído por el sistema informático para realizar los procedimientos descritos en la presente memoria. Puede considerarse también que el sistema de la invención como implementado como un medio de almacenamiento que puede ser leído por ordenador, configurado con un programa de ordenador, en el que el medio de almacenamiento, configurado de esta manera, hace que un sistema informático opere en una manera específica y predefinida para realizar las funciones descritas en la presente memoria.
Se han descrito una serie de realizaciones de la invención. No obstante, se entenderá que pueden realizarse diversas modificaciones dentro del alcance de las reivindicaciones adjuntas. Por ejemplo, algunas de las etapas descritas en la presente memoria pueden ser independientes del orden y, de esta manera, pueden ser realizadas en un orden diferente al descrito.

Claims (20)

  1. REIVINDICACIONES
    1.
    Procedimiento para medir la intensidad de una señal de audio codificada en una secuencia de bits, que incluye datos a partir de los cuales puede derivarse una aproximación de un espectro de potencia de la señal de audio, sin decodificar completamente la señal de audio, incluyendo dichos datos representaciones toscas de la señal de audio y representaciones más finas de la señal de audio, siendo seleccionadas dichas representaciones toscas de entre un grupo que contiene factores de escala, envolventes espectrales y coeficientes predictivos lineales, comprendiendo el procedimiento derivar dicha aproximación del espectro de potencia de la señal de audio a partir de dichas representaciones toscas de la señal de audio en dicha secuencia de bits, sin decodificar completamente la señal de audio, y determinar una intensidad aproximada de la señal de audio en respuesta a la aproximación del espectro de potencia de la señal de audio.
  2. 2.
    Procedimiento según la reivindicación 1, en el que la señal de audio codificada en una secuencia de bits es una señal de audio codificada en sub-bandas que tiene una pluralidad de sub-bandas de frecuencia, teniendo cada sub-banda un factor de escala y datos de muestra asociados con el mismo, y en el que las representaciones toscas de la señal de audio comprenden factores de escala y las representaciones más finas asociadas de la señal de audio comprenden datos de muestra asociados con cada factor de escala.
  3. 3.
    Procedimiento según la reivindicación 2, en el que el factor de escala y los datos de muestra de cada sub-banda representan coeficientes espectrales en la sub-banda, por medio de una notación exponencial en la que el factor de escala comprende un exponente y los datos de muestra asociados comprenden mantisas.
  4. 4.
    Procedimiento según cualquiera de las reivindicaciones 1-3, en el que dicha secuencia de bits es una secuencia de bits con codificación AC-3.
  5. 5.
    Procedimiento según la reivindicación 1, en el que la señal de audio codificada en una secuencia de bits es una señal de audio con codificación predictiva lineal, en el que las representaciones toscas de la señal de audio comprenden coeficientes predictivos lineales y las representaciones más finas de la señal de audio comprenden información de excitación asociada con los coeficientes predictivos lineales.
  6. 6.
    Procedimiento según la reivindicación 1, en el que las representaciones toscas de la señal de audio comprenden al menos una envolvente espectral y las representaciones más finas de la señal de audio comprenden componentes espectrales asociados con dicha al menos una envolvente espectral.
  7. 7.
    Procedimiento según cualquiera de las reivindicaciones 1-6, en el que la determinación de una intensidad aproximada de la señal de audio en respuesta a la aproximación del espectro de frecuencia de la señal de audio incluye aplicar una medición de intensidad de potencia ponderada.
  8. 8.
    Procedimiento según la reivindicación 7, en el que la medición de intensidad de potencia ponderada emplea un filtro que resta importancia a las frecuencias menos perceptibles y realiza un promedio de la potencia de la señal de audio filtrada en el tiempo.
  9. 9.
    Procedimiento según cualquiera de las reivindicaciones 1-6, en el que la determinación de una intensidad aproximada de la señal de audio en respuesta a la aproximación del espectro de frecuencia de la señal de audio incluye aplicar una medición de intensidad psicoacústica.
  10. 10.
    Procedimiento según la reivindicación 9, en el que la medición de intensidad psicoacústica emplea un modelo del oído humano para determinar una intensidad específica en cada una de entre una pluralidad de bandas de frecuencia similares a las bandas críticas del oído humano.
  11. 11.
    Procedimiento según la reivindicación 9 y una cualquiera de las reivindicaciones 2 y 3, en el que dichas sub-bandas son similares a las bandas críticas del oído humano y la medición de intensidad psicoacústica emplea un modelo del oído humano para determinar una intensidad específica en cada una de dichas sub-bandas.
  12. 12.
    Aparato para medir la intensidad de una señal de audio codificada en una secuencia de bits que incluye datos a partir de los cuales puede derivarse una aproximación de un espectro de frecuencia de la señal de audio, sin decodificar completamente la señal de audio, incluyendo dichos datos representaciones toscas de la señal de audio y representaciones más finas asociadas de la señal de audio, siendo seleccionadas dichas representaciones toscas de entre un grupo que contiene factores de escala, envolventes espectrales y coeficientes predictivos lineales, comprendiendo el aparato
    medios (502) para derivar dicha aproximación del espectro de potencia de la señal de audio a partir de las representaciones toscas de la señal de audio en dicha secuencia de bits, sin decodificar completamente la señal de audio, y medios (504) para determinar una intensidad aproximada de la señal de audio en respuesta a la aproximación del
    5 espectro de potencia de la señal de audio.
  13. 13. Aparato según la reivindicación 12, en el que la señal de audio codificada en una secuencia de bits es una señal de audio codificada en sub-bandas, que tiene una pluralidad de sub-bandas de frecuencia, teniendo cada sub-banda un factor de escala y datos de muestra asociados con el mismo, y en el que las representaciones toscas de la señal de audio
    10 comprenden factores de escala y las representaciones más finas asociadas de la señal de audio comprenden datos de muestra asociados con cada factor de escala.
  14. 14. Aparato según la reivindicación 13, en el que el factor de escala y los datos de muestra de cada sub-banda
    representan coeficientes espectrales en la sub-banda por medio de una notación exponencial en la que el factor de escala 15 comprende un exponente y los datos de muestra asociados comprenden mantisas.
  15. 15. Aparato según cualquiera de las reivindicaciones 12-14, en el que dicha secuencia de bits es una secuencia de bits con codificación AC-3.
    20 16. Aparato según la reivindicación 12, en el que la señal de audio codificada en una secuencia de bits es una señal de audio con codificación predictiva lineal, en el que las representaciones toscas de la señal de audio comprenden coeficientes predictivos lineales y las representaciones más finas de la señal de audio comprenden información de excitación asociada con los coeficientes predictivos lineales.
    25 17. Aparato según la reivindicación 12, en el que las representaciones toscas de la señal de audio comprenden al menos una envolvente espectral y las representaciones más finas de la señal de audio comprenden componentes espectrales asociados con dicha al menos una envolvente espectral.
  16. 18. Aparato según cualquiera de las reivindicaciones 12-17, en el que dichos medios para determinar una intensidad
    30 aproximada de la señal de audio, en respuesta a la aproximación del espectro de frecuencia de la señal de audio, incluyen medios (601) para aplicar una medición de intensidad de potencia ponderada.
  17. 19. Aparato según la reivindicación 18, en el que la medición de intensidad de potencia ponderada emplea un filtro que
    resta importancia a las frecuencias menos perceptibles y promedia la potencia de la señal de audio filtrada en el tiempo. 35
  18. 20. Aparato según cualquiera de las reivindicaciones 12-17, en el que dichos medios (504) para determinar una intensidad aproximada de la señal de audio, en respuesta a la aproximación del espectro de frecuencia de la señal de audio, incluyen medios para aplicar una medición de intensidad psicoacústica.
    40 21. Aparato según la reivindicación 20, en el que la medición de intensidad psicoacústica emplea un modelo del oído humano para determinar una intensidad específica en cada una de entre una pluralidad de bandas de frecuencia similares a las bandas críticas del oído humano.
  19. 22. Aparato según la reivindicación 20 y una cualquiera de las reivindicaciones 13 y 14, en el que dichas sub-bandas son
    45 similares a las bandas críticas del oído humano y la medición de intensidad psicoacústica emplea un modelo del oído humano para determinar una intensidad específica en cada una de dichas sub-bandas.
  20. 23. Aparato adaptado para realizar los procedimientos de una cualquiera de las reivindicaciones 1 a 11.
    50 24. Programa de ordenador, almacenado en un medio que puede ser leído por ordenador, para hacer que un ordenador realice el procedimiento según una cualquiera de las reivindicaciones 1 a 11.
ES06739542T 2005-04-13 2006-03-23 Medición económica de la intensidad de una señal de audio codificada. Active ES2373741T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US67138105P 2005-04-13 2005-04-13
US671381P 2005-04-13
PCT/US2006/010823 WO2006113047A1 (en) 2005-04-13 2006-03-23 Economical loudness measurement of coded audio

Publications (1)

Publication Number Publication Date
ES2373741T3 true ES2373741T3 (es) 2012-02-08

Family

ID=36636608

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06739542T Active ES2373741T3 (es) 2005-04-13 2006-03-23 Medición económica de la intensidad de una señal de audio codificada.

Country Status (16)

Country Link
US (1) US8239050B2 (es)
EP (1) EP1878307B1 (es)
JP (1) JP5219800B2 (es)
KR (1) KR101265669B1 (es)
CN (1) CN100589657C (es)
AT (1) ATE527834T1 (es)
AU (1) AU2006237476B2 (es)
BR (1) BRPI0610441B1 (es)
CA (1) CA2604796C (es)
ES (1) ES2373741T3 (es)
HK (1) HK1113452A1 (es)
IL (1) IL186046A (es)
MX (1) MX2007012735A (es)
MY (1) MY147462A (es)
TW (1) TWI397903B (es)
WO (1) WO2006113047A1 (es)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
AU2005219956B2 (en) 2004-03-01 2009-05-28 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
EP1805891B1 (en) 2004-10-26 2012-05-16 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
MX2007015118A (es) 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
JP5129806B2 (ja) 2006-04-27 2013-01-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
EP2082480B1 (en) 2006-10-20 2019-07-24 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
JP4862136B2 (ja) * 2006-12-08 2012-01-25 株式会社Jvcケンウッド 音声信号処理装置
US8275153B2 (en) * 2007-04-16 2012-09-25 Evertz Microsystems Ltd. System and method for generating an audio gain control signal
ES2377719T3 (es) 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
EP2232700B1 (en) 2007-12-21 2014-08-13 Dts Llc System for adjusting perceived loudness of audio signals
JP5270006B2 (ja) * 2008-12-24 2013-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 周波数領域におけるオーディオ信号ラウドネス決定と修正
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI409802B (zh) * 2010-04-14 2013-09-21 Univ Da Yeh 音頻特徵處理方法及其裝置
US8731216B1 (en) * 2010-10-15 2014-05-20 AARIS Enterprises, Inc. Audio normalization for digital video broadcasts
TW202405797A (zh) * 2010-12-03 2024-02-01 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
JP6185457B2 (ja) * 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9378748B2 (en) 2012-11-07 2016-06-28 Dolby Laboratories Licensing Corp. Reduced complexity converter SNR calculation
DE13750900T1 (de) * 2013-01-08 2016-02-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verbesserung der Sprachverständlichkeit bei Hintergrundrauschen durch SII-abhängige Amplifikation und Kompression
CN203134365U (zh) * 2013-01-21 2013-08-14 杜比实验室特许公司 用于利用响度处理状态元数据处理音频的音频解码器
PL2901449T3 (pl) 2013-01-21 2018-05-30 Dolby Laboratories Licensing Corp Koder i dekoder audio z metadanymi głośności i granicy programu
JP2016520854A (ja) * 2013-03-21 2016-07-14 インテレクチュアル ディスカバリー カンパニー リミテッド オーディオ信号大きさの制御方法及び装置
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
ES2916254T3 (es) 2014-10-10 2022-06-29 Dolby Laboratories Licensing Corp Sonoridad de programa basada en la presentación, independiente de la transmisión
US10070219B2 (en) * 2014-12-24 2018-09-04 Hytera Communications Corporation Limited Sound feedback detection method and device
KR101712334B1 (ko) 2016-10-06 2017-03-03 한정훈 화음 음정 정확도 평가 방법 및 장치
US10375131B2 (en) 2017-05-19 2019-08-06 Cisco Technology, Inc. Selectively transforming audio streams based on audio energy estimate
US11594241B2 (en) * 2017-09-26 2023-02-28 Sony Europe B.V. Method and electronic device for formant attenuation/amplification
US11330370B2 (en) * 2018-02-15 2022-05-10 Dolby Laboratories Licensing Corporation Loudness control methods and devices
CN111045633A (zh) * 2018-10-12 2020-04-21 北京微播视界科技有限公司 用于检测音频信号的响度的方法和装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4953112A (en) * 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
WO1992012607A1 (en) 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
GB2272615A (en) * 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
JPH06324093A (ja) 1993-05-14 1994-11-25 Sony Corp オーディオ信号のスペクトル表示装置
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
JP3519859B2 (ja) * 1996-03-26 2004-04-19 三菱電機株式会社 符号器及び復号器
US6430533B1 (en) * 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
WO1999012292A1 (en) * 1997-08-29 1999-03-11 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. Fast synthesis sub-band filtering method for digital signal decoding
CN1214690C (zh) * 1997-09-05 2005-08-10 雷克西康公司 5-2-5矩阵编码器和解码器系统
JP2000075897A (ja) * 1998-08-28 2000-03-14 Nippon Telegr & Teleph Corp <Ntt> 符号化された音声データの削減方法、及び装置、及びそのプログラムを格納した記録媒体
JP2001141748A (ja) 1999-11-17 2001-05-25 Sony Corp 信号レベル表示装置
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3811605B2 (ja) * 2000-09-12 2006-08-23 三菱電機株式会社 電話装置
JP2002268687A (ja) * 2001-03-07 2002-09-20 Matsushita Electric Ind Co Ltd 情報量変換装置及び情報量変換方法
GB2385420A (en) * 2002-02-13 2003-08-20 Broadcast Project Res Ltd Measuring the perceived loudness of an audio signal
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
CN2582311Y (zh) * 2002-11-29 2003-10-22 张毅 音调响度测试仪
DE602004023917D1 (de) 2003-02-06 2009-12-17 Dolby Lab Licensing Corp Kontinuierliche audiodatensicherung
DE602004008455T2 (de) 2003-05-28 2008-05-21 Dolby Laboratories Licensing Corp., San Francisco Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals
US7912226B1 (en) * 2003-09-12 2011-03-22 The Directv Group, Inc. Automatic measurement of audio presence and level by direct processing of an MPEG data stream

Also Published As

Publication number Publication date
CN101161033A (zh) 2008-04-09
JP5219800B2 (ja) 2013-06-26
CN100589657C (zh) 2010-02-10
AU2006237476A1 (en) 2006-10-26
US20090067644A1 (en) 2009-03-12
HK1113452A1 (en) 2008-10-03
MY147462A (en) 2012-12-14
US8239050B2 (en) 2012-08-07
AU2006237476B2 (en) 2009-12-17
BRPI0610441B1 (pt) 2019-01-02
EP1878307A1 (en) 2008-01-16
MX2007012735A (es) 2008-01-11
CA2604796C (en) 2014-06-03
KR20070119683A (ko) 2007-12-20
ATE527834T1 (de) 2011-10-15
TW200641797A (en) 2006-12-01
TWI397903B (zh) 2013-06-01
CA2604796A1 (en) 2006-10-26
BRPI0610441A2 (pt) 2010-06-22
WO2006113047A1 (en) 2006-10-26
EP1878307B1 (en) 2011-10-05
KR101265669B1 (ko) 2013-05-23
IL186046A (en) 2011-11-30
JP2008536192A (ja) 2008-09-04
IL186046A0 (en) 2008-02-09

Similar Documents

Publication Publication Date Title
ES2373741T3 (es) Medición económica de la intensidad de una señal de audio codificada.
EP2002426B1 (en) Audio signal loudness measurement and modification in the mdct domain
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
ES2380591T3 (es) Codificación de señal de información
US6934677B2 (en) Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
RU2600527C1 (ru) Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения
TWI391916B (zh) An audio signal processing device, a processing method and a program thereof
JP4993992B2 (ja) 信号処理方法、信号処理装置及びプログラム
Model A High Quality Audio Coder Using Proposed Psychoacoustic Model