ES2377719T3 - Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. - Google Patents

Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. Download PDF

Info

Publication number
ES2377719T3
ES2377719T3 ES08780174T ES08780174T ES2377719T3 ES 2377719 T3 ES2377719 T3 ES 2377719T3 ES 08780174 T ES08780174 T ES 08780174T ES 08780174 T ES08780174 T ES 08780174T ES 2377719 T3 ES2377719 T3 ES 2377719T3
Authority
ES
Spain
Prior art keywords
auditory
audio signal
obliqueness
signal
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08780174T
Other languages
English (en)
Inventor
Alan Jeffrey Seefeldt
Michael John Smithers
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=39776994&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2377719(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2377719T3 publication Critical patent/ES2377719T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/12Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
    • H03G9/18Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices for tone control and volume expansion or compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Holo Graphy (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Un procedimiento para controlar el procesamiento de señal de una señal de audio, que comprende dividir dicha señal de audio en eventos auditivos detectando cambios en la composición espectral con respecto al tiempo, incluyendo dicha división: la detección de la ubicación y de la intensidad de los límites de los eventos auditivos en dicha señal de audio, la obtención de una medida de la oblicuidad espectral de dicha señal de audio, en el que la oblicuidad espectral es una medida estadística de la asimetría de la distribución de probabilidad del espectro de la señal de audio, la modificación de la intensidad de un evento auditivo en respuesta a dicha medida, de modo que cuanto menos oblicuo sea el espectro en la ubicación de un evento auditivo, más se reduce la intensidad del evento auditivo, y el control del procesamiento de señal en respuesta a la intensidad modificada en ubicación e intensidad de dicho evento auditivo.

Description

Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
Campo técnico
La presente invención versa, en general, acerca del procesamiento de audio y, en particular, acerca del análisis de escenas auditivas y de la oblicuidad espectral.
\vskip1.000000\baselineskip
Referencias e Incorporación por referencia
Los siguientes documentos son incorporados al presente documento por referencia en su integridad:
Crockett y Seefeldt, Solicitud Internacional bajo el Tratado de Cooperación de Patentes, con número de serie PCT/US2007/008313, titulada "Controlling Dynamic Gain Parameters of Audio using Auditory Scene Analysis and Specific-Loudness-Based Detection of Auditory Events", que nombra a Brett Graham Crockett y Alan Jeffrey Seefeldt como inventores, presentada el 30 de marzo de 2007, con Expediente de Agente DOL186 PCT, y publicada el 8 de noviembre de 2007 como WO 2007/127023;
Seefeldt y otros, Solicitud Internacional bajo el Tratado de Cooperación de Patentes, con número de serie PCT/US 2004/016964, titulada "Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal", que nombra a Alan Jeffrey Seefeldt y otros como inventores, presentada el 27 de mayo de 2004, con Expediente de Agente nº DOL119 PCT, y publicada el 23 de diciembre de 2004 como WO 2004/111994 A2;
Seefeldt, Solicitud Internacional bajo el Tratado de Cooperación de Patentes, con número de serie PCT/US2005/
038579, titulada "Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal", que nombra a Alan Jeffrey Seefeldt como inventor, presentada el 25 de octubre de 2005, con Expediente de Agente nº DOL15202 PCT, y publicada el 4 de mayo de 2006 como WO 2006/047600;
Crockett, Solicitud de Patente Estadounidense con número de serie 10/474,387, titulada "High Quality Time-Scaling and Pitch-Scaling of Audio Signals", que nombra a Brett Graham Crockett como inventor, presentada el 10 de octubre de 2003, con Expediente de Agente nº DOL07503, y publicada el 24 de junio de 2004 como US 2004/0122662 A1;
Crockett y otros, Solicitud de Patente Estadounidense con número de serie 10/478,398, titulada "Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events", que nombra a Brett G. Crockett y otros como inventores, presentada el 20 de noviembre de 2003, con Expediente de Agente nº DOL09201, y publicada el 29 de julio de 2004 como US 2004/0148159 A1;
Crockett, Solicitud de Patente Estadounidense con número de serie 10/478,538, titulada "Segmenting Audio Signals Into Auditory Events", que nombra a Brett G. Crockett como inventor, presentada el 20 de noviembre de 2003, con Expediente de Agente nº DOL098, y publicada el 26 de agosto de 2004 como US 2004/0165730 A1;
Crockett y otros, Solicitud de Patente Estadounidense con número de serie 10/478,397, titulada "Comparing Audio Using Characterizations Based on Auditory Events", que nombra a Brett G. Crockett y otros como inventores, presentada el 20 de noviembre de 2003, con Expediente de Agente nº DOL092, y publicada el 2 de septiembre de 2004 como US 2004/0172240 A1;
Smithers, Solicitud Internacional bajo el Tratado de Cooperación de Patentes, con número de serie PCT/US 05/24630, titulada "Method for Combining Audio Signals Using Auditory Scene Analysis", que nombra a Michael John Smithers como inventor, presentada el 13 de julio de 2005, con Expediente de Agente nº DOL148 PCT, y publicada el 9 de marzo de 2006 como WO 2006/026161;
Crockett, B. y Smithers, M., "A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis", Audio Engineering Society Convention Paper 6416, 118th Convention, Barcelona, 28-31 de mayo de 2005;
Crockett, B., "High Quality Multichannel Time Scaling and Pitch-Shifting using Auditory Scene Analysis", Audio Engineering Society Convention Paper 5948, Nueva York, octubre de 2003; y
Seefeldt y otros, "A New Objective Measure of Perceived Loudness", Audio Engineering Society Convention Paper 6236, San Francisco, 28 de octubre de 2004.
\vskip1.000000\baselineskip
Técnica antecedente Eventos auditivos y detección de eventos auditivos
La división de sonidos en unidades o segmentos percibidos de forma separada y diferenciada es denominada a veces como "análisis de eventos auditivos" o "análisis de escenas auditivas" ("ASA"). Los segmentos son denominados a veces "eventos auditivos" o "eventos de audio". Albert S. Bregman, "Auditory Scene Analysis-The Perceptual Organizaron of Sound" (Massachusetts Institute of Technology, 1991, cuarta impresión, 2001, segunda edición en rústica de la MIT Press) presenta exhaustivamente el análisis de escenas auditivas. Además, Bhadkamkar y otros, patente estadounidense nº 6.002.776 (14 de diciembre de 1999) cita publicaciones que se remontan a 1976 como "investigaciones de la técnica anterior relativas a la separación de sonidos por medio del análisis de escenas auditivas". Sin embargo, Bhadkamkar y otros desalientan el uso práctico del análisis de escenas auditivas, llegando a la conclusión de que las "[t]écnicas que implican el análisis de escenas auditivas, aunque interesantes desde el punto de vista científico como modelos del procesamiento auditivo humano, son en la actualidad demasiado exigentes y especializadas desde el punto de vista del cálculo como para ser consideradas técnicas prácticas para la separación de sonidos hasta que se logre un progreso fundamental".
Crockett y Crocket y otros, en las diversas solicitudes de patente y en las monografías enumeradas más arriba, identifican los eventos auditivos. Esos documentos enseñan la división de una señal de audio en eventos auditivos (cada uno de los cuales tiende a ser percibido como separado y diferenciado) detectando cambios en la composición espectral (amplitud como función de la frecuencia) con respecto al tiempo. Esto puede realizarse, por ejemplo, calculando el contenido espectral de sucesivos bloques temporales de la señal de audio, comparando el contenido espectral entre bloques temporales sucesivos e identificando un límite de los eventos auditivos como el límite entre bloques en los que la diferencia en el contenido espectral supera un umbral. Alternativamente, pueden calcularse los cambios en la amplitud con respecto al tiempo en lugar de o en adición a los cambios en la composición espectral con respecto al tiempo.
Los marcadores de los límites de eventos auditivos están dispuestos a menudo en una señal de control temporal por lo que el intervalo, típicamente de cero a uno, indica la intensidad del límite del evento. Además, esta señal de control es a menudo filtrada, de forma que permanece la intensidad del límite del evento, y los intervalos temporales entre los límites de los eventos se calculan como valores en decaimiento del límite de evento precedente. Esta intensidad filtrada del evento auditivo es usada entonces por otros procedimientos de procesamiento de audio, incluyendo el control automático de ganancia y el control dinámico de gama.
\vskip1.000000\baselineskip
Procesamiento de audio por dinámica
Las técnicas de control automático de ganancia (AGC) y de control dinámico de gama (DRC) son bien conocidas y comunes en muchos recorridos de señales de audio. En un sentido abstracto, ambas técnicas miden el nivel de una señal de audio y luego modifican la ganancia de la señal en una cantidad que es función del nivel medido. En un sistema lineal 1:1 de procesamiento de dinámica, el audio de entrada no es procesado e, idealmente, la señal de audio de salida coincide con la señal de audio de entrada. Además, imaginemos un sistema de procesamiento de audio por dinámica que mida automáticamente la señal de entrada y controle con esa medida la señal de salida. Si la señal de entrada aumenta su nivel en 6 dB y la señal procesada de salida aumenta su nivel en solo 3 dB, entonces la señal de salida ha sido comprimida en una proporción de 2:1 con respecto a la señal de entrada.
En Crockett y Seefeldt, el análisis de escenas auditivas mejora el rendimiento de los procedimientos de AGC y DRC minimizando el cambio en ganancia entre los límites de los eventos auditivos y confinando gran parte del cambio en ganancia a las inmediaciones de un límite de eventos. Esto lo realiza modificando el comportamiento de liberación del procesamiento de dinámica. Así, los eventos auditivos suenan coherentes y naturales.
Las notas tocadas en un piano son un ejemplo. Con los procedimientos convencionales de AGC o DRC, la ganancia aplicada a la señal de audio aumenta durante la cola de cada nota, haciendo que cada nota sea amplificada de forma poco natural. Con el análisis de escenas auditivas, la ganancia del AGC o el DRC, la ganancia aplicada a la señal de audio se mantiene constante dentro de cada nota y cambia únicamente cerca del inicio de cada nota cuando se detecta un límite de eventos auditivos. La señal resultante de audio ajustada en ganancia suena natural, al irse apagando la cola de cada nota.
Las implementaciones típicas del análisis de escenas auditivas (como en las referencias en lo que antecede) son deliberadamente invariables en nivel. Es decir, detectan límites de eventos auditivos con independencia del nivel absoluto de la señal. Aunque la invariabilidad del nivel es útil en muchas aplicaciones, algunos análisis de escenas auditivas se benefician de alguna dependencia del nivel.
Un caso tal es el procedimiento descrito en Crockett y Seefeldt. En él, el control de ASA del AGC y el DRC impide cambios de ganancia grandes entre los límites de eventos auditivos. Sin embargo, los cambios de ganancia más a la larga pueden seguir siendo poco deseables en algunos tipos de señales de audio. Cuando una señal de audio pasa de una sección de más volumen a una de menos volumen, la ganancia del AGC o el DRC, limitada a cambiar solo cerca de los límites de eventos, puede permitir que el nivel de la señal de audio de procesamiento aumente de forma poco deseable y poco natural durante la sección de poco volumen. Esta situación ocurre frecuentemente en películas, en las que el diálogo esporádico alterna con sonidos de fondo de poco volumen. Dado que la señal de audio de poco volumen de fondo también contiene eventos auditivos, la ganancia del AGC o el DRC cambia cerca de esos límites de eventos y aumenta el nivel global de la señal de audio.
Es poco deseable realizar una ponderación simple de la importancia de los eventos auditivos mediante una medida del nivel, de la potencia o de la sonoridad de la señal de audio. En muchas situaciones, no se conoce la relación entre la medida de la señal y el nivel absoluto de reproducción. Idealmente, sería útil una medida que discriminase o detectase las señales de audio perceptivamente de menos volumen con independencia del nivel absoluto de la señal de audio.
Aquí, "perceptivamente de menos volumen" se refiere no a menos volumen en una medida objetiva de sonoridad (como en Seefeldt y otros y Seefeldt), sino más bien a menos volumen en base a la sonoridad esperada del contenido. Por ejemplo, la experiencia humana indica que un susurro es un sonido de poco volumen. Si un sistema de procesamiento de dinámica mide que este es de poco volumen y, en consecuencia, aumenta la ganancia del AGC para lograr alguna sonoridad o nivel de salida nominal, el susurro resultante ajustado en ganancia tendría más volumen de lo que la experiencia dice que debería tener.
\vskip1.000000\baselineskip
Revelación de la invención
En el presente documento se enseñan procedimientos y un aparato, según se reivindica en las reivindicaciones independientes, para controlar la sonoridad de eventos auditivos en una señal de audio. en una realización, el procedimiento incluye ponderar los eventos auditivos (teniendo un evento auditivo un espectro y una sonoridad), usar la oblicuidad en los espectros y controlar la sonoridad de los eventos auditivos usando los coeficientes de ponderación. Diversas realizaciones de la invención son como sigue: la ponderación es proporcional a la medida de oblicuidad en los espectros; la medida de oblicuidad es una medida de oblicuidad estabilizada; la ponderación es insensible a la amplitud de la señal de audio; la ponderación es insensible a la potencia; la ponderación es insensible a la sonoridad; en el momento de la ponderación no se conoce ninguna relación entre la medida de la señal y el nivel absoluto de reproducción; la ponderación incluye la ponderación de la importancia de los límites de eventos auditivos usando la oblicuidad en los espectros y reduciendo la amplificación del nivel de procesamiento del AGC o el DRC durante los segmentos perceptivamente de menos volumen de la señal de audio en comparación con procedimientos que no llevan a cabo la ponderación reivindicada.
En otras realizaciones, la invención es una memoria legible por ordenador que contiene un programa de ordenador para llevar a cabo uno cualquiera de los procedimientos anteriores.
En otras realizaciones adicionales, la invención es un sistema de ordenador que incluye una CPU, una de las memorias mencionadas anteriormente y un bus que acopla de forma comunicativa la CPU y la memoria.
En otra realización adicional, la invención es un procesador de señales de audio que incluye un calculador de oblicuidad espectral para calcular la oblicuidad espectral en una señal de audio, un identificador de eventos auditivos para identificar y ponderar eventos auditivos en la señal de audio usando la oblicuidad espectral calculada, un modificador de parámetros para modificar parámetros para controlar la sonoridad de eventos auditivos en la señal de audio y un controlador para controlar la sonoridad de eventos auditivos en la señal de audio.
En otra realización adicional, la invención es un procedimiento para controlar la sonoridad de eventos auditivos en una señal de audio, incluyendo el cálculo de medidas de oblicuidad de espectros de eventos auditivos sucesivos de una señal de audio, la generación de coeficientes de ponderación para los eventos auditivos en base a las medidas de oblicuidad, la derivación de una señal de control a partir de los coeficientes de ponderación y el control de la sonoridad de los eventos auditivos usando la señal de control.
Las diversas características de la presente invención y sus realizaciones preferentes pueden entenderse mejor por referencia a la siguiente exposición y a los dibujos adjuntos, en los que números de referencia similares se refieren a elementos similares.
\vskip1.000000\baselineskip
Descripción de los dibujos
La Fig. 1 ilustra un dispositivo para llevar a cabo dos procedimientos de Crockett y Seefeldt de análisis de escenas auditivas y de control de parámetros de ganancia de dinámica.
La Fig. 2 ilustra un procesador de audio para identificar eventos auditivos y calcular la oblicuidad para modificar los eventos auditivos, los cuales, a su vez, modifican los parámetros de procesamiento de din árnica según una realización de la invención.
La Fig. 3 es una serie de gráficos que ilustra el uso de eventos auditivos para controlar el tiempo de liberación en una implementación digital de un controlador dinámico de gama (DRC) según una realización de la invención.
La Fig. 4 es una respuesta característica idealizada de un filtro lineal adecuado como filtro de transmisión según una realización de la invención.
La Fig. 5 muestra un conjunto de respuestas características idealizadas de un filtro auditivo que se aproximan a un bandaje crítico en la escala de ERB.
\vskip1.000000\baselineskip
Mejor modo de llevar a cabo la invención
La Fig. 1 ilustra un dispositivo 1 para analizar escenas auditivas y controlar los parámetros de ganancia de dinámica según Crockett y Seefeldt. El dispositivo incluye un identificador 10 de eventos auditivos, un identificador opcional 11 de características de eventos auditivos y un modificador 12 de parámetros de dinámica. El identificador 10 de eventos auditivos recibe audio como entrada y produce una entrada para el modificador 12 de parámetros de dinámica (y una entrada para el identificador 11 de características de eventos auditivos, si está presente). El modificador 12 de parámetros de dinámica recibe la salida del identificador 10 de eventos auditivos (y del identificador 11 de características de eventos auditivos, si está presente) y produce una salida.
El identificador 10 de eventos auditivos analiza el espectro y, a partir de los resultados, identifica la ubicación de eventos de audio perceptibles que son para controlar los parámetros de ganancia de dinámica. Alternativamente, el identificador 10 de eventos auditivos transforma el audio en un dominio de sonoridad perceptiva (que puede proporcionar más información psicoacústicamente relevante que el primer procedimiento) y el dominio de sonoridad perceptiva identifica la ubicación de eventos auditivos que son para controlar los parámetros de ganancia de dinámica. (En esta alternativa, el procesamiento de audio está al tanto de los niveles absolutos de reproducción acústica).
El modificador 12 de parámetros de dinámica modifica los parámetros de dinámica en base a la salida del identificador 10 de eventos auditivos (y del identificador 11 de características de eventos auditivos, si está presente). En ambas alternativas, se segmenta en bloques una señal x[n] de audio digital y, para cada bloque t, D[t] representa la diferencia espectral entre el bloque actual y el bloque anterior.
Para la primera alternativa, D[t] es la suma, en todos los coeficientes espectrales, de la magnitud de la diferencia entre los coeficientes espectrales logarítmicos normalizados (en dB) para el bloque actual t y el bloque anterior t-1. En esta alternativa, D[t] es proporcional a las diferencias absolutas en los espectros (en dB ellas mismas). Para la segunda alternativa, D[t] es, en todos los coeficientes de sonoridad específica, de la magnitud de la diferencia entre los coeficientes sonoridad específica normalizados para el bloque actual t y el bloque anterior t-1. En esta alternativa, D[t] es proporcional a las diferencias absolutas en sonoridad específica (en sonios).
En ambas alternativas, si D[t] supera un umbral D_{min}, se considera que ha ocurrido un evento. El evento puede tener una intensidad entre cero y uno, en base a la proporción de D[t] menos D_{min} con respecto a la diferencia entre D_{max} y D_{min}. La intensidad A[t] puede calcularse como:
1
Los límites máximo y mínimo son diferentes para cada alternativa debido a sus diferentes unidades. Sin embargo, el resultado de ambos es una intensidad de evento en el intervalo de 0 a 1. Otras alternativas pueden calcular una intensidad de evento, pero la alternativa expresada en la Ecuación (1) se ha demostrado en varias áreas, incluyendo el control del procesamiento de dinámica. La asignación de una intensidad (proporcional a la cantidad de cambio espectral asociado con ese evento) al evento auditivo permite un mayor control sobre el procesamiento de dinámica en comparación con una decisión binaria de eventos. Son aceptables cambios mayores de ganancia durante eventos más intensos, y la señal en la Ecuación (1) permite un control variable tal.
La señal A[t] es una señal de impulsos con un impulso que ocurre en la ubicación de un límite de evento. Para los fines de controlar el tiempo de liberación, se puede estabilizar adicionalmente la señal A[t] para que decaiga de forma estable hasta cero tras la detección de un límite de evento. La señal A[t] de control estabilizada del evento puede calcularse a partir de A[t] según:
2
Aquí, \alpha_{evento} a evento controla el tiempo de decaimiento de la señal de control del evento.
La Fig. 3 es una secuencia de gráficos que ilustra la operación y el efecto de la invención, según una realización, "b)" en la Fig. 3 representa la señal \mathit{\overline{A}}[t] de control del evento para la correspondiente señal de audio de "a)" en la Fig. 3, con el tiempo de decaimiento medio del conjunto más estabilizado a 250 ms. La señal de audio contiene tres ráfagas de diálogo, intercaladas con sonidos de fondo de poco volumen del chisporroteo de una hoguera. La señal de control del evento muestra muchos eventos auditivos en los sonidos tanto del diálogo como del segundo plano.
En la Fig. 3, "c)" muestra la señal de ganancia del DRC en la que se usa la señal \mathit{\overline{A}}[t] de control del evento para variar la constante del tiempo de liberación para la estabilización de la ganancia del DRC. Según describen Crocket y Seefeldt, cuando la señal de control es igual a uno, el coeficiente de estabilización de liberación no se ve afectado y la ganancia estabilizada cambia según el valor de la constante de tiempo. Cuando la señal de control es igual a cero, se impide que cambie la ganancia estabilizada. Cuando la señal de control está entre cero y uno, se permite que cambie la ganancia estabilizada, pero con una tasa reducida, en proporción a la señal de control.
En "c" de la Fig. 3, la ganancia del DRC aumenta durante los sonidos de fondo de poco volumen debido al número de eventos detectados en segundo plano. La señal resultante modificada por el DRC en "d)" de la Fig. 3 tiene una amplificación audible y poco deseable del ruido de fondo entre las ráfagas de diálogo.
Para reducir el cambio de ganancia durante los sonidos de fondo de poco volumen, una realización de la invención modifica o pondera la intensidad auditiva A[t] usando una medida de la asimetría del espectro de la señal de audio. Una realización de la invención calcula la oblicuidad espectral de la excitación de la señal de audio.
La oblicuidad es una medida estadística de la asimetría de una distribución de probabilidad. Una distribución simétrica en torno a la media tiene una oblicuidad de cero. Una distribución con su volumen o masa concentrada por encima de la media y con una larga cola que se extiende por debajo de la media tiene una oblicuidad negativa. Una distribución concentrada por debajo de la media y con una larga cola que se extiende por encima de la media tiene una oblicuidad positiva. La magnitud o el espectro de potencia de una señal de audio típica tiene oblicuidad positiva. Es decir, el grueso de la energía en el espectro se concentra más abajo en el espectro, y el espectro tiene una larga cola hacia la parte superior del espectro.
La Fig. 2 ilustra un procesador 2 de audio según una realización de la invención. El procesador 2 de audio incluye un modificador 12 de parámetros de dinámica y el identificador opcional 11 de características de eventos auditivos de la Fig. 1, así como un identificador 20 de eventos auditivos y un calculador 21 de oblicuidad. El calculador 21 de oblicuidad y el identificador 20 de eventos auditivos reciben ambos la señal 13 de audio, y el calculador 21 de oblicuidad produce una entrada para el identificador 20 de eventos auditivos. El identificador 20 de eventos auditivos, el identificador 11 de características de eventos auditivos y el modificador 12 de parámetros de dinámica están conectados, por lo demás, como sus homólogos de la Fig. 1.
En la Fig. 2, el calculador 21 de oblicuidad calcula la oblicuidad a partir de una representación espectral de la señal 13 de audio, y el identificador 20 de eventos auditivos calcula el análisis de escenas auditivas a partir de la misma representación espectral. La señal 13 de audio puede ser agrupada en bloques de M muestras que se solapan en un 50 por ciento, y la transformada discreta de Fourier puede calcularse como sigue:
3
siendo M = 2*N muestras y denotando x[n,t] un bloque de muestras.
\vskip1.000000\baselineskip
Se supone que el tamaño de bloque para la transformada es el mismo que para el cálculo de la señal del evento auditivo. Sin embargo, no es preciso que sea así. Cuando existen tasas de bloques diferentes, pueden interpolarse señales en una tasa de bloques o ser convertidas en tasa en la misma escala temporal que las señales en la otra tasa de bloques.
Se calcula la señal E[b,t] de excitación que se aproxima a la distribución de energía a lo largo de la membrana basilar del oído interno en la banda crítica b durante el bloque temporal t:
4
representando T[k] la respuesta frecuencial de un filtro que simula la transmisión de audio a través del oído externo y medio y representando C_{b}[k] la respuesta frecuencial de la membrana basilar en una ubicación correspondiente a la banda crítica b.
\vskip1.000000\baselineskip
La Fig. 4 representa la respuesta frecuencial de un filtro adecuado T[k] de transmisión. La Fig. 5 representa un conjunto adecuado de respuestas de filtro de banda crítica, correspondientes a C_{b}[k], en el cual se espacian uniformemente 40 bandas por toda la escala del ancho de banda rectangular equivalente (ERB) de Moore y Glasberg, para una tasa de muestreo de 48 kHz y un tamaño de transformada de M = 2048. Una función exponencial redondeada describe cada forma de filtro, y 1 ERB separa las bandas.
Si los límites de eventos auditivos se calculan a partir del espectro de sonoridad específica, según Crocket y Seefeldt, la señal E[b,t] de excitación ya existe como parte del cálculo de la sonoridad específica.
Por último, la oblicuidad espectral se calcula a partir de la señal E[b,t] de excitación como:
5
siendo \mu la media aritmética de la excitación:
6
y siendo \sigma la varianza de la señal de excitación:
7
La señal SK[t] de oblicuidad de la Ecuación (5) fluctúa considerablemente y requiere estabilización para evitar aberraciones cuando se modifica la señal de control del evento y los parámetros subsiguientes de procesamiento de dinámica. Una realización usa un estabilizador con una constante \alpha_{SK} de decaimiento que tiene un tiempo de decaimiento medio de aproximadamente 6,5 ms:
8
Limitar la oblicuidad a un máximo y un mínimo SK_{max} y SK_{min}, respectivamente, puede resultar útil. Puede calcularse una oblicuidad limitada SK''[t] como:
9
\vskip1.000000\baselineskip
Típicamente, los valores bajos (valores cercanos a 0,0) de la señal SK''[t] de oblicuidad corresponden a señales característicamente de menos volumen, mientras que los valores de oblicuidad altos (valores cercanos a 1,0) corresponden típicamente a señales característicamente de más volumen. En la Fig. 3, el gráfico "e)" muestra la señal de oblicuidad que corresponde a la señal de audio en "a)" de la Fig. 3. La oblicuidad es elevada para las ráfagas de diálogo de más volumen y baja para los sonidos de fondo.
La señal SK''[t] de oblicuidad pasa al identificador 20 de eventos auditivos de la Fig. 2, que pondera la medida D[t] de diferencia espectral como:
10
\vskip1.000000\baselineskip
La señal A_{SK}[t] de intensidad auditiva modificada en oblicuidad se calcula de la misma manera que A[t] en la Ecuación (1):
11
La señal A_{SK}[t] de intensidad auditiva modificada en oblicuidad es estabilizada de la misma manera que A[t] en la Ecuación (2):
12
En la Fig. 3, "f)" representa la señal \mathit{\overline{A}}_{SK}[t] de control de eventos modificada en oblicuidad para la correspondiente señal de audio en "a)" de la Fig. 3. Aparecen menos eventos auditivos durante los sonidos de fondo, mientras que permanecen los eventos correspondientes al diálogo de mayor volumen.
En la Fig. 3, "g)" muestra la señal del DRC controlada por el evento modificada en oblicuidad. Con menos eventos auditivos en los sonidos de fondo, la ganancia del DRC permanece relativamente constante y se mueve únicamente para las secciones de diálogo de mayor volumen, "h)" en la Fig. 3 muestra la señal resultante de audio modificada por el DRC.
La señal de audio modificada por el DRC no tiene nada de la amplificación poco deseable de nivel en los sonidos de fondo.
La señal SK''[t] de oblicuidad baja a veces para señales perceptualmente de más volumen. Para estas señales de volumen alto, el valor de la medida D[t] de diferencia espectral es suficientemente grande incluso tras la ponderación por medio de la señal SK''[t] de oblicuidad de la Ecuación 8, la medida D_{SK}[t] de diferencia espectral ponderada sigue siendo típicamente lo bastante grande como para indicar un límite del evento auditivo. La señal de \mathit{\overline{A}}_{SK}[t] control del evento no se ve adversamente afectada.

Claims (11)

1. Un procedimiento para controlar el procesamiento de señal de una señal de audio, que comprende dividir dicha señal de audio en eventos auditivos detectando cambios en la composición espectral con respecto al tiempo, incluyendo dicha división:
la detección de la ubicación y de la intensidad de los límites de los eventos auditivos en dicha señal de audio,
la obtención de una medida de la oblicuidad espectral de dicha señal de audio, en el que la oblicuidad espectral es una medida estadística de la asimetría de la distribución de probabilidad del espectro de la señal de audio,
la modificación de la intensidad de un evento auditivo en respuesta a dicha medida, de modo que cuanto menos oblicuo sea el espectro en la ubicación de un evento auditivo, más se reduce la intensidad del evento auditivo, y
el control del procesamiento de señal en respuesta a la intensidad modificada en ubicación e intensidad de dicho evento auditivo.
\vskip1.000000\baselineskip
2. Un procedimiento según la reivindicación 1 en el que la división de dicha señal de audio en eventos auditivos incluye el análisis del espectro de la señal de audio.
3. Un procedimiento según la reivindicación 2 en el que la obtención de una medida de la oblicuidad espectral de la señal de audio incluye el cálculo de la oblicuidad a partir de una representación espectral de la señal de audio.
4. Un procedimiento según la reivindicación 3 en el que el cálculo de la oblicuidad incluye el cálculo de una señal de excitación que se aproxima a la distribución de energía a lo largo de la membrana basilar del oído interno.
5. Un procedimiento según la reivindicación 1 en el que la división de dicha señal de audio en eventos auditivos incluye la transformación de la señal de audio en un dominio de sonoridad perceptiva, incluyendo dicha transformación el cálculo de una señal de excitación que se aproxima a la distribución de energía a lo largo de la membrana basilar del oído interno.
6. Un procedimiento según la reivindicación 5 en el que la obtención de una medida de la oblicuidad espectral de la señal de audio incluye el cálculo de la oblicuidad a partir de dicha señal de excitación.
7. Un procedimiento según una cualquiera de las reivindicaciones 1-6 en el que dicha medida de la oblicuidad espectral es una medida estabilizada.
8. Un aparato que comprende medios adaptados para llevar a cabo el procedimiento de una cualquiera de las reivindicaciones 1 a 7.
9. Un programa de ordenador, almacenado en un medio legible por ordenador, que, cuando es ejecutado en un ordenador, lleva a cabo el procedimiento de una cualquiera de las reivindicaciones 1 a 7.
10. Una memoria legible por ordenador que contiene el programa de ordenador de la reivindicación 9.
11. Un sistema de ordenador que comprende:
una CPU:
la memoria de la reivindicación 10; y
un bus que acopla de forma comunicativa la CPU y la memoria.
ES08780174T 2007-07-13 2008-07-11 Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. Active ES2377719T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US95946307P 2007-07-13 2007-07-13
US959463P 2007-07-13
PCT/US2008/008592 WO2009011827A1 (en) 2007-07-13 2008-07-11 Audio processing using auditory scene analysis and spectral skewness

Publications (1)

Publication Number Publication Date
ES2377719T3 true ES2377719T3 (es) 2012-03-30

Family

ID=39776994

Family Applications (1)

Application Number Title Priority Date Filing Date
ES08780174T Active ES2377719T3 (es) 2007-07-13 2008-07-11 Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.

Country Status (10)

Country Link
US (1) US8396574B2 (es)
EP (1) EP2168122B1 (es)
JP (1) JP5192544B2 (es)
CN (1) CN101790758B (es)
AT (1) ATE535906T1 (es)
BR (1) BRPI0813723B1 (es)
ES (1) ES2377719T3 (es)
RU (1) RU2438197C2 (es)
TW (1) TWI464735B (es)
WO (1) WO2009011827A1 (es)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
WO2010126709A1 (en) 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8510361B2 (en) * 2010-05-28 2013-08-13 George Massenburg Variable exponent averaging detector and dynamic range controller
TWI543642B (zh) * 2011-07-01 2016-07-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
US9633667B2 (en) 2012-04-05 2017-04-25 Nokia Technologies Oy Adaptive audio signal filtering
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
WO2014046941A1 (en) * 2012-09-19 2014-03-27 Dolby Laboratories Licensing Corporation Method and system for object-dependent adjustment of levels of audio objects
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
CN104079247B (zh) 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN114566183A (zh) 2013-04-05 2022-05-31 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
JP6224850B2 (ja) 2014-02-28 2017-11-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 会議における変化盲を使った知覚的連続性
WO2017079334A1 (en) 2015-11-03 2017-05-11 Dolby Laboratories Licensing Corporation Content-adaptive surround sound virtualization
US9372881B1 (en) 2015-12-29 2016-06-21 International Business Machines Corporation System for identifying a correspondence between a COBOL copybook or PL/1 include file and a VSAM or sequential dataset
US10412490B2 (en) 2016-02-25 2019-09-10 Dolby Laboratories Licensing Corporation Multitalker optimised beamforming system and method
US11894006B2 (en) 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
CN113015059B (zh) * 2021-02-23 2022-10-18 歌尔科技有限公司 音频优化方法、装置、设备及可读存储介质

Family Cites Families (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
US4624009A (en) 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
DE3314570A1 (de) 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US4594561A (en) * 1984-10-26 1986-06-10 Rg Dynamics, Inc. Audio amplifier with resistive damping for minimizing time displacement distortion
US4739514A (en) 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
US5027410A (en) 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JPH02118322U (es) 1989-03-08 1990-09-21
US5097510A (en) 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5369711A (en) 1990-08-31 1994-11-29 Bellsouth Corporation Automatic gain control for a headset
AU653582B2 (en) 1991-01-08 1994-10-06 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
DE69214882T2 (de) 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
US5278912A (en) 1991-06-28 1994-01-11 Resound Corporation Multiband programmable compression system
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
US5363147A (en) 1992-06-01 1994-11-08 North American Philips Corporation Automatic volume leveler
DE4335739A1 (de) 1992-11-17 1994-05-19 Rudolf Prof Dr Bisping Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
US5457769A (en) 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5706352A (en) 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5434922A (en) 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (es) 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5530760A (en) 1994-04-29 1996-06-25 Audio Products International Corp. Apparatus and method for adjusting levels between channels of a sound system
US5500902A (en) 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5548538A (en) 1994-12-07 1996-08-20 Wiltron Company Internal automatic calibrator for vector network analyzers
US5682463A (en) 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
ATE229729T1 (de) 1995-03-13 2002-12-15 Phonak Ag Verfahren zur anpassung eines hörgerätes, vorrichtung hierzu und hörgerät
DE19509149A1 (de) 1995-03-14 1996-09-19 Donald Dipl Ing Schulz Codierverfahren
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US6301555B2 (en) 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
US6041295A (en) 1995-04-10 2000-03-21 Corporate Computer Systems Comparing CODEC input/output to adjust psycho-acoustic parameters
US5601617A (en) 1995-04-26 1997-02-11 Advanced Bionics Corporation Multichannel cochlear prosthesis with flexible control of stimulus waveforms
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5663727A (en) 1995-06-23 1997-09-02 Hearing Innovations Incorporated Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same
US5712954A (en) 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5907622A (en) 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
US6108431A (en) 1996-05-01 2000-08-22 Phonak Ag Loudness limiter
US6327366B1 (en) 1996-05-01 2001-12-04 Phonak Ag Method for the adjustment of a hearing device, apparatus to do it and a hearing device
US6430533B1 (en) 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH09311696A (ja) * 1996-05-21 1997-12-02 Nippon Telegr & Teleph Corp <Ntt> 自動利得調整装置
JPH09312540A (ja) 1996-05-23 1997-12-02 Pioneer Electron Corp ラウドネスボリュームコントロール装置
JP3765622B2 (ja) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
EP0820212B1 (de) 1996-07-19 2010-04-21 Bernafon AG Lautheitsgesteuerte Verarbeitung akustischer Signale
JP2953397B2 (ja) 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
JP3367592B2 (ja) * 1996-09-24 2003-01-14 日本電信電話株式会社 自動利得調整装置
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6125343A (en) 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6185309B1 (en) 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
KR100261904B1 (ko) 1997-08-29 2000-07-15 윤종용 헤드폰 사운드 출력장치
US6088461A (en) 1997-09-26 2000-07-11 Crystal Semiconductor Corporation Dynamic volume control system
US6233554B1 (en) 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6498855B1 (en) 1998-04-17 2002-12-24 International Business Machines Corporation Method and system for selectively and variably attenuating audio data
JP2002518912A (ja) 1998-06-08 2002-06-25 コックレア リミティド 聴覚装置
EP0980064A1 (de) 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
GB2340351B (en) 1998-07-29 2004-06-09 British Broadcasting Corp Data transmission
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
FI113935B (fi) 1998-09-25 2004-06-30 Nokia Corp Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
EP1089242B1 (en) 1999-04-09 2006-11-08 Texas Instruments Incorporated Supply of digital audio and video products
CA2372017A1 (en) 1999-04-26 2000-11-02 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
US6263371B1 (en) 1999-06-10 2001-07-17 Cacheflow, Inc. Method and apparatus for seaming of streaming content
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6985594B1 (en) 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US20020172376A1 (en) 1999-11-29 2002-11-21 Bizjak Karl M. Output processing system and method
FR2802329B1 (fr) 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
DE10018666A1 (de) 2000-04-14 2001-10-18 Harman Audio Electronic Sys Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
US6889186B1 (en) 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
AUPQ952700A0 (en) 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US6625433B1 (en) 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE60029453T2 (de) 2000-11-09 2007-04-12 Koninklijke Kpn N.V. Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
US7457422B2 (en) 2000-11-29 2008-11-25 Ford Global Technologies, Llc Method and implementation for detecting and characterizing audible transients in noise
FR2820573B1 (fr) 2001-02-02 2003-03-28 France Telecom Methode et dispositif de traitement d'une pluralite de flux binaires audio
WO2004019656A2 (en) 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
DE10107385A1 (de) 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6915264B2 (en) 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
DE50102419D1 (de) 2001-04-10 2004-07-01 Phonak Ag Verfahren zur anpassung eines hörgerätes an ein individuum
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7181034B2 (en) 2001-04-18 2007-02-20 Gennum Corporation Inter-channel communication in a multi-channel digital hearing instrument
KR100400226B1 (ko) * 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US7177803B2 (en) 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US20040037421A1 (en) 2001-12-17 2004-02-26 Truman Michael Mead Parital encryption of assembled bitstreams
US7068723B2 (en) 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
FR2842576B1 (fr) 2002-07-17 2004-10-08 Skf Ab Dispositif de palier a roue libre et poulie a roue libre
JP4257079B2 (ja) 2002-07-19 2009-04-22 パイオニア株式会社 周波数特性調整装置および周波数特性調整方法
JP4321049B2 (ja) 2002-07-29 2009-08-26 パナソニック電工株式会社 自動利得制御装置
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
CN1739141A (zh) 2003-02-06 2006-02-22 杜比实验室特许公司 连续的备份音频
DE10308483A1 (de) 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
AU2004248544B2 (en) 2003-05-28 2010-02-18 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US20050071154A1 (en) 2003-09-30 2005-03-31 Walter Etter Method and apparatus for estimating noise in speech signals
US6923684B2 (en) 2003-10-10 2005-08-02 O'sullivan Industries, Inc. Power harness having multiple upstream USB ports
EP1914722B1 (en) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
GB2413906A (en) 2004-04-21 2005-11-09 Imagination Tech Ltd Radio volume control system
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
PT1792304E (pt) * 2004-09-20 2008-12-04 Tno Compensação de frequência para análise de percepção de voz
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI397901B (zh) * 2004-12-21 2013-06-01 Dolby Lab Licensing Corp 控制音訊信號比響度特性之方法及其相關裝置與電腦程式
US8265295B2 (en) 2005-03-11 2012-09-11 Rane Corporation Method and apparatus for identifying feedback in a circuit
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
GB2428168A (en) 2005-07-06 2007-01-17 Motorola Inc A transmitter splits a signal into a plurality of sub-signals, each containing a plurality of sub-carriers, and amplifies each sub-signal separately.
CN101421781A (zh) 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
WO2007120452A1 (en) 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
ES2359799T3 (es) 2006-04-27 2011-05-27 Dolby Laboratories Licensing Corporation Control de ganancia de audio usando detección de eventos auditivos basada en la sonoridad específica.
CA2665153C (en) 2006-10-20 2015-05-19 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
KR101106031B1 (ko) 2007-01-03 2012-01-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 디지털/아날로그 음향 세기―보상 볼륨 제어 장치 및 그 제어 방법
EP2130019B1 (en) 2007-03-19 2013-01-02 Dolby Laboratories Licensing Corporation Speech enhancement employing a perceptual model
BRPI0808965B1 (pt) 2007-06-19 2020-03-03 Dolby Laboratories Licensing Corporation Método e aparelho para medir a intensidade sonora percebida de um sinal de áudio e meio legível por computador

Also Published As

Publication number Publication date
US20100198378A1 (en) 2010-08-05
JP5192544B2 (ja) 2013-05-08
TW200915301A (en) 2009-04-01
RU2010105052A (ru) 2011-08-20
CN101790758A (zh) 2010-07-28
BRPI0813723B1 (pt) 2020-02-04
EP2168122B1 (en) 2011-11-30
US8396574B2 (en) 2013-03-12
ATE535906T1 (de) 2011-12-15
BRPI0813723A2 (pt) 2017-07-04
EP2168122A1 (en) 2010-03-31
JP2010534030A (ja) 2010-10-28
TWI464735B (zh) 2014-12-11
WO2009011827A1 (en) 2009-01-22
CN101790758B (zh) 2013-01-09
RU2438197C2 (ru) 2011-12-27

Similar Documents

Publication Publication Date Title
ES2377719T3 (es) Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
JP5255663B2 (ja) 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
CN104471855B (zh) 具有噪声检测和响度下降检测的响度控制
US20170372719A1 (en) Sibilance Detection and Mitigation
US11894006B2 (en) Compressor target curve to avoid boosting noise
JP2009296298A (ja) 音声信号処理装置および方法
JP4811475B2 (ja) 録音装置、録音方法、音声信号補正回路及びプログラム
CN112640301B (zh) 动态地调整压缩器的阈值的方法和设备
Zakis Music perception and hearing aids
JP2009027292A (ja) 電子機器
JP6807769B2 (ja) 音響装置及び音質調整方法
EP3261089B1 (en) Sibilance detection and mitigation
CN107408930B (zh) 调节自动声音水平的放大器
CN113730914A (zh) 一种音频调节方法、装置及计算机可读存储介质
EP3128765A1 (en) Method of processing sound track
JP2010210815A (ja) 音声信号調整装置及びその調整方法
JP2009225206A (ja) 補聴器の信号処理方法
JP2008167152A (ja) 増幅装置、増幅方法及び増幅プログラム
TW201642250A (zh) 處理音軌的方法