ES2377719T3 - Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. - Google Patents
Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. Download PDFInfo
- Publication number
- ES2377719T3 ES2377719T3 ES08780174T ES08780174T ES2377719T3 ES 2377719 T3 ES2377719 T3 ES 2377719T3 ES 08780174 T ES08780174 T ES 08780174T ES 08780174 T ES08780174 T ES 08780174T ES 2377719 T3 ES2377719 T3 ES 2377719T3
- Authority
- ES
- Spain
- Prior art keywords
- auditory
- audio signal
- obliqueness
- signal
- spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003595 spectral effect Effects 0.000 title claims description 30
- 238000004458 analytical method Methods 0.000 title claims description 18
- 230000005236 sound signal Effects 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 230000005284 excitation Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 6
- 210000000721 basilar membrane Anatomy 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 210000003027 ear inner Anatomy 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims 2
- 230000004048 modification Effects 0.000 claims 1
- 238000012986 modification Methods 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 8
- 239000003607 modifier Substances 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000003321 amplification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000006641 stabilisation Effects 0.000 description 3
- 238000011105 stabilization Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000086254 Arnica montana Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010791 quenching Methods 0.000 description 1
- 230000000171 quenching effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000003381 stabilizer Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/12—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
- H03G9/18—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices for tone control and volume expansion or compression
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Holo Graphy (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Un procedimiento para controlar el procesamiento de señal de una señal de audio, que comprende dividir dicha señal de audio en eventos auditivos detectando cambios en la composición espectral con respecto al tiempo, incluyendo dicha división: la detección de la ubicación y de la intensidad de los límites de los eventos auditivos en dicha señal de audio, la obtención de una medida de la oblicuidad espectral de dicha señal de audio, en el que la oblicuidad espectral es una medida estadística de la asimetría de la distribución de probabilidad del espectro de la señal de audio, la modificación de la intensidad de un evento auditivo en respuesta a dicha medida, de modo que cuanto menos oblicuo sea el espectro en la ubicación de un evento auditivo, más se reduce la intensidad del evento auditivo, y el control del procesamiento de señal en respuesta a la intensidad modificada en ubicación e intensidad de dicho evento auditivo.
Description
Procesamiento de audio utilizando un análisis de
escenas auditivas y oblicuidad espectral.
La presente invención versa, en general, acerca
del procesamiento de audio y, en particular, acerca del análisis de
escenas auditivas y de la oblicuidad espectral.
\vskip1.000000\baselineskip
Los siguientes documentos son incorporados al
presente documento por referencia en su integridad:
Crockett y Seefeldt, Solicitud Internacional
bajo el Tratado de Cooperación de Patentes, con número de serie
PCT/US2007/008313, titulada "Controlling Dynamic Gain Parameters
of Audio using Auditory Scene Analysis and
Specific-Loudness-Based Detection of
Auditory Events", que nombra a Brett Graham Crockett y Alan
Jeffrey Seefeldt como inventores, presentada el 30 de marzo de 2007,
con Expediente de Agente DOL186 PCT, y publicada el 8 de noviembre
de 2007 como WO 2007/127023;
Seefeldt y otros, Solicitud Internacional bajo
el Tratado de Cooperación de Patentes, con número de serie PCT/US
2004/016964, titulada "Method, Apparatus and Computer Program for
Calculating and Adjusting the Perceived Loudness of an Audio
Signal", que nombra a Alan Jeffrey Seefeldt y otros como
inventores, presentada el 27 de mayo de 2004, con Expediente de
Agente nº DOL119 PCT, y publicada el 23 de diciembre de 2004 como WO
2004/111994 A2;
Seefeldt, Solicitud Internacional bajo el
Tratado de Cooperación de Patentes, con número de serie
PCT/US2005/
038579, titulada "Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal", que nombra a Alan Jeffrey Seefeldt como inventor, presentada el 25 de octubre de 2005, con Expediente de Agente nº DOL15202 PCT, y publicada el 4 de mayo de 2006 como WO 2006/047600;
038579, titulada "Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal", que nombra a Alan Jeffrey Seefeldt como inventor, presentada el 25 de octubre de 2005, con Expediente de Agente nº DOL15202 PCT, y publicada el 4 de mayo de 2006 como WO 2006/047600;
Crockett, Solicitud de Patente Estadounidense
con número de serie 10/474,387, titulada "High Quality
Time-Scaling and Pitch-Scaling of
Audio Signals", que nombra a Brett Graham Crockett como inventor,
presentada el 10 de octubre de 2003, con Expediente de Agente nº
DOL07503, y publicada el 24 de junio de 2004 como US 2004/0122662
A1;
Crockett y otros, Solicitud de Patente
Estadounidense con número de serie 10/478,398, titulada "Method
for Time Aligning Audio Signals Using Characterizations Based on
Auditory Events", que nombra a Brett G. Crockett y otros como
inventores, presentada el 20 de noviembre de 2003, con Expediente de
Agente nº DOL09201, y publicada el 29 de julio de 2004 como US
2004/0148159 A1;
Crockett, Solicitud de Patente Estadounidense
con número de serie 10/478,538, titulada "Segmenting Audio
Signals Into Auditory Events", que nombra a Brett G. Crockett
como inventor, presentada el 20 de noviembre de 2003, con Expediente
de Agente nº DOL098, y publicada el 26 de agosto de 2004 como US
2004/0165730 A1;
Crockett y otros, Solicitud de Patente
Estadounidense con número de serie 10/478,397, titulada "Comparing
Audio Using Characterizations Based on Auditory Events", que
nombra a Brett G. Crockett y otros como inventores, presentada el 20
de noviembre de 2003, con Expediente de Agente nº DOL092, y
publicada el 2 de septiembre de 2004 como US 2004/0172240 A1;
Smithers, Solicitud Internacional bajo el
Tratado de Cooperación de Patentes, con número de serie PCT/US
05/24630, titulada "Method for Combining Audio Signals Using
Auditory Scene Analysis", que nombra a Michael John Smithers como
inventor, presentada el 13 de julio de 2005, con Expediente de
Agente nº DOL148 PCT, y publicada el 9 de marzo de 2006 como WO
2006/026161;
Crockett, B. y Smithers, M., "A Method for
Characterizing and Identifying Audio Based on Auditory Scene
Analysis", Audio Engineering Society Convention Paper 6416, 118th
Convention, Barcelona, 28-31 de mayo de 2005;
Crockett, B., "High Quality Multichannel Time
Scaling and Pitch-Shifting using Auditory Scene
Analysis", Audio Engineering Society Convention Paper 5948, Nueva
York, octubre de 2003; y
Seefeldt y otros, "A New Objective Measure of
Perceived Loudness", Audio Engineering Society Convention Paper
6236, San Francisco, 28 de octubre de 2004.
\vskip1.000000\baselineskip
La división de sonidos en unidades o segmentos
percibidos de forma separada y diferenciada es denominada a veces
como "análisis de eventos auditivos" o "análisis de escenas
auditivas" ("ASA"). Los segmentos son denominados a veces
"eventos auditivos" o "eventos de audio". Albert S.
Bregman, "Auditory Scene Analysis-The Perceptual
Organizaron of Sound" (Massachusetts Institute of Technology,
1991, cuarta impresión, 2001, segunda edición en rústica de la MIT
Press) presenta exhaustivamente el análisis de escenas auditivas.
Además, Bhadkamkar y otros, patente estadounidense nº 6.002.776 (14
de diciembre de 1999) cita publicaciones que se remontan a 1976 como
"investigaciones de la técnica anterior relativas a la separación
de sonidos por medio del análisis de escenas auditivas". Sin
embargo, Bhadkamkar y otros desalientan el uso práctico del análisis
de escenas auditivas, llegando a la conclusión de que las
"[t]écnicas que implican el análisis de escenas auditivas, aunque
interesantes desde el punto de vista científico como modelos del
procesamiento auditivo humano, son en la actualidad demasiado
exigentes y especializadas desde el punto de vista del cálculo como
para ser consideradas técnicas prácticas para la separación de
sonidos hasta que se logre un progreso fundamental".
Crockett y Crocket y otros, en las diversas
solicitudes de patente y en las monografías enumeradas más arriba,
identifican los eventos auditivos. Esos documentos enseñan la
división de una señal de audio en eventos auditivos (cada uno de los
cuales tiende a ser percibido como separado y diferenciado)
detectando cambios en la composición espectral (amplitud como
función de la frecuencia) con respecto al tiempo. Esto puede
realizarse, por ejemplo, calculando el contenido espectral de
sucesivos bloques temporales de la señal de audio, comparando el
contenido espectral entre bloques temporales sucesivos e
identificando un límite de los eventos auditivos como el límite
entre bloques en los que la diferencia en el contenido espectral
supera un umbral. Alternativamente, pueden calcularse los cambios en
la amplitud con respecto al tiempo en lugar de o en adición a los
cambios en la composición espectral con respecto al tiempo.
Los marcadores de los límites de eventos
auditivos están dispuestos a menudo en una señal de control temporal
por lo que el intervalo, típicamente de cero a uno, indica la
intensidad del límite del evento. Además, esta señal de control es a
menudo filtrada, de forma que permanece la intensidad del límite del
evento, y los intervalos temporales entre los límites de los
eventos se calculan como valores en decaimiento del límite de evento
precedente. Esta intensidad filtrada del evento auditivo es usada
entonces por otros procedimientos de procesamiento de audio,
incluyendo el control automático de ganancia y el control dinámico
de gama.
\vskip1.000000\baselineskip
Las técnicas de control automático de ganancia
(AGC) y de control dinámico de gama (DRC) son bien conocidas y
comunes en muchos recorridos de señales de audio. En un sentido
abstracto, ambas técnicas miden el nivel de una señal de audio y
luego modifican la ganancia de la señal en una cantidad que es
función del nivel medido. En un sistema lineal 1:1 de procesamiento
de dinámica, el audio de entrada no es procesado e, idealmente, la
señal de audio de salida coincide con la señal de audio de entrada.
Además, imaginemos un sistema de procesamiento de audio por
dinámica que mida automáticamente la señal de entrada y controle con
esa medida la señal de salida. Si la señal de entrada aumenta su
nivel en 6 dB y la señal procesada de salida aumenta su nivel en
solo 3 dB, entonces la señal de salida ha sido comprimida en una
proporción de 2:1 con respecto a la señal de entrada.
En Crockett y Seefeldt, el análisis de escenas
auditivas mejora el rendimiento de los procedimientos de AGC y DRC
minimizando el cambio en ganancia entre los límites de los eventos
auditivos y confinando gran parte del cambio en ganancia a las
inmediaciones de un límite de eventos. Esto lo realiza modificando
el comportamiento de liberación del procesamiento de dinámica. Así,
los eventos auditivos suenan coherentes y naturales.
Las notas tocadas en un piano son un ejemplo.
Con los procedimientos convencionales de AGC o DRC, la ganancia
aplicada a la señal de audio aumenta durante la cola de cada nota,
haciendo que cada nota sea amplificada de forma poco natural. Con el
análisis de escenas auditivas, la ganancia del AGC o el DRC, la
ganancia aplicada a la señal de audio se mantiene constante dentro
de cada nota y cambia únicamente cerca del inicio de cada nota
cuando se detecta un límite de eventos auditivos. La señal
resultante de audio ajustada en ganancia suena natural, al irse
apagando la cola de cada nota.
Las implementaciones típicas del análisis de
escenas auditivas (como en las referencias en lo que antecede) son
deliberadamente invariables en nivel. Es decir, detectan límites de
eventos auditivos con independencia del nivel absoluto de la señal.
Aunque la invariabilidad del nivel es útil en muchas aplicaciones,
algunos análisis de escenas auditivas se benefician de alguna
dependencia del nivel.
Un caso tal es el procedimiento descrito en
Crockett y Seefeldt. En él, el control de ASA del AGC y el DRC
impide cambios de ganancia grandes entre los límites de eventos
auditivos. Sin embargo, los cambios de ganancia más a la larga
pueden seguir siendo poco deseables en algunos tipos de señales de
audio. Cuando una señal de audio pasa de una sección de más volumen
a una de menos volumen, la ganancia del AGC o el DRC, limitada a
cambiar solo cerca de los límites de eventos, puede permitir que el
nivel de la señal de audio de procesamiento aumente de forma poco
deseable y poco natural durante la sección de poco volumen. Esta
situación ocurre frecuentemente en películas, en las que el diálogo
esporádico alterna con sonidos de fondo de poco volumen. Dado que la
señal de audio de poco volumen de fondo también contiene eventos
auditivos, la ganancia del AGC o el DRC cambia cerca de esos límites
de eventos y aumenta el nivel global de la señal de audio.
Es poco deseable realizar una ponderación simple
de la importancia de los eventos auditivos mediante una medida del
nivel, de la potencia o de la sonoridad de la señal de audio. En
muchas situaciones, no se conoce la relación entre la medida de la
señal y el nivel absoluto de reproducción. Idealmente, sería útil
una medida que discriminase o detectase las señales de audio
perceptivamente de menos volumen con independencia del nivel
absoluto de la señal de audio.
Aquí, "perceptivamente de menos volumen" se
refiere no a menos volumen en una medida objetiva de sonoridad (como
en Seefeldt y otros y Seefeldt), sino más bien a menos volumen en
base a la sonoridad esperada del contenido. Por ejemplo, la
experiencia humana indica que un susurro es un sonido de poco
volumen. Si un sistema de procesamiento de dinámica mide que este es
de poco volumen y, en consecuencia, aumenta la ganancia del AGC para
lograr alguna sonoridad o nivel de salida nominal, el susurro
resultante ajustado en ganancia tendría más volumen de lo que la
experiencia dice que debería tener.
\vskip1.000000\baselineskip
En el presente documento se enseñan
procedimientos y un aparato, según se reivindica en las
reivindicaciones independientes, para controlar la sonoridad de
eventos auditivos en una señal de audio. en una realización, el
procedimiento incluye ponderar los eventos auditivos (teniendo un
evento auditivo un espectro y una sonoridad), usar la oblicuidad en
los espectros y controlar la sonoridad de los eventos auditivos
usando los coeficientes de ponderación. Diversas realizaciones de la
invención son como sigue: la ponderación es proporcional a la medida
de oblicuidad en los espectros; la medida de oblicuidad es una
medida de oblicuidad estabilizada; la ponderación es insensible a la
amplitud de la señal de audio; la ponderación es insensible a la
potencia; la ponderación es insensible a la sonoridad; en el momento
de la ponderación no se conoce ninguna relación entre la medida de
la señal y el nivel absoluto de reproducción; la ponderación incluye
la ponderación de la importancia de los límites de eventos auditivos
usando la oblicuidad en los espectros y reduciendo la amplificación
del nivel de procesamiento del AGC o el DRC durante los segmentos
perceptivamente de menos volumen de la señal de audio en comparación
con procedimientos que no llevan a cabo la ponderación
reivindicada.
En otras realizaciones, la invención es una
memoria legible por ordenador que contiene un programa de ordenador
para llevar a cabo uno cualquiera de los procedimientos
anteriores.
En otras realizaciones adicionales, la invención
es un sistema de ordenador que incluye una CPU, una de las memorias
mencionadas anteriormente y un bus que acopla de forma comunicativa
la CPU y la memoria.
En otra realización adicional, la invención es
un procesador de señales de audio que incluye un calculador de
oblicuidad espectral para calcular la oblicuidad espectral en una
señal de audio, un identificador de eventos auditivos para
identificar y ponderar eventos auditivos en la señal de audio usando
la oblicuidad espectral calculada, un modificador de parámetros para
modificar parámetros para controlar la sonoridad de eventos
auditivos en la señal de audio y un controlador para controlar la
sonoridad de eventos auditivos en la señal de audio.
En otra realización adicional, la invención es
un procedimiento para controlar la sonoridad de eventos auditivos en
una señal de audio, incluyendo el cálculo de medidas de oblicuidad
de espectros de eventos auditivos sucesivos de una señal de audio,
la generación de coeficientes de ponderación para los eventos
auditivos en base a las medidas de oblicuidad, la derivación de una
señal de control a partir de los coeficientes de ponderación y el
control de la sonoridad de los eventos auditivos usando la señal de
control.
Las diversas características de la presente
invención y sus realizaciones preferentes pueden entenderse mejor
por referencia a la siguiente exposición y a los dibujos adjuntos,
en los que números de referencia similares se refieren a elementos
similares.
\vskip1.000000\baselineskip
La Fig. 1 ilustra un dispositivo para llevar a
cabo dos procedimientos de Crockett y Seefeldt de análisis de
escenas auditivas y de control de parámetros de ganancia de
dinámica.
La Fig. 2 ilustra un procesador de audio para
identificar eventos auditivos y calcular la oblicuidad para
modificar los eventos auditivos, los cuales, a su vez, modifican los
parámetros de procesamiento de din árnica según una realización de
la invención.
La Fig. 3 es una serie de gráficos que ilustra
el uso de eventos auditivos para controlar el tiempo de liberación
en una implementación digital de un controlador dinámico de gama
(DRC) según una realización de la invención.
La Fig. 4 es una respuesta característica
idealizada de un filtro lineal adecuado como filtro de transmisión
según una realización de la invención.
La Fig. 5 muestra un conjunto de respuestas
características idealizadas de un filtro auditivo que se aproximan a
un bandaje crítico en la escala de ERB.
\vskip1.000000\baselineskip
La Fig. 1 ilustra un dispositivo 1 para analizar
escenas auditivas y controlar los parámetros de ganancia de dinámica
según Crockett y Seefeldt. El dispositivo incluye un identificador
10 de eventos auditivos, un identificador opcional 11 de
características de eventos auditivos y un modificador 12 de
parámetros de dinámica. El identificador 10 de eventos auditivos
recibe audio como entrada y produce una entrada para el modificador
12 de parámetros de dinámica (y una entrada para el identificador 11
de características de eventos auditivos, si está presente). El
modificador 12 de parámetros de dinámica recibe la salida del
identificador 10 de eventos auditivos (y del identificador 11 de
características de eventos auditivos, si está presente) y produce
una salida.
El identificador 10 de eventos auditivos analiza
el espectro y, a partir de los resultados, identifica la ubicación
de eventos de audio perceptibles que son para controlar los
parámetros de ganancia de dinámica. Alternativamente, el
identificador 10 de eventos auditivos transforma el audio en un
dominio de sonoridad perceptiva (que puede proporcionar más
información psicoacústicamente relevante que el primer
procedimiento) y el dominio de sonoridad perceptiva identifica la
ubicación de eventos auditivos que son para controlar los parámetros
de ganancia de dinámica. (En esta alternativa, el procesamiento de
audio está al tanto de los niveles absolutos de reproducción
acústica).
El modificador 12 de parámetros de dinámica
modifica los parámetros de dinámica en base a la salida del
identificador 10 de eventos auditivos (y del identificador 11 de
características de eventos auditivos, si está presente). En ambas
alternativas, se segmenta en bloques una señal x[n] de
audio digital y, para cada bloque t, D[t]
representa la diferencia espectral entre el bloque actual y el
bloque anterior.
Para la primera alternativa, D[t]
es la suma, en todos los coeficientes espectrales, de la magnitud de
la diferencia entre los coeficientes espectrales logarítmicos
normalizados (en dB) para el bloque actual t y el bloque
anterior t-1. En esta alternativa, D[t] es
proporcional a las diferencias absolutas en los espectros (en dB
ellas mismas). Para la segunda alternativa, D[t] es,
en todos los coeficientes de sonoridad específica, de la magnitud de
la diferencia entre los coeficientes sonoridad específica
normalizados para el bloque actual t y el bloque anterior
t-1. En esta alternativa, D[t] es proporcional
a las diferencias absolutas en sonoridad específica (en sonios).
En ambas alternativas, si D[t]
supera un umbral D_{min}, se considera que ha ocurrido un
evento. El evento puede tener una intensidad entre cero y uno, en
base a la proporción de D[t] menos D_{min}
con respecto a la diferencia entre D_{max} y
D_{min}. La intensidad A[t] puede calcularse
como:
Los límites máximo y mínimo son diferentes para
cada alternativa debido a sus diferentes unidades. Sin embargo, el
resultado de ambos es una intensidad de evento en el intervalo de 0
a 1. Otras alternativas pueden calcular una intensidad de evento,
pero la alternativa expresada en la Ecuación (1) se ha demostrado en
varias áreas, incluyendo el control del procesamiento de dinámica.
La asignación de una intensidad (proporcional a la cantidad de
cambio espectral asociado con ese evento) al evento auditivo permite
un mayor control sobre el procesamiento de dinámica en comparación
con una decisión binaria de eventos. Son aceptables cambios mayores
de ganancia durante eventos más intensos, y la señal en la Ecuación
(1) permite un control variable tal.
La señal A[t] es una señal de
impulsos con un impulso que ocurre en la ubicación de un límite de
evento. Para los fines de controlar el tiempo de liberación, se
puede estabilizar adicionalmente la señal A[t] para
que decaiga de forma estable hasta cero tras la detección de un
límite de evento. La señal A[t] de control
estabilizada del evento puede calcularse a partir de
A[t] según:
Aquí, \alpha_{evento} a evento controla el
tiempo de decaimiento de la señal de control del evento.
La Fig. 3 es una secuencia de gráficos que
ilustra la operación y el efecto de la invención, según una
realización, "b)" en la Fig. 3 representa la señal
\mathit{\overline{A}}[t] de control del evento para la
correspondiente señal de audio de "a)" en la Fig. 3, con el
tiempo de decaimiento medio del conjunto más estabilizado a 250 ms.
La señal de audio contiene tres ráfagas de diálogo, intercaladas con
sonidos de fondo de poco volumen del chisporroteo de una hoguera. La
señal de control del evento muestra muchos eventos auditivos en los
sonidos tanto del diálogo como del segundo plano.
En la Fig. 3, "c)" muestra la señal de
ganancia del DRC en la que se usa la señal
\mathit{\overline{A}}[t] de control del evento para variar
la constante del tiempo de liberación para la estabilización de la
ganancia del DRC. Según describen Crocket y Seefeldt, cuando la
señal de control es igual a uno, el coeficiente de estabilización de
liberación no se ve afectado y la ganancia estabilizada cambia según
el valor de la constante de tiempo. Cuando la señal de control es
igual a cero, se impide que cambie la ganancia estabilizada. Cuando
la señal de control está entre cero y uno, se permite que cambie la
ganancia estabilizada, pero con una tasa reducida, en proporción a
la señal de control.
En "c" de la Fig. 3, la ganancia del DRC
aumenta durante los sonidos de fondo de poco volumen debido al
número de eventos detectados en segundo plano. La señal resultante
modificada por el DRC en "d)" de la Fig. 3 tiene una
amplificación audible y poco deseable del ruido de fondo entre las
ráfagas de diálogo.
Para reducir el cambio de ganancia durante los
sonidos de fondo de poco volumen, una realización de la invención
modifica o pondera la intensidad auditiva A[t] usando
una medida de la asimetría del espectro de la señal de audio. Una
realización de la invención calcula la oblicuidad espectral de la
excitación de la señal de audio.
La oblicuidad es una medida estadística de la
asimetría de una distribución de probabilidad. Una distribución
simétrica en torno a la media tiene una oblicuidad de cero. Una
distribución con su volumen o masa concentrada por encima de la
media y con una larga cola que se extiende por debajo de la media
tiene una oblicuidad negativa. Una distribución concentrada por
debajo de la media y con una larga cola que se extiende por encima
de la media tiene una oblicuidad positiva. La magnitud o el espectro
de potencia de una señal de audio típica tiene oblicuidad positiva.
Es decir, el grueso de la energía en el espectro se concentra más
abajo en el espectro, y el espectro tiene una larga cola hacia la
parte superior del espectro.
La Fig. 2 ilustra un procesador 2 de audio según
una realización de la invención. El procesador 2 de audio incluye un
modificador 12 de parámetros de dinámica y el identificador opcional
11 de características de eventos auditivos de la Fig. 1, así como un
identificador 20 de eventos auditivos y un calculador 21 de
oblicuidad. El calculador 21 de oblicuidad y el identificador 20 de
eventos auditivos reciben ambos la señal 13 de audio, y el
calculador 21 de oblicuidad produce una entrada para el
identificador 20 de eventos auditivos. El identificador 20 de
eventos auditivos, el identificador 11 de características de eventos
auditivos y el modificador 12 de parámetros de dinámica están
conectados, por lo demás, como sus homólogos de la Fig. 1.
En la Fig. 2, el calculador 21 de oblicuidad
calcula la oblicuidad a partir de una representación espectral de la
señal 13 de audio, y el identificador 20 de eventos auditivos
calcula el análisis de escenas auditivas a partir de la misma
representación espectral. La señal 13 de audio puede ser agrupada en
bloques de M muestras que se solapan en un 50 por ciento, y
la transformada discreta de Fourier puede calcularse como sigue:
siendo M = 2*N muestras y
denotando x[n,t] un bloque de
muestras.
\vskip1.000000\baselineskip
Se supone que el tamaño de bloque para la
transformada es el mismo que para el cálculo de la señal del evento
auditivo. Sin embargo, no es preciso que sea así. Cuando existen
tasas de bloques diferentes, pueden interpolarse señales en una tasa
de bloques o ser convertidas en tasa en la misma escala temporal que
las señales en la otra tasa de bloques.
Se calcula la señal E[b,t] de
excitación que se aproxima a la distribución de energía a lo largo
de la membrana basilar del oído interno en la banda crítica b
durante el bloque temporal t:
representando T[k] la
respuesta frecuencial de un filtro que simula la transmisión de
audio a través del oído externo y medio y representando
C_{b}[k] la respuesta frecuencial de la membrana
basilar en una ubicación correspondiente a la banda crítica
b.
\vskip1.000000\baselineskip
La Fig. 4 representa la respuesta frecuencial de
un filtro adecuado T[k] de transmisión. La Fig. 5
representa un conjunto adecuado de respuestas de filtro de banda
crítica, correspondientes a C_{b}[k], en el cual se
espacian uniformemente 40 bandas por toda la escala del ancho de
banda rectangular equivalente (ERB) de Moore y Glasberg, para una
tasa de muestreo de 48 kHz y un tamaño de transformada de M =
2048. Una función exponencial redondeada describe cada forma de
filtro, y 1 ERB separa las bandas.
Si los límites de eventos auditivos se calculan
a partir del espectro de sonoridad específica, según Crocket y
Seefeldt, la señal E[b,t] de excitación ya existe como
parte del cálculo de la sonoridad específica.
Por último, la oblicuidad espectral se calcula a
partir de la señal E[b,t] de excitación como:
siendo \mu la media aritmética de
la
excitación:
y siendo \sigma la varianza de la
señal de
excitación:
La señal SK[t] de oblicuidad de la
Ecuación (5) fluctúa considerablemente y requiere estabilización
para evitar aberraciones cuando se modifica la señal de control del
evento y los parámetros subsiguientes de procesamiento de dinámica.
Una realización usa un estabilizador con una constante \alpha_{SK}
de decaimiento que tiene un tiempo de decaimiento medio de
aproximadamente 6,5 ms:
Limitar la oblicuidad a un máximo y un mínimo
SK_{max} y SK_{min}, respectivamente, puede
resultar útil. Puede calcularse una oblicuidad limitada
SK''[t] como:
\vskip1.000000\baselineskip
Típicamente, los valores bajos (valores cercanos
a 0,0) de la señal SK''[t] de oblicuidad corresponden
a señales característicamente de menos volumen, mientras que los
valores de oblicuidad altos (valores cercanos a 1,0) corresponden
típicamente a señales característicamente de más volumen. En la Fig.
3, el gráfico "e)" muestra la señal de oblicuidad que
corresponde a la señal de audio en "a)" de la Fig. 3. La
oblicuidad es elevada para las ráfagas de diálogo de más volumen y
baja para los sonidos de fondo.
La señal SK''[t] de oblicuidad
pasa al identificador 20 de eventos auditivos de la Fig. 2, que
pondera la medida D[t] de diferencia espectral
como:
\vskip1.000000\baselineskip
La señal A_{SK}[t] de intensidad
auditiva modificada en oblicuidad se calcula de la misma manera que
A[t] en la Ecuación (1):
La señal A_{SK}[t] de intensidad
auditiva modificada en oblicuidad es estabilizada de la misma manera
que A[t] en la Ecuación (2):
En la Fig. 3, "f)" representa la señal
\mathit{\overline{A}}_{SK}[t] de control de eventos
modificada en oblicuidad para la correspondiente señal de audio en
"a)" de la Fig. 3. Aparecen menos eventos auditivos durante los
sonidos de fondo, mientras que permanecen los eventos
correspondientes al diálogo de mayor volumen.
En la Fig. 3, "g)" muestra la señal del DRC
controlada por el evento modificada en oblicuidad. Con menos eventos
auditivos en los sonidos de fondo, la ganancia del DRC permanece
relativamente constante y se mueve únicamente para las secciones de
diálogo de mayor volumen, "h)" en la Fig. 3 muestra la señal
resultante de audio modificada por el DRC.
La señal de audio modificada por el DRC no tiene
nada de la amplificación poco deseable de nivel en los sonidos de
fondo.
La señal SK''[t] de oblicuidad
baja a veces para señales perceptualmente de más volumen. Para estas
señales de volumen alto, el valor de la medida D[t] de
diferencia espectral es suficientemente grande incluso tras la
ponderación por medio de la señal SK''[t] de
oblicuidad de la Ecuación 8, la medida D_{SK}[t] de
diferencia espectral ponderada sigue siendo típicamente lo bastante
grande como para indicar un límite del evento auditivo. La señal de
\mathit{\overline{A}}_{SK}[t] control del evento no se ve
adversamente afectada.
Claims (11)
1. Un procedimiento para controlar el
procesamiento de señal de una señal de audio, que comprende dividir
dicha señal de audio en eventos auditivos detectando cambios en la
composición espectral con respecto al tiempo, incluyendo dicha
división:
- la detección de la ubicación y de la intensidad de los límites de los eventos auditivos en dicha señal de audio,
- la obtención de una medida de la oblicuidad espectral de dicha señal de audio, en el que la oblicuidad espectral es una medida estadística de la asimetría de la distribución de probabilidad del espectro de la señal de audio,
- la modificación de la intensidad de un evento auditivo en respuesta a dicha medida, de modo que cuanto menos oblicuo sea el espectro en la ubicación de un evento auditivo, más se reduce la intensidad del evento auditivo, y
- el control del procesamiento de señal en respuesta a la intensidad modificada en ubicación e intensidad de dicho evento auditivo.
\vskip1.000000\baselineskip
2. Un procedimiento según la reivindicación 1 en
el que la división de dicha señal de audio en eventos auditivos
incluye el análisis del espectro de la señal de audio.
3. Un procedimiento según la reivindicación 2 en
el que la obtención de una medida de la oblicuidad espectral de la
señal de audio incluye el cálculo de la oblicuidad a partir de una
representación espectral de la señal de audio.
4. Un procedimiento según la reivindicación 3 en
el que el cálculo de la oblicuidad incluye el cálculo de una señal
de excitación que se aproxima a la distribución de energía a lo
largo de la membrana basilar del oído interno.
5. Un procedimiento según la reivindicación 1 en
el que la división de dicha señal de audio en eventos auditivos
incluye la transformación de la señal de audio en un dominio de
sonoridad perceptiva, incluyendo dicha transformación el cálculo de
una señal de excitación que se aproxima a la distribución de energía
a lo largo de la membrana basilar del oído interno.
6. Un procedimiento según la reivindicación 5 en
el que la obtención de una medida de la oblicuidad espectral de la
señal de audio incluye el cálculo de la oblicuidad a partir de dicha
señal de excitación.
7. Un procedimiento según una cualquiera de las
reivindicaciones 1-6 en el que dicha medida de la
oblicuidad espectral es una medida estabilizada.
8. Un aparato que comprende medios adaptados
para llevar a cabo el procedimiento de una cualquiera de las
reivindicaciones 1 a 7.
9. Un programa de ordenador, almacenado en un
medio legible por ordenador, que, cuando es ejecutado en un
ordenador, lleva a cabo el procedimiento de una cualquiera de las
reivindicaciones 1 a 7.
10. Una memoria legible por ordenador que
contiene el programa de ordenador de la reivindicación 9.
11. Un sistema de ordenador que comprende:
- una CPU:
- la memoria de la reivindicación 10; y
- un bus que acopla de forma comunicativa la CPU y la memoria.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US95946307P | 2007-07-13 | 2007-07-13 | |
US959463P | 2007-07-13 | ||
PCT/US2008/008592 WO2009011827A1 (en) | 2007-07-13 | 2008-07-11 | Audio processing using auditory scene analysis and spectral skewness |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2377719T3 true ES2377719T3 (es) | 2012-03-30 |
Family
ID=39776994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES08780174T Active ES2377719T3 (es) | 2007-07-13 | 2008-07-11 | Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. |
Country Status (10)
Country | Link |
---|---|
US (1) | US8396574B2 (es) |
EP (1) | EP2168122B1 (es) |
JP (1) | JP5192544B2 (es) |
CN (1) | CN101790758B (es) |
AT (1) | ATE535906T1 (es) |
BR (1) | BRPI0813723B1 (es) |
ES (1) | ES2377719T3 (es) |
RU (1) | RU2438197C2 (es) |
TW (1) | TWI464735B (es) |
WO (1) | WO2009011827A1 (es) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009086174A1 (en) | 2007-12-21 | 2009-07-09 | Srs Labs, Inc. | System for adjusting perceived loudness of audio signals |
WO2010126709A1 (en) | 2009-04-30 | 2010-11-04 | Dolby Laboratories Licensing Corporation | Low complexity auditory event boundary detection |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8510361B2 (en) * | 2010-05-28 | 2013-08-13 | George Massenburg | Variable exponent averaging detector and dynamic range controller |
TWI543642B (zh) * | 2011-07-01 | 2016-07-21 | 杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
US9633667B2 (en) | 2012-04-05 | 2017-04-25 | Nokia Technologies Oy | Adaptive audio signal filtering |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
WO2014046941A1 (en) * | 2012-09-19 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Method and system for object-dependent adjustment of levels of audio objects |
US9979829B2 (en) | 2013-03-15 | 2018-05-22 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
CN104079247B (zh) | 2013-03-26 | 2018-02-09 | 杜比实验室特许公司 | 均衡器控制器和控制方法以及音频再现设备 |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
CN104078050A (zh) * | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN114566183A (zh) | 2013-04-05 | 2022-05-31 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
JP6224850B2 (ja) | 2014-02-28 | 2017-11-01 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 会議における変化盲を使った知覚的連続性 |
WO2017079334A1 (en) | 2015-11-03 | 2017-05-11 | Dolby Laboratories Licensing Corporation | Content-adaptive surround sound virtualization |
US9372881B1 (en) | 2015-12-29 | 2016-06-21 | International Business Machines Corporation | System for identifying a correspondence between a COBOL copybook or PL/1 include file and a VSAM or sequential dataset |
US10412490B2 (en) | 2016-02-25 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Multitalker optimised beamforming system and method |
US11894006B2 (en) | 2018-07-25 | 2024-02-06 | Dolby Laboratories Licensing Corporation | Compressor target curve to avoid boosting noise |
CN113015059B (zh) * | 2021-02-23 | 2022-10-18 | 歌尔科技有限公司 | 音频优化方法、装置、设备及可读存储介质 |
Family Cites Families (136)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2808475A (en) | 1954-10-05 | 1957-10-01 | Bell Telephone Labor Inc | Loudness indicator |
US4281218A (en) | 1979-10-26 | 1981-07-28 | Bell Telephone Laboratories, Incorporated | Speech-nonspeech detector-classifier |
US4624009A (en) | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
DE3314570A1 (de) | 1983-04-22 | 1984-10-25 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zur einstellung der verstaerkung |
US4594561A (en) * | 1984-10-26 | 1986-06-10 | Rg Dynamics, Inc. | Audio amplifier with resistive damping for minimizing time displacement distortion |
US4739514A (en) | 1986-12-22 | 1988-04-19 | Bose Corporation | Automatic dynamic equalizing |
US4887299A (en) | 1987-11-12 | 1989-12-12 | Nicolet Instrument Corporation | Adaptive, programmable signal processing hearing aid |
US5027410A (en) | 1988-11-10 | 1991-06-25 | Wisconsin Alumni Research Foundation | Adaptive, programmable signal processing and filtering for hearing aids |
JPH02118322U (es) | 1989-03-08 | 1990-09-21 | ||
US5097510A (en) | 1989-11-07 | 1992-03-17 | Gs Systems, Inc. | Artificial intelligence pattern-recognition-based noise reduction system for speech processing |
US5369711A (en) | 1990-08-31 | 1994-11-29 | Bellsouth Corporation | Automatic gain control for a headset |
AU653582B2 (en) | 1991-01-08 | 1994-10-06 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
US5632005A (en) | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
DE69214882T2 (de) | 1991-06-06 | 1997-03-20 | Matsushita Electric Ind Co Ltd | Gerät zur Unterscheidung von Musik und Sprache |
US5278912A (en) | 1991-06-28 | 1994-01-11 | Resound Corporation | Multiband programmable compression system |
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
US5363147A (en) | 1992-06-01 | 1994-11-08 | North American Philips Corporation | Automatic volume leveler |
DE4335739A1 (de) | 1992-11-17 | 1994-05-19 | Rudolf Prof Dr Bisping | Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen |
US5457769A (en) | 1993-03-30 | 1995-10-10 | Earmark, Inc. | Method and apparatus for detecting the presence of human voice signals in audio signals |
US5706352A (en) | 1993-04-07 | 1998-01-06 | K/S Himpp | Adaptive gain and filtering circuit for a sound reproduction system |
US5434922A (en) | 1993-04-08 | 1995-07-18 | Miller; Thomas E. | Method and apparatus for dynamic sound optimization |
BE1007355A3 (nl) | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
IN184794B (es) | 1993-09-14 | 2000-09-30 | British Telecomm | |
JP2986345B2 (ja) | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
US5530760A (en) | 1994-04-29 | 1996-06-25 | Audio Products International Corp. | Apparatus and method for adjusting levels between channels of a sound system |
US5500902A (en) | 1994-07-08 | 1996-03-19 | Stockham, Jr.; Thomas G. | Hearing aid device incorporating signal processing techniques |
GB9419388D0 (en) | 1994-09-26 | 1994-11-09 | Canon Kk | Speech analysis |
US5548538A (en) | 1994-12-07 | 1996-08-20 | Wiltron Company | Internal automatic calibrator for vector network analyzers |
US5682463A (en) | 1995-02-06 | 1997-10-28 | Lucent Technologies Inc. | Perceptual audio compression based on loudness uncertainty |
CA2167748A1 (en) | 1995-02-09 | 1996-08-10 | Yoav Freund | Apparatus and methods for machine learning hypotheses |
ATE229729T1 (de) | 1995-03-13 | 2002-12-15 | Phonak Ag | Verfahren zur anpassung eines hörgerätes, vorrichtung hierzu und hörgerät |
DE19509149A1 (de) | 1995-03-14 | 1996-09-19 | Donald Dipl Ing Schulz | Codierverfahren |
US5727119A (en) | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
US6301555B2 (en) | 1995-04-10 | 2001-10-09 | Corporate Computer Systems | Adjustable psycho-acoustic parameters |
US6041295A (en) | 1995-04-10 | 2000-03-21 | Corporate Computer Systems | Comparing CODEC input/output to adjust psycho-acoustic parameters |
US5601617A (en) | 1995-04-26 | 1997-02-11 | Advanced Bionics Corporation | Multichannel cochlear prosthesis with flexible control of stimulus waveforms |
JPH08328599A (ja) | 1995-06-01 | 1996-12-13 | Mitsubishi Electric Corp | Mpegオーディオ復号器 |
US5663727A (en) | 1995-06-23 | 1997-09-02 | Hearing Innovations Incorporated | Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same |
US5712954A (en) | 1995-08-23 | 1998-01-27 | Rockwell International Corp. | System and method for monitoring audio power level of agent speech in a telephonic switch |
US6002776A (en) * | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US5907622A (en) | 1995-09-21 | 1999-05-25 | Dougherty; A. Michael | Automatic noise compensation system for audio reproduction equipment |
US6108431A (en) | 1996-05-01 | 2000-08-22 | Phonak Ag | Loudness limiter |
US6327366B1 (en) | 1996-05-01 | 2001-12-04 | Phonak Ag | Method for the adjustment of a hearing device, apparatus to do it and a hearing device |
US6430533B1 (en) | 1996-05-03 | 2002-08-06 | Lsi Logic Corporation | Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation |
JPH09311696A (ja) * | 1996-05-21 | 1997-12-02 | Nippon Telegr & Teleph Corp <Ntt> | 自動利得調整装置 |
JPH09312540A (ja) | 1996-05-23 | 1997-12-02 | Pioneer Electron Corp | ラウドネスボリュームコントロール装置 |
JP3765622B2 (ja) | 1996-07-09 | 2006-04-12 | ユナイテッド・モジュール・コーポレーション | オーディオ符号化復号化システム |
EP0820212B1 (de) | 1996-07-19 | 2010-04-21 | Bernafon AG | Lautheitsgesteuerte Verarbeitung akustischer Signale |
JP2953397B2 (ja) | 1996-09-13 | 1999-09-27 | 日本電気株式会社 | ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器 |
JP3367592B2 (ja) * | 1996-09-24 | 2003-01-14 | 日本電信電話株式会社 | 自動利得調整装置 |
US6570991B1 (en) | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
US5862228A (en) | 1997-02-21 | 1999-01-19 | Dolby Laboratories Licensing Corporation | Audio matrix encoding |
US6125343A (en) | 1997-05-29 | 2000-09-26 | 3Com Corporation | System and method for selecting a loudest speaker by comparing average frame gains |
US6272360B1 (en) | 1997-07-03 | 2001-08-07 | Pan Communications, Inc. | Remotely installed transmitter and a hands-free two-way voice terminal device using same |
US6185309B1 (en) | 1997-07-11 | 2001-02-06 | The Regents Of The University Of California | Method and apparatus for blind separation of mixed and convolved sources |
KR100261904B1 (ko) | 1997-08-29 | 2000-07-15 | 윤종용 | 헤드폰 사운드 출력장치 |
US6088461A (en) | 1997-09-26 | 2000-07-11 | Crystal Semiconductor Corporation | Dynamic volume control system |
US6233554B1 (en) | 1997-12-12 | 2001-05-15 | Qualcomm Incorporated | Audio CODEC with AGC controlled by a VOCODER |
US6298139B1 (en) | 1997-12-31 | 2001-10-02 | Transcrypt International, Inc. | Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control |
US6182033B1 (en) | 1998-01-09 | 2001-01-30 | At&T Corp. | Modular approach to speech enhancement with an application to speech coding |
US6353671B1 (en) | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
US6311155B1 (en) | 2000-02-04 | 2001-10-30 | Hearing Enhancement Company Llc | Use of voice-to-remaining audio (VRA) in consumer applications |
US6498855B1 (en) | 1998-04-17 | 2002-12-24 | International Business Machines Corporation | Method and system for selectively and variably attenuating audio data |
JP2002518912A (ja) | 1998-06-08 | 2002-06-25 | コックレア リミティド | 聴覚装置 |
EP0980064A1 (de) | 1998-06-26 | 2000-02-16 | Ascom AG | Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen |
GB2340351B (en) | 1998-07-29 | 2004-06-09 | British Broadcasting Corp | Data transmission |
US6351731B1 (en) | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
US6823303B1 (en) | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6411927B1 (en) | 1998-09-04 | 2002-06-25 | Matsushita Electric Corporation Of America | Robust preprocessing signal equalization system and method for normalizing to a target environment |
FI113935B (fi) | 1998-09-25 | 2004-06-30 | Nokia Corp | Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä |
DE19848491A1 (de) | 1998-10-21 | 2000-04-27 | Bosch Gmbh Robert | Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger |
US6314396B1 (en) | 1998-11-06 | 2001-11-06 | International Business Machines Corporation | Automatic gain control in a speech recognition system |
EP1089242B1 (en) | 1999-04-09 | 2006-11-08 | Texas Instruments Incorporated | Supply of digital audio and video products |
CA2372017A1 (en) | 1999-04-26 | 2000-11-02 | Dspfactory Ltd. | Loudness normalization control for a digital hearing aid |
US6263371B1 (en) | 1999-06-10 | 2001-07-17 | Cacheflow, Inc. | Method and apparatus for seaming of streaming content |
US6442278B1 (en) | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
US6985594B1 (en) | 1999-06-15 | 2006-01-10 | Hearing Enhancement Co., Llc. | Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment |
US20020172376A1 (en) | 1999-11-29 | 2002-11-21 | Bizjak Karl M. | Output processing system and method |
FR2802329B1 (fr) | 1999-12-08 | 2003-03-28 | France Telecom | Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US6351733B1 (en) | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
DE10018666A1 (de) | 2000-04-14 | 2001-10-18 | Harman Audio Electronic Sys | Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals |
US6889186B1 (en) | 2000-06-01 | 2005-05-03 | Avaya Technology Corp. | Method and apparatus for improving the intelligibility of digitally compressed speech |
AUPQ952700A0 (en) | 2000-08-21 | 2000-09-14 | University Of Melbourne, The | Sound-processing strategy for cochlear implants |
JP3448586B2 (ja) | 2000-08-29 | 2003-09-22 | 独立行政法人産業技術総合研究所 | 聴覚障害を考慮した音の測定方法およびシステム |
US6625433B1 (en) | 2000-09-29 | 2003-09-23 | Agere Systems Inc. | Constant compression automatic gain control circuit |
US6807525B1 (en) | 2000-10-31 | 2004-10-19 | Telogy Networks, Inc. | SID frame detection with human auditory perception compensation |
DE60029453T2 (de) | 2000-11-09 | 2007-04-12 | Koninklijke Kpn N.V. | Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz |
US7457422B2 (en) | 2000-11-29 | 2008-11-25 | Ford Global Technologies, Llc | Method and implementation for detecting and characterizing audible transients in noise |
FR2820573B1 (fr) | 2001-02-02 | 2003-03-28 | France Telecom | Methode et dispositif de traitement d'une pluralite de flux binaires audio |
WO2004019656A2 (en) | 2001-02-07 | 2004-03-04 | Dolby Laboratories Licensing Corporation | Audio channel spatial translation |
DE10107385A1 (de) | 2001-02-16 | 2002-09-05 | Harman Audio Electronic Sys | Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken |
US6915264B2 (en) | 2001-02-22 | 2005-07-05 | Lucent Technologies Inc. | Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding |
DE50102419D1 (de) | 2001-04-10 | 2004-07-01 | Phonak Ag | Verfahren zur anpassung eines hörgerätes an ein individuum |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7181034B2 (en) | 2001-04-18 | 2007-02-20 | Gennum Corporation | Inter-channel communication in a multi-channel digital hearing instrument |
KR100400226B1 (ko) * | 2001-10-15 | 2003-10-01 | 삼성전자주식회사 | 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법 |
US7177803B2 (en) | 2001-10-22 | 2007-02-13 | Motorola, Inc. | Method and apparatus for enhancing loudness of an audio signal |
US20040037421A1 (en) | 2001-12-17 | 2004-02-26 | Truman Michael Mead | Parital encryption of assembled bitstreams |
US7068723B2 (en) | 2002-02-28 | 2006-06-27 | Fuji Xerox Co., Ltd. | Method for automatically producing optimal summaries of linear media |
US7155385B2 (en) | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
FR2842576B1 (fr) | 2002-07-17 | 2004-10-08 | Skf Ab | Dispositif de palier a roue libre et poulie a roue libre |
JP4257079B2 (ja) | 2002-07-19 | 2009-04-22 | パイオニア株式会社 | 周波数特性調整装置および周波数特性調整方法 |
JP4321049B2 (ja) | 2002-07-29 | 2009-08-26 | パナソニック電工株式会社 | 自動利得制御装置 |
DE10236694A1 (de) | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7454331B2 (en) | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
CN1739141A (zh) | 2003-02-06 | 2006-02-22 | 杜比实验室特许公司 | 连续的备份音频 |
DE10308483A1 (de) | 2003-02-26 | 2004-09-09 | Siemens Audiologische Technik Gmbh | Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät |
US7551745B2 (en) | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
AU2004248544B2 (en) | 2003-05-28 | 2010-02-18 | Dolby Laboratories Licensing Corporation | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal |
US20050071154A1 (en) | 2003-09-30 | 2005-03-31 | Walter Etter | Method and apparatus for estimating noise in speech signals |
US6923684B2 (en) | 2003-10-10 | 2005-08-02 | O'sullivan Industries, Inc. | Power harness having multiple upstream USB ports |
EP1914722B1 (en) | 2004-03-01 | 2009-04-29 | Dolby Laboratories Licensing Corporation | Multichannel audio decoding |
GB2413906A (en) | 2004-04-21 | 2005-11-09 | Imagination Tech Ltd | Radio volume control system |
US7617109B2 (en) | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
TWI498882B (zh) | 2004-08-25 | 2015-09-01 | Dolby Lab Licensing Corp | 音訊解碼器 |
PT1792304E (pt) * | 2004-09-20 | 2008-12-04 | Tno | Compensação de frequência para análise de percepção de voz |
AU2005299410B2 (en) | 2004-10-26 | 2011-04-07 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI397901B (zh) * | 2004-12-21 | 2013-06-01 | Dolby Lab Licensing Corp | 控制音訊信號比響度特性之方法及其相關裝置與電腦程式 |
US8265295B2 (en) | 2005-03-11 | 2012-09-11 | Rane Corporation | Method and apparatus for identifying feedback in a circuit |
TWI397903B (zh) | 2005-04-13 | 2013-06-01 | Dolby Lab Licensing Corp | 編碼音訊之節約音量測量技術 |
GB2428168A (en) | 2005-07-06 | 2007-01-17 | Motorola Inc | A transmitter splits a signal into a plurality of sub-signals, each containing a plurality of sub-carriers, and amplifies each sub-signal separately. |
CN101421781A (zh) | 2006-04-04 | 2009-04-29 | 杜比实验室特许公司 | 音频信号的感知响度和/或感知频谱平衡的计算和调整 |
WO2007120452A1 (en) | 2006-04-04 | 2007-10-25 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the mdct domain |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
ES2359799T3 (es) | 2006-04-27 | 2011-05-27 | Dolby Laboratories Licensing Corporation | Control de ganancia de audio usando detección de eventos auditivos basada en la sonoridad específica. |
CA2665153C (en) | 2006-10-20 | 2015-05-19 | Dolby Laboratories Licensing Corporation | Audio dynamics processing using a reset |
US8521314B2 (en) | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
KR101106031B1 (ko) | 2007-01-03 | 2012-01-17 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 하이브리드 디지털/아날로그 음향 세기―보상 볼륨 제어 장치 및 그 제어 방법 |
EP2130019B1 (en) | 2007-03-19 | 2013-01-02 | Dolby Laboratories Licensing Corporation | Speech enhancement employing a perceptual model |
BRPI0808965B1 (pt) | 2007-06-19 | 2020-03-03 | Dolby Laboratories Licensing Corporation | Método e aparelho para medir a intensidade sonora percebida de um sinal de áudio e meio legível por computador |
-
2008
- 2008-07-11 AT AT08780174T patent/ATE535906T1/de active
- 2008-07-11 BR BRPI0813723A patent/BRPI0813723B1/pt active IP Right Grant
- 2008-07-11 JP JP2010517000A patent/JP5192544B2/ja active Active
- 2008-07-11 WO PCT/US2008/008592 patent/WO2009011827A1/en active Application Filing
- 2008-07-11 EP EP08780174A patent/EP2168122B1/en active Active
- 2008-07-11 RU RU2010105052/08A patent/RU2438197C2/ru active
- 2008-07-11 CN CN2008800245251A patent/CN101790758B/zh active Active
- 2008-07-11 ES ES08780174T patent/ES2377719T3/es active Active
- 2008-07-11 US US12/668,741 patent/US8396574B2/en active Active
- 2008-07-14 TW TW097126643A patent/TWI464735B/zh active
Also Published As
Publication number | Publication date |
---|---|
US20100198378A1 (en) | 2010-08-05 |
JP5192544B2 (ja) | 2013-05-08 |
TW200915301A (en) | 2009-04-01 |
RU2010105052A (ru) | 2011-08-20 |
CN101790758A (zh) | 2010-07-28 |
BRPI0813723B1 (pt) | 2020-02-04 |
EP2168122B1 (en) | 2011-11-30 |
US8396574B2 (en) | 2013-03-12 |
ATE535906T1 (de) | 2011-12-15 |
BRPI0813723A2 (pt) | 2017-07-04 |
EP2168122A1 (en) | 2010-03-31 |
JP2010534030A (ja) | 2010-10-28 |
TWI464735B (zh) | 2014-12-11 |
WO2009011827A1 (en) | 2009-01-22 |
CN101790758B (zh) | 2013-01-09 |
RU2438197C2 (ru) | 2011-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2377719T3 (es) | Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. | |
JP5255663B2 (ja) | 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御 | |
CN104471855B (zh) | 具有噪声检测和响度下降检测的响度控制 | |
US20170372719A1 (en) | Sibilance Detection and Mitigation | |
US11894006B2 (en) | Compressor target curve to avoid boosting noise | |
JP2009296298A (ja) | 音声信号処理装置および方法 | |
JP4811475B2 (ja) | 録音装置、録音方法、音声信号補正回路及びプログラム | |
CN112640301B (zh) | 动态地调整压缩器的阈值的方法和设备 | |
Zakis | Music perception and hearing aids | |
JP2009027292A (ja) | 電子機器 | |
JP6807769B2 (ja) | 音響装置及び音質調整方法 | |
EP3261089B1 (en) | Sibilance detection and mitigation | |
CN107408930B (zh) | 调节自动声音水平的放大器 | |
CN113730914A (zh) | 一种音频调节方法、装置及计算机可读存储介质 | |
EP3128765A1 (en) | Method of processing sound track | |
JP2010210815A (ja) | 音声信号調整装置及びその調整方法 | |
JP2009225206A (ja) | 補聴器の信号処理方法 | |
JP2008167152A (ja) | 増幅装置、増幅方法及び増幅プログラム | |
TW201642250A (zh) | 處理音軌的方法 |