ES2282096T3 - Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz. - Google Patents
Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz. Download PDFInfo
- Publication number
- ES2282096T3 ES2282096T3 ES00913413T ES00913413T ES2282096T3 ES 2282096 T3 ES2282096 T3 ES 2282096T3 ES 00913413 T ES00913413 T ES 00913413T ES 00913413 T ES00913413 T ES 00913413T ES 2282096 T3 ES2282096 T3 ES 2282096T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- minimum
- amplification
- data frame
- priori
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003321 amplification Effects 0.000 title claims description 75
- 238000003199 nucleic acid amplification method Methods 0.000 title claims description 75
- 230000000694 effects Effects 0.000 title abstract description 9
- 238000005457 optimization Methods 0.000 title description 30
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000003595 spectral effect Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 18
- 238000000354 decomposition reaction Methods 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 claims 2
- 238000009499 grossing Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 230000009466 transformation Effects 0.000 description 9
- 230000002441 reversible effect Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 230000007774 longterm Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- AFCARXCZXQIEQB-UHFFFAOYSA-N N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CCNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 AFCARXCZXQIEQB-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Control Of Amplification And Gain Control (AREA)
- Machine Translation (AREA)
- Telephone Function (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
REIVINDICACIONES 1. Un método para optimizar una señal de voz para su uso en la codificación de voz en el que la señal de voz re- presenta tanto ruido de fondo como períodos de discurso arti-culado y se divide en varias tramas de datos; dicho método comprende varios pasos, a saber, aplicar una descomposición de subbandas a la señal de voz de una trama de datos a fin de generar varias señales de voz de subbanda; determinar si la señal de voz correspondiente a la trama de datos representa un discurso articulado; aplicar valores de amplificación in-dividuales a señales de voz de subbanda individuales, opera-ción en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo, y, por último, aplicar una síntesis de subbandas a las distintas señales de voz de subbanda.
Description
Optimización de voz con limitaciones de
amplificación según la actividad de voz.
El presente invento hace referencia al
procesamiento de optimización de sistemas de codificación de voz (es
decir, de compresión de voz), incluidos los sistemas de
codificación de voz con una tasa de bits baja como el MELP.
Los codificadores de voz con una tasa de bits
baja, como por ejemplo los codificadores paramétricos, han mejorado
de manera significativa durante estos últimos años. Sin embargo,
este tipo de codificadores aún carece de la potencia necesaria para
funcionar correctamente en entornos acústicos difíciles. A modo de
ejemplo, las perturbaciones que provocan los codificadores
paramétricos con una tasa de bits baja pueden afectar a la
comprensión del habla codificada si la relación señal a ruido (SNR)
es media o baja.
Las pruebas realizadas muestran que es posible
conseguir mejoras significativas en la codificación de voz si se
combina un codificador con una tasa de bits baja con un
preprocesador de optimización de la voz. Habitualmente, este tipo
de preprocesadores está formado por tres elementos: un sistema de
análisis/síntesis espectral [normalmente elaborado utilizando una
transformada rápida de Fourier/transformada inversa rápida de
Fourier (FFT/IFFT) mediante ventanas, un proceso de estimación del
nivel de ruido y una computación espectral de la amplificación.
Habitualmente, el proceso de estimación del nivel de ruido implica
algún tipo de técnica de detección de actividad de voz o ajuste del
mínimo espectral. La amplificación espectral computada se aplica
sólo a las magnitudes Fourier de cada trama de datos o segmento de
una señal de voz. Un ejemplo de preprocesador de optimización de la
voz aparece en Y. Ephraim et al., "Speech Enhancement Using
a Minimum Mean-Square Error
Log-Spectral Amplitude Estimator", IEEE Trans.
Acoustics, Speech and Signal Processing, Vol. 33, pp
443-445, abril 1985, documento que se incorpora a
la presente patente en su integridad mediante esta referencia. Como
se sabe, la amplificación espectral comprende valores de
amplificación individuales que deben aplicarse a los elementos de
salida de las subbandas individuales mediante una transformada
rápida de Fourier.
Podemos considerar una señal de voz como una
representación de períodos de discurso articulado (es decir,
períodos de "actividad de voz"), por una parte, y de pausas en
el discurso, por la otra. Cuando se produce una pausa en un
discurso articulado, la señal de voz sólo representa el ruido de
fondo, mientras que durante los períodos de actividad de voz la
señal de voz representa tanto el discurso articulado como el ruido
de fondo. Los preprocesadores de optimización aplican una
amplificación relativamente baja durante los periodos de pausa (en
los que conviene atenuar el ruido) y una amplificación mayor durante
los periodos de discurso articulado (a fin de reducir la atenuación
de dicho discurso). Sin embargo, cambiar de una amplificación baja
a una amplificación alta para reflejar, por ejemplo, la reanudación
del discurso tras una pausa (y viceversa) puede tener como
consecuencia la aparición de perturbaciones ruidosas
"musicales" (o "tonales") estructuradas que resulten
desagradables para la persona que escucha. Además, tanto los
preprocesadores de optimización como los codificadores de voz que
cuentan con dichos preprocesadores pueden afectar negativamente a la
inteligibilidad del discurso.
Para resolver el problema del ruido musical
estructurado, algunos preprocesadores de optimización limitan de
manera uniforme los valores de amplificación que se aplican a todas
las tramas de datos de la señal de voz. Habitualmente, esto se
consigue estableciendo una SNR a priori que actúa como
entrada funcional para la computación de la amplificación. Esta
limitación de la amplificación evita que la amplificación aplicada
en determinadas tramas de datos (por ejemplo, las que corresponden a
pausas en el discurso) se reduzca demasiado, se produzcan cambios
significativos en la amplificación entre tramas de datos y, en
consecuencia, se genere ruido musical estructurado. Sin embargo,
esta limitación de la amplificación no permite avanzar en la
resolución del problema de inteligibilidad que originan el
preprocesador de optimización o el codificador de voz. Algunos
ejemplos de las soluciones citadas se revelan en los documentos
US-5.839.101 y US-5.012.519.
El presente invento permite resolver los
problemas de la técnica existente tanto para limitar el ruido
musical estructurado como para aumentar la inteligibilidad del
discurso. En caso de que se utilice un preprocesador de
optimización, una forma de realización ilustrativa del invento
permite determinar si la señal de voz que se debe procesar
representa un discurso articulado o una pausa en el discurso y forma
una única amplificación que es la que debe aplicarse a la señal de
voz. Dicha amplificación es única en este contexto, ya que el valor
más bajo que puede asumir (es decir, su limite inferior) se
determina partiendo de si la señal de voz representa un discurso
articulado o no. De conformidad con esta forma de realización, el
límite inferior de la amplificación durante los períodos de pausa
es más elevado que dicho límite inferior durante los períodos de
discurso.
En esta forma de realización, la limitación de
amplificación que se aplica a una trama de datos de la señal de voz
se adapta a valores de SNR a priori. A su vez, dichos valores
se limitan teniendo en cuenta dos factores: (a) si se detecta un
discurso articulado en la trama de datos, y (b) una SNR a largo
plazo para las tramas que representan el discurso. Para distinguir
entre las tramas que contienen discurso articulado y aquéllas que
contienen pausas en el discurso se puede utilizar un detector de
actividad de voz. De este modo, el límite inferior de la SNR a
priori puede computarse en forma de dos valores: un primer valor
para una trama que representa el discurso articulado y un segundo
valor, mayor que el primero, para la trama que represente una pausa
en dicho discurso. Para suavizar el límite inferior de la SNR a
priori, se utiliza un sistema recurrente de primer orden que
permite realizar transiciones suaves entre los segmentos de la señal
correspondientes al discurso activo y los segmentos
correspondientes a las pausas en el mismo.
Asimismo, una forma de realización del invento
también puede reducir el retraso en los datos de codificación de
voz que genera la combinación formada por el preprocesador de
optimización y el codificador de voz. Dicho retraso puede reducirse
haciendo que el codificador funcione, al menos parcialmente, a
partir de muestras incompletas de datos, al objeto de poder
extraer, como mínimo, algunos parámetros de codificación.
Normalmente, el retraso total que provocan el preprocesador y el
codificador equivale a la suma del retraso del codificador y la
longitud de las partes de las tramas que se superponen en el
preprocesador de optimización. Sin embargo, el presente invento
utiliza las muestras de datos avanzadas que almacenan algunos
codificadores en una memoria intermedia de entrada para extraer los
parámetros de codificación. Habitualmente, estas muestras tienen
menor influencia en la calidad de la codificación de voz que otras
muestras almacenadas en la memoria intermedia de entrada. Es por
ello que, en algunos casos, el codificador no se ve obligado a
esperar a recibir una trama de datos procesada, es decir, completa,
del preprocesador, sino que puede extraer los parámetros de
codificación a partir de muestras incompletas de datos almacenadas
en la memoria intermedia de entrada. Al trabajar a partir de
muestras de datos incompletas, el retraso provocado por el
preprocesador de optimización y el codificador se puede reducir sin
que ello afecte de manera significativa a la calidad de los datos
codificados.
A modo de ejemplo, una manera de reducir el
retraso generado por la combinación de un preprocesador de voz y un
codificador de voz es multiplicar una trama de entrada utilizando
una ventana de análisis y realzar dicha trama en el preprocesador
de optimización. Tras realzar la trama, la mitad izquierda de la
misma se multiplica utilizando una ventana de síntesis y la mitad
derecha se multiplica utilizando una ventana de análisis inversa.
La ventana de síntesis puede ser distinta de la de análisis, pero
resulta preferible que sean iguales. A continuación, se añade la
trama a la memoria intermedia de entrada del codificador de voz y se
extraen los parámetros de codificación utilizando la trama. Una vez
extraídos los parámetros de codificación, la mitad derecha de la
trama que se encuentra en la memoria intermedia de entrada del
codificador de voz se multiplica utilizando la ventana de análisis
y síntesis y la trama se desplaza en la memoria intermedia antes de
introducir una nueva trama. Las ventanas de análisis y la ventana
de síntesis utilizadas para procesar la trama en la memoria
intermedia de entrada del codificador pueden ser las que ya se han
utilizado en el preprocesador de optimización o bien ser
ligeramente distintas, por ejemplo en la raíz cuadrada de la ventana
de análisis utilizada en el preprocesador. De este modo, el retraso
provocado por el preprocesador se puede reducir hasta niveles muy
bajos, por ejemplo 1-2 milisegundos.
Éste y otros aspectos del invento se pueden
observar en la descripción que figura más adelante.
El propósito y los objetos del presente invento
se consiguen mediante métodos y sistemas de conformidad con las
reivindicaciones independientes 1, 3, 7, 9, 13 y 15. Para más
información, conviene consultar el resto de reivindicaciones, es
decir, las reivindicaciones dependientes.
El invento se describe partiendo de los
siguientes dibujos, a los que citaremos utilizando su número de
referencia:
La figura 1 es un diagrama de bloques
esquemático de una forma de realización ilustrativa del invento;
La figura 2 es un diagrama de flujos que
representa los distintos pasos de un método para procesar la voz y
otras señales de acuerdo con la forma de realización de la figura
1;
La figura 3 es un diagrama de flujos que
representa los distintos pasos de un método para realzar las señales
de voz de acuerdo con la forma de realización de la figura 1;
La figura 4 es un diagrama de flujos que
representa los distintos pasos de un método para ajustar la SNR a
priori de acuerdo con la forma realización de la figura 1;
La figura 5 es un diagrama de flujos que
representa los distintos pasos de un método para aplicar un límite
a SNR a priori a fin de utilizarlo en una computación de
amplificación.
Como suele ocurrir en la técnica de la
codificación de voz, la forma de realización ilustrativa del
presente invento se presenta dividida en varios bloques funcionales
individuales, también denominados "módulos". Las funciones a
las que representan dichos bloques se pueden realizar utilizando
hardware compartido o específico, incluido, a título meramente
enunciativo, hardware capaz de ejecutar software. A modo de ejemplo,
las funciones de los bloques 1 a 5 presentados en la figura 1 se
pueden realizar utilizando un solo procesador compartido (en este
contexto, el término "procesador" no sólo hace referencia a
hardware capaz de ejecutar software).
Las formas de realización ilustrativas pueden
materializarse utilizando un procesador de señal digital (DSP) o
hardware general de ordenador personal (PC) (ambos comercializados
por un gran número de fabricantes), una memoria de sólo lectura o
ROM para almacenar el software que realiza las operaciones
explicadas más adelante y una memoria de acceso aleatorio o RAM
para almacenar los resultados del DSP o el PC. También se pueden
conseguir formas de realización con hardware VLSI (Integración a
Muy Gran Escala), así como con circuitería VLSI personalizada en
combinación con un circuito general de DSP/PC.
En el apéndice de software figura información
sobre el software necesario para realizar las funciones presentadas
en la figura 1.
La figura 1 presenta un diagrama de bloques
esquemático de una forma de realización ilustrativa 8 del invento.
Tal y como muestra dicha figura, la forma de realización ilustrativa
procesa las distintas señales que representan a la información de
voz. Las señales citadas incluyen una señal de voz [que, a su vez,
incluye un componente puramente de voz, s(k), y un
componente de ruido de fondo, n(k)], tramas de datos de dicha
señal, magnitudes espectrales, fases espectrales y voz codificada.
En este ejemplo, la señal de voz se realza mediante un preprocesador
de optimización de voz 8 y posteriormente se codifica mediante un
codificador 7. En esta forma de realización ilustrativa, el
codificador 7 es un codificador MELP de 2.400 bits/segundo y
conforme a las normas MIL como el descrito en A. McCree et
al., ``A 2.4 KBIT/S MELP Coder Candidate for the New U.S.
Federal Standard*, Proc. IEEE Intl. Conf. Acoustics, Speech, Signal
Processing (ICASSP), pp. 200-203, 1996, documento
que se incorpora a la presente patente en su integridad mediante
esta referencia. Las figuras 2, 3, 4 y 5 presentan diagramas de
flujos de los procesos que realizan los módulos presentados en la
figura 1.
La señal de voz s(k)+n(k) entra en
un módulo de segmentación 1. El módulo de segmentación 1 divide la
señal de voz en tramas de 256 muestras de datos de voz y ruido
(véase paso 100 de la figura 2; se puede seleccionar el tamaño de
la trama de datos, como por ejemplo 256 muestras, como en este caso)
y aplica una ventana de análisis a las tramas antes de
transformarlas en el dominio de la frecuencia (véase paso 200 de la
figura 2). Como es bien sabido, aplicar la ventana de análisis a la
trama afecta a la representación espectral de la señal de voz.
La ventana de análisis se estrecha en ambos
extremos para reducir la diafonía entre las subbandas de la trama.
Si dicho estrechamiento es prolongado la diafonía se reduce de
manera significativa, pero al mismo tiempo se corre el riesgo de
que la combinación 10 del preprocesador y el codificador provoque
retrasos. El retraso inherente a las operaciones de
preprocesamiento y codificación se puede reducir al mínimo si el
avance trama a trama (o un múltiple del mismo) del preprocesador de
optimización 8 se corresponde con el del codificador 7. Sin
embargo, cuando el desplazamiento de las tramas sintetizadas en el
preprocesador de optimización 8 aumenta y pasa de su
semisuperposición característica (por ejemplo, 128 muestras) al
desplazamiento característico del codificador 7 (por ejemplo, 180
muestras), las transiciones entre las tramas adyacentes de la señal
de voz realzada \check{s}(k) se realizan de manera más
brusca. Estas discontinuidades se producen porque el lugar donde la
ventana de análisis atenúa en mayor grado la señal de entrada son
los extremos de cada trama y los errores de estimación de la trama
tienden a esparcirse al azar por la totalidad de la misma. Este
fenómeno genera errores mayores en los límites de la trama, los
cuales, a su vez, provocan discontinuidades que se suelen percibir
sobre todo cuando la SNR no es la adecuada y pueden causar errores
de estimación, por ejemplo.
Las discontinuidades se pueden reducir en gran
medida utilizando una ventana de análisis y una de síntesis en el
preprocesador de optimización 8. Por ejemplo, si la raíz cuadrada de
la ventana de Tukey
da un buen rendimiento al
utilizarla como ventana de análisis y como ventana de síntesis, M es
el tamaño de la trama en las muestras y M_{0} es la longitud de
los fragmentos de las tramas de síntesis adyacentes que se
superponen.
A continuación, se realzan las tramas de los
datos de voz analizadas o sintetizadas mediante ventanas. En
general, se suele hacer referencia a esta operación como paso 300 de
la figura 2 y, más en concreto, como la secuencia de pasos en las
figuras 3, 4 y 5.
Las tramas de la señal de voz analizadas o
sintetizadas mediante ventanas salen hacia un módulo de
transformación 2 que les aplica una transformada rápida de Fourier
(FFT) convencional (véase paso 310 de la figura 3). Posteriormente,
un módulo de estimación de ruido 3 utiliza las magnitudes
espectrales que salen del módulo de transformación 2 para estimar
el nivel de ruido que hay en la trama.
El módulo de estimación de ruido 3 recibe las
magnitudes espectrales del módulo de transformación 2 y genera una
estimación de ruido que pasará al módulo de función de amplificación
4 (véase paso 320 de la figura 3). La estimación de ruido incluye
SNR a priori y a posteriori computadas de manera
convencional. El módulo de estimación de ruido 3 puede realizarse
sin necesidad de ninguna técnica de estimación del ruido
convencional, y también de acuerdo con la técnica de estimación del
ruido presentada en la solicitud provisional estadounidense Nº
60/119.279, presentada el día 9 de febrero de 1999.
A fin de evitar distorsiones musicales y no
distorsionar la forma espectral global de los sonidos de voz (lo
cual podría afectar a la estimación de los parámetros espectrales),
el límite inferior de la amplificación, G, debe fijarse en dos
valores distintos, un primer valor para las tramas que representan
únicamente el ruido de fondo (pausas en el discurso) y un valor
inferior para las que representan el discurso activo. A continuación
se explica cómo fijar dichos límites y la amplificación.
La función de amplificación G, determinada por
el módulo 4, es una función de una SNR a priori \xi_{k}
y una SNR a posteriori \gamma_{k} (a los que se ha hecho
referencia con anterioridad). El módulo de función de amplificación
4 limita la SNR priori \xi_{k} según dos factores: según si la
trama contiene sólo ruido o bien ruido y voz, y según una SNR a
largo plazo estimada para los datos de voz. En caso de que una trama
contenga sólo ruido (véase paso 331 de la figura 4), resulta
preferible establecer un límite inferior previo
\xi_{min1}(\lambda)=0,12 para la SNR a priori
\xi_{x} (véase paso 332 de la figura 4). En caso de que la
trama contenga ruido y voz, es decir, discurso activo, el límite
inferior previo \xi_{min1}(\lambda) se
fijará en
fijará en
(3)\xi_{min1}(\lambda) = 0,12 \
exp(-5)(0,5+SNR_{LT}(\lambda))^{0,65}
donde SNR_{LT} es la SNR a largo
plazo para los datos de voz y \lambda es el índice de trama para
la trama correspondiente (véase paso 333 de la figura 4). Sin
embargo, \xi_{min1} no puede ser mayor de 0,25 (véase pasos 334
y 335 de la figura 4). La SNR_{LT} a largo plazo se determina
dividiendo la potencia media de la señal de voz por la potencia
media del ruido en varias tramas y restando 1 al resultado obtenido.
Resulta preferible calcular la media de la señal de voz y el ruido
a partir de un número de tramas que represente 1-2
segundos de la señal. En caso de que la SNR_{LT} sea inferior a 0,
el límite se fijará en
0.
El límite inferior de la SNR a priori se
determina a través de un filtro recursivo de primer orden:
(4)\xi_{min1}(\lambda)=0,9_{min}(\lambda-1)+0,1\xi_{min1}(\lambda)
Dicho filtro permite que la transición de los
valores previos fijados para las tramas de voz a los fijados para
las tramas de imágenes sea suave (véase paso 336 de la figura 4). A
continuación, el límite inferior suavizado
\xi_{min1}(\lambda) se utiliza como límite inferior
para la SNR a priori \xi_{k}(\lambda) en la
computación de amplificación, explicada más adelante.
Tal y como es bien conocido en la técnica, la
amplificación G utilizada en los preprocesadores de optimización de
voz es una función de la SNR a priori \xi y la SNR a
posteriori \gamma. Es decir,
G_{k}=f(\xi_{x}(\lambda),\gamma_{x}(\lambda)),
donde \lambda es el índice de la trama y k es el índice de las
subbandas. De acuerdo con una forma de realización del presente
invento, el límite inferior de la SNR a priori
\xi_{min}(\lambda) se aplica a la SNR a priori
(determinada por el módulo de estimación de ruido) del modo que
sigue:
\xi_{x}(\lambda)=\xi_{x}(\lambda)
\hskip0,3cm si \hskip0,3cm
\xi_{x}(\lambda)>\xi_{x}(\lambda)
\xi_{x}(\lambda)=\xi_{min}(\lambda)
\hskip0,3cm si \hskip0,3cm
\xi_{x}(\lambda)\xi_{x}(\lambda)
(véase pasos 510 y 520 de la figura 5).
A partir de la estimación de la SNR a
posteriori generada por el módulo de estimación de ruido 3 y la
SNR a priori explicada con anterioridad, el módulo de
función de amplificación 4 determina una función de amplificación G
(véase paso 530 de la figura 5). Una función de amplificación
adecuada para materializar esta forma de realización es un
estimador convencional MMSE LSA (Minimum Mean Square Error
Log-Spectral Amplitude Estimator) como el descrito
en Y. Ephraim et al., "Speech Enhancement Using a Minimum
Mean-Square Error Log-Spectral
Amplitude Estimator", IEEE Trans. Acoustics, Speech and Signal
Processing, Vol. 33, pp. 443-445, abril 1985,
documento que se incorpora en su integridad a la presente patente
mediante esta referencia. A fin de conseguir mejor rendimiento, se
puede utilizar un estimador MMSE LSA multiplicado como el descrito
en D. Malah et al., "Tracking Speech Presence Uncertainty
to Improve Speech Enhancement in Non-Stationary
Noise Environments", Proc. ICASSP, 1999 para calcular las
posibilidades de que se produzca un discurso. Dicho documento se
incorpora en su integridad a la presente patente mediante esta
referencia.
La amplificación G se aplica a las magnitudes
espectrales de ruido de la trama de datos que ha salido del módulo
de transformación 2. Normalmente, esta operación se lleva a cabo
multiplicando las magnitudes espectrales de ruido por la
amplificación, tal y como muestra la figura 1 (véase 340 de la
figura 3).
El módulo de transformación inversa 5 aplica una
transformada rápida de Fourier (FFT) inversa a las amplitudes
espectrales realzadas. A continuación, envía una trama de voz
realzada a un módulo de añadido/superposición 6 (véase paso 350 de
la figura 3).
El módulo de añadido/superposición 6 sintetiza
la trama recibida del módulo de transformación inversa 5 y envía la
señal de voz realzada \check{s}(k) al codificador 7.
Preferiblemente, el módulo de añadido/superposición 6 reduce el
retraso generado por el preprocesador de optimización 8
multiplicando la "mitad" izquierda de la trama (por ejemplo,
las 180 muestras más alejadas) utilizando una ventana de síntesis y
la mitad derecha de la trama (por ejemplo, las 76 muestras más
cercanas) utilizando una ventana de análisis inverso (véase paso
400 de la figura 2). La ventana de síntesis puede ser distinta de la
ventana de análisis, pero resulta preferible que sean la misma.
(Además, resulta preferible que ambas ventanas sean la misma que la
ventana de análisis que aparece en el paso 200 de la figura 2.) El
tamaño de las muestras de las mitades derecha e izquierda de la
trama variará según el desplazamiento de datos que se produzca en la
memoria intermedia de entrada del codificador 7, tal y como se
indica más adelante (véase la explicación sobre el paso 800, situada
más adelante). En este caso, los datos que se encuentran en la
memoria intermedia de entrada del codificador 7 se desplazarán en
180 muestras, por lo que la mitad izquierda de la trama comprenderá
180 muestras. Dado que las ventanas de análisis y síntesis atenúan
sobre todo los extremos de las tramas, si se multiplica la trama
por el filtro de análisis inverso los errores de estimación en los
extremos de las traumas aumentarán sobremanera. Por lo tanto,
resulta más conveniente que haya un pequeño retraso de
2-3 ms para el filtro de análisis inverso no se
multiplique por las 16-24 últimas muestras de la
trama.
Una vez ajustada la trama a través de las
ventanas de síntesis y análisis inverso, dicha trama pasará a la
memoria intermedia de entrada (no mostrada) de entrada del
codificador 7 (véase paso 500 de la figura 2). La parte izquierda
de la trama en cuestión quedará superpuesta por la parte derecha de
la trama anterior, la cual ya estará cargada en la memoria
intermedia de entrada. La parte derecha de la trama actual no se
superpondrá con ninguna otra trama o parte de una trama presente en
la memoria intermedia de entrada. A continuación, el codificador 7
utilizará los datos de la memoria intermedia de entrada, incluida la
nueva trama y los datos incompletos de la mitad derecha, para
extraer los parámetros de codificación (véase paso 600 de la figura
2). Por ejemplo, un codificador MELP convencional extrae de los
datos de su memoria intermedia de entrada 10 coeficientes de
predicción lineal, 2 factores de amplificación, un 1 valor de tono,
5 valores de fuerza de la voz en paso de banda, 10 magnitudes de
Fourier y un indicador aperiódico. Sin embargo, de la trama puede
extraerse cualquier información que se desee. Teniendo en cuenta que
el codificador MELP 7 no utiliza las últimas 60 muestras presentes
en la memoria intermedia de entrada para analizar o computar el
coeficiente de predicción lineal (LPC) del primer factor de
amplificación, cualquier error en la optimización de alguna de
estas muestras afectará más bien poco al rendimiento global del
codificador 7.
Una vez el codificador 7 haya extraído los
parámetros de codificación, la mitad derecha de la última trama
(por ejemplo, las 76 muestras más cercanas) se multiplicará
utilizando las ventanas de análisis y síntesis (véase el paso 700
de la figura 2). Resulta preferible que las ventanas de análisis y
síntesis sean las mismas que las indicadas anteriormente en el paso
200; sin embargo, al igual que la raíz cuadrada de la ventana de
análisis del paso 200, también pueden ser distintas.
A continuación, los datos de la memoria
intermedia de entrada se desplazan para preparar la entrada de la
siguiente trama, por ejemplo los datos se desplazan en 180 muestras
(véase paso 800 de la figura 2). Tal y como hemos expuesto con
anterioridad, las ventanas de análisis y síntesis pueden ser las
mismas que la ventana de análisis utilizada en el preprocesador de
optimización 8 o bien pueden ser distintas, por ejemplo la raíz
cuadrada de la ventana de análisis. Si se desplaza la parte final de
las operaciones de superposición o añadido a la memoria intermedia
de entrada del codificador 7, el retraso originado por la
combinación del preprocesador de optimización 8 y el codificador 7
puede reducirse a 2-3 milisegundos sin que se vean
afectadas ni la resolución espectral ni la reducción de la diafonía
en el preprocesador de optimización 8.
Pese a que el invento se ha descrito a través de
formas de realización concretas del mismo, los expertos en la
materia pueden introducir un gran número de alternativas,
modificaciones y variaciones que, para ellos, resultan evidentes.
Por este motivo, las formas de realización preferentes del invento
descritas en la presente patente pretenden ser meramente
ilustrativas, no limitativas. Es decir, es posible realizar varios
cambios sin que ello traicione el espíritu de la patente y, por lo
tanto, quede fuera de su alcance.
A modo de ejemplo, la forma de realización
ilustrativa del presente invento funciona con un codificador de voz
convencional MELP, pero pueden utilizarse otros codificadores de
voz.
La forma de realización ilustrativa del presente
invento utiliza una FFT y una IFFT, pero pueden utilizarse otras
transformadas, como por ejemplo una transformada discreta de Fourier
(DFT) y una DFT inversa.
La técnica de estimación de ruido en la
solicitud provisional de patente citada resulta adecuada para el
módulo de estimación de ruido 3. Sin embargo, pueden utilizarse
otros algoritmos, como por ejemplo los basados en la detección de
la actividad de voz o en enfoque de ajuste del mínimo espectral,
como por ejemplo el descrito en D. Malah et al., "Tracking
Speech Presence Uncertainty to Improve Speech Enhancement in
Non-Stationary Noise Environments", Proc. IEEE
Intl. Conf. Acoustics, Speech, Signal Processing (ICASSP), 1999; o
R. Martin, "Spectral Subtraction Based on Minimum Statistics",
Proc. European Signal Processing Conference, vol. 1, 1994,
documentos que se incorporan en su integridad a la presente patente
mediante esta referencia.
Pese a que resulta preferible fijar el límite
inferior previo \xi_{min1}(\lambda)=0,12 para la SNR
a priori \xi_{x}, cuando una trama representa una pausa
en el discurso (sólo ruido de fondo), dicho límite inferior previo
\xi_{min1} puede fijarse en otros valores.
El proceso de limitación de la SNR priori es
sólo uno de los mecanismos mediante los que se pueden limitar los
valores de amplificación aplicados a las magnitudes espectrales de
ruido, por lo que se pueden utilizar otros métodos. Resulta
ventajoso que el límite inferior de los valores de amplificación
para las tramas que representan actividad de voz sea inferior al
límite inferior de los valores de amplificación para las tramas que
representan únicamente ruido de fondo. Sin embargo, esta ventaja
puede conseguirse de otras maneras, como por ejemplo limitando
directamente los valores de amplificación, en lugar de limitar un
antecedente funcional de la amplificación como es la SNR a
priori.
Pese a que resulta preferible procesar las
tramas de salida desde el módulo de transformación inversa 5 del
preprocesador de optimización 8 mediante el proceso descrito con
anterioridad a fin de reducir el retraso que genera el
preprocesador de optimización 8, dicha reducción del retraso no
resulta imprescindible para llevar a cabo la optimización. Es por
ello que el preprocesador de optimización 8 puede realzar la señal
de voz mediante la limitación de la amplificación tal y como ya se
ha explicado de manera ilustrativa, por ejemplo limitando y
adaptando la SNR a priori \xi_{K}. Del mismo modo, la
reducción del retraso de la que también se ha hablado con
anterioridad no requiere el uso del proceso de limitación de
amplificación.
El retraso en otros tipos de operaciones de
procesamiento de datos puede reducirse aplicando un primer proceso
en la primera parte de una trama de datos, por ejemplo cualquier
grupo de datos, y luego un segundo proceso a una segunda parte de
la misma trama. Estos dos procesos podrían incluir cualquier
procesamiento deseado, incluido el procesamiento de optimización. A
continuación, la trama se combina con otros datos de modo que la
primera parte de la trama se combine con otros datos. Se extrae
información de la trama, como por ejemplo los parámetros de
codificación, incluidos los datos combinados. Una vez extraída dicha
información, se aplica un tercer proceso a la segunda parte de la
trama a fin de prepararla para combinarla con datos de otra
trama.
Claims (18)
1. Un método para optimizar una señal de voz
para su uso en la codificación de voz en el que la señal de voz
representa tanto ruido de fondo como períodos de discurso articulado
y se divide en varias tramas de datos; dicho método comprende
varios pasos, a saber, aplicar una descomposición de subbandas a la
señal de voz de una trama de datos a fin de generar varias señales
de voz de subbanda; determinar si la señal de voz correspondiente a
la trama de datos representa un discurso articulado; aplicar valores
de amplificación individuales a señales de voz de subbanda
individuales, operación en la que la amplificación mínima que puede
aplicarse a una trama de datos que se ha determinado que representa
un discurso articulado es menor que la amplificación mínima que
puede aplicarse a una trama de datos que se ha determinado que
representa únicamente ruido de fondo, y, por último, aplicar una
síntesis de subbandas a las distintas señales de voz de
subbanda.
2. El método enunciado en la reivindicación 1
con el añadido de un paso, consistente en determinar los valores
individuales de amplificación, operación en la que la amplificación
mínima permitida es una función de una relación señal a ruido a
priori mínima permitida.
3. Un método para optimizar una señal a fin de
utilizarla en el procesamiento de voz en el que la señal se divide
en tramas de datos y representa información de ruido de fondo e
información de discurso articulado; dicho método comprende varios
pasos, a saber, transformar la señal de voz de una trama de datos en
magnitudes espectrales; determinar si la señal de una trama de
datos representa información de discurso articulado, y, por último,
aplicar un valor de amplificación a las magnitudes espectrales de la
señal, operación en la que la amplificación mínima que puede
aplicarse a una trama de datos que se ha determinado que representa
un discurso articulado es menor que la amplificación mínima que
puede aplicarse a una trama de datos que se ha determinado que
representa únicamente ruido de fondo.
4. El método enunciado en la reivindicación 3
con el añadido de un paso, consistente en determinar el valor de la
amplificación, operación en la que la amplificación mínima permitida
es una función de una relación señal a ruido a priori mínima
permitida.
5. El método enunciado en la reivindicación 4,
en el que la relación señal a ruido a priori mínima permitida
para una trama de datos se determina mediante el uso de un filtro
recursivo de primer orden que combina la relación señal a ruido
a priori mínima permitida para una trama de datos anterior
con un límite inferior previo fijado para la relación señal a ruido
a priori de la trama de datos en cuestión.
6. El método enunciado en la reivindicación 2,
en el que la relación señal a ruido a priori mínima permitida
para una trama de datos se determina mediante el uso de un filtro
recursivo de primer orden que combina la relación señal a ruido
a priori mínima permitida para una trama de datos anterior
con un límite inferior previo fijado para la relación señal a ruido
a priori de la trama de datos en cuestión.
7. Un sistema para optimizar la señal de voz
para su uso en la codificación de voz en el que la señal de voz
representa ruido de fondo y períodos de discurso articulado y se
divide en distintas tramas de datos; el sistema citado comprende
varios elementos, a saber, un módulo configurado para descomponer la
señal de voz de una trama de datos a fin de generar distintas
señales de voz de subbanda; un módulo configurado para determinar
si la señal de voz correspondiente a la trama de datos representa un
discurso articulado; un módulo configurado para aplicar valores de
amplificación individuales a señales de voz de subbanda
individuales, operación en la que la amplificación mínima que puede
aplicarse para una trama de datos que se ha determinado que
representa un discurso articulado es menor que la amplificación
mínima que puede aplicarse a una trama de datos que se ha
determinado que representa únicamente ruido de fondo, y, por último,
un módulo configurado para aplicar una síntesis de subbanda a las
distintas señales de voz de subbanda.
8. El sistema enunciado en la reivindicación 7,
con el añadido de un módulo configurado para determinar los valores
de amplificación individuales en el que la amplificación mínima
permitida es una función de una relación señal a ruido a
priori mínima permitida.
9. Un sistema para optimizar una señal para su
uso en el procesamiento de voz en el que dicha señal se divide en
tramas de datos y representa información de ruido de fondo e
información de períodos de discurso articulado; dicho sistema
comprende varios elementos, a saber, un módulo configurado para
transformar la señal de voz de una trama de datos en magnitudes
espectrales; un módulo configurado para determinar si la señal de la
trama de datos representa información de un discurso articulado, y,
por último, un módulo configurado para aplicar un valor de
amplificación a las magnitudes espectrales de la señal, operación en
la que la amplificación mínima que puede aplicarse a una trama de
datos que se ha determinado que representa un discurso articulado es
menor que la amplificación mínima que puede aplicarse a una trama
de datos que se ha determinado que representa únicamente ruido de
fondo.
10. El sistema enunciado en la reivindicación 9
con el añadido de un módulo configurado para determinar el valor de
la amplificación y en el que la amplificación mínima permitida es
una función de una relación señal a ruido a priori mínima
permitida.
\newpage
11. El sistema enunciado en la reivindicación
10, en el que la relación señal a ruido a priori mínima
permitida para una trama de datos se determina mediante el uso de
un filtro recursivo de primer orden que combina la relación señal a
ruido a priori mínima permitida para una trama de datos
anterior con un límite inferior previo fijado para la relación
señal a ruido a priori de la trama de datos en cuestión.
12. El sistema enunciado en la reivindicación 8,
en el que la relación señal a ruido a priori mínima permitida
para una trama de datos se determina mediante el uso de un filtro
recursivo de primer orden que combina la relación señal a ruido
a priori mínima permitida para una trama de datos anterior
con un límite inferior previo fijado para la relación señal a ruido
a priori de la trama de datos en cuestión.
13. Un medio legible por ordenador que almacena
instrucciones sobre cómo controlar un dispositivo de computación a
fin de optimizar una señal de voz para su uso en la codificación de
voz en las que la señal de voz representa ruido de fondo y períodos
de discurso articulado y se divide en varias tramas de datos; al ser
ejecutadas, dichas instrucciones hacen que el dispositivo de
computación siga varios pasos, a saber, aplicar una descomposición
de subbandas a la señal de voz de una trama de datos para generar
distintas señales de voz de subbanda; determinar si la señal de voz
correspondiente a cada trama de datos representa un discurso
articulado; aplicar valores de amplificación individuales a las
señales de voz de subbanda individuales, operación en la que la
amplificación mínima que se puede aplicar a una trama de datos que
se ha determinado que representa un discurso articulado es menor
que la amplificación mínima que se puede aplicar a una trama de
datos que se ha determinado que representa únicamente ruido de
fondo, y, por último, aplicar una síntesis de subbanda a las
distintas señales de voz de subbanda.
14. El medio legible por ordenador enunciado en
la reivindicación 13 con la instrucción añadida de determinar los
valores de amplificación individuales, operación en la que la
amplificación mínima permitida es una función de una relación señal
a ruido a priori mínima permitida.
15. Un medio leíble por ordenador que almacena
instrucciones para controlar un dispositivo de computación a fin de
optimizar una señal para su uso en el procesamiento de voz en el que
dicha señal se divide en tramas de datos y representa información
de ruido de fondo e información de periodos de discurso articulado;
las instrucciones citadas incluyen transformar la señal de voz de
una trama de datos en magnitudes espectrales; determinar si la
señal de una trama de datos representa información de discurso
articulado, y, por último, aplicar un valor de amplificación a las
magnitudes espectrales de la señal, operación en la que la
amplificación mínima que puede aplicarse a una trama de datos que
se ha determinado que representa un discurso articulado es menor
que la amplificación mínima que puede aplicarse a una trama de datos
que se ha determinado que representa únicamente ruido de fondo.
16. El medio leíble por ordenador enunciado en
la reivindicación 15 con una instrucción añadida consistente en
determinar el valor de la amplificación, operación en la que la
amplificación mínima permitida es una función de una relación señal
a ruido a priori mínima permitida.
17. El medio leíble por ordenador enunciado en
la reivindicación 16, en el que la relación señal a ruido a
priori mínima permitida para una trama de datos se determina
mediante el uso de un filtro recursivo de primer orden que combina
la relación señal a ruido a priori mínima permitida para una
trama de datos anterior y un límite inferior previo para la
relación señal a ruido a priori de la trama de datos en
cuestión.
18. El medio leíble por ordenador enunciado en
la reivindicación 17 en el que la relación señal a ruido a
priori mínima permitida para una trama de datos se determina
mediante el uso de un filtro recursivo de primer orden que combina
la relación señal a ruido a priori mínima permitida para una
trama de datos anterior y un límite inferior previo para la
relación señal a ruido a priori de la trama de datos en
cuestión.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11927999P | 1999-02-09 | 1999-02-09 | |
US119279P | 1999-02-09 | ||
US499985P | 2000-02-08 | ||
US09/499,985 US6604071B1 (en) | 1999-02-09 | 2000-02-08 | Speech enhancement with gain limitations based on speech activity |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2282096T3 true ES2282096T3 (es) | 2007-10-16 |
Family
ID=26817182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00913413T Expired - Lifetime ES2282096T3 (es) | 1999-02-09 | 2000-02-09 | Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz. |
Country Status (12)
Country | Link |
---|---|
US (2) | US6604071B1 (es) |
EP (2) | EP1157377B1 (es) |
JP (2) | JP4173641B2 (es) |
KR (2) | KR100828962B1 (es) |
AT (1) | ATE357724T1 (es) |
BR (1) | BR0008033A (es) |
CA (2) | CA2476248C (es) |
DE (1) | DE60034026T2 (es) |
DK (1) | DK1157377T3 (es) |
ES (1) | ES2282096T3 (es) |
HK (1) | HK1098241A1 (es) |
WO (1) | WO2000048171A1 (es) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1143229A1 (en) * | 1998-12-07 | 2001-10-10 | Mitsubishi Denki Kabushiki Kaisha | Sound decoding device and sound decoding method |
GB2349259B (en) * | 1999-04-23 | 2003-11-12 | Canon Kk | Speech processing apparatus and method |
FR2797343B1 (fr) * | 1999-08-04 | 2001-10-05 | Matra Nortel Communications | Procede et dispositif de detection d'activite vocale |
KR100304666B1 (ko) * | 1999-08-28 | 2001-11-01 | 윤종용 | 음성 향상 방법 |
JP3566197B2 (ja) | 2000-08-31 | 2004-09-15 | 松下電器産業株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
JP4282227B2 (ja) * | 2000-12-28 | 2009-06-17 | 日本電気株式会社 | ノイズ除去の方法及び装置 |
KR20030009516A (ko) * | 2001-04-09 | 2003-01-29 | 코닌클리즈케 필립스 일렉트로닉스 엔.브이. | 스피치 향상 장치 |
DE10150519B4 (de) * | 2001-10-12 | 2014-01-09 | Hewlett-Packard Development Co., L.P. | Verfahren und Anordnung zur Sprachverarbeitung |
US7155385B2 (en) * | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
US7146316B2 (en) * | 2002-10-17 | 2006-12-05 | Clarity Technologies, Inc. | Noise reduction in subbanded speech signals |
JP4336759B2 (ja) | 2002-12-17 | 2009-09-30 | 日本電気株式会社 | 光分散フィルタ |
JP4583781B2 (ja) * | 2003-06-12 | 2010-11-17 | アルパイン株式会社 | 音声補正装置 |
DE60303278T2 (de) * | 2003-11-27 | 2006-07-20 | Alcatel | Vorrichtung zur Verbesserung der Spracherkennung |
ES2294506T3 (es) * | 2004-05-14 | 2008-04-01 | Loquendo S.P.A. | Reduccion de ruido para el reconocimiento automatico del habla. |
US7649988B2 (en) * | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
KR100677126B1 (ko) * | 2004-07-27 | 2007-02-02 | 삼성전자주식회사 | 레코더 기기의 잡음 제거 장치 및 그 방법 |
GB2429139B (en) * | 2005-08-10 | 2010-06-16 | Zarlink Semiconductor Inc | A low complexity noise reduction method |
KR100751927B1 (ko) * | 2005-11-11 | 2007-08-24 | 고려대학교 산학협력단 | 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치 |
US7778828B2 (en) | 2006-03-15 | 2010-08-17 | Sasken Communication Technologies Ltd. | Method and system for automatic gain control of a speech signal |
JP4836720B2 (ja) * | 2006-09-07 | 2011-12-14 | 株式会社東芝 | ノイズサプレス装置 |
US20080208575A1 (en) * | 2007-02-27 | 2008-08-28 | Nokia Corporation | Split-band encoding and decoding of an audio signal |
US7885810B1 (en) | 2007-05-10 | 2011-02-08 | Mediatek Inc. | Acoustic signal enhancement method and apparatus |
US20090010453A1 (en) * | 2007-07-02 | 2009-01-08 | Motorola, Inc. | Intelligent gradient noise reduction system |
BRPI0816792B1 (pt) * | 2007-09-12 | 2020-01-28 | Dolby Laboratories Licensing Corp | método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo |
CN100550133C (zh) | 2008-03-20 | 2009-10-14 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
US8645129B2 (en) * | 2008-05-12 | 2014-02-04 | Broadcom Corporation | Integrated speech intelligibility enhancement system and acoustic echo canceller |
US9197181B2 (en) * | 2008-05-12 | 2015-11-24 | Broadcom Corporation | Loudness enhancement system and method |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US8914282B2 (en) * | 2008-09-30 | 2014-12-16 | Alon Konchitsky | Wind noise reduction |
US20100082339A1 (en) * | 2008-09-30 | 2010-04-01 | Alon Konchitsky | Wind Noise Reduction |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
KR101211059B1 (ko) | 2010-12-21 | 2012-12-11 | 전자부품연구원 | 보컬 멜로디 강화 장치 및 방법 |
US9210506B1 (en) * | 2011-09-12 | 2015-12-08 | Audyssey Laboratories, Inc. | FFT bin based signal limiting |
GB2523984B (en) | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
JP6361156B2 (ja) * | 2014-02-10 | 2018-07-25 | 沖電気工業株式会社 | 雑音推定装置、方法及びプログラム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3118473A1 (de) | 1981-05-09 | 1982-11-25 | TE KA DE Felten & Guilleaume Fernmeldeanlagen GmbH, 8500 Nürnberg | Verfahren zur aufbereitung elektrischer signale mit einer digitalen filteranordnung |
US4956808A (en) * | 1985-01-07 | 1990-09-11 | International Business Machines Corporation | Real time data transformation and transmission overlapping device |
JP2884163B2 (ja) * | 1987-02-20 | 1999-04-19 | 富士通株式会社 | 符号化伝送装置 |
US4811404A (en) * | 1987-10-01 | 1989-03-07 | Motorola, Inc. | Noise suppression system |
IL84948A0 (en) | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
GB8801014D0 (en) * | 1988-01-18 | 1988-02-17 | British Telecomm | Noise reduction |
US5479562A (en) * | 1989-01-27 | 1995-12-26 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding audio information |
US5297236A (en) * | 1989-01-27 | 1994-03-22 | Dolby Laboratories Licensing Corporation | Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder |
KR100220862B1 (ko) * | 1989-01-27 | 1999-09-15 | 쥬더 에드 에이. | 고품질 오디오용 저속 비트 변환 코더, 디코더 및 인코더/디코더 |
DE3902948A1 (de) * | 1989-02-01 | 1990-08-09 | Telefunken Fernseh & Rundfunk | Verfahren zur uebertragung eines signals |
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
JPH08506427A (ja) * | 1993-02-12 | 1996-07-09 | ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 雑音減少 |
US5572621A (en) * | 1993-09-21 | 1996-11-05 | U.S. Philips Corporation | Speech signal processing device with continuous monitoring of signal-to-noise ratio |
US5485515A (en) | 1993-12-29 | 1996-01-16 | At&T Corp. | Background noise compensation in a telephone network |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
JPH08237130A (ja) * | 1995-02-23 | 1996-09-13 | Sony Corp | 信号符号化方法及び装置、並びに記録媒体 |
US5706395A (en) * | 1995-04-19 | 1998-01-06 | Texas Instruments Incorporated | Adaptive weiner filtering using a dynamic suppression factor |
FI100840B (fi) | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
WO1998006090A1 (en) * | 1996-08-02 | 1998-02-12 | Universite De Sherbrooke | Speech/audio coding with non-linear spectral-amplitude transformation |
US5903866A (en) * | 1997-03-10 | 1999-05-11 | Lucent Technologies Inc. | Waveform interpolation speech coding using splines |
US6351731B1 (en) * | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
-
2000
- 2000-02-08 US US09/499,985 patent/US6604071B1/en not_active Expired - Lifetime
- 2000-02-09 KR KR1020067019836A patent/KR100828962B1/ko active IP Right Grant
- 2000-02-09 AT AT00913413T patent/ATE357724T1/de not_active IP Right Cessation
- 2000-02-09 DE DE60034026T patent/DE60034026T2/de not_active Expired - Lifetime
- 2000-02-09 KR KR1020017010082A patent/KR100752529B1/ko active IP Right Grant
- 2000-02-09 CA CA002476248A patent/CA2476248C/en not_active Expired - Lifetime
- 2000-02-09 ES ES00913413T patent/ES2282096T3/es not_active Expired - Lifetime
- 2000-02-09 EP EP00913413A patent/EP1157377B1/en not_active Expired - Lifetime
- 2000-02-09 JP JP2000599013A patent/JP4173641B2/ja not_active Expired - Fee Related
- 2000-02-09 CA CA002362584A patent/CA2362584C/en not_active Expired - Lifetime
- 2000-02-09 DK DK00913413T patent/DK1157377T3/da active
- 2000-02-09 WO PCT/US2000/003372 patent/WO2000048171A1/en active IP Right Grant
- 2000-02-09 BR BR0008033-0A patent/BR0008033A/pt not_active Application Discontinuation
- 2000-02-09 EP EP06118327.3A patent/EP1724758B1/en not_active Expired - Lifetime
-
2001
- 2001-10-02 US US09/969,405 patent/US6542864B2/en not_active Expired - Lifetime
-
2006
- 2006-09-14 JP JP2006249135A patent/JP4512574B2/ja not_active Expired - Lifetime
-
2007
- 2007-04-24 HK HK07104366.1A patent/HK1098241A1/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CA2362584A1 (en) | 2000-08-17 |
HK1098241A1 (zh) | 2007-07-13 |
US20020029141A1 (en) | 2002-03-07 |
ATE357724T1 (de) | 2007-04-15 |
DE60034026T2 (de) | 2007-12-13 |
DK1157377T3 (da) | 2007-04-10 |
JP2007004202A (ja) | 2007-01-11 |
EP1157377B1 (en) | 2007-03-21 |
JP4512574B2 (ja) | 2010-07-28 |
CA2476248C (en) | 2009-10-06 |
US6542864B2 (en) | 2003-04-01 |
CA2362584C (en) | 2008-01-08 |
KR100828962B1 (ko) | 2008-05-14 |
JP4173641B2 (ja) | 2008-10-29 |
KR100752529B1 (ko) | 2007-08-29 |
DE60034026D1 (de) | 2007-05-03 |
EP1724758A3 (en) | 2007-08-01 |
BR0008033A (pt) | 2002-01-22 |
EP1724758A2 (en) | 2006-11-22 |
EP1157377A1 (en) | 2001-11-28 |
WO2000048171A8 (en) | 2001-04-05 |
US6604071B1 (en) | 2003-08-05 |
KR20010102017A (ko) | 2001-11-15 |
WO2000048171A1 (en) | 2000-08-17 |
JP2002536707A (ja) | 2002-10-29 |
CA2476248A1 (en) | 2000-08-17 |
KR20060110377A (ko) | 2006-10-24 |
EP1724758B1 (en) | 2016-04-27 |
WO2000048171A9 (en) | 2001-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2282096T3 (es) | Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz. | |
ES2773794T3 (es) | Aparato y procedimiento para estimar una diferencia de tiempos entre canales | |
ES2325151T3 (es) | Sistema de comunicacion vocal y procedimiento para gestionar tramas perdidas. | |
KR101120913B1 (ko) | 멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법 | |
Goh et al. | Kalman-filtering speech enhancement method based on a voiced-unvoiced speech model | |
AU6007999A (en) | Noise suppression for low bitrate speech coder | |
BRPI0621563A2 (pt) | método e sistema para reduzir efeitos de artefatos que produzem ruìdo em um codec de voz | |
ES2342601T3 (es) | Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento. | |
RU2669079C2 (ru) | Кодер, декодер и способы для обратно совместимого пространственного кодирования аудиообъектов с переменным разрешением | |
KR20080103113A (ko) | 신호 인코딩 | |
ES2951107T3 (es) | Método y dispositivo de generación de ruido de confort | |
US6223151B1 (en) | Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders | |
US7146309B1 (en) | Deriving seed values to generate excitation values in a speech coder | |
US7103539B2 (en) | Enhanced coded speech | |
EP0655731B1 (en) | Noise suppressor available in pre-processing and/or post-processing of a speech signal | |
WO2004097795A2 (en) | Adaptive voice enhancement for low bit rate audio coding | |
KR20000019198A (ko) | 이동 전화기의 음성인식을 위한 음성 검출 방법 및 장치 |