ES2282096T3

ES2282096T3 - Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz.

Info

Publication number: ES2282096T3
Application number: ES00913413T
Authority: ES
Inventors: Richard Vandervoort Cox; Ranier Martin
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1999-02-09
Filing date: 2000-02-09
Publication date: 2007-10-16
Anticipated expiration: 2020-02-09
Also published as: CA2362584A1; HK1098241A1; US20020029141A1; ATE357724T1; DE60034026T2; DK1157377T3; JP2007004202A; EP1157377B1; JP4512574B2; CA2476248C; US6542864B2; CA2362584C; KR100828962B1; JP4173641B2; KR100752529B1; DE60034026D1; EP1724758A3; BR0008033A; EP1724758A2; EP1157377A1

Abstract

REIVINDICACIONES 1. Un método para optimizar una señal de voz para su uso en la codificación de voz en el que la señal de voz re- presenta tanto ruido de fondo como períodos de discurso arti-culado y se divide en varias tramas de datos; dicho método comprende varios pasos, a saber, aplicar una descomposición de subbandas a la señal de voz de una trama de datos a fin de generar varias señales de voz de subbanda; determinar si la señal de voz correspondiente a la trama de datos representa un discurso articulado; aplicar valores de amplificación in-dividuales a señales de voz de subbanda individuales, opera-ción en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo, y, por último, aplicar una síntesis de subbandas a las distintas señales de voz de subbanda.

Description

Optimización de voz con limitaciones de amplificación según la actividad de voz.

Ámbito del invento

El presente invento hace referencia al procesamiento de optimización de sistemas de codificación de voz (es decir, de compresión de voz), incluidos los sistemas de codificación de voz con una tasa de bits baja como el MELP.

Contexto del invento

Los codificadores de voz con una tasa de bits baja, como por ejemplo los codificadores paramétricos, han mejorado de manera significativa durante estos últimos años. Sin embargo, este tipo de codificadores aún carece de la potencia necesaria para funcionar correctamente en entornos acústicos difíciles. A modo de ejemplo, las perturbaciones que provocan los codificadores paramétricos con una tasa de bits baja pueden afectar a la comprensión del habla codificada si la relación señal a ruido (SNR) es media o baja.

Las pruebas realizadas muestran que es posible conseguir mejoras significativas en la codificación de voz si se combina un codificador con una tasa de bits baja con un preprocesador de optimización de la voz. Habitualmente, este tipo de preprocesadores está formado por tres elementos: un sistema de análisis/síntesis espectral [normalmente elaborado utilizando una transformada rápida de Fourier/transformada inversa rápida de Fourier (FFT/IFFT) mediante ventanas, un proceso de estimación del nivel de ruido y una computación espectral de la amplificación. Habitualmente, el proceso de estimación del nivel de ruido implica algún tipo de técnica de detección de actividad de voz o ajuste del mínimo espectral. La amplificación espectral computada se aplica sólo a las magnitudes Fourier de cada trama de datos o segmento de una señal de voz. Un ejemplo de preprocesador de optimización de la voz aparece en Y. Ephraim et al., "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Trans. Acoustics, Speech and Signal Processing, Vol. 33, pp 443-445, abril 1985, documento que se incorpora a la presente patente en su integridad mediante esta referencia. Como se sabe, la amplificación espectral comprende valores de amplificación individuales que deben aplicarse a los elementos de salida de las subbandas individuales mediante una transformada rápida de Fourier.

Podemos considerar una señal de voz como una representación de períodos de discurso articulado (es decir, períodos de "actividad de voz"), por una parte, y de pausas en el discurso, por la otra. Cuando se produce una pausa en un discurso articulado, la señal de voz sólo representa el ruido de fondo, mientras que durante los períodos de actividad de voz la señal de voz representa tanto el discurso articulado como el ruido de fondo. Los preprocesadores de optimización aplican una amplificación relativamente baja durante los periodos de pausa (en los que conviene atenuar el ruido) y una amplificación mayor durante los periodos de discurso articulado (a fin de reducir la atenuación de dicho discurso). Sin embargo, cambiar de una amplificación baja a una amplificación alta para reflejar, por ejemplo, la reanudación del discurso tras una pausa (y viceversa) puede tener como consecuencia la aparición de perturbaciones ruidosas "musicales" (o "tonales") estructuradas que resulten desagradables para la persona que escucha. Además, tanto los preprocesadores de optimización como los codificadores de voz que cuentan con dichos preprocesadores pueden afectar negativamente a la inteligibilidad del discurso.

Para resolver el problema del ruido musical estructurado, algunos preprocesadores de optimización limitan de manera uniforme los valores de amplificación que se aplican a todas las tramas de datos de la señal de voz. Habitualmente, esto se consigue estableciendo una SNR a priori que actúa como entrada funcional para la computación de la amplificación. Esta limitación de la amplificación evita que la amplificación aplicada en determinadas tramas de datos (por ejemplo, las que corresponden a pausas en el discurso) se reduzca demasiado, se produzcan cambios significativos en la amplificación entre tramas de datos y, en consecuencia, se genere ruido musical estructurado. Sin embargo, esta limitación de la amplificación no permite avanzar en la resolución del problema de inteligibilidad que originan el preprocesador de optimización o el codificador de voz. Algunos ejemplos de las soluciones citadas se revelan en los documentos US-5.839.101 y US-5.012.519.

Resumen del invento

El presente invento permite resolver los problemas de la técnica existente tanto para limitar el ruido musical estructurado como para aumentar la inteligibilidad del discurso. En caso de que se utilice un preprocesador de optimización, una forma de realización ilustrativa del invento permite determinar si la señal de voz que se debe procesar representa un discurso articulado o una pausa en el discurso y forma una única amplificación que es la que debe aplicarse a la señal de voz. Dicha amplificación es única en este contexto, ya que el valor más bajo que puede asumir (es decir, su limite inferior) se determina partiendo de si la señal de voz representa un discurso articulado o no. De conformidad con esta forma de realización, el límite inferior de la amplificación durante los períodos de pausa es más elevado que dicho límite inferior durante los períodos de discurso.

En esta forma de realización, la limitación de amplificación que se aplica a una trama de datos de la señal de voz se adapta a valores de SNR a priori. A su vez, dichos valores se limitan teniendo en cuenta dos factores: (a) si se detecta un discurso articulado en la trama de datos, y (b) una SNR a largo plazo para las tramas que representan el discurso. Para distinguir entre las tramas que contienen discurso articulado y aquéllas que contienen pausas en el discurso se puede utilizar un detector de actividad de voz. De este modo, el límite inferior de la SNR a priori puede computarse en forma de dos valores: un primer valor para una trama que representa el discurso articulado y un segundo valor, mayor que el primero, para la trama que represente una pausa en dicho discurso. Para suavizar el límite inferior de la SNR a priori, se utiliza un sistema recurrente de primer orden que permite realizar transiciones suaves entre los segmentos de la señal correspondientes al discurso activo y los segmentos correspondientes a las pausas en el mismo.

Asimismo, una forma de realización del invento también puede reducir el retraso en los datos de codificación de voz que genera la combinación formada por el preprocesador de optimización y el codificador de voz. Dicho retraso puede reducirse haciendo que el codificador funcione, al menos parcialmente, a partir de muestras incompletas de datos, al objeto de poder extraer, como mínimo, algunos parámetros de codificación. Normalmente, el retraso total que provocan el preprocesador y el codificador equivale a la suma del retraso del codificador y la longitud de las partes de las tramas que se superponen en el preprocesador de optimización. Sin embargo, el presente invento utiliza las muestras de datos avanzadas que almacenan algunos codificadores en una memoria intermedia de entrada para extraer los parámetros de codificación. Habitualmente, estas muestras tienen menor influencia en la calidad de la codificación de voz que otras muestras almacenadas en la memoria intermedia de entrada. Es por ello que, en algunos casos, el codificador no se ve obligado a esperar a recibir una trama de datos procesada, es decir, completa, del preprocesador, sino que puede extraer los parámetros de codificación a partir de muestras incompletas de datos almacenadas en la memoria intermedia de entrada. Al trabajar a partir de muestras de datos incompletas, el retraso provocado por el preprocesador de optimización y el codificador se puede reducir sin que ello afecte de manera significativa a la calidad de los datos codificados.

A modo de ejemplo, una manera de reducir el retraso generado por la combinación de un preprocesador de voz y un codificador de voz es multiplicar una trama de entrada utilizando una ventana de análisis y realzar dicha trama en el preprocesador de optimización. Tras realzar la trama, la mitad izquierda de la misma se multiplica utilizando una ventana de síntesis y la mitad derecha se multiplica utilizando una ventana de análisis inversa. La ventana de síntesis puede ser distinta de la de análisis, pero resulta preferible que sean iguales. A continuación, se añade la trama a la memoria intermedia de entrada del codificador de voz y se extraen los parámetros de codificación utilizando la trama. Una vez extraídos los parámetros de codificación, la mitad derecha de la trama que se encuentra en la memoria intermedia de entrada del codificador de voz se multiplica utilizando la ventana de análisis y síntesis y la trama se desplaza en la memoria intermedia antes de introducir una nueva trama. Las ventanas de análisis y la ventana de síntesis utilizadas para procesar la trama en la memoria intermedia de entrada del codificador pueden ser las que ya se han utilizado en el preprocesador de optimización o bien ser ligeramente distintas, por ejemplo en la raíz cuadrada de la ventana de análisis utilizada en el preprocesador. De este modo, el retraso provocado por el preprocesador se puede reducir hasta niveles muy bajos, por ejemplo 1-2 milisegundos.

Éste y otros aspectos del invento se pueden observar en la descripción que figura más adelante.

El propósito y los objetos del presente invento se consiguen mediante métodos y sistemas de conformidad con las reivindicaciones independientes 1, 3, 7, 9, 13 y 15. Para más información, conviene consultar el resto de reivindicaciones, es decir, las reivindicaciones dependientes.

Breve descripción de los dibujos

El invento se describe partiendo de los siguientes dibujos, a los que citaremos utilizando su número de referencia:

La figura 1 es un diagrama de bloques esquemático de una forma de realización ilustrativa del invento;

La figura 2 es un diagrama de flujos que representa los distintos pasos de un método para procesar la voz y otras señales de acuerdo con la forma de realización de la figura 1;

La figura 3 es un diagrama de flujos que representa los distintos pasos de un método para realzar las señales de voz de acuerdo con la forma de realización de la figura 1;

La figura 4 es un diagrama de flujos que representa los distintos pasos de un método para ajustar la SNR a priori de acuerdo con la forma realización de la figura 1;

La figura 5 es un diagrama de flujos que representa los distintos pasos de un método para aplicar un límite a SNR a priori a fin de utilizarlo en una computación de amplificación.

Descripción detallada A. Introducción a las formas de realización ilustrativas

Como suele ocurrir en la técnica de la codificación de voz, la forma de realización ilustrativa del presente invento se presenta dividida en varios bloques funcionales individuales, también denominados "módulos". Las funciones a las que representan dichos bloques se pueden realizar utilizando hardware compartido o específico, incluido, a título meramente enunciativo, hardware capaz de ejecutar software. A modo de ejemplo, las funciones de los bloques 1 a 5 presentados en la figura 1 se pueden realizar utilizando un solo procesador compartido (en este contexto, el término "procesador" no sólo hace referencia a hardware capaz de ejecutar software).

Las formas de realización ilustrativas pueden materializarse utilizando un procesador de señal digital (DSP) o hardware general de ordenador personal (PC) (ambos comercializados por un gran número de fabricantes), una memoria de sólo lectura o ROM para almacenar el software que realiza las operaciones explicadas más adelante y una memoria de acceso aleatorio o RAM para almacenar los resultados del DSP o el PC. También se pueden conseguir formas de realización con hardware VLSI (Integración a Muy Gran Escala), así como con circuitería VLSI personalizada en combinación con un circuito general de DSP/PC.

En el apéndice de software figura información sobre el software necesario para realizar las funciones presentadas en la figura 1.

B. La forma de realización ilustrativa

La figura 1 presenta un diagrama de bloques esquemático de una forma de realización ilustrativa 8 del invento. Tal y como muestra dicha figura, la forma de realización ilustrativa procesa las distintas señales que representan a la información de voz. Las señales citadas incluyen una señal de voz [que, a su vez, incluye un componente puramente de voz, s(k), y un componente de ruido de fondo, n(k)], tramas de datos de dicha señal, magnitudes espectrales, fases espectrales y voz codificada. En este ejemplo, la señal de voz se realza mediante un preprocesador de optimización de voz 8 y posteriormente se codifica mediante un codificador 7. En esta forma de realización ilustrativa, el codificador 7 es un codificador MELP de 2.400 bits/segundo y conforme a las normas MIL como el descrito en A. McCree et al., ``A 2.4 KBIT/S MELP Coder Candidate for the New U.S. Federal Standard*, Proc. IEEE Intl. Conf. Acoustics, Speech, Signal Processing (ICASSP), pp. 200-203, 1996, documento que se incorpora a la presente patente en su integridad mediante esta referencia. Las figuras 2, 3, 4 y 5 presentan diagramas de flujos de los procesos que realizan los módulos presentados en la figura 1.

1. Módulo de segmentación

La señal de voz s(k)+n(k) entra en un módulo de segmentación 1. El módulo de segmentación 1 divide la señal de voz en tramas de 256 muestras de datos de voz y ruido (véase paso 100 de la figura 2; se puede seleccionar el tamaño de la trama de datos, como por ejemplo 256 muestras, como en este caso) y aplica una ventana de análisis a las tramas antes de transformarlas en el dominio de la frecuencia (véase paso 200 de la figura 2). Como es bien sabido, aplicar la ventana de análisis a la trama afecta a la representación espectral de la señal de voz.

La ventana de análisis se estrecha en ambos extremos para reducir la diafonía entre las subbandas de la trama. Si dicho estrechamiento es prolongado la diafonía se reduce de manera significativa, pero al mismo tiempo se corre el riesgo de que la combinación 10 del preprocesador y el codificador provoque retrasos. El retraso inherente a las operaciones de preprocesamiento y codificación se puede reducir al mínimo si el avance trama a trama (o un múltiple del mismo) del preprocesador de optimización 8 se corresponde con el del codificador 7. Sin embargo, cuando el desplazamiento de las tramas sintetizadas en el preprocesador de optimización 8 aumenta y pasa de su semisuperposición característica (por ejemplo, 128 muestras) al desplazamiento característico del codificador 7 (por ejemplo, 180 muestras), las transiciones entre las tramas adyacentes de la señal de voz realzada \check{s}(k) se realizan de manera más brusca. Estas discontinuidades se producen porque el lugar donde la ventana de análisis atenúa en mayor grado la señal de entrada son los extremos de cada trama y los errores de estimación de la trama tienden a esparcirse al azar por la totalidad de la misma. Este fenómeno genera errores mayores en los límites de la trama, los cuales, a su vez, provocan discontinuidades que se suelen percibir sobre todo cuando la SNR no es la adecuada y pueden causar errores de estimación, por ejemplo.

Las discontinuidades se pueden reducir en gran medida utilizando una ventana de análisis y una de síntesis en el preprocesador de optimización 8. Por ejemplo, si la raíz cuadrada de la ventana de Tukey

100

da un buen rendimiento al utilizarla como ventana de análisis y como ventana de síntesis, M es el tamaño de la trama en las muestras y M_{0} es la longitud de los fragmentos de las tramas de síntesis adyacentes que se superponen.

A continuación, se realzan las tramas de los datos de voz analizadas o sintetizadas mediante ventanas. En general, se suele hacer referencia a esta operación como paso 300 de la figura 2 y, más en concreto, como la secuencia de pasos en las figuras 3, 4 y 5.

2. Módulo de transformación

Las tramas de la señal de voz analizadas o sintetizadas mediante ventanas salen hacia un módulo de transformación 2 que les aplica una transformada rápida de Fourier (FFT) convencional (véase paso 310 de la figura 3). Posteriormente, un módulo de estimación de ruido 3 utiliza las magnitudes espectrales que salen del módulo de transformación 2 para estimar el nivel de ruido que hay en la trama.

3. Módulo de estimación de ruido

El módulo de estimación de ruido 3 recibe las magnitudes espectrales del módulo de transformación 2 y genera una estimación de ruido que pasará al módulo de función de amplificación 4 (véase paso 320 de la figura 3). La estimación de ruido incluye SNR a priori y a posteriori computadas de manera convencional. El módulo de estimación de ruido 3 puede realizarse sin necesidad de ninguna técnica de estimación del ruido convencional, y también de acuerdo con la técnica de estimación del ruido presentada en la solicitud provisional estadounidense Nº 60/119.279, presentada el día 9 de febrero de 1999.

4. Módulo de función de amplificación

A fin de evitar distorsiones musicales y no distorsionar la forma espectral global de los sonidos de voz (lo cual podría afectar a la estimación de los parámetros espectrales), el límite inferior de la amplificación, G, debe fijarse en dos valores distintos, un primer valor para las tramas que representan únicamente el ruido de fondo (pausas en el discurso) y un valor inferior para las que representan el discurso activo. A continuación se explica cómo fijar dichos límites y la amplificación.

4.1 Limitar la SNR a priori

La función de amplificación G, determinada por el módulo 4, es una función de una SNR a priori \xi_{k} y una SNR a posteriori \gamma_{k} (a los que se ha hecho referencia con anterioridad). El módulo de función de amplificación 4 limita la SNR priori \xi_{k} según dos factores: según si la trama contiene sólo ruido o bien ruido y voz, y según una SNR a largo plazo estimada para los datos de voz. En caso de que una trama contenga sólo ruido (véase paso 331 de la figura 4), resulta preferible establecer un límite inferior previo \xi_{min1}(\lambda)=0,12 para la SNR a priori \xi_{x} (véase paso 332 de la figura 4). En caso de que la trama contenga ruido y voz, es decir, discurso activo, el límite inferior previo \xi_{min1}(\lambda) se
fijará en

(3)\xi_{min1}(\lambda) = 0,12 \ exp(-5)(0,5+SNR_{LT}(\lambda))^{0,65}

donde SNR_{LT} es la SNR a largo plazo para los datos de voz y \lambda es el índice de trama para la trama correspondiente (véase paso 333 de la figura 4). Sin embargo, \xi_{min1} no puede ser mayor de 0,25 (véase pasos 334 y 335 de la figura 4). La SNR_{LT} a largo plazo se determina dividiendo la potencia media de la señal de voz por la potencia media del ruido en varias tramas y restando 1 al resultado obtenido. Resulta preferible calcular la media de la señal de voz y el ruido a partir de un número de tramas que represente 1-2 segundos de la señal. En caso de que la SNR_{LT} sea inferior a 0, el límite se fijará en 0.

El límite inferior de la SNR a priori se determina a través de un filtro recursivo de primer orden:

(4)\xi_{min1}(\lambda)=0,9_{min}(\lambda-1)+0,1\xi_{min1}(\lambda)

Dicho filtro permite que la transición de los valores previos fijados para las tramas de voz a los fijados para las tramas de imágenes sea suave (véase paso 336 de la figura 4). A continuación, el límite inferior suavizado \xi_{min1}(\lambda) se utiliza como límite inferior para la SNR a priori \xi_{k}(\lambda) en la computación de amplificación, explicada más adelante.

4.2 Determinar la amplificación con una SNR a priori limitada

Tal y como es bien conocido en la técnica, la amplificación G utilizada en los preprocesadores de optimización de voz es una función de la SNR a priori \xi y la SNR a posteriori \gamma. Es decir, G_{k}=f(\xi_{x}(\lambda),\gamma_{x}(\lambda)), donde \lambda es el índice de la trama y k es el índice de las subbandas. De acuerdo con una forma de realización del presente invento, el límite inferior de la SNR a priori \xi_{min}(\lambda) se aplica a la SNR a priori (determinada por el módulo de estimación de ruido) del modo que sigue:

\xi_{x}(\lambda)=\xi_{x}(\lambda) \hskip0,3cm si \hskip0,3cm \xi_{x}(\lambda)>\xi_{x}(\lambda)

\xi_{x}(\lambda)=\xi_{min}(\lambda) \hskip0,3cm si \hskip0,3cm \xi_{x}(\lambda)\xi_{x}(\lambda)

(véase pasos 510 y 520 de la figura 5).

A partir de la estimación de la SNR a posteriori generada por el módulo de estimación de ruido 3 y la SNR a priori explicada con anterioridad, el módulo de función de amplificación 4 determina una función de amplificación G (véase paso 530 de la figura 5). Una función de amplificación adecuada para materializar esta forma de realización es un estimador convencional MMSE LSA (Minimum Mean Square Error Log-Spectral Amplitude Estimator) como el descrito en Y. Ephraim et al., "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Trans. Acoustics, Speech and Signal Processing, Vol. 33, pp. 443-445, abril 1985, documento que se incorpora en su integridad a la presente patente mediante esta referencia. A fin de conseguir mejor rendimiento, se puede utilizar un estimador MMSE LSA multiplicado como el descrito en D. Malah et al., "Tracking Speech Presence Uncertainty to Improve Speech Enhancement in Non-Stationary Noise Environments", Proc. ICASSP, 1999 para calcular las posibilidades de que se produzca un discurso. Dicho documento se incorpora en su integridad a la presente patente mediante esta referencia.

5. Aplicar la función de amplificación

La amplificación G se aplica a las magnitudes espectrales de ruido de la trama de datos que ha salido del módulo de transformación 2. Normalmente, esta operación se lleva a cabo multiplicando las magnitudes espectrales de ruido por la amplificación, tal y como muestra la figura 1 (véase 340 de la figura 3).

6. Módulo de transformación inversa

El módulo de transformación inversa 5 aplica una transformada rápida de Fourier (FFT) inversa a las amplitudes espectrales realzadas. A continuación, envía una trama de voz realzada a un módulo de añadido/superposición 6 (véase paso 350 de la figura 3).

7. Módulo de añadido/superposición; reducción del retraso

El módulo de añadido/superposición 6 sintetiza la trama recibida del módulo de transformación inversa 5 y envía la señal de voz realzada \check{s}(k) al codificador 7. Preferiblemente, el módulo de añadido/superposición 6 reduce el retraso generado por el preprocesador de optimización 8 multiplicando la "mitad" izquierda de la trama (por ejemplo, las 180 muestras más alejadas) utilizando una ventana de síntesis y la mitad derecha de la trama (por ejemplo, las 76 muestras más cercanas) utilizando una ventana de análisis inverso (véase paso 400 de la figura 2). La ventana de síntesis puede ser distinta de la ventana de análisis, pero resulta preferible que sean la misma. (Además, resulta preferible que ambas ventanas sean la misma que la ventana de análisis que aparece en el paso 200 de la figura 2.) El tamaño de las muestras de las mitades derecha e izquierda de la trama variará según el desplazamiento de datos que se produzca en la memoria intermedia de entrada del codificador 7, tal y como se indica más adelante (véase la explicación sobre el paso 800, situada más adelante). En este caso, los datos que se encuentran en la memoria intermedia de entrada del codificador 7 se desplazarán en 180 muestras, por lo que la mitad izquierda de la trama comprenderá 180 muestras. Dado que las ventanas de análisis y síntesis atenúan sobre todo los extremos de las tramas, si se multiplica la trama por el filtro de análisis inverso los errores de estimación en los extremos de las traumas aumentarán sobremanera. Por lo tanto, resulta más conveniente que haya un pequeño retraso de 2-3 ms para el filtro de análisis inverso no se multiplique por las 16-24 últimas muestras de la trama.

Una vez ajustada la trama a través de las ventanas de síntesis y análisis inverso, dicha trama pasará a la memoria intermedia de entrada (no mostrada) de entrada del codificador 7 (véase paso 500 de la figura 2). La parte izquierda de la trama en cuestión quedará superpuesta por la parte derecha de la trama anterior, la cual ya estará cargada en la memoria intermedia de entrada. La parte derecha de la trama actual no se superpondrá con ninguna otra trama o parte de una trama presente en la memoria intermedia de entrada. A continuación, el codificador 7 utilizará los datos de la memoria intermedia de entrada, incluida la nueva trama y los datos incompletos de la mitad derecha, para extraer los parámetros de codificación (véase paso 600 de la figura 2). Por ejemplo, un codificador MELP convencional extrae de los datos de su memoria intermedia de entrada 10 coeficientes de predicción lineal, 2 factores de amplificación, un 1 valor de tono, 5 valores de fuerza de la voz en paso de banda, 10 magnitudes de Fourier y un indicador aperiódico. Sin embargo, de la trama puede extraerse cualquier información que se desee. Teniendo en cuenta que el codificador MELP 7 no utiliza las últimas 60 muestras presentes en la memoria intermedia de entrada para analizar o computar el coeficiente de predicción lineal (LPC) del primer factor de amplificación, cualquier error en la optimización de alguna de estas muestras afectará más bien poco al rendimiento global del codificador 7.

Una vez el codificador 7 haya extraído los parámetros de codificación, la mitad derecha de la última trama (por ejemplo, las 76 muestras más cercanas) se multiplicará utilizando las ventanas de análisis y síntesis (véase el paso 700 de la figura 2). Resulta preferible que las ventanas de análisis y síntesis sean las mismas que las indicadas anteriormente en el paso 200; sin embargo, al igual que la raíz cuadrada de la ventana de análisis del paso 200, también pueden ser distintas.

A continuación, los datos de la memoria intermedia de entrada se desplazan para preparar la entrada de la siguiente trama, por ejemplo los datos se desplazan en 180 muestras (véase paso 800 de la figura 2). Tal y como hemos expuesto con anterioridad, las ventanas de análisis y síntesis pueden ser las mismas que la ventana de análisis utilizada en el preprocesador de optimización 8 o bien pueden ser distintas, por ejemplo la raíz cuadrada de la ventana de análisis. Si se desplaza la parte final de las operaciones de superposición o añadido a la memoria intermedia de entrada del codificador 7, el retraso originado por la combinación del preprocesador de optimización 8 y el codificador 7 puede reducirse a 2-3 milisegundos sin que se vean afectadas ni la resolución espectral ni la reducción de la diafonía en el preprocesador de optimización 8.

C. Disertación

Pese a que el invento se ha descrito a través de formas de realización concretas del mismo, los expertos en la materia pueden introducir un gran número de alternativas, modificaciones y variaciones que, para ellos, resultan evidentes. Por este motivo, las formas de realización preferentes del invento descritas en la presente patente pretenden ser meramente ilustrativas, no limitativas. Es decir, es posible realizar varios cambios sin que ello traicione el espíritu de la patente y, por lo tanto, quede fuera de su alcance.

A modo de ejemplo, la forma de realización ilustrativa del presente invento funciona con un codificador de voz convencional MELP, pero pueden utilizarse otros codificadores de voz.

La forma de realización ilustrativa del presente invento utiliza una FFT y una IFFT, pero pueden utilizarse otras transformadas, como por ejemplo una transformada discreta de Fourier (DFT) y una DFT inversa.

La técnica de estimación de ruido en la solicitud provisional de patente citada resulta adecuada para el módulo de estimación de ruido 3. Sin embargo, pueden utilizarse otros algoritmos, como por ejemplo los basados en la detección de la actividad de voz o en enfoque de ajuste del mínimo espectral, como por ejemplo el descrito en D. Malah et al., "Tracking Speech Presence Uncertainty to Improve Speech Enhancement in Non-Stationary Noise Environments", Proc. IEEE Intl. Conf. Acoustics, Speech, Signal Processing (ICASSP), 1999; o R. Martin, "Spectral Subtraction Based on Minimum Statistics", Proc. European Signal Processing Conference, vol. 1, 1994, documentos que se incorporan en su integridad a la presente patente mediante esta referencia.

Pese a que resulta preferible fijar el límite inferior previo \xi_{min1}(\lambda)=0,12 para la SNR a priori \xi_{x}, cuando una trama representa una pausa en el discurso (sólo ruido de fondo), dicho límite inferior previo \xi_{min1} puede fijarse en otros valores.

El proceso de limitación de la SNR priori es sólo uno de los mecanismos mediante los que se pueden limitar los valores de amplificación aplicados a las magnitudes espectrales de ruido, por lo que se pueden utilizar otros métodos. Resulta ventajoso que el límite inferior de los valores de amplificación para las tramas que representan actividad de voz sea inferior al límite inferior de los valores de amplificación para las tramas que representan únicamente ruido de fondo. Sin embargo, esta ventaja puede conseguirse de otras maneras, como por ejemplo limitando directamente los valores de amplificación, en lugar de limitar un antecedente funcional de la amplificación como es la SNR a priori.

Pese a que resulta preferible procesar las tramas de salida desde el módulo de transformación inversa 5 del preprocesador de optimización 8 mediante el proceso descrito con anterioridad a fin de reducir el retraso que genera el preprocesador de optimización 8, dicha reducción del retraso no resulta imprescindible para llevar a cabo la optimización. Es por ello que el preprocesador de optimización 8 puede realzar la señal de voz mediante la limitación de la amplificación tal y como ya se ha explicado de manera ilustrativa, por ejemplo limitando y adaptando la SNR a priori \xi_{K}. Del mismo modo, la reducción del retraso de la que también se ha hablado con anterioridad no requiere el uso del proceso de limitación de amplificación.

El retraso en otros tipos de operaciones de procesamiento de datos puede reducirse aplicando un primer proceso en la primera parte de una trama de datos, por ejemplo cualquier grupo de datos, y luego un segundo proceso a una segunda parte de la misma trama. Estos dos procesos podrían incluir cualquier procesamiento deseado, incluido el procesamiento de optimización. A continuación, la trama se combina con otros datos de modo que la primera parte de la trama se combine con otros datos. Se extrae información de la trama, como por ejemplo los parámetros de codificación, incluidos los datos combinados. Una vez extraída dicha información, se aplica un tercer proceso a la segunda parte de la trama a fin de prepararla para combinarla con datos de otra trama.

Claims

1. Un método para optimizar una señal de voz para su uso en la codificación de voz en el que la señal de voz representa tanto ruido de fondo como períodos de discurso articulado y se divide en varias tramas de datos; dicho método comprende varios pasos, a saber, aplicar una descomposición de subbandas a la señal de voz de una trama de datos a fin de generar varias señales de voz de subbanda; determinar si la señal de voz correspondiente a la trama de datos representa un discurso articulado; aplicar valores de amplificación individuales a señales de voz de subbanda individuales, operación en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo, y, por último, aplicar una síntesis de subbandas a las distintas señales de voz de subbanda.

2. El método enunciado en la reivindicación 1 con el añadido de un paso, consistente en determinar los valores individuales de amplificación, operación en la que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.

3. Un método para optimizar una señal a fin de utilizarla en el procesamiento de voz en el que la señal se divide en tramas de datos y representa información de ruido de fondo e información de discurso articulado; dicho método comprende varios pasos, a saber, transformar la señal de voz de una trama de datos en magnitudes espectrales; determinar si la señal de una trama de datos representa información de discurso articulado, y, por último, aplicar un valor de amplificación a las magnitudes espectrales de la señal, operación en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo.

4. El método enunciado en la reivindicación 3 con el añadido de un paso, consistente en determinar el valor de la amplificación, operación en la que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.

5. El método enunciado en la reivindicación 4, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior con un límite inferior previo fijado para la relación señal a ruido a priori de la trama de datos en cuestión.

6. El método enunciado en la reivindicación 2, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior con un límite inferior previo fijado para la relación señal a ruido a priori de la trama de datos en cuestión.

7. Un sistema para optimizar la señal de voz para su uso en la codificación de voz en el que la señal de voz representa ruido de fondo y períodos de discurso articulado y se divide en distintas tramas de datos; el sistema citado comprende varios elementos, a saber, un módulo configurado para descomponer la señal de voz de una trama de datos a fin de generar distintas señales de voz de subbanda; un módulo configurado para determinar si la señal de voz correspondiente a la trama de datos representa un discurso articulado; un módulo configurado para aplicar valores de amplificación individuales a señales de voz de subbanda individuales, operación en la que la amplificación mínima que puede aplicarse para una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo, y, por último, un módulo configurado para aplicar una síntesis de subbanda a las distintas señales de voz de subbanda.

8. El sistema enunciado en la reivindicación 7, con el añadido de un módulo configurado para determinar los valores de amplificación individuales en el que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.

9. Un sistema para optimizar una señal para su uso en el procesamiento de voz en el que dicha señal se divide en tramas de datos y representa información de ruido de fondo e información de períodos de discurso articulado; dicho sistema comprende varios elementos, a saber, un módulo configurado para transformar la señal de voz de una trama de datos en magnitudes espectrales; un módulo configurado para determinar si la señal de la trama de datos representa información de un discurso articulado, y, por último, un módulo configurado para aplicar un valor de amplificación a las magnitudes espectrales de la señal, operación en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo.

10. El sistema enunciado en la reivindicación 9 con el añadido de un módulo configurado para determinar el valor de la amplificación y en el que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.

\newpage

11. El sistema enunciado en la reivindicación 10, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior con un límite inferior previo fijado para la relación señal a ruido a priori de la trama de datos en cuestión.

12. El sistema enunciado en la reivindicación 8, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior con un límite inferior previo fijado para la relación señal a ruido a priori de la trama de datos en cuestión.

13. Un medio legible por ordenador que almacena instrucciones sobre cómo controlar un dispositivo de computación a fin de optimizar una señal de voz para su uso en la codificación de voz en las que la señal de voz representa ruido de fondo y períodos de discurso articulado y se divide en varias tramas de datos; al ser ejecutadas, dichas instrucciones hacen que el dispositivo de computación siga varios pasos, a saber, aplicar una descomposición de subbandas a la señal de voz de una trama de datos para generar distintas señales de voz de subbanda; determinar si la señal de voz correspondiente a cada trama de datos representa un discurso articulado; aplicar valores de amplificación individuales a las señales de voz de subbanda individuales, operación en la que la amplificación mínima que se puede aplicar a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que se puede aplicar a una trama de datos que se ha determinado que representa únicamente ruido de fondo, y, por último, aplicar una síntesis de subbanda a las distintas señales de voz de subbanda.

14. El medio legible por ordenador enunciado en la reivindicación 13 con la instrucción añadida de determinar los valores de amplificación individuales, operación en la que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.

15. Un medio leíble por ordenador que almacena instrucciones para controlar un dispositivo de computación a fin de optimizar una señal para su uso en el procesamiento de voz en el que dicha señal se divide en tramas de datos y representa información de ruido de fondo e información de periodos de discurso articulado; las instrucciones citadas incluyen transformar la señal de voz de una trama de datos en magnitudes espectrales; determinar si la señal de una trama de datos representa información de discurso articulado, y, por último, aplicar un valor de amplificación a las magnitudes espectrales de la señal, operación en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo.

16. El medio leíble por ordenador enunciado en la reivindicación 15 con una instrucción añadida consistente en determinar el valor de la amplificación, operación en la que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.

17. El medio leíble por ordenador enunciado en la reivindicación 16, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior y un límite inferior previo para la relación señal a ruido a priori de la trama de datos en cuestión.

18. El medio leíble por ordenador enunciado en la reivindicación 17 en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior y un límite inferior previo para la relación señal a ruido a priori de la trama de datos en cuestión.