ES2257289T3

ES2257289T3 - Metodo de determinacion de la probabilidad de sonoridad de señales de voz.

Info

Publication number: ES2257289T3
Application number: ES00915722T
Authority: ES
Inventors: Suat Yeldener
Original assignee: Comsat Corp
Current assignee: Comsat Corp
Priority date: 1999-02-23
Filing date: 2000-02-23
Publication date: 2006-08-01
Anticipated expiration: 2020-02-23
Also published as: US20010018655A1; WO2000051104A1; EP1163662A4; AU3694800A; DE60025596D1; US6377920B2; EP1163662B1; DE60025596T2; ATE316282T1; US6253171B1; EP1163662A1

Abstract

Método para determinar una probabilidad de sonoridad de una señal de voz que comprende las etapas siguientes: generar un espectro de voz original Sù(ù) de la señal de voz, en el que ù es una frecuencia; generar un espectro de voz sintética Sù(ù) a partir del espectro de voz original Sù(ù) basándose en la consideración de que la señal de voz es puramente sonora; dividir el espectro de voz original Sù(ù) y el espectro de voz sintética Sù(ù) en una pluralidad de bandas B que contienen cada una de ellas una pluralidad de frecuencias ù, comparar dichos espectros de voz original y sintética en cada una de las bandas; y determinar una probabilidad de sonoridad para cada banda basándose en dicha comparación, en la que dicha probabilidad de sonoridad es un valor que indica un porcentaje de energía sorda y sonora para cada banda que indica si cada una de las bandas contiene una mezcla de energía sorda y sonora, comprendiendo además la etapa en la que se calcula una relación señal/ruido SNRb para cadabanda b de entre la pluralidad de bandas B basándose en dicha comparación, en la que en la que 1 = b = B, y Wb es el intervalo de frecuencias de una banda de decisión b-ésima, y en la que dicha probabilidad de sonoridad la proporciona: en la que P v(b) es la probabilidad de sonoridad Pv(b) para la banda b-ésima, y â es un número predeterminado.

Description

Método de determinación de la probabilidad de sonoridad de señales de voz.

Campo de la invención

La presente invención se refiere a un método de determinación de una probabilidad de sonoridad que indica un porcentaje de energía sorda y sonora en una señal de voz. Más particularmente, la presente invención se refiere a un método de determinación de una probabilidad de sonoridad para una serie de bandas de un espectro de voz de una señal de voz destinado para su utilización en la codificación de la voz para mejorar la calidad de la voz en relación con una variedad de condiciones de entrada.

Antecedentes de la invención

El desarrollo de métodos de codificación de voz de baja velocidad binaria (4,8 kb/s e inferiores) con una calidad de voz muy alta es actualmente un tema de investigación popular. Para alcanzar una compresión de la voz de alta calidad, se requiere una clasificación robusta de la sonoridad de las señales de voz.

Para sintetizar una voz de muy alta calidad a velocidades binarias bajas (4,8 kb/s e inferiores) es esencial una representación precisa del tipo sonoro o mixto de señales de voz. Para velocidades binarias de 4,8 kb/s e inferiores, la Predicción Lineal con Excitación por Código (CELP) convencional no proporciona el grado adecuado de periodicidad. Un tamaño pequeño del libro de códigos y una cuantificación de baja resolución de los factores de ganancia a estas velocidades dan como resultado unas fluctuaciones espectrales elevadas entre los armónicos de la altura tonal. Entre los algoritmos de codificación de voz alternativos al CELP se encuentran las técnicas de tipo armónico. No obstante, estas técnicas requieren algoritmos robustos de altura tonal y de sonoridad para producir una voz de alta calidad.

Con anterioridad a este documento, la información de sonoridad se ha presentado en una serie de formas. En uno de los planteamientos, una trama completa de voz se puede clasificar bien como sonora o bien como sorda. Aunque este tipo de determinación de la sonoridad es muy eficaz, el mismo da como resultado una calidad de la voz sintética, no natural.

Otro de los planteamientos de determinación de la sonoridad se basa en la técnica Multibanda. En esta técnica, el espectro de la voz se divide en un número diverso de bandas y se realiza una decisión binaria de la sonoridad (Sonora o Sorda) para cada banda. Aunque este tipo de determinación de la sonoridad requiere muchos bits para representar la información de sonoridad, se pueden producir errores de sonoridad durante la clasificación, ya que el método de determinación de la sonoridad es un modelo imperfecto que introduce algo de "zumbido" y distorsiones en la voz sintetizada. Estos errores son muy perceptibles, especialmente en las bandas de baja frecuen-
cia.

Todavía otro de los métodos de determinación de la sonoridad se basa en una frecuencia de corte de la sonoridad. En este caso, los componentes de frecuencia por debajo de la frecuencia de corte se consideran como sonoros y por encima de la frecuencia de corte se consideran como sordos. Aunque esta técnica es más eficaz que el concepto convencional de sonoridad multibanda, la misma no puede producir voz sonora para componentes de alta frecuencia.

Por consiguiente, es un objetivo de la presente invención proporcionar un método de determinación de la sonoridad que permita que cada banda de frecuencia esté compuesta por energía tanto sonora como sorda para mejorar la calidad de la voz de salida.

En el documento US 5.774.837 A se da a conocer un método para determinar una probabilidad de sonoridad de una señal de voz que comprende las etapas en las que se genera un espectro original S_{\omega}(\omega) de la señal de voz, en el que \omega es una frecuencia, se genera un espectro de voz sintética a partir del espectro de voz original basándose en la consideración de que la señal de voz es puramente sonora, se divide el espectro de voz original y el espectro de voz sintética en una pluralidad de bandas que contienen cada una de ellas una pluralidad de frecuencias, se compara dicho espectro de voz sintética original en cada banda y se determina una probabilidad de sonoridad para cada banda sobre la base de dicha comparación.

Sumario de la invención

Según la presente invención, se proporciona, de acuerdo con las reivindicaciones adjuntas, un método de determinación de la probabilidad de sonoridad para realizar la estimación de un porcentaje de energía sorda y sonora para cada armónico en cada una de entre una pluralidad de bandas de un espectro de señal de voz.

Inicialmente, se genera un espectro de voz sintética basándose en la consideración de que la voz es puramente sonora. A continuación, el espectro de voz original y el espectro de voz sintética se dividen en una pluralidad de bandas. Seguidamente, los espectros de voz sintética y original se comparan armónico por armónico, y a cada armónico de las bandas del espectro de voz original se le asigna una decisión de sonoridad bien como completamente sonoro o bien como completamente sordo comparando el error con un umbral adaptativo. Si el error para cada armónico es menor que el umbral adaptativo, el armónico correspondiente se declara como sonoro; en cualquier otro caso, el armónico se declara como sordo. A continuación, se calcula la probabilidad de sonoridad para cada banda como la relación entre el número de armónicos sonoros y el número total de armónicos en la banda de decisión correspondiente.

Además, se determina la relación de señal/ruido para cada una de las bandas basándose en los espectros de voz original y sintética y se determina la probabilidad de sonoridad para cada banda basándose en la relación de señal/ruido para la banda específica.

Breve descripción de los dibujos

A continuación se describe la presente invención detalladamente haciendo referencia a las figuras adjuntas, en las cuales:

la Fig. 1 es un diagrama de bloques del método de probabilidad de sonoridad según una primera forma de realización de la presente invención;

la Fig. 2 es un diagrama de bloques del método de probabilidad de sonoridad de acuerdo con una segunda forma de realización de la presente invención; y

las Figs. 3A y 3B son diagramas de bloques de un codificador y decodificador de voz, respectivamente, que constituyen realizaciones del método de la presente invención.

Descripción detallada de la invención

Para realizar una estimación de la sonoridad de un segmento de voz, el método de la presente invención considera que se conoce un periodo de altura tonal (frecuencia fundamental) de una señal de voz de entrada. Inicialmente, se obtiene un espectro de voz S_{\omega}(\omega) a partir de un segmento de una señal de voz de entrada usando un procesado de Transformada Rápida de Fourier (FFT). Además, se crea un espectro de voz sintética basándose en la consideración de que el segmento de la señal de voz de entrada es totalmente sonoro.

La Fig. 1 ilustra una primera forma de realización del método de determinación de probabilidad de sonoridad de la presente invención. El espectro de voz S_{\omega}(\omega) se proporciona a una sección 1 de muestreo de armónicos en la que el espectro de voz S_{\omega}(\omega) se muestrea en los armónicos de la frecuencia fundamental para obtener una magnitud de cada armónico. Las magnitudes de los armónicos se suministran a una sección 2 de reconstrucción del espectro en la que se genera un lóbulo (ancho de banda del armónico) para cada armónico y cada lóbulo del armónico se normaliza de manera que presente una amplitud de pico que sea igual a la magnitud de armónico correspondiente al armónico, para generar un espectro de voz sintética S_{\omega}(\omega). A continuación, el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) se dividen en un número diverso de bandas de decisión B (por ejemplo, típicamente 8 bandas de frecuencia no uniformes) por medio de una sección 3 de división de bandas.

A continuación, las bandas de decisión B del espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) se suministran a una sección 4 de cálculo de la relación señal/ruido (SNR) en la que se calcula de la manera siguiente una relación de señal/ruido, SNR_{b}, para cada banda b de entre el número total de bandas de decisión B:

SNR_{b} = \frac{\sum_{\omega \in Wb} |S_{\omega}(\omega)|^{2}}{\sum_{\omega \in Wb} (|S\omega(\omega)| - |\hat{S} \omega(\omega)|)^{2}};

\hskip0.5cm

1 \leq b \leq B.

en la que W_{b} es el intervalo de frecuencias de una banda de decisión b-ésima.

La relación señal/ruido SNR_{b} correspondiente a cada banda de decisión b se suministra a una sección 5 de cálculo de la probabilidad de sonoridad, en la que a continuación se calcula una probabilidad de sonoridad, P v(b) para la banda b-ésima, de la manera siguiente:

1

en la que 0 \leq \beta \leq 1 es un factor constante que se puede fijar experimentalmente. La experimentación ha demostrado que el valor óptimo típico de \beta es 0,5.

La Fig. 2 es un diagrama de bloques que ilustra una segunda forma de realización del método de determinación de la probabilidad de sonoridad de la presente invención. Tal como en la Fig. 1, el espectro de voz sintética S_{\omega}(\omega) lo genera la sección 1 de muestreo de armónicos y la sección 2 de reconstrucción del espectro, y el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) se dividen en una pluralidad de bandas de decisión B por medio de una sección 3 de división de bandas. A continuación, el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética
S_{\omega}(\omega) se comparan armónico por armónico para cada banda de decisión b por medio de una sección 6 de clasificación de armónicos. Si la diferencia entre el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) correspondiente a la banda de decisión b es menor que el umbral adaptativo, el armónico correspondiente se declara como sonoro por parte de la sección 6 de clasificación de armónicos, en cualquier otro caso el armónico se declara como sordo. En particular, se determina que cada armónico del espectro de voz es bien sonoro, V(k) = 1, ó bien sordo, V(k) = 0, (en las que k es el número del armónico y 1 \leq k \leq L), dependiendo de la magnitud de la diferencia (error) entre el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) para el armónico correspondiente k. En este caso, L es el número total de armónicos en una banda de voz de 4 kHz.

A continuación se calcula la probabilidad de sonoridad P v(b) para cada banda b por medio de una sección 7 de probabilidad de sonoridad como la relación de energía entre los armónicos sonoros y todos los armónicos en la banda de decisión correspondiente:

Pv(b) = \sqrt{\frac{\sum_{k\varepsilon Wb} V(k) A(k)^{2}}{\sum_{k\varepsilon Wb} A(k)^{2}}}

en la que V(k) es la decisión binaria de sonoridad y A(k) es la amplitud del espectro para el armónico k^{ésimo} en la banda de decisión b^{ésima}.

El método descrito anteriormente de determinación de la probabilidad de sonoridad se puede utilizar en un Codificador Predictivo Lineal con Excitación de Armónicos (HE-LPC) tal como se muestra en los diagramas de bloques de las Figs. 3A y 3B. En el codificador HE-LPC (Fig. 3A), el planteamiento para representar una señal de voz de entrada consiste en usar un modelo de producción de voz en el que la voz se forma como el resultado de hacer pasar una señal de excitación a través de un filtro inverso LPC lineal variable con el tiempo, que representa el modelo de las características resonantes de la envolvente espectral de la voz. El filtro inverso LPC se representa mediante coeficientes LPC los cuales se cuantifican en forma de frecuencias en rayas espectrales (LSF). En el HE-LPC, la señal de excitación la especifica la frecuencia fundamental, las amplitudes espectrales de los armónicos y las probabilidades de sonoridad para las diversas bandas de frecuencia.

En el decodificador (Fig. 3B), la parte sonora del espectro de excitación se determina como la suma de ondas sinusoidales de armónicos que proporcionan las relaciones adecuadas de energía sonora/sorda sobre la base de las probabilidades de sonoridad para cada banda de frecuencias. Las fases de los armónicos de las ondas sinusoidales se predicen a partir de la información de la trama anterior. Para la parte sorda del espectro de excitación, un espectro de ruido aleatorio blanco se normaliza a las amplitudes de los armónicos sordos para proporcionar relaciones apropiadas de energía sonora/sorda para cada banda de frecuencias. A continuación, las señales de excitación sonoras y sordas se suman conjuntamente para formar la señal global de excitación sintetizada. A continuación, la excitación resultante se conforma por medio de un filtro LPC lineal variable con el tiempo para formar la voz sintetizada final. Para mejorar la calidad de la voz de salida y conseguir que la misma resulte más limpia, se usa un postfiltro en el dominio de la frecuencia.

Las pruebas de escucha informales han indicado que el algoritmo HE-LPC produce una voz de muy alta calidad para una variedad de condiciones de entrada limpias y de ruido de fondo. La experimentación demostró que utilizando el método de determinación de probabilidad de sonoridad de la presente invención en el HE-LPC se introdujeron mejoras importantes.

Aunque la presente invención se ha mostrado y descrito con respecto a formas de realización preferidas, resultarán evidentes para los expertos en la materia diversos cambios y modificaciones dentro del alcance de la invención. El alcance de la invención lo definen las reivindicaciones adjuntas.

Claims

1. Método para determinar una probabilidad de sonoridad de una señal de voz que comprende las etapas siguientes:

generar un espectro de voz original S_{\omega}(\omega) de la señal de voz, en el que \omega es una frecuencia;

generar un espectro de voz sintética S_{\omega}(\omega) a partir del espectro de voz original S_{\omega}(\omega) basándose en la consideración de que la señal de voz es puramente sonora;

dividir el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) en una pluralidad de bandas B que contienen cada una de ellas una pluralidad de frecuencias \omega,

comparar dichos espectros de voz original y sintética en cada una de las bandas; y

determinar una probabilidad de sonoridad para cada banda basándose en dicha comparación, en la que dicha probabilidad de sonoridad es un valor que indica un porcentaje de energía sorda y sonora para cada banda que indica si cada una de las bandas contiene una mezcla de energía sorda y sonora, comprendiendo además la etapa en la que se calcula una relación señal/ruido SNR_{b} para cada banda b de entre la pluralidad de bandas B basándose en dicha comparación, en la que

SNR_{b} = \frac{\sum_{\omega \in Wb} |S_{\omega}(\omega)|^{2}}{\sum_{\omega\in Wb} (| S_{\omega}(\omega)| - |\hat{S}_{\omega}(\omega)|)^{2}};

\hskip0.5cm

1 \leq b \leq B

en la que 1 \leq b \leq B, y W_{b} es el intervalo de frecuencias de una banda de decisión b-ésima, y en la que dicha probabilidad de sonoridad la proporciona:

Pv(b) = 1,0 si SNR_{b} \geq 40,

Pv(b) = \left( \frac{2}{75} SNR_{b} - \frac{1}{15} \right)^{\beta} para \ 0 \leq \beta \leq 1 \ si \ 2,5 < SNR_{b} < 40, y

\vskip1.000000\baselineskip

Pv(b) = 0,0 si SNR_{b} \leq 2.5,

en la que P v(b) es la probabilidad de sonoridad Pv(b) para la banda b-ésima, y \beta es un número predeterminado.

2. Método para determinar una probabilidad de sonoridad de una señal de voz según la reivindicación 1, en el que dicha etapa en la que se genera un espectro de voz sintética S_{\omega}(\omega) comprende las etapas siguientes:

muestrear el espectro de voz original S_{\omega}(\omega) en los armónicos de una frecuencia fundamental de dicha señal de voz para obtener una magnitud de armónico correspondiente a cada armónico;

generar un lóbulo de armónico para cada armónico basándose en la magnitud de armónico correspondiente a cada armónico; y

normalizar el lóbulo de armónico para cada armónico de manera que presente una amplitud de pico que sea igual a la magnitud de armónico correspondiente a cada armónico para generar el espectro de voz sintética S_{\omega}(\omega).

3. Método para determinar una probabilidad de sonoridad de una señal de voz según la reivindicación 1, en el que \beta es 0,5.

4. Método según la reivindicación 1, en el que \omega representa un armónico de una frecuencia fundamental de dicha señal de voz, y dicha etapa de comparación comprende la comparación del espectro de voz original y el espectro de voz sintética para cada armónico de cada banda b de la pluralidad de bandas B para determinar una diferencia entre el espectro de voz original y el espectro de voz sintética para cada armónico de cada banda b de la pluralidad de bandas de decisión B; y dicha etapa de determinación comprende:

determinar si cada armónico del espectro de voz original es sonoro, V(k) = 1, ó sordo, V(k) = 0, basándose en la diferencia entre el espectro de voz original y el espectro de voz sintética para cada armónico k, en el que V(k) es una determinación binaria de la sonoridad, 1 < k \leq L, y L es el número total de armónicos en una banda de voz de 4 kHz; y

\newpage

determinar una probabilidad de sonoridad P v(b) para cada banda b, en la que

Pv(b) = \sqrt{\frac{\sum_{k\varepsilon Wb} V(k) A(k)^{2}}{\sum_{k\varepsilon Wb}A(k)^{2}}}

en la que A(k) es una amplitud espectral para el armónico k^{ésimo} en la banda b^{ésima}.

5. Método para determinar una probabilidad de sonoridad de una señal de voz según la reivindicación 4, en el que dicha etapa en la que se genera un espectro de voz sintética comprende las etapas siguientes:

muestrear el espectro de voz original en los armónicos de una frecuencia fundamental de dicha señal de voz para obtener una magnitud de armónico correspondiente a cada armónico;

normalizar el lóbulo de armónico para cada armónico de manera que presente una amplitud de pico que sea igual a la magnitud de armónico correspondiente a cada armónico para generar el espectro de voz sintética.