ES2266908T3

ES2266908T3 - Metodo de sintesis para una señal de sonido fija.

Info

Publication number: ES2266908T3
Application number: ES03797393T
Authority: ES
Inventors: Ercan F. Gigi
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-09-17
Filing date: 2003-08-05
Publication date: 2007-03-01
Anticipated expiration: 2023-08-05
Also published as: US7558727B2; KR20050057372A; EP1543497A1; WO2004027753A1; ATE329346T1; TW200425059A; AU2003250410A1; US20060178873A1; DE60305944T2; TWI307876B; DE60305944D1; CN1682278A; EP1543497B1; JP2005539262A; KR101016978B1; JP4490818B2; CN100343893C

Abstract

Método para sintetizar una primera señal de sonido basada en una segunda señal de sonido, teniendo la primera señal de sonido una primera frecuencia fundamental requerida y teniendo la segunda señal de sonido una segunda frecuencia fundamental, comprendiendo el método las etapas de: determinar las ubicaciones del timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental, - proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental, - seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones del timbrede altura tonal requeridas, y - realizar una operación de solapado y de añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.

Description

Método de síntesis para una señal de sonido fija.

La presente invención se refiere al campo de sintetizar voz o música, y más particularmente sin limitación, al campo de la síntesis de voz (text to speech).

La función de un sistema de síntesis de voz (TTS) es sintetizar voz a partir de un texto genérico en un idioma dado. En la actualidad, los sistemas TTS se han puesto en funcionamiento práctico para muchas aplicaciones, tales como acceso a bases de datos a través de la red telefónica o ayuda a gente discapacitada. Un método para sintetizar voz es concatenando elementos de un conjunto grabado de subunidades de voz tales como semisílabas o polífonos. La mayoría de los sistemas comerciales con éxito emplean la concatenación de polífonos. Los polífonos comprenden grupos de dos (difonos), tres (trifonos) o más fonos y pueden determinarse a partir de palabras sin sentido, segmentando el agrupamiento deseado de fonos en regiones espectrales estables. En una síntesis basada en la concatenación, la conversación de la transición entre dos fonos adyacentes es crucial para garantizar la calidad de la voz sintetizada. Con la elección de polífonos como las subunidades básicas, la transmisión entre dos fonos adyacentes se conserva en las subunidades grabadas, y la concatenación se lleva a cabo entre fonos similares.

Sin embargo, antes de la síntesis, debe modificarse la duración y altura tonal de los fonos (pitch) con el fin de cumplir con las restricciones prosódicas de las nuevas palabras que contienen esos fonos. Este tratamiento es necesario para evitar la producción de una voz sintetizada con sonido monótono. En un sistema de TTS, un módulo prosódico realiza esta función. Para permitir las modificaciones de la duración y la altura tonal en las subunidades grabadas, muchos sistemas de TTS basados en concatenación emplean el modelo de síntesis "time-domain pitch-synchronous overlap-add" (añadir y solapar señales en el dominio temporal) (TD-PSOLA) (E. Moulines y F. Charpentier, "Pitch synchronous waveform processing techniques for text-to-speech síntesis using diphones", Speech Común., vol 9, págs. 453-467, 1990). Cuando se requiere que la señal que va a sintetizarse tenga una duración extendida esto se consigue repitiendo los timbres de altura tonal, que se han obtenido a partir de la señal original. Este procedimiento de repetición se ilustra en la figura 1. El eje 100 de tiempo pertenece al dominio de tiempo de la señal original. La señal original tiene una longitud de T expandiendo el intervalo de tiempo entre cero y T en el eje 100 de tiempo. Además, la señal original tiene una frecuencia f fundamental, que corresponde al periodo p; se obtienen timbres de altura tonal a partir de la señal original creando ventanas en la señal original por medio de ventanas 102. En el ejemplo considerado aquí las ventanas están separadas por el periodo p en el dominio del eje 100 de tiempo. De este modo las ubicaciones i de timbre de altura tonal se determinan sobre el eje 100 de tiempo. El eje 104 de tiempo pertenece al dominio de tiempo de la señal que va a sintetizarse. Se requiere que la señal que va a sintetizarse tenga una duración de yT, en la que y puede ser cualquier número. A continuación se determina un número de ubicaciones j de timbre de altura tonal en el eje 104 de tiempo. Al igual que en el eje 100 de tiempo, las ubicaciones j de timbre de altura tonal están separadas por el periodo p correspondiente a la frecuencia f fundamental de la señal original. Con el fin de aumentar la duración de la señal original se repite cada uno de los timbres de altura tonal originales obtenidos a partir de la señal original un número y de veces. Esto da como resultado varios intervalos 106, 108,… en el dominio del eje 104 de tiempo, mediante lo cual cada uno de los intervalos 106, 108,… está compuesto por repeticiones de timbres de altura tonal idénticos. Por ejemplo, el intervalo 106 contiene repeticiones del timbre de altura tonal obtenido a partir de la ubicación de timbre de altura tonal i = 1 a partir de la señal original en las ubicaciones de timbre de altura tonal j (i = 1, k = 1) a j (i = 1, k = y). Esto significa que el intervalo 106 contiene un número y de repeticiones del timbre de altura tonal obtenido a partir de la ubicación de timbre de altura tonal i = 1 en el eje 100 de tiempo de la señal original. Asimismo, el siguiente intervalo 108 contiene un número y de repeticiones del timbre de altura tonal obtenido a partir de la ubicación de timbre de altura tonal i = 2 a partir de la señal original. Como consecuencia, la señal sintetizada está compuesta por secuencias concatenadas de repeticiones de timbres de altura tonal.

Una desventaja común de tales métodos de PSOLA es que una manipulación de la duración extremada introduce transiciones audibles entre las secuencias en la señal. En particular, esto es un problema cuando el sonido original es un sonido híbrido como fricativos sonoros que tienen un componente tanto ruidosa como periódica. La repetición de timbres de altura tonal introduce periodicidad en las componentes ruidosas, lo que hace que la señal sintetizada no suene natural. El documento US 6 208 960, por ejemplo, propone una solución al problema de la periodicidad no natural de sonidos sordos.

La presente invención, tal como se define en las reivindicaciones independientes adjuntas, se propone por tanto proporcionar un método mejorado para sintetizar una señal de sonido, en particular para modificaciones de la duración extremadas, tales como para cantar.

La presente invención proporciona un método para sintetizar una señal de sonido basada en una señal original con el fin de manipular la duración de la señal original. En particular, la presente invención permite las modificaciones de altura tonal y duración extremada de la señal original sin aberraciones audibles. Esto es especialmente útil para sintetizar canciones en las que pueden producirse manipulaciones de la duración extremada del orden de 4 a 100 veces de la señal original.

En esencia, la presente invención se basa en la observación de que los métodos PSOLA de la técnica anterior introducen aberraciones en una señal sintetizada tras la manipulación de la duración debido a que la transición desde una cadena de timbres de altura tonal de repetición hasta la siguiente es audible. Este efecto se experimenta cuando se emplea un método de tipo PSOLA de la técnica anterior para manipulaciones de la duración extremada y es particularmente perjudicial para sonidos híbridos que contienen tanto una componente ruidosa como una periódica.

Según la invención, se seleccionan timbres de altura tonal aleatoriamente de la señal original para cada una de las ubicaciones de timbre de altura tonal necesarias de la señal que va a sintetizarse. De esta manera la introducción de periodicidad en las componentes ruidosas puede evitarse y se conserva la naturalidad del sonido original. Según una realización preferida de la invención, el sonido original es un fricativo sonoro que tiene tanto una componente ruidosa como una periódica. La aplicación de la presente invención para tales fricativos sonoros es especialmente beneficiosa.

Según una realización preferida adicional de la invención se usa un coseno elevado para crear ventanas en los fricativos sonoros. Para intervalos de sonido sordos se usa una ventana de seno que tiene la ventaja de que la envolvente de la señal total en el dominio de la potencia permanece casi constante. Al contrario que una señal periódica, cuando se añaden dos muestras de ruido, la suma total puede ser menor que el valor absoluto de cualquiera de las dos muestras. Esto es debido a que las señales (en su mayoría) no están en fase; la ventana de seno ajusta este efecto y elimina la modulación de envolvente.

Según una realización preferida adicional de la invención, la señal de sonido original tiene periodos que son espectralmente similares y que tienen básicamente el mismo contenido de información. Tales periodos, que son sonoros, se clasifican por un primer clasificador y tales periodos que son sordos se clasifican por medio de un segundo clasificador.

Según una realización preferida adicional de la invención la información de clasificación de la señal original se almacena en un sistema informático, tal como un sistema de texto a voz. Siendo los intervalos de la señal original, que se clasifican como periodos fijos sonoros o sin voz, espectralmente similares se tratan según la presente invención mediante lo cual se usa una ventana de coseno elevado para intervalos sonoros y se usa una ventana de seno para intervalos sin voz.

Las siguientes realizaciones preferidas de la invención se describen con mayor detalle haciendo referencia a los dibujos, en los que:

la figura 1 es ilustrativa de un método de tipo PSOLA de la técnica anterior,

la figura 2 es ilustrativa de un ejemplo para sintetizar una señal de sonido según una realización de la presente invención,

la figura 3 es ilustrativa de un diagrama de flujo de una realización de un método de la presente invención,

la figura 4 muestra un ejemplo de una señal original y de la señal sintetizada, y

la figura 5 es un diagrama en bloque de una realización preferida de un sistema informático.

La figura 2 muestra un ejemplo para sintetizar una señal basada en una señal original. El eje 200 de tiempo es ilustrativo del dominio de tiempo de la señal original. La señal original tiene una duración T y extiende el tiempo entre cero y T en el eje 200 de tiempo. La señal original tiene una frecuencia f fundamental que corresponde a un periodo p. El periodo p determina las ubicaciones i en el eje 200 de tiempo para crear ventanas de la señal origina por medio de una ventana 202. En el ejemplo considerado aquí, la señal original es un sonido híbrido sonoro de tal manera que se usa una ventana de coseno según la siguiente fórmula.

w[n] = 0,5 - 0,5 \cdot \cos \left(\frac{2 \pi \cdot(n + 0,5)}{m}\right),

\hskip0.5cm

0\leqn<m

En la relación previa, m es la longitud de la ventana y n es el índice de ejecución.

Cuando la señal original es una señal de sonido sordo se prefiere usar la siguiente ventana.

w[n] = \sin \left(\frac{2 \pi \cdot(n + 0,5)}{m}\right),

\hskip0.5cm

0\leqn<m

El dominio de tiempo de la señal que va a sintetizarse se ilustra por el eje 204 de tiempo. Se requiere que la señal que va a sintetizarse tenga una duración de yT, en la que y puede ser cualquier número, por ejemplo y = 4 o y = 6 o y = 20 o y = 50 o y = 100.

El periodo p también determina las ubicaciones j de timbre de altura tonal en el eje 204 de tiempo. Como en el eje 200 de tiempo, las ubicaciones de timbre de altura tonal están separadas por el periodo p. Para cada una de las ubicaciones j de timbre de altura tonal, se realiza una selección aleatoria de una ubicación i de timbre de altura tonal en el dominio de tiempo del eje 200 de tiempo. En el ejemplo considerado aquí hay un número de 6 timbres de altura tonal que se obtienen creando ventanas de la señal original en el dominio de tiempo del eje 200 de tiempo. Para seleccionar uno de estos timbres de altura tonal obtenidos para una ubicación j de timbre de altura tonal se genera un número aleatorio entre 1 y 6. De este modo se realiza una selección aleatoria a partir de los timbres de altura tonal disponibles en las ubicaciones de timbre de altura tonal i = 1 a i = 6. Este procedimiento se repite para todas las ubicaciones j de timbre de altura tonal necesarias en el eje 204 de tiempo. Por ejemplo un timbre de altura tonal para la ubicación de timbre de altura tonal j = 1 requerida se selecciona generando un número aleatorio entre 1 y 6. En el ejemplo considerado aquí, se obtiene el número 6 de manera que el timbre de altura tonal obtenido a partir de la ubicación de timbre de altura tonal i = 6 en el eje 200 de tiempo se selecciona para la ubicación de timbre de altura tonal j = 1 requerida en el eje 204 de tiempo. Asimismo, se genera un número aleatorio para la ubicación de timbre de altura tonal j = 2 requerida. El número aleatorio es 4 en este ejemplo de manera que el timbre de altura tonal en la ubicación de timbre de altura tonal i = 4 en el eje 200 de tiempo se selecciona para la ubicación de timbre de altura tonal j = 2 requerida. Este procedimiento se realiza para todas las ubicaciones de timbre de altura tonal requeridas j = 1 a j = z en el eje 204 de tiempo. Debido a la selección aleatoria de los timbres de altura tonal a partir del dominio de la señal original, se evitan los intervalos 106, 108,… (véase la figura 1). Como consecuencia no se introduce una aberración de ese tipo en la señal
sintetizada y la señal sintetizada suena de manera natural incluso para manipulaciones de la duración extremada.

La figura 3 muestra un diagrama de flujo, que es ilustrativo para este método. En la etapa 300 se proporciona una grabación de un sonido original. En la etapa 302 se identifican intervalos de sonido híbrido y se clasifican como sonoros o sordos en la grabación de sonido original. Esto puede realizarse manualmente por un experto humano o por medio de un programa informático, que analiza la señal original y/o su espectro de frecuencia para periodos fijos. Preferiblemente, se realiza el primer análisis por medio de un programa y un experto humano revisa la salida del programa. En la etapa 304 se obtienen timbres de altura tonal del sonido original por medio de creación de ventanas. La creación de ventanas se realiza por medio de ventanas que se colocan sincrónicamente con la frecuencia fundamental de la señal de sonido original, es decir, las ventanas están separadas por un periodo p de la señal de sonido original en el dominio de la señal de sonido original. En la etapa 306, se determinan las ubicaciones j de timbre de altura tonal para las que se requieren timbres de altura tonal con el fin de sintetizar la señal. De nuevo, las ubicaciones j de timbre de altura tonal requeridas están separadas por el periodo p. Alternativamente, las ubicaciones j de timbre de altura tonal pueden estar separadas por otro periodo q correspondiente a una frecuencia fundamental requerida superior o inferior de la señal que va a sintetizarse. De este modo pueden modificarse la duración y la frecuencia. En la etapa 308 se realiza una selección aleatoria de timbres de altura tonal para cada una de las ubicaciones j de timbre de altura tonal requeridas dentro del intervalo de sonido que se clasifica como híbrido. Para otros intervalos de sonido, puede o no emplearse un método de tipo PSOLA de la técnica anterior. En la etapa 301 se solapan y añaden los timbres de altura tonal en las ubicaciones j de timbre de altura tonal en el dominio de la señal que va a sintetizarse.

La figura 4 muestra un ejemplo de una señal 400 de sonido original que es un difono de transición /z/ a /z/. En la figura 4 también se muestra el espectro 402 de frecuencia de la señal 400 de sonido.

La señal 404 de sonido se obtiene a partir de la señal 400 de sonido según la presente invención mediante selección aleatoria de timbres de altura tonal obtenidos a partir de la señal 400 de sonido para las ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la señal 404 de sonido sintetizada. En el ejemplo considerado aquí, la señal 404 de sonido sintetizada es y = 5 veces más larga que la señal 400 de sonido original. En la figura 4 también se muestra el espectro 406 de frecuencia de la señal 404 de sonido. Como resulta evidente a partir de la señal 404 de sonido y su espectro 406 de frecuencia, las características de la señal 400 de sonido original se conservan en la señal sintetizada y no se introduce ninguna aberración. Como consecuencia, la señal 404 de sonido suena idéntica a la señal 400 de sonido pero 5 veces más larga.

La figura 5 muestra un diagrama en bloque de un sistema informático, tal como un sistema de síntesis de voz. El sistema 500 informático comprende un módulo 502 para almacenar una señal de sonido original. El módulo 504 sirve para introducir y almacenar información de clasificación del sonido para la señal de sonido original almacenada en el módulo 502. Por ejemplo, los periodos sonoros fijos se marcan con una "r" y los periodos sordos fijos se marcan con una "s" en la señal de sonido original. El módulo 506 sirve para crear ventanas de la señal de sonido original del módulo 502 con el fin de obtener timbres de altura tonal. Dependiendo de la clasificación de sonido se usa una ventana de coseno elevado o una de seno para periodos sonoros fijos o periodos sordos fijos, respectivamente. El módulo 508 sirve para determinar las ubicaciones j de timbre de altura tonal requeridas en el dominio de tiempo de la señal que va a sintetizarse. Con el fin de determinar las ubicaciones j de timbre de altura tonal requeridas se usa el parámetro de entrada "longitud y". El parámetro de entrada longitud y especifica el factor de multiplicación para la duración de la señal original. Además, es posible proporcionar una altura tonal que varía dinámicamente como un parámetro de entrada adicional para modificar la frecuencia fundamental además de o en vez de la duración.

El módulo 510 sirve para seleccionar timbres de altura tonal a partir del conjunto de timbres de altura tonal obtenidos a partir de la señal de sonido original. El módulo 510 se acopla a un generador 512 de números pseudoaleatorios. Para cada una de las ubicaciones de timbre de altura tonal requeridas en el dominio de la señal que va a sintetizarse, se genera un número pseudoaleatorio mediante un generador 512 de números pseudoaleatorios. Por medio de estas selecciones de número aleatorios de los timbres de altura tonal a partir del conjunto de timbres de altura tonal se realizan por el módulo 510 con el fin de proporcionar un timbre de altura tonal seleccionado aleatoriamente para cada una de las ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la señal que va a sintetizarse. El módulo 514 sirve para realizar una operación de solapado y adición en los timbres de altura tonal seleccionados en el dominio de tiempo de la señal que va a sintetizarse. De esta manera se obtiene la señal sintetizada que tiene la duración requerida.

Debe observarse que la presente invención puede aplicarse en regiones fijas. Por ejemplo, una región fija de este tipo puede ser una vocal o un sonido sonoro ruidoso tal como /z/. Por tanto, la invención no está restringida a sonidos "híbridos".

Además, debe observarse que la señal sintetizada no necesita tener la misma altura tonal (frecuencia fundamental) que la original. En algunas aplicaciones se requiere que cambie la altura tonal, por ejemplo con el fin de sintetizar canciones. Con el fin de conseguir este cambio de frecuencia fundamental en la señal sintetizada, las ubicaciones de periodos en la señal sintetizada se colocarán más próximas o más alejadas entre sí que en la original. Esto no cambia de otro modo el procedimiento de síntesis.

Además, debe observarse que la presente invención no está restringida a una determinada elección de una ventana. En vez de ventanas de coseno elevado o seno, pueden usarse otras ventanas tales como ventanas triangulares.

Claims

1. Método para sintetizar una primera señal de sonido basada en una segunda señal de sonido, teniendo la primera señal de sonido una primera frecuencia fundamental requerida y teniendo la segunda señal de sonido una segunda frecuencia fundamental, comprendiendo el método las etapas de:

-: determinar las ubicaciones del timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental,

-: proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental,

-: seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones del timbre de altura tonal requeridas, y

-: realizar una operación de solapado y de añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.

2. Método según la reivindicación 1, en el que la segunda señal de sonido es un sonido híbrido que comprende una componente ruidosa y una periódica.

3. Método según la reivindicación 1 ó 2, siendo la segunda señal de sonido una señal de sonido fricativo sonoro.

4. Método según una cualquiera de las reivindicaciones anteriores 1, 2 ó 3, siendo la segunda señal de sonido una señal de sonido sonoro y mediante el cual se usa un coseno elevado para crear ventanas en la segunda señal de sonido.

5. Método según una cualquiera de las reivindicaciones anteriores 1, 2 ó 3, siendo la segunda señal de sonido una señal de sonido sordo y mediante el cual se usa una ventana de seno para crear ventanas en la segunda señal de
sonido.

6. Método según una cualquiera de las reivindicaciones anteriores 1 a 5, teniendo la segunda señal de sonido periodos espectralmente similares, teniendo los periodos espectralmente similares básicamente el mismo contenido de información.

7. Método según una cualquiera de las reivindicaciones anteriores 1 a 6, siendo la primera frecuencia fundamental requerida y la segunda frecuencia fundamental sustancialmente las mismas.

8. Producto de programa informático, en particular, cuando se ejecuta en un ordenador, medio de almacenamiento digital, que comprende medios de programa para sintetizar una primera señal de sonido basada en una segunda señal de sonido, teniendo la primera señal de sonido una primera frecuencia fundamental requerida y teniendo la segunda señal de sonido una segunda frecuencia fundamental, estando los medios de programa adaptados para realizar almacenado en un las etapas de:

-: determinar ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental,

9. Sistema informático, en particular sistema de síntesis de voz, para sintetizar una primera señal de sonido basada en una segunda señal de sonido, teniendo la primera señal de sonido una primera frecuencia fundamental requerida y teniendo la segunda señal de sonido una segunda frecuencia fundamental, comprendiendo el sistema informático:

-: medios (508) para determinar ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones de timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental,

-: medios (506) para proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en las ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones de timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental,

-: medios (510, 512) para seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones de timbre de altura tonal requeridas, y

-: medios (514) para realizar una operación de solapado y añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.

10. Sistema informático según la reivindicación 9, que comprende además medios (504) para almacenar datos de clasificación de sonido, estando los medios para almacenar datos de clasificación de sonido adaptados para almacenar datos que son indicativos de un intervalo que contiene la segunda señal de sonido dentro de una señal de sonido original.