ES2266908T3 - Metodo de sintesis para una señal de sonido fija. - Google Patents

Metodo de sintesis para una señal de sonido fija. Download PDF

Info

Publication number
ES2266908T3
ES2266908T3 ES03797393T ES03797393T ES2266908T3 ES 2266908 T3 ES2266908 T3 ES 2266908T3 ES 03797393 T ES03797393 T ES 03797393T ES 03797393 T ES03797393 T ES 03797393T ES 2266908 T3 ES2266908 T3 ES 2266908T3
Authority
ES
Spain
Prior art keywords
signal
sound
height
tone
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03797393T
Other languages
English (en)
Inventor
Ercan F. Gigi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2266908T3 publication Critical patent/ES2266908T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

Método para sintetizar una primera señal de sonido basada en una segunda señal de sonido, teniendo la primera señal de sonido una primera frecuencia fundamental requerida y teniendo la segunda señal de sonido una segunda frecuencia fundamental, comprendiendo el método las etapas de: determinar las ubicaciones del timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental, - proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental, - seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones del timbrede altura tonal requeridas, y - realizar una operación de solapado y de añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.

Description

Método de síntesis para una señal de sonido fija.
La presente invención se refiere al campo de sintetizar voz o música, y más particularmente sin limitación, al campo de la síntesis de voz (text to speech).
La función de un sistema de síntesis de voz (TTS) es sintetizar voz a partir de un texto genérico en un idioma dado. En la actualidad, los sistemas TTS se han puesto en funcionamiento práctico para muchas aplicaciones, tales como acceso a bases de datos a través de la red telefónica o ayuda a gente discapacitada. Un método para sintetizar voz es concatenando elementos de un conjunto grabado de subunidades de voz tales como semisílabas o polífonos. La mayoría de los sistemas comerciales con éxito emplean la concatenación de polífonos. Los polífonos comprenden grupos de dos (difonos), tres (trifonos) o más fonos y pueden determinarse a partir de palabras sin sentido, segmentando el agrupamiento deseado de fonos en regiones espectrales estables. En una síntesis basada en la concatenación, la conversación de la transición entre dos fonos adyacentes es crucial para garantizar la calidad de la voz sintetizada. Con la elección de polífonos como las subunidades básicas, la transmisión entre dos fonos adyacentes se conserva en las subunidades grabadas, y la concatenación se lleva a cabo entre fonos similares.
Sin embargo, antes de la síntesis, debe modificarse la duración y altura tonal de los fonos (pitch) con el fin de cumplir con las restricciones prosódicas de las nuevas palabras que contienen esos fonos. Este tratamiento es necesario para evitar la producción de una voz sintetizada con sonido monótono. En un sistema de TTS, un módulo prosódico realiza esta función. Para permitir las modificaciones de la duración y la altura tonal en las subunidades grabadas, muchos sistemas de TTS basados en concatenación emplean el modelo de síntesis "time-domain pitch-synchronous overlap-add" (añadir y solapar señales en el dominio temporal) (TD-PSOLA) (E. Moulines y F. Charpentier, "Pitch synchronous waveform processing techniques for text-to-speech síntesis using diphones", Speech Común., vol 9, págs. 453-467, 1990). Cuando se requiere que la señal que va a sintetizarse tenga una duración extendida esto se consigue repitiendo los timbres de altura tonal, que se han obtenido a partir de la señal original. Este procedimiento de repetición se ilustra en la figura 1. El eje 100 de tiempo pertenece al dominio de tiempo de la señal original. La señal original tiene una longitud de T expandiendo el intervalo de tiempo entre cero y T en el eje 100 de tiempo. Además, la señal original tiene una frecuencia f fundamental, que corresponde al periodo p; se obtienen timbres de altura tonal a partir de la señal original creando ventanas en la señal original por medio de ventanas 102. En el ejemplo considerado aquí las ventanas están separadas por el periodo p en el dominio del eje 100 de tiempo. De este modo las ubicaciones i de timbre de altura tonal se determinan sobre el eje 100 de tiempo. El eje 104 de tiempo pertenece al dominio de tiempo de la señal que va a sintetizarse. Se requiere que la señal que va a sintetizarse tenga una duración de yT, en la que y puede ser cualquier número. A continuación se determina un número de ubicaciones j de timbre de altura tonal en el eje 104 de tiempo. Al igual que en el eje 100 de tiempo, las ubicaciones j de timbre de altura tonal están separadas por el periodo p correspondiente a la frecuencia f fundamental de la señal original. Con el fin de aumentar la duración de la señal original se repite cada uno de los timbres de altura tonal originales obtenidos a partir de la señal original un número y de veces. Esto da como resultado varios intervalos 106, 108,… en el dominio del eje 104 de tiempo, mediante lo cual cada uno de los intervalos 106, 108,… está compuesto por repeticiones de timbres de altura tonal idénticos. Por ejemplo, el intervalo 106 contiene repeticiones del timbre de altura tonal obtenido a partir de la ubicación de timbre de altura tonal i = 1 a partir de la señal original en las ubicaciones de timbre de altura tonal j (i = 1, k = 1) a j (i = 1, k = y). Esto significa que el intervalo 106 contiene un número y de repeticiones del timbre de altura tonal obtenido a partir de la ubicación de timbre de altura tonal i = 1 en el eje 100 de tiempo de la señal original. Asimismo, el siguiente intervalo 108 contiene un número y de repeticiones del timbre de altura tonal obtenido a partir de la ubicación de timbre de altura tonal i = 2 a partir de la señal original. Como consecuencia, la señal sintetizada está compuesta por secuencias concatenadas de repeticiones de timbres de altura tonal.
Una desventaja común de tales métodos de PSOLA es que una manipulación de la duración extremada introduce transiciones audibles entre las secuencias en la señal. En particular, esto es un problema cuando el sonido original es un sonido híbrido como fricativos sonoros que tienen un componente tanto ruidosa como periódica. La repetición de timbres de altura tonal introduce periodicidad en las componentes ruidosas, lo que hace que la señal sintetizada no suene natural. El documento US 6 208 960, por ejemplo, propone una solución al problema de la periodicidad no natural de sonidos sordos.
La presente invención, tal como se define en las reivindicaciones independientes adjuntas, se propone por tanto proporcionar un método mejorado para sintetizar una señal de sonido, en particular para modificaciones de la duración extremadas, tales como para cantar.
La presente invención proporciona un método para sintetizar una señal de sonido basada en una señal original con el fin de manipular la duración de la señal original. En particular, la presente invención permite las modificaciones de altura tonal y duración extremada de la señal original sin aberraciones audibles. Esto es especialmente útil para sintetizar canciones en las que pueden producirse manipulaciones de la duración extremada del orden de 4 a 100 veces de la señal original.
En esencia, la presente invención se basa en la observación de que los métodos PSOLA de la técnica anterior introducen aberraciones en una señal sintetizada tras la manipulación de la duración debido a que la transición desde una cadena de timbres de altura tonal de repetición hasta la siguiente es audible. Este efecto se experimenta cuando se emplea un método de tipo PSOLA de la técnica anterior para manipulaciones de la duración extremada y es particularmente perjudicial para sonidos híbridos que contienen tanto una componente ruidosa como una periódica.
Según la invención, se seleccionan timbres de altura tonal aleatoriamente de la señal original para cada una de las ubicaciones de timbre de altura tonal necesarias de la señal que va a sintetizarse. De esta manera la introducción de periodicidad en las componentes ruidosas puede evitarse y se conserva la naturalidad del sonido original. Según una realización preferida de la invención, el sonido original es un fricativo sonoro que tiene tanto una componente ruidosa como una periódica. La aplicación de la presente invención para tales fricativos sonoros es especialmente beneficiosa.
Según una realización preferida adicional de la invención se usa un coseno elevado para crear ventanas en los fricativos sonoros. Para intervalos de sonido sordos se usa una ventana de seno que tiene la ventaja de que la envolvente de la señal total en el dominio de la potencia permanece casi constante. Al contrario que una señal periódica, cuando se añaden dos muestras de ruido, la suma total puede ser menor que el valor absoluto de cualquiera de las dos muestras. Esto es debido a que las señales (en su mayoría) no están en fase; la ventana de seno ajusta este efecto y elimina la modulación de envolvente.
Según una realización preferida adicional de la invención, la señal de sonido original tiene periodos que son espectralmente similares y que tienen básicamente el mismo contenido de información. Tales periodos, que son sonoros, se clasifican por un primer clasificador y tales periodos que son sordos se clasifican por medio de un segundo clasificador.
Según una realización preferida adicional de la invención la información de clasificación de la señal original se almacena en un sistema informático, tal como un sistema de texto a voz. Siendo los intervalos de la señal original, que se clasifican como periodos fijos sonoros o sin voz, espectralmente similares se tratan según la presente invención mediante lo cual se usa una ventana de coseno elevado para intervalos sonoros y se usa una ventana de seno para intervalos sin voz.
Las siguientes realizaciones preferidas de la invención se describen con mayor detalle haciendo referencia a los dibujos, en los que:
la figura 1 es ilustrativa de un método de tipo PSOLA de la técnica anterior,
la figura 2 es ilustrativa de un ejemplo para sintetizar una señal de sonido según una realización de la presente invención,
la figura 3 es ilustrativa de un diagrama de flujo de una realización de un método de la presente invención,
la figura 4 muestra un ejemplo de una señal original y de la señal sintetizada, y
la figura 5 es un diagrama en bloque de una realización preferida de un sistema informático.
La figura 2 muestra un ejemplo para sintetizar una señal basada en una señal original. El eje 200 de tiempo es ilustrativo del dominio de tiempo de la señal original. La señal original tiene una duración T y extiende el tiempo entre cero y T en el eje 200 de tiempo. La señal original tiene una frecuencia f fundamental que corresponde a un periodo p. El periodo p determina las ubicaciones i en el eje 200 de tiempo para crear ventanas de la señal origina por medio de una ventana 202. En el ejemplo considerado aquí, la señal original es un sonido híbrido sonoro de tal manera que se usa una ventana de coseno según la siguiente fórmula.
w[n] = 0,5 - 0,5 \cdot \cos \left(\frac{2 \pi \cdot(n + 0,5)}{m}\right),
\hskip0.5cm
0\leqn<m
En la relación previa, m es la longitud de la ventana y n es el índice de ejecución.
Cuando la señal original es una señal de sonido sordo se prefiere usar la siguiente ventana.
w[n] = \sin \left(\frac{2 \pi \cdot(n + 0,5)}{m}\right),
\hskip0.5cm
0\leqn<m
El dominio de tiempo de la señal que va a sintetizarse se ilustra por el eje 204 de tiempo. Se requiere que la señal que va a sintetizarse tenga una duración de yT, en la que y puede ser cualquier número, por ejemplo y = 4 o y = 6 o y = 20 o y = 50 o y = 100.
El periodo p también determina las ubicaciones j de timbre de altura tonal en el eje 204 de tiempo. Como en el eje 200 de tiempo, las ubicaciones de timbre de altura tonal están separadas por el periodo p. Para cada una de las ubicaciones j de timbre de altura tonal, se realiza una selección aleatoria de una ubicación i de timbre de altura tonal en el dominio de tiempo del eje 200 de tiempo. En el ejemplo considerado aquí hay un número de 6 timbres de altura tonal que se obtienen creando ventanas de la señal original en el dominio de tiempo del eje 200 de tiempo. Para seleccionar uno de estos timbres de altura tonal obtenidos para una ubicación j de timbre de altura tonal se genera un número aleatorio entre 1 y 6. De este modo se realiza una selección aleatoria a partir de los timbres de altura tonal disponibles en las ubicaciones de timbre de altura tonal i = 1 a i = 6. Este procedimiento se repite para todas las ubicaciones j de timbre de altura tonal necesarias en el eje 204 de tiempo. Por ejemplo un timbre de altura tonal para la ubicación de timbre de altura tonal j = 1 requerida se selecciona generando un número aleatorio entre 1 y 6. En el ejemplo considerado aquí, se obtiene el número 6 de manera que el timbre de altura tonal obtenido a partir de la ubicación de timbre de altura tonal i = 6 en el eje 200 de tiempo se selecciona para la ubicación de timbre de altura tonal j = 1 requerida en el eje 204 de tiempo. Asimismo, se genera un número aleatorio para la ubicación de timbre de altura tonal j = 2 requerida. El número aleatorio es 4 en este ejemplo de manera que el timbre de altura tonal en la ubicación de timbre de altura tonal i = 4 en el eje 200 de tiempo se selecciona para la ubicación de timbre de altura tonal j = 2 requerida. Este procedimiento se realiza para todas las ubicaciones de timbre de altura tonal requeridas j = 1 a j = z en el eje 204 de tiempo. Debido a la selección aleatoria de los timbres de altura tonal a partir del dominio de la señal original, se evitan los intervalos 106, 108,… (véase la figura 1). Como consecuencia no se introduce una aberración de ese tipo en la señal
sintetizada y la señal sintetizada suena de manera natural incluso para manipulaciones de la duración extremada.
La figura 3 muestra un diagrama de flujo, que es ilustrativo para este método. En la etapa 300 se proporciona una grabación de un sonido original. En la etapa 302 se identifican intervalos de sonido híbrido y se clasifican como sonoros o sordos en la grabación de sonido original. Esto puede realizarse manualmente por un experto humano o por medio de un programa informático, que analiza la señal original y/o su espectro de frecuencia para periodos fijos. Preferiblemente, se realiza el primer análisis por medio de un programa y un experto humano revisa la salida del programa. En la etapa 304 se obtienen timbres de altura tonal del sonido original por medio de creación de ventanas. La creación de ventanas se realiza por medio de ventanas que se colocan sincrónicamente con la frecuencia fundamental de la señal de sonido original, es decir, las ventanas están separadas por un periodo p de la señal de sonido original en el dominio de la señal de sonido original. En la etapa 306, se determinan las ubicaciones j de timbre de altura tonal para las que se requieren timbres de altura tonal con el fin de sintetizar la señal. De nuevo, las ubicaciones j de timbre de altura tonal requeridas están separadas por el periodo p. Alternativamente, las ubicaciones j de timbre de altura tonal pueden estar separadas por otro periodo q correspondiente a una frecuencia fundamental requerida superior o inferior de la señal que va a sintetizarse. De este modo pueden modificarse la duración y la frecuencia. En la etapa 308 se realiza una selección aleatoria de timbres de altura tonal para cada una de las ubicaciones j de timbre de altura tonal requeridas dentro del intervalo de sonido que se clasifica como híbrido. Para otros intervalos de sonido, puede o no emplearse un método de tipo PSOLA de la técnica anterior. En la etapa 301 se solapan y añaden los timbres de altura tonal en las ubicaciones j de timbre de altura tonal en el dominio de la señal que va a sintetizarse.
La figura 4 muestra un ejemplo de una señal 400 de sonido original que es un difono de transición /z/ a /z/. En la figura 4 también se muestra el espectro 402 de frecuencia de la señal 400 de sonido.
La señal 404 de sonido se obtiene a partir de la señal 400 de sonido según la presente invención mediante selección aleatoria de timbres de altura tonal obtenidos a partir de la señal 400 de sonido para las ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la señal 404 de sonido sintetizada. En el ejemplo considerado aquí, la señal 404 de sonido sintetizada es y = 5 veces más larga que la señal 400 de sonido original. En la figura 4 también se muestra el espectro 406 de frecuencia de la señal 404 de sonido. Como resulta evidente a partir de la señal 404 de sonido y su espectro 406 de frecuencia, las características de la señal 400 de sonido original se conservan en la señal sintetizada y no se introduce ninguna aberración. Como consecuencia, la señal 404 de sonido suena idéntica a la señal 400 de sonido pero 5 veces más larga.
La figura 5 muestra un diagrama en bloque de un sistema informático, tal como un sistema de síntesis de voz. El sistema 500 informático comprende un módulo 502 para almacenar una señal de sonido original. El módulo 504 sirve para introducir y almacenar información de clasificación del sonido para la señal de sonido original almacenada en el módulo 502. Por ejemplo, los periodos sonoros fijos se marcan con una "r" y los periodos sordos fijos se marcan con una "s" en la señal de sonido original. El módulo 506 sirve para crear ventanas de la señal de sonido original del módulo 502 con el fin de obtener timbres de altura tonal. Dependiendo de la clasificación de sonido se usa una ventana de coseno elevado o una de seno para periodos sonoros fijos o periodos sordos fijos, respectivamente. El módulo 508 sirve para determinar las ubicaciones j de timbre de altura tonal requeridas en el dominio de tiempo de la señal que va a sintetizarse. Con el fin de determinar las ubicaciones j de timbre de altura tonal requeridas se usa el parámetro de entrada "longitud y". El parámetro de entrada longitud y especifica el factor de multiplicación para la duración de la señal original. Además, es posible proporcionar una altura tonal que varía dinámicamente como un parámetro de entrada adicional para modificar la frecuencia fundamental además de o en vez de la duración.
El módulo 510 sirve para seleccionar timbres de altura tonal a partir del conjunto de timbres de altura tonal obtenidos a partir de la señal de sonido original. El módulo 510 se acopla a un generador 512 de números pseudoaleatorios. Para cada una de las ubicaciones de timbre de altura tonal requeridas en el dominio de la señal que va a sintetizarse, se genera un número pseudoaleatorio mediante un generador 512 de números pseudoaleatorios. Por medio de estas selecciones de número aleatorios de los timbres de altura tonal a partir del conjunto de timbres de altura tonal se realizan por el módulo 510 con el fin de proporcionar un timbre de altura tonal seleccionado aleatoriamente para cada una de las ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la señal que va a sintetizarse. El módulo 514 sirve para realizar una operación de solapado y adición en los timbres de altura tonal seleccionados en el dominio de tiempo de la señal que va a sintetizarse. De esta manera se obtiene la señal sintetizada que tiene la duración requerida.
Debe observarse que la presente invención puede aplicarse en regiones fijas. Por ejemplo, una región fija de este tipo puede ser una vocal o un sonido sonoro ruidoso tal como /z/. Por tanto, la invención no está restringida a sonidos "híbridos".
Además, debe observarse que la señal sintetizada no necesita tener la misma altura tonal (frecuencia fundamental) que la original. En algunas aplicaciones se requiere que cambie la altura tonal, por ejemplo con el fin de sintetizar canciones. Con el fin de conseguir este cambio de frecuencia fundamental en la señal sintetizada, las ubicaciones de periodos en la señal sintetizada se colocarán más próximas o más alejadas entre sí que en la original. Esto no cambia de otro modo el procedimiento de síntesis.
Además, debe observarse que la presente invención no está restringida a una determinada elección de una ventana. En vez de ventanas de coseno elevado o seno, pueden usarse otras ventanas tales como ventanas triangulares.

Claims (10)

1. Método para sintetizar una primera señal de sonido basada en una segunda señal de sonido, teniendo la primera señal de sonido una primera frecuencia fundamental requerida y teniendo la segunda señal de sonido una segunda frecuencia fundamental, comprendiendo el método las etapas de:
-
determinar las ubicaciones del timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental,
-
proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental,
-
seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones del timbre de altura tonal requeridas, y
-
realizar una operación de solapado y de añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.
2. Método según la reivindicación 1, en el que la segunda señal de sonido es un sonido híbrido que comprende una componente ruidosa y una periódica.
3. Método según la reivindicación 1 ó 2, siendo la segunda señal de sonido una señal de sonido fricativo sonoro.
4. Método según una cualquiera de las reivindicaciones anteriores 1, 2 ó 3, siendo la segunda señal de sonido una señal de sonido sonoro y mediante el cual se usa un coseno elevado para crear ventanas en la segunda señal de sonido.
5. Método según una cualquiera de las reivindicaciones anteriores 1, 2 ó 3, siendo la segunda señal de sonido una señal de sonido sordo y mediante el cual se usa una ventana de seno para crear ventanas en la segunda señal de
sonido.
6. Método según una cualquiera de las reivindicaciones anteriores 1 a 5, teniendo la segunda señal de sonido periodos espectralmente similares, teniendo los periodos espectralmente similares básicamente el mismo contenido de información.
7. Método según una cualquiera de las reivindicaciones anteriores 1 a 6, siendo la primera frecuencia fundamental requerida y la segunda frecuencia fundamental sustancialmente las mismas.
8. Producto de programa informático, en particular, cuando se ejecuta en un ordenador, medio de almacenamiento digital, que comprende medios de programa para sintetizar una primera señal de sonido basada en una segunda señal de sonido, teniendo la primera señal de sonido una primera frecuencia fundamental requerida y teniendo la segunda señal de sonido una segunda frecuencia fundamental, estando los medios de programa adaptados para realizar almacenado en un las etapas de:
-
determinar ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental,
-
proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental,
-
seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones del timbre de altura tonal requeridas, y
-
realizar una operación de solapado y de añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.
9. Sistema informático, en particular sistema de síntesis de voz, para sintetizar una primera señal de sonido basada en una segunda señal de sonido, teniendo la primera señal de sonido una primera frecuencia fundamental requerida y teniendo la segunda señal de sonido una segunda frecuencia fundamental, comprendiendo el sistema informático:
-
medios (508) para determinar ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones de timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental,
-
medios (506) para proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en las ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones de timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental,
-
medios (510, 512) para seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones de timbre de altura tonal requeridas, y
-
medios (514) para realizar una operación de solapado y añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.
10. Sistema informático según la reivindicación 9, que comprende además medios (504) para almacenar datos de clasificación de sonido, estando los medios para almacenar datos de clasificación de sonido adaptados para almacenar datos que son indicativos de un intervalo que contiene la segunda señal de sonido dentro de una señal de sonido original.
ES03797393T 2002-09-17 2003-08-05 Metodo de sintesis para una señal de sonido fija. Expired - Lifetime ES2266908T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02078848 2002-09-17
EP02078848 2002-09-17

Publications (1)

Publication Number Publication Date
ES2266908T3 true ES2266908T3 (es) 2007-03-01

Family

ID=32010977

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03797393T Expired - Lifetime ES2266908T3 (es) 2002-09-17 2003-08-05 Metodo de sintesis para una señal de sonido fija.

Country Status (11)

Country Link
US (1) US7558727B2 (es)
EP (1) EP1543497B1 (es)
JP (1) JP4490818B2 (es)
KR (1) KR101016978B1 (es)
CN (1) CN100343893C (es)
AT (1) ATE329346T1 (es)
AU (1) AU2003250410A1 (es)
DE (1) DE60305944T2 (es)
ES (1) ES2266908T3 (es)
TW (1) TWI307876B (es)
WO (1) WO2004027753A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805295B2 (en) * 2002-09-17 2010-09-28 Koninklijke Philips Electronics N.V. Method of synthesizing of an unvoiced speech signal
CN101796575B (zh) 2007-09-06 2012-07-18 富士通株式会社 声音信号生成方法以及声音信号生成装置
US9640172B2 (en) 2012-03-02 2017-05-02 Yamaha Corporation Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods
CN103295574B (zh) * 2012-03-02 2018-09-18 上海果壳电子有限公司 唱歌语音转换设备及其方法
CN103295577B (zh) * 2013-05-27 2015-09-02 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
CN108831437B (zh) * 2018-06-15 2020-09-01 百度在线网络技术(北京)有限公司 一种歌声生成方法、装置、终端和存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4344148A (en) * 1977-06-17 1982-08-10 Texas Instruments Incorporated System using digital filter for waveform or speech synthesis
FR2636163B1 (fr) 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
EP0527527B1 (en) 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
US5357048A (en) * 1992-10-08 1994-10-18 Sgroi John J MIDI sound designer with randomizer function
IT1266943B1 (it) 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JPH09198089A (ja) * 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US6170073B1 (en) 1996-03-29 2001-01-02 Nokia Mobile Phones (Uk) Limited Method and apparatus for error detection in digital communications
JP4040126B2 (ja) * 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6026356A (en) 1997-07-03 2000-02-15 Nortel Networks Corporation Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form
US6233550B1 (en) 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP3576840B2 (ja) * 1997-11-28 2004-10-13 松下電器産業株式会社 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
EP0976125B1 (en) * 1997-12-19 2004-03-24 Koninklijke Philips Electronics N.V. Removing periodicity from a lengthened audio signal
US6253171B1 (en) 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
US6829577B1 (en) * 2000-11-03 2004-12-07 International Business Machines Corporation Generating non-stationary additive noise for addition to synthesized speech
JP2002244693A (ja) * 2001-02-16 2002-08-30 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
US7251601B2 (en) * 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
CN1682281B (zh) * 2002-09-17 2010-05-26 皇家飞利浦电子股份有限公司 在语音合成中用于控制持续时间的方法
CN100388357C (zh) * 2002-09-17 2008-05-14 皇家飞利浦电子股份有限公司 使用语音波形并接的合成语音信号的方法和系统
US7805295B2 (en) * 2002-09-17 2010-09-28 Koninklijke Philips Electronics N.V. Method of synthesizing of an unvoiced speech signal

Also Published As

Publication number Publication date
US7558727B2 (en) 2009-07-07
KR20050057372A (ko) 2005-06-16
EP1543497A1 (en) 2005-06-22
WO2004027753A1 (en) 2004-04-01
ATE329346T1 (de) 2006-06-15
TW200425059A (en) 2004-11-16
AU2003250410A1 (en) 2004-04-08
US20060178873A1 (en) 2006-08-10
DE60305944T2 (de) 2007-02-01
TWI307876B (en) 2009-03-21
DE60305944D1 (de) 2006-07-20
CN1682278A (zh) 2005-10-12
EP1543497B1 (en) 2006-06-07
JP2005539262A (ja) 2005-12-22
KR101016978B1 (ko) 2011-02-25
JP4490818B2 (ja) 2010-06-30
CN100343893C (zh) 2007-10-17

Similar Documents

Publication Publication Date Title
US8326613B2 (en) Method of synthesizing of an unvoiced speech signal
US7249021B2 (en) Simultaneous plural-voice text-to-speech synthesizer
ES2266908T3 (es) Metodo de sintesis para una señal de sonido fija.
WO2011025532A1 (en) System and method for speech synthesis using frequency splicing
Macon et al. Concatenation-based midi-to-singing voice synthesis
JP2564641B2 (ja) 音声合成装置
JP4451665B2 (ja) 音声を合成する方法
US7529672B2 (en) Speech synthesis using concatenation of speech waveforms
KR101029493B1 (ko) 음성 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템
RU68691U1 (ru) Система преобразования голоса в звучания музыкальных инструментов
JPS5880699A (ja) 音声合成方式
Kumar Speech synthesis based on sinusoidal modeling
US20060074675A1 (en) Method of synthesizing creaky voice