ES2266908T3 - Metodo de sintesis para una señal de sonido fija. - Google Patents
Metodo de sintesis para una señal de sonido fija. Download PDFInfo
- Publication number
- ES2266908T3 ES2266908T3 ES03797393T ES03797393T ES2266908T3 ES 2266908 T3 ES2266908 T3 ES 2266908T3 ES 03797393 T ES03797393 T ES 03797393T ES 03797393 T ES03797393 T ES 03797393T ES 2266908 T3 ES2266908 T3 ES 2266908T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- sound
- height
- tone
- sound signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Abstract
Método para sintetizar una primera señal de sonido basada en una segunda señal de sonido, teniendo la primera señal de sonido una primera frecuencia fundamental requerida y teniendo la segunda señal de sonido una segunda frecuencia fundamental, comprendiendo el método las etapas de: determinar las ubicaciones del timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental, - proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental, - seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones del timbrede altura tonal requeridas, y - realizar una operación de solapado y de añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.
Description
Método de síntesis para una señal de sonido
fija.
La presente invención se refiere al campo de
sintetizar voz o música, y más particularmente sin limitación, al
campo de la síntesis de voz (text to speech).
La función de un sistema de síntesis de voz
(TTS) es sintetizar voz a partir de un texto genérico en un idioma
dado. En la actualidad, los sistemas TTS se han puesto en
funcionamiento práctico para muchas aplicaciones, tales como acceso
a bases de datos a través de la red telefónica o ayuda a gente
discapacitada. Un método para sintetizar voz es concatenando
elementos de un conjunto grabado de subunidades de voz tales como
semisílabas o polífonos. La mayoría de los sistemas comerciales con
éxito emplean la concatenación de polífonos. Los polífonos
comprenden grupos de dos (difonos), tres (trifonos) o más fonos y
pueden determinarse a partir de palabras sin sentido, segmentando
el agrupamiento deseado de fonos en regiones espectrales estables.
En una síntesis basada en la concatenación, la conversación de la
transición entre dos fonos adyacentes es crucial para garantizar la
calidad de la voz sintetizada. Con la elección de polífonos como las
subunidades básicas, la transmisión entre dos fonos adyacentes se
conserva en las subunidades grabadas, y la concatenación se lleva a
cabo entre fonos similares.
Sin embargo, antes de la síntesis, debe
modificarse la duración y altura tonal de los fonos (pitch) con el
fin de cumplir con las restricciones prosódicas de las nuevas
palabras que contienen esos fonos. Este tratamiento es necesario
para evitar la producción de una voz sintetizada con sonido
monótono. En un sistema de TTS, un módulo prosódico realiza esta
función. Para permitir las modificaciones de la duración y la altura
tonal en las subunidades grabadas, muchos sistemas de TTS basados
en concatenación emplean el modelo de síntesis
"time-domain pitch-synchronous
overlap-add" (añadir y solapar señales en el
dominio temporal) (TD-PSOLA) (E. Moulines y F.
Charpentier, "Pitch synchronous waveform processing techniques for
text-to-speech síntesis using
diphones", Speech Común., vol 9, págs. 453-467,
1990). Cuando se requiere que la señal que va a sintetizarse tenga
una duración extendida esto se consigue repitiendo los timbres de
altura tonal, que se han obtenido a partir de la señal original.
Este procedimiento de repetición se ilustra en la figura 1. El eje
100 de tiempo pertenece al dominio de tiempo de la señal original.
La señal original tiene una longitud de T expandiendo el intervalo
de tiempo entre cero y T en el eje 100 de tiempo. Además, la señal
original tiene una frecuencia f fundamental, que corresponde al
periodo p; se obtienen timbres de altura tonal a partir de la señal
original creando ventanas en la señal original por medio de
ventanas 102. En el ejemplo considerado aquí las ventanas están
separadas por el periodo p en el dominio del eje 100 de tiempo. De
este modo las ubicaciones i de timbre de altura tonal se determinan
sobre el eje 100 de tiempo. El eje 104 de tiempo pertenece al
dominio de tiempo de la señal que va a sintetizarse. Se requiere
que la señal que va a sintetizarse tenga una duración de yT, en la
que y puede ser cualquier número. A continuación se determina un
número de ubicaciones j de timbre de altura tonal en el eje 104 de
tiempo. Al igual que en el eje 100 de tiempo, las ubicaciones j de
timbre de altura tonal están separadas por el periodo p
correspondiente a la frecuencia f fundamental de la señal original.
Con el fin de aumentar la duración de la señal original se repite
cada uno de los timbres de altura tonal originales obtenidos a
partir de la señal original un número y de veces. Esto da como
resultado varios intervalos 106, 108,… en el dominio del eje 104 de
tiempo, mediante lo cual cada uno de los intervalos 106, 108,… está
compuesto por repeticiones de timbres de altura tonal idénticos.
Por ejemplo, el intervalo 106 contiene repeticiones del timbre de
altura tonal obtenido a partir de la ubicación de timbre de altura
tonal i = 1 a partir de la señal original en las ubicaciones de
timbre de altura tonal j (i = 1, k = 1) a j (i = 1, k = y). Esto
significa que el intervalo 106 contiene un número y de repeticiones
del timbre de altura tonal obtenido a partir de la ubicación de
timbre de altura tonal i = 1 en el eje 100 de tiempo de la señal
original. Asimismo, el siguiente intervalo 108 contiene un número y
de repeticiones del timbre de altura tonal obtenido a partir de la
ubicación de timbre de altura tonal i = 2 a partir de la señal
original. Como consecuencia, la señal sintetizada está compuesta
por secuencias concatenadas de repeticiones de timbres de altura
tonal.
Una desventaja común de tales métodos de PSOLA
es que una manipulación de la duración extremada introduce
transiciones audibles entre las secuencias en la señal. En
particular, esto es un problema cuando el sonido original es un
sonido híbrido como fricativos sonoros que tienen un componente
tanto ruidosa como periódica. La repetición de timbres de altura
tonal introduce periodicidad en las componentes ruidosas, lo que
hace que la señal sintetizada no suene natural. El documento US 6
208 960, por ejemplo, propone una solución al problema de la
periodicidad no natural de sonidos sordos.
La presente invención, tal como se define en las
reivindicaciones independientes adjuntas, se propone por tanto
proporcionar un método mejorado para sintetizar una señal de sonido,
en particular para modificaciones de la duración extremadas, tales
como para cantar.
La presente invención proporciona un método para
sintetizar una señal de sonido basada en una señal original con el
fin de manipular la duración de la señal original. En particular, la
presente invención permite las modificaciones de altura tonal y
duración extremada de la señal original sin aberraciones audibles.
Esto es especialmente útil para sintetizar canciones en las que
pueden producirse manipulaciones de la duración extremada del orden
de 4 a 100 veces de la señal original.
En esencia, la presente invención se basa en la
observación de que los métodos PSOLA de la técnica anterior
introducen aberraciones en una señal sintetizada tras la
manipulación de la duración debido a que la transición desde una
cadena de timbres de altura tonal de repetición hasta la siguiente
es audible. Este efecto se experimenta cuando se emplea un método
de tipo PSOLA de la técnica anterior para manipulaciones de la
duración extremada y es particularmente perjudicial para sonidos
híbridos que contienen tanto una componente ruidosa como una
periódica.
Según la invención, se seleccionan timbres de
altura tonal aleatoriamente de la señal original para cada una de
las ubicaciones de timbre de altura tonal necesarias de la señal que
va a sintetizarse. De esta manera la introducción de periodicidad
en las componentes ruidosas puede evitarse y se conserva la
naturalidad del sonido original. Según una realización preferida de
la invención, el sonido original es un fricativo sonoro que tiene
tanto una componente ruidosa como una periódica. La aplicación de la
presente invención para tales fricativos sonoros es especialmente
beneficiosa.
Según una realización preferida adicional de la
invención se usa un coseno elevado para crear ventanas en los
fricativos sonoros. Para intervalos de sonido sordos se usa una
ventana de seno que tiene la ventaja de que la envolvente de la
señal total en el dominio de la potencia permanece casi constante.
Al contrario que una señal periódica, cuando se añaden dos muestras
de ruido, la suma total puede ser menor que el valor absoluto de
cualquiera de las dos muestras. Esto es debido a que las señales (en
su mayoría) no están en fase; la ventana de seno ajusta este efecto
y elimina la modulación de envolvente.
Según una realización preferida adicional de la
invención, la señal de sonido original tiene periodos que son
espectralmente similares y que tienen básicamente el mismo contenido
de información. Tales periodos, que son sonoros, se clasifican por
un primer clasificador y tales periodos que son sordos se clasifican
por medio de un segundo clasificador.
Según una realización preferida adicional de la
invención la información de clasificación de la señal original se
almacena en un sistema informático, tal como un sistema de texto a
voz. Siendo los intervalos de la señal original, que se clasifican
como periodos fijos sonoros o sin voz, espectralmente similares se
tratan según la presente invención mediante lo cual se usa una
ventana de coseno elevado para intervalos sonoros y se usa una
ventana de seno para intervalos sin voz.
Las siguientes realizaciones preferidas de la
invención se describen con mayor detalle haciendo referencia a los
dibujos, en los que:
la figura 1 es ilustrativa de un método de tipo
PSOLA de la técnica anterior,
la figura 2 es ilustrativa de un ejemplo para
sintetizar una señal de sonido según una realización de la presente
invención,
la figura 3 es ilustrativa de un diagrama de
flujo de una realización de un método de la presente invención,
la figura 4 muestra un ejemplo de una señal
original y de la señal sintetizada, y
la figura 5 es un diagrama en bloque de una
realización preferida de un sistema informático.
La figura 2 muestra un ejemplo para sintetizar
una señal basada en una señal original. El eje 200 de tiempo es
ilustrativo del dominio de tiempo de la señal original. La señal
original tiene una duración T y extiende el tiempo entre cero y T
en el eje 200 de tiempo. La señal original tiene una frecuencia f
fundamental que corresponde a un periodo p. El periodo p determina
las ubicaciones i en el eje 200 de tiempo para crear ventanas de la
señal origina por medio de una ventana 202. En el ejemplo
considerado aquí, la señal original es un sonido híbrido sonoro de
tal manera que se usa una ventana de coseno según la siguiente
fórmula.
w[n] =
0,5 - 0,5 \cdot \cos \left(\frac{2 \pi \cdot(n +
0,5)}{m}\right),
\hskip0.5cm0\leqn<m
En la relación previa, m es la longitud de la
ventana y n es el índice de ejecución.
Cuando la señal original es una señal de sonido
sordo se prefiere usar la siguiente ventana.
w[n] =
\sin \left(\frac{2 \pi \cdot(n + 0,5)}{m}\right),
\hskip0.5cm0\leqn<m
El dominio de tiempo de la señal que va a
sintetizarse se ilustra por el eje 204 de tiempo. Se requiere que
la señal que va a sintetizarse tenga una duración de yT, en la que y
puede ser cualquier número, por ejemplo y = 4 o y = 6 o y = 20 o y
= 50 o y = 100.
El periodo p también determina las ubicaciones j
de timbre de altura tonal en el eje 204 de tiempo. Como en el eje
200 de tiempo, las ubicaciones de timbre de altura tonal están
separadas por el periodo p. Para cada una de las ubicaciones j de
timbre de altura tonal, se realiza una selección aleatoria de una
ubicación i de timbre de altura tonal en el dominio de tiempo del
eje 200 de tiempo. En el ejemplo considerado aquí hay un número de
6 timbres de altura tonal que se obtienen creando ventanas de la
señal original en el dominio de tiempo del eje 200 de tiempo. Para
seleccionar uno de estos timbres de altura tonal obtenidos para una
ubicación j de timbre de altura tonal se genera un número aleatorio
entre 1 y 6. De este modo se realiza una selección aleatoria a
partir de los timbres de altura tonal disponibles en las ubicaciones
de timbre de altura tonal i = 1 a i = 6. Este procedimiento se
repite para todas las ubicaciones j de timbre de altura tonal
necesarias en el eje 204 de tiempo. Por ejemplo un timbre de altura
tonal para la ubicación de timbre de altura tonal j = 1 requerida
se selecciona generando un número aleatorio entre 1 y 6. En el
ejemplo considerado aquí, se obtiene el número 6 de manera que el
timbre de altura tonal obtenido a partir de la ubicación de timbre
de altura tonal i = 6 en el eje 200 de tiempo se selecciona para la
ubicación de timbre de altura tonal j = 1 requerida en el eje 204
de tiempo. Asimismo, se genera un número aleatorio para la ubicación
de timbre de altura tonal j = 2 requerida. El número aleatorio es 4
en este ejemplo de manera que el timbre de altura tonal en la
ubicación de timbre de altura tonal i = 4 en el eje 200 de tiempo se
selecciona para la ubicación de timbre de altura tonal j = 2
requerida. Este procedimiento se realiza para todas las ubicaciones
de timbre de altura tonal requeridas j = 1 a j = z en el eje 204 de
tiempo. Debido a la selección aleatoria de los timbres de altura
tonal a partir del dominio de la señal original, se evitan los
intervalos 106, 108,… (véase la figura 1). Como consecuencia no se
introduce una aberración de ese tipo en la señal
sintetizada y la señal sintetizada suena de manera natural incluso para manipulaciones de la duración extremada.
sintetizada y la señal sintetizada suena de manera natural incluso para manipulaciones de la duración extremada.
La figura 3 muestra un diagrama de flujo, que es
ilustrativo para este método. En la etapa 300 se proporciona una
grabación de un sonido original. En la etapa 302 se identifican
intervalos de sonido híbrido y se clasifican como sonoros o sordos
en la grabación de sonido original. Esto puede realizarse
manualmente por un experto humano o por medio de un programa
informático, que analiza la señal original y/o su espectro de
frecuencia para periodos fijos. Preferiblemente, se realiza el
primer análisis por medio de un programa y un experto humano revisa
la salida del programa. En la etapa 304 se obtienen timbres de
altura tonal del sonido original por medio de creación de ventanas.
La creación de ventanas se realiza por medio de ventanas que se
colocan sincrónicamente con la frecuencia fundamental de la señal
de sonido original, es decir, las ventanas están separadas por un
periodo p de la señal de sonido original en el dominio de la señal
de sonido original. En la etapa 306, se determinan las ubicaciones
j de timbre de altura tonal para las que se requieren timbres de
altura tonal con el fin de sintetizar la señal. De nuevo, las
ubicaciones j de timbre de altura tonal requeridas están separadas
por el periodo p. Alternativamente, las ubicaciones j de timbre de
altura tonal pueden estar separadas por otro periodo q
correspondiente a una frecuencia fundamental requerida superior o
inferior de la señal que va a sintetizarse. De este modo pueden
modificarse la duración y la frecuencia. En la etapa 308 se realiza
una selección aleatoria de timbres de altura tonal para cada una de
las ubicaciones j de timbre de altura tonal requeridas dentro del
intervalo de sonido que se clasifica como híbrido. Para otros
intervalos de sonido, puede o no emplearse un método de tipo PSOLA
de la técnica anterior. En la etapa 301 se solapan y añaden los
timbres de altura tonal en las ubicaciones j de timbre de altura
tonal en el dominio de la señal que va a sintetizarse.
La figura 4 muestra un ejemplo de una señal 400
de sonido original que es un difono de transición /z/ a /z/. En la
figura 4 también se muestra el espectro 402 de frecuencia de la
señal 400 de sonido.
La señal 404 de sonido se obtiene a partir de la
señal 400 de sonido según la presente invención mediante selección
aleatoria de timbres de altura tonal obtenidos a partir de la señal
400 de sonido para las ubicaciones de timbre de altura tonal
requeridas en el dominio de tiempo de la señal 404 de sonido
sintetizada. En el ejemplo considerado aquí, la señal 404 de sonido
sintetizada es y = 5 veces más larga que la señal 400 de sonido
original. En la figura 4 también se muestra el espectro 406 de
frecuencia de la señal 404 de sonido. Como resulta evidente a
partir de la señal 404 de sonido y su espectro 406 de frecuencia,
las características de la señal 400 de sonido original se conservan
en la señal sintetizada y no se introduce ninguna aberración. Como
consecuencia, la señal 404 de sonido suena idéntica a la señal 400
de sonido pero 5 veces más larga.
La figura 5 muestra un diagrama en bloque de un
sistema informático, tal como un sistema de síntesis de voz. El
sistema 500 informático comprende un módulo 502 para almacenar una
señal de sonido original. El módulo 504 sirve para introducir y
almacenar información de clasificación del sonido para la señal de
sonido original almacenada en el módulo 502. Por ejemplo, los
periodos sonoros fijos se marcan con una "r" y los periodos
sordos fijos se marcan con una "s" en la señal de sonido
original. El módulo 506 sirve para crear ventanas de la señal de
sonido original del módulo 502 con el fin de obtener timbres de
altura tonal. Dependiendo de la clasificación de sonido se usa una
ventana de coseno elevado o una de seno para periodos sonoros fijos
o periodos sordos fijos, respectivamente. El módulo 508 sirve para
determinar las ubicaciones j de timbre de altura tonal requeridas
en el dominio de tiempo de la señal que va a sintetizarse. Con el
fin de determinar las ubicaciones j de timbre de altura tonal
requeridas se usa el parámetro de entrada "longitud y". El
parámetro de entrada longitud y especifica el factor de
multiplicación para la duración de la señal original. Además, es
posible proporcionar una altura tonal que varía dinámicamente como
un parámetro de entrada adicional para modificar la frecuencia
fundamental además de o en vez de la duración.
El módulo 510 sirve para seleccionar timbres de
altura tonal a partir del conjunto de timbres de altura tonal
obtenidos a partir de la señal de sonido original. El módulo 510 se
acopla a un generador 512 de números pseudoaleatorios. Para cada
una de las ubicaciones de timbre de altura tonal requeridas en el
dominio de la señal que va a sintetizarse, se genera un número
pseudoaleatorio mediante un generador 512 de números
pseudoaleatorios. Por medio de estas selecciones de número
aleatorios de los timbres de altura tonal a partir del conjunto de
timbres de altura tonal se realizan por el módulo 510 con el fin de
proporcionar un timbre de altura tonal seleccionado aleatoriamente
para cada una de las ubicaciones de timbre de altura tonal
requeridas en el dominio de tiempo de la señal que va a
sintetizarse. El módulo 514 sirve para realizar una operación de
solapado y adición en los timbres de altura tonal seleccionados en
el dominio de tiempo de la señal que va a sintetizarse. De esta
manera se obtiene la señal sintetizada que tiene la duración
requerida.
Debe observarse que la presente invención puede
aplicarse en regiones fijas. Por ejemplo, una región fija de este
tipo puede ser una vocal o un sonido sonoro ruidoso tal como /z/.
Por tanto, la invención no está restringida a sonidos
"híbridos".
Además, debe observarse que la señal sintetizada
no necesita tener la misma altura tonal (frecuencia fundamental)
que la original. En algunas aplicaciones se requiere que cambie la
altura tonal, por ejemplo con el fin de sintetizar canciones. Con
el fin de conseguir este cambio de frecuencia fundamental en la
señal sintetizada, las ubicaciones de periodos en la señal
sintetizada se colocarán más próximas o más alejadas entre sí que
en la original. Esto no cambia de otro modo el procedimiento de
síntesis.
Además, debe observarse que la presente
invención no está restringida a una determinada elección de una
ventana. En vez de ventanas de coseno elevado o seno, pueden usarse
otras ventanas tales como ventanas triangulares.
Claims (10)
1. Método para sintetizar una primera señal de
sonido basada en una segunda señal de sonido, teniendo la primera
señal de sonido una primera frecuencia fundamental requerida y
teniendo la segunda señal de sonido una segunda frecuencia
fundamental, comprendiendo el método las etapas de:
- -
- determinar las ubicaciones del timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental,
- -
- proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental,
- -
- seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones del timbre de altura tonal requeridas, y
- -
- realizar una operación de solapado y de añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.
2. Método según la reivindicación 1, en el que
la segunda señal de sonido es un sonido híbrido que comprende una
componente ruidosa y una periódica.
3. Método según la reivindicación 1 ó 2, siendo
la segunda señal de sonido una señal de sonido fricativo
sonoro.
4. Método según una cualquiera de las
reivindicaciones anteriores 1, 2 ó 3, siendo la segunda señal de
sonido una señal de sonido sonoro y mediante el cual se usa un
coseno elevado para crear ventanas en la segunda señal de
sonido.
5. Método según una cualquiera de las
reivindicaciones anteriores 1, 2 ó 3, siendo la segunda señal de
sonido una señal de sonido sordo y mediante el cual se usa una
ventana de seno para crear ventanas en la segunda señal de
sonido.
sonido.
6. Método según una cualquiera de las
reivindicaciones anteriores 1 a 5, teniendo la segunda señal de
sonido periodos espectralmente similares, teniendo los periodos
espectralmente similares básicamente el mismo contenido de
información.
7. Método según una cualquiera de las
reivindicaciones anteriores 1 a 6, siendo la primera frecuencia
fundamental requerida y la segunda frecuencia fundamental
sustancialmente las mismas.
8. Producto de programa informático, en
particular, cuando se ejecuta en un ordenador, medio de
almacenamiento digital, que comprende medios de programa para
sintetizar una primera señal de sonido basada en una segunda señal
de sonido, teniendo la primera señal de sonido una primera
frecuencia fundamental requerida y teniendo la segunda señal de
sonido una segunda frecuencia fundamental, estando los medios de
programa adaptados para realizar almacenado en un las etapas
de:
- -
- determinar ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental,
- -
- proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones del timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental,
- -
- seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones del timbre de altura tonal requeridas, y
- -
- realizar una operación de solapado y de añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.
9. Sistema informático, en particular sistema de
síntesis de voz, para sintetizar una primera señal de sonido basada
en una segunda señal de sonido, teniendo la primera señal de sonido
una primera frecuencia fundamental requerida y teniendo la segunda
señal de sonido una segunda frecuencia fundamental, comprendiendo el
sistema informático:
- -
- medios (508) para determinar ubicaciones de timbre de altura tonal requeridas en el dominio de tiempo de la primera señal de sonido, estando las ubicaciones de timbre de altura tonal distanciadas por un periodo de la primera frecuencia fundamental,
- -
- medios (506) para proporcionar timbres de altura tonal creando ventanas en la segunda señal de sonido en las ubicaciones de timbre de altura tonal en el dominio de tiempo de la segunda señal de sonido, estando las ubicaciones de timbre de altura tonal distanciadas por un periodo de la segunda frecuencia fundamental,
- -
- medios (510, 512) para seleccionar aleatoriamente un timbre de altura tonal de los timbres de altura tonal a partir de los timbres de altura tonal proporcionados para cada una de las ubicaciones de timbre de altura tonal requeridas, y
- -
- medios (514) para realizar una operación de solapado y añadido en los timbres de altura tonal seleccionados para sintetizar la primera señal.
10. Sistema informático según la reivindicación
9, que comprende además medios (504) para almacenar datos de
clasificación de sonido, estando los medios para almacenar datos de
clasificación de sonido adaptados para almacenar datos que son
indicativos de un intervalo que contiene la segunda señal de sonido
dentro de una señal de sonido original.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02078848 | 2002-09-17 | ||
EP02078848 | 2002-09-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2266908T3 true ES2266908T3 (es) | 2007-03-01 |
Family
ID=32010977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03797393T Expired - Lifetime ES2266908T3 (es) | 2002-09-17 | 2003-08-05 | Metodo de sintesis para una señal de sonido fija. |
Country Status (11)
Country | Link |
---|---|
US (1) | US7558727B2 (es) |
EP (1) | EP1543497B1 (es) |
JP (1) | JP4490818B2 (es) |
KR (1) | KR101016978B1 (es) |
CN (1) | CN100343893C (es) |
AT (1) | ATE329346T1 (es) |
AU (1) | AU2003250410A1 (es) |
DE (1) | DE60305944T2 (es) |
ES (1) | ES2266908T3 (es) |
TW (1) | TWI307876B (es) |
WO (1) | WO2004027753A1 (es) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805295B2 (en) * | 2002-09-17 | 2010-09-28 | Koninklijke Philips Electronics N.V. | Method of synthesizing of an unvoiced speech signal |
CN101796575B (zh) | 2007-09-06 | 2012-07-18 | 富士通株式会社 | 声音信号生成方法以及声音信号生成装置 |
US9640172B2 (en) | 2012-03-02 | 2017-05-02 | Yamaha Corporation | Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods |
CN103295574B (zh) * | 2012-03-02 | 2018-09-18 | 上海果壳电子有限公司 | 唱歌语音转换设备及其方法 |
CN103295577B (zh) * | 2013-05-27 | 2015-09-02 | 深圳广晟信源技术有限公司 | 用于音频信号编码的分析窗切换方法和装置 |
WO2017046887A1 (ja) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム |
CN108831437B (zh) * | 2018-06-15 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 一种歌声生成方法、装置、终端和存储介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4344148A (en) * | 1977-06-17 | 1982-08-10 | Texas Instruments Incorporated | System using digital filter for waveform or speech synthesis |
FR2636163B1 (fr) | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
EP0527527B1 (en) | 1991-08-09 | 1999-01-20 | Koninklijke Philips Electronics N.V. | Method and apparatus for manipulating pitch and duration of a physical audio signal |
US5357048A (en) * | 1992-10-08 | 1994-10-18 | Sgroi John J | MIDI sound designer with randomizer function |
IT1266943B1 (it) | 1994-09-29 | 1997-01-21 | Cselt Centro Studi Lab Telecom | Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda. |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
JP3707116B2 (ja) * | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
JPH09198089A (ja) * | 1996-01-19 | 1997-07-31 | Matsushita Electric Ind Co Ltd | 再生速度変換装置 |
US6170073B1 (en) | 1996-03-29 | 2001-01-02 | Nokia Mobile Phones (Uk) Limited | Method and apparatus for error detection in digital communications |
JP4040126B2 (ja) * | 1996-09-20 | 2008-01-30 | ソニー株式会社 | 音声復号化方法および装置 |
JPH10149199A (ja) * | 1996-11-19 | 1998-06-02 | Sony Corp | 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体 |
US6336092B1 (en) * | 1997-04-28 | 2002-01-01 | Ivl Technologies Ltd | Targeted vocal transformation |
US6026356A (en) | 1997-07-03 | 2000-02-15 | Nortel Networks Corporation | Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form |
US6233550B1 (en) | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
JP3576840B2 (ja) * | 1997-11-28 | 2004-10-13 | 松下電器産業株式会社 | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 |
EP0976125B1 (en) * | 1997-12-19 | 2004-03-24 | Koninklijke Philips Electronics N.V. | Removing periodicity from a lengthened audio signal |
US6253171B1 (en) | 1999-02-23 | 2001-06-26 | Comsat Corporation | Method of determining the voicing probability of speech signals |
US6829577B1 (en) * | 2000-11-03 | 2004-12-07 | International Business Machines Corporation | Generating non-stationary additive noise for addition to synthesized speech |
JP2002244693A (ja) * | 2001-02-16 | 2002-08-30 | Matsushita Electric Ind Co Ltd | 音声合成装置および音声合成方法 |
US7251601B2 (en) * | 2001-03-26 | 2007-07-31 | Kabushiki Kaisha Toshiba | Speech synthesis method and speech synthesizer |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
CN1682281B (zh) * | 2002-09-17 | 2010-05-26 | 皇家飞利浦电子股份有限公司 | 在语音合成中用于控制持续时间的方法 |
CN100388357C (zh) * | 2002-09-17 | 2008-05-14 | 皇家飞利浦电子股份有限公司 | 使用语音波形并接的合成语音信号的方法和系统 |
US7805295B2 (en) * | 2002-09-17 | 2010-09-28 | Koninklijke Philips Electronics N.V. | Method of synthesizing of an unvoiced speech signal |
-
2003
- 2003-08-05 JP JP2004537354A patent/JP4490818B2/ja not_active Expired - Lifetime
- 2003-08-05 EP EP03797393A patent/EP1543497B1/en not_active Expired - Lifetime
- 2003-08-05 WO PCT/IB2003/003381 patent/WO2004027753A1/en active IP Right Grant
- 2003-08-05 CN CNB038220288A patent/CN100343893C/zh not_active Expired - Fee Related
- 2003-08-05 KR KR1020057004512A patent/KR101016978B1/ko active IP Right Grant
- 2003-08-05 ES ES03797393T patent/ES2266908T3/es not_active Expired - Lifetime
- 2003-08-05 AU AU2003250410A patent/AU2003250410A1/en not_active Abandoned
- 2003-08-05 AT AT03797393T patent/ATE329346T1/de not_active IP Right Cessation
- 2003-08-05 DE DE60305944T patent/DE60305944T2/de not_active Expired - Lifetime
- 2003-08-05 US US10/527,945 patent/US7558727B2/en active Active
- 2003-09-12 TW TW092125245A patent/TWI307876B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US7558727B2 (en) | 2009-07-07 |
KR20050057372A (ko) | 2005-06-16 |
EP1543497A1 (en) | 2005-06-22 |
WO2004027753A1 (en) | 2004-04-01 |
ATE329346T1 (de) | 2006-06-15 |
TW200425059A (en) | 2004-11-16 |
AU2003250410A1 (en) | 2004-04-08 |
US20060178873A1 (en) | 2006-08-10 |
DE60305944T2 (de) | 2007-02-01 |
TWI307876B (en) | 2009-03-21 |
DE60305944D1 (de) | 2006-07-20 |
CN1682278A (zh) | 2005-10-12 |
EP1543497B1 (en) | 2006-06-07 |
JP2005539262A (ja) | 2005-12-22 |
KR101016978B1 (ko) | 2011-02-25 |
JP4490818B2 (ja) | 2010-06-30 |
CN100343893C (zh) | 2007-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8326613B2 (en) | Method of synthesizing of an unvoiced speech signal | |
US7249021B2 (en) | Simultaneous plural-voice text-to-speech synthesizer | |
ES2266908T3 (es) | Metodo de sintesis para una señal de sonido fija. | |
WO2011025532A1 (en) | System and method for speech synthesis using frequency splicing | |
Macon et al. | Concatenation-based midi-to-singing voice synthesis | |
JP2564641B2 (ja) | 音声合成装置 | |
JP4451665B2 (ja) | 音声を合成する方法 | |
US7529672B2 (en) | Speech synthesis using concatenation of speech waveforms | |
KR101029493B1 (ko) | 음성 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템 | |
RU68691U1 (ru) | Система преобразования голоса в звучания музыкальных инструментов | |
JPS5880699A (ja) | 音声合成方式 | |
Kumar | Speech synthesis based on sinusoidal modeling | |
US20060074675A1 (en) | Method of synthesizing creaky voice |