ES2204455T3 - Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion. - Google Patents

Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion.

Info

Publication number
ES2204455T3
ES2204455T3 ES00301625T ES00301625T ES2204455T3 ES 2204455 T3 ES2204455 T3 ES 2204455T3 ES 00301625 T ES00301625 T ES 00301625T ES 00301625 T ES00301625 T ES 00301625T ES 2204455 T3 ES2204455 T3 ES 2204455T3
Authority
ES
Spain
Prior art keywords
mentioned
vowel
region
units
nuclear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00301625T
Other languages
English (en)
Inventor
Nicholas Kibre
Steve Pearson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of ES2204455T3 publication Critical patent/ES2204455T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

Un método para identificar una región de solapado de unidades para la síntesis de habla por concatenación, que comprende: la definición de un modelo estadístico para representar las propiedades del habla que varían en el tiempo; la provisión de una pluralidad de datos temporales correspondientes a diferentes unidades de sonido que contienen la misma vocal, vocal que está formada por una región de trayectoria nuclear que representa el centro de la mencionada vocal con unos elementos de transición a ambos lados que representan los aspectos de la mencionada vocal que son específicos con respecto al fonema actual y a los sonidos que la preceden y que la siguen; la extracción de parámetros de la señal del habla de los mencionados datos temporales y el uso de los mencionados parámetros para entrenar al mencionado modelo estadístico; caracterizado por el uso del mencionado modelo estadístico entrenado para identificar una secuencia recurrente que sea uniforme en todas las instancias de la mencionada vocal en los mencionados datos temporales y la asociación de la mencionada secuencia recurrente con la región de trayectoria nuclear de la mencionada vocal; el uso de la mencionada secuencia recurrente para delimitar la región de solapado de unidades para la síntesis de habla por concatenación.

Description

Identificación de regiones de solapado de unidades para un sistema de síntesis de habla por concatenación.
Antecedentes y resumen de la invención
La presente invención se refiere a los sistemas de síntesis de habla por concatenación. En particular, la invención se refiere a un sistema y método para identificar las regiones limítrofes adecuadas en las unidades de habla concatenables. El sistema utiliza una base de datos de unidades de habla que se ha creado a partir de modelos de unidades de habla.
Hoy en día, existen diversas formas de síntesis de habla por concatenación que se diferencian en la forma en que las unidades de habla concatenables se almacenan y se procesan. Estas formas incluyen representaciones de formas de onda en el dominio del tiempo, representaciones en el dominio de la frecuencia (como representaciones de formantes o representaciones LPC, de codificación lineal predictiva) o alguna combinación de las anteriores.
Independientemente de la forma de la unidad de habla, la síntesis por concatenación se realiza identificando las regiones limítrofes adecuadas en los bordes de cada unidad, en las que las unidades se pueden solapar sin que se aprecien las uniones para sintetizar nuevas unidades de sonido, incluidas palabras y frases. Normalmente, las unidades de habla de los sistemas de síntesis por concatenación son difonos o semisílabas. Como tales, sus regiones limítrofes de solapado corresponden a las zonas intermedias de los fonemas. Así, por ejemplo, la palabra "tool" se puede ensamblar a partir de las unidades "tu" y "ul" procedentes de las palabras "tooth" y "fool". Lo que se debe determinar es la cantidad de las palabras de origen que se deben guardar en las unidades de habla, y en qué medida deben solaparse cuando se unen.
En trabajos anteriores sobre sistemas de texto a habla (TTS) por concatenación, se han empleado diversos métodos para determinar las regiones de solapado. En el diseño de estos sistemas, se toman en consideración tres factores:
\bullet
Concatenación sin uniones: El solapamiento de las unidades de habla debe proporcionar una transición entre una unidad y la siguiente suficientemente suave como para que no se oiga ningún cambio brusco. Las personas que escuchan no tienen que percibir que el habla que están oyendo se está componiendo de distintas partes.
\bullet
Transición sin distorsión: El solapamiento de las unidades de habla no debe introducir ninguna distorsión en sí mismo. Las unidades se deben combinar de tal modo que el resultado no se pueda distinguir del habla sin solapado.
\bullet
Carga mínima del sistema: Los requisitos informáticos y/o de almacenamiento que se imponen al sintetizador deben ser tan pequeños como sea posible.
En los sistemas actuales hay un equilibrio entre estos tres objetivos. No hay ningún sistema óptimo con respecto a los tres. Generalmente, los enfoques actuales se pueden agrupar según las dos elecciones que realizan para equilibrar estos objetivos. La primera es si se emplean regiones de solapado cortas o largas. Un solapado corto puede ser tan breve como un impulso glótico simple, mientras que un solapado largo puede comprender la mayor parte de un fonema completo. La segunda elección es si las regiones de solapado son uniformes o pueden variar contextualmente. En el primer caso, las porciones similares de cada unidad de sonido se solapan con las unidades precedentes y siguientes, independientemente de las unidades de que se trate. En el último caso, las porciones usadas se modifican cada vez que se usa la unidad, dependiendo de las unidades adyacentes.
El solapado largo tiene la ventaja de producir unas transiciones entre unidades en las que no se advierten las uniones, porque se dispone de más tiempo para eliminar las sutiles diferencias entre ellas. No obstante, los solapados largos tienden a crear distorsión. La distorsión es el resultado de mezclar señales distintas.
El solapado corto tiene la ventaja de minimizar la distorsión. Con un solapado corto es más fácil lograr que las porciones solapadas coincidan adecuadamente. Las regiones de solapamiento corto se pueden caracterizar aproximadamente como estados instantáneos (en contraposición a los estados dinámicamente variables). No obstante, el solapado corto sacrifica la concatenación sin uniones que se logra en los sistemas de solapado largo.
Si bien sería deseable tener la perfección de concatenación de las técnicas de solapado largo y la baja distorsión de las técnicas de solapado corto, hasta la fecha, ningún sistema lo ha logrado. Algunos de los sistemas actuales han experimentado con el uso de regiones de solapado variable en un esfuerzo de minimizar la distorsión en tanto que mantienen las ventajas del solapado largo. Sin embargo, estos sistemas requieren un procesamiento informático muy caro, razón por la que se hacen impracticables para muchas aplicaciones.
La EP-A-0 805 433 describe una segmentación automática de un corpus de habla para la síntesis de habla por concatenación basada en los Modelos ocultos de Markov (Hidden Markov Models).
La presente invención como reivindica en las reivindicaciones 1 y 8 emplea una técnica de modelización estadística para identificar las regiones de trayectoria nuclear de las unidades de sonido; y estas regiones son utilizadas entonces para identificar los límites óptimos de solapamiento. En la realización actualmente preferida, se realiza un modelo estadístico de los datos temporales utilizando Modelos ocultos de Markov que se construyen en la región del fonema de cada unidad de sonido y que luego se alinean óptimamente mediante el entrenamiento o la reestimación incorporada.
En la realización preferida, se considera que los fonemas inicial y final de cada unidad de sonido constan de tres elementos: la trayectoria nuclear, un elemento de transición que precede a la región nuclear y un elemento de transición posterior a la región nuclear. El proceso de modelización identifica óptimamente estos tres elementos, de tal manera que la región de trayectoria nuclear permanece relativamente uniforme en todos los casos en que aparece el fonema en cuestión.
Con la región de la trayectoria nuclear identificada, los límites inicial y final de la región nuclear sirven para delimitar la región de solapado que posteriormente se usa en la síntesis por concatenación.
La realización actualmente preferida emplea un modelo estadístico que tiene una estructura de datos para modelizar por separado la región de trayectoria nuclear de una vocal, un primer elemento de transición anterior a la región de trayectoria nuclear y un segundo elemento de transición posterior a la región de trayectoria nuclear. La estructura de datos puede usarse para descartar una porción del dato de la unidad de sonido correspondiente a esa porción de la unidad de sonido que no se usará durante el proceso de concatenación.
La invención tiene un número de ventajas y usos. Se puede usar como una base para la construcción automatizada de bases de datos de unidades de habla para sistemas de síntesis de habla por concatenación. Las técnicas automatizadas mejoran la calidad del habla sintetizada derivada y ahorran un importante volumen de trabajo en el proceso de recopilación para la base de datos.
Para comprender mejor la invención, sus objetos y sus ventajas, hay que referirse a la siguiente especificación y a los dibujos que la acompañan.
Breve descripción de los dibujos
La Figura 1 es un diagrama de bloques útil para comprender la técnica de síntesis de hablar por concatenación;
la Figura 2 es un diagrama de flujo que ilustra la manera en que se construyen las unidades de habla de acuerdo con la invención;
la Figura 3 es un diagrama de bloques que ilustra el proceso de síntesis de habla por concatenación utilizando la base de unidades de habla de la invención.
Descripción de la realización preferida
Para poder apreciar mejor las técnicas empleadas por la presente invención, se necesita un conocimiento básico de la síntesis por concatenación. La Figura 1 ilustra el proceso de síntesis por concatenación a través de un ejemplo en el cual las unidades de sonido (en este caso, sílabas) de dos palabras diferentes son concatenadas para formar una tercera palabra. Más concretamente, unidades de sonido de las palabras "suffice" y "tight" se combinan para sintetizar la palabra "fight".
Con referencia a la Figura 1, se extraen datos temporales de las palabras "suffice" y "tight", preferiblemente en las zonas limítrofes de las sílabas, para definir las unidades de sonido 10 y 12. En este caso, la unidad de sonido 10 a su vez subdividido como se muestra en 14 para aislar la porción necesaria pertinente para la concatenación.
Las unidades de habla se alinean entonces como se muestra en 16 de modo que haya una región de solapamiento definida por las respectivas porciones 18 y 20. Una vez alineados, los datos temporales se fusionan para sintetizar la nueva palabra, como se muestra en 22.
La presente invención presta una especial atención a la región de solapamiento 16, y en particular, a la optimización de las porciones 18 y 20 con el fin de que la transición de una unidad de sonido a la otra se realice sin uniones perceptibles y libre de distorsión.
La invención consigue este solapado óptimo mediante un procedimiento automatizado que busca la región de trayectoria nuclear dentro de la vocal, donde la señal del habla sigue un patrón dinámico que es, sin embargo, relativamente estable para diferentes ejemplos del mismo fonema.
El procedimiento para desarrollar estas regiones de solapamiento óptimo se muestra en la Figura 2. Se incluye una base de datos de unidades de habla 30. La base de datos puede contener datos temporales correspondientes a diferentes unidades de sonido que forman el sistema de síntesis por concatenación. En la realización actualmente preferida, las unidades de sonido se extraen de ejemplos de locuciones de palabras que se subdividen por los límites de las sílabas. En la Figura 2, se representan en forma diagramática dos unidades de habla 32 y 34. La unidad de sonido 32 se extrae de la palabra "tight" y la unidad de sonido 34 se extrae de la palabra "suffice".
Los datos temporales almacenados en la base de datos 30 primero se parametrizan como se indica en 36. En general, las unidades de sonido se pueden parametrizar utilizando cualquier metodología adecuada. La realización actualmente preferida realiza la parametrización mediante el análisis de formantes de la región del fonema de cada unidad de sonido. El análisis de formantes implica la extracción de las frecuencias de los formantes (la realización preferida extrae las frecuencias de formantes F1, F2 y F3). Si se desea, también se puede parametrizar el nivel de señal eficaz (RMS).
Si bien actualmente se prefiere el análisis de formantes, también se pueden usar otras formas de parametrización. Por ejemplo, la extracción de características del habla se puede realizar mediante procedimientos como la Codificación lineal predictiva (LPC) para identificar y extraer parámetros de características adecuados.
Una vez extraídos los parámetros adecuados para representar la región de fonema de cada unidad de sonido, se construye un modelo que representa la región de fonema de cada unidad de sonido, como se ilustra en 38. La realización actualmente preferida utiliza Modelos ocultos de Markov para este propósito. No obstante, en general, puede utilizarse cualquier modelo estadístico adecuado que represente el comportamiento de las variaciones en el tiempo o dinámicas. Se podría utilizar, por ejemplo, un modelo de red neural recurrente.
La realización actualmente preferida modeliza la región de fonema desglosándola en tres regiones intermedias diferentes. Estas regiones se ilustran en 40 e incluyen la región de trayectoria nuclear 42, el elemento de transición 44 anterior a la región nuclear y el elemento de transición 46 posterior a la región nuclear. La realización preferida utiliza Modelos ocultos de Markov diferentes para cada una de estas tres regiones. Se puede usar un modelo de tres estados para los elementos de transición anterior y posterior 44 y 46, mientras que para la región de trayectoria nuclear 42 puede ser adecuado un modelo de cuatro o cinco estados (en la Figura 2 se ilustra un modelos de cinco estados). El uso de un número mayor de estados para la región de trayectoria nuclear permite asegurar que el procedimiento siguiente convergerá en una trayectoria nuclear no nula y uniforme.
En un principio, los modelos de habla 40 se pueden llenar con valores iniciales medios. Posteriormente, se realiza una reestimación incorporada en estos modelos, como se indica en 48. La reestimación, en realidad, constituye el proceso de entrenamiento mediante el cual los modelos se optimizan para representar mejor las secuencias recurrentes en los datos temporales. La región de trayectoria nuclear 42 y los elementos de transición anterior y posterior se diseñan de tal modo que el proceso de entrenamiento construye modelos uniformes para cada región de fonema, basándose en los datos reales suministrados a través de la base de datos 30. A este respecto, la región nuclear representa el centro de la vocal, y los elementos de transición anterior y posterior representan los aspectos de la vocal que son específicos al fonema actual y los sonidos que le preceden y le siguen. Por ejemplo, en la unidad de sonido 32 extraída de la palabra "tight" el elemento de transición anterior representa la coloración dada al sonido vocálico "ay" por la consonante precedente "t".
El proceso de entrenamiento converge naturalmente en modelos con la alineación óptima. Para entender por qué esto es así, hay que tener en cuenta que la base de datos de unidades de habla 30 contiene por lo menos dos, y preferiblemente muchos, ejemplos de cada sonido vocálico. Por ejemplo, el sonido vocálico "ay" que aparece tanto en "tight" como "suffice" se representa por las unidades de sonido 32 y 34 en la Figura 2. El proceso de reestimación incorporada o el proceso de entrenamiento utiliza estas diferentes instancias del sonido "ay" para entrenar a los modelos iniciales de habla 40 y generar así los modelos de habla con alineación óptima 50. La porción del dato temporal que es uniforme en todos los ejemplos del sonido "ay" representa el núcleo o la región de trayectoria nuclear. Como se ilustra en 50, el sistema entrena por separado los elementos de transición anterior y posterior. Desde luego, estos serán diferentes dependiendo de los sonidos que precedan y sigan a la vocal.
Una vez que se han entrenado los modelos para generar modelos con alineación óptima, se establecen las zonas limítrofes a ambos lados de la región de trayectoria nuclear para determinar la posición de los límites de solapado para la síntesis por concatenación. Así, en el paso 52 se utilizan los modelos con alineación óptima para determinar los límites de solapado. La Figura 2 ilustra los límites de solapado A y B superpuestos sobre los datos de frecuencia de los formantes de las unidades de sonido derivadas de las palabras "suffice" y "tight".
Con los límites de solapado que se han identificado en el dato del parámetro (en este caso, el dato de frecuencia del formante), el sistema etiqueta entonces el dato temporal en el paso 54 para establecer los límites de solapado en el dato temporal. Si se desea, el dato etiquetado se puede almacenar en la base de datos 30 para su uso posterior en la síntesis de habla por concatenación.
Por medio de ilustración, la región de límite de solapado que se ilustra diagramáticamente como una plantilla de solapado 56 se muestra superpuesta sobre una representación diagramática del dato temporal de la palabra "suffice". Específicamente, la plantilla 56 se alinea como se ilustra en el apartado 58 en la última sílaba "...fice". Cuando se usa esta unidad de sonido para el habla por concatenación, la porción precedente 62 se puede descartar y la región de trayectoria nuclear 64 (definida por los límites A y B) sirve de región de transición por fundido gradual o de concatenación.
En ciertas realizaciones, puede ser necesario ajustar la duración de la región de solapado para realizar la síntesis por concatenación. Este proceso se ilustra en la Figura 3. El texto de entrada 70 es analizado y se seleccionan unidades de habla adecuadas de la base de datos 30 como se indica en el paso 72. Por ejemplo, si la palabra "fight" se suministra como texto de entrada, el sistema puede seleccionar unidades de habla previamente almacenadas extraídas de las palabras "tight" y "suffice".
La región de trayectoria nuclear de las respectivas unidades de habla pueden no abarcar necesariamente la misma cantidad de tiempo. Así, en el paso 74, la duración de las respectivas regiones de trayectoria nuclear se puede expandir o contraer para hacer coincidir sus duraciones. En la Figura 3 la región de trayectoria nuclear 64a se ha expandido a 64b. La unidad de sonido B se puede modificar de forma similar. La Figura 3 ilustra la región de trayectoria nuclear 64c que se comprime hasta formar la región 64d, para que las respectivas regiones de las dos piezas tengan la misma duración.
Una vez que se han ajustado las duraciones hasta que coincidan, los datos de las unidades de sonido se fusionan en el paso 76 para formar la nueva palabra concatenada como se indica en 78.
De lo anterior se verá que la invención proporciona un medio automatizado para construir bases de datos de habla para sistemas de síntesis de habla por concatenación. Al aislar las regiones de trayectoria nuclear, el sistema consigue un solapado sin uniones y sin distorsión. Ventajosamente, las regiones de solapamiento se pueden expandir o comprimir hasta un tamaño fijo común, lo que contribuye a simplificar el proceso de concatenación. En virtud del proceso de modelización estadística, la región de trayectoria nuclear representa una porción de la señal del habla en la que las propiedades acústicas del habla siguen un patrón dinámico que es relativamente estable para ejemplos diferentes de un mismo fonema. Esta estabilidad hace posible una transición sin uniones y sin distorsión.
Las unidades de habla generadas de acuerdo con los principios de la invención se pueden almacenar fácilmente en una base de datos para su posterior extracción y concatenación con una carga mínima en el sistema de procesamiento informático. Así, el sistema es ideal para desarrollar productos y aplicaciones de síntesis de habla en los que la potencia de procesamiento sea limitada. Además, el procedimiento automatizado de generación de unidades de sonido reduce considerablemente el tiempo y el trabajo necesarios para construir bases de datos de unidades de habla para aplicaciones especiales, como en los casos de creación de vocabularios especializados o de desarrollo de sistemas de síntesis de habla multilingües.

Claims (15)

1. Un método para identificar una región de solapado de unidades para la síntesis de habla por concatenación, que comprende:
la definición de un modelo estadístico para representar las propiedades del habla que varían en el tiempo;
la provisión de una pluralidad de datos temporales correspondientes a diferentes unidades de sonido que contienen la misma vocal, vocal que está formada por una región de trayectoria nuclear que representa el centro de la mencionada vocal con unos elementos de transición a ambos lados que representan los aspectos de la mencionada vocal que son específicos con respecto al fonema actual y a los sonidos que la preceden y que la siguen;
la extracción de parámetros de la señal del habla de los mencionados datos temporales y el uso de los mencionados parámetros para entrenar al mencionado modelo estadístico; caracterizado por el uso del mencionado modelo estadístico entrenado para identificar una secuencia recurrente que sea uniforme en todas las instancias de la mencionada vocal en los mencionados datos temporales y la asociación de la mencionada secuencia recurrente con la región de trayectoria nuclear de la mencionada vocal;
el uso de la mencionada secuencia recurrente para delimitar la región de solapado de unidades para la síntesis de habla por concatenación.
2. El método de la reivindicación 1 en el que el mencionado modelo estadístico es un Modelo oculto de Markov.
3. El método de la reivindicación 1 en el que el mencionado modelo estadístico es una red neural recurrente.
4. El método de la reivindicación 1 en el que los mencionados parámetros de la señal del habla incluyen formantes de habla.
5. El método de la reivindicación 1 en el que el mencionado modelo estadístico tiene una estructura de datos para realizar por separado la modelización de la región de estructura nuclear de una vocal y los elementos de transición situadas a ambos lados de la mencionada región de trayectoria nuclear.
6. El método de la reivindicación 1 en el que el paso del entrenamiento del mencionado modelo se lleva a cabo mediante la reestimación incorporada para generar un modelo convergente para el alineamiento de todo el conjunto de datos representado por los datos temporales.
7. El método de la reivindicación 1 en el que el mencionado modelo estadístico tiene una estructura de datos para modelizar por separado la región de trayectoria nuclear de una vocal, un primer elemento de transición anterior a la mencionada región de trayectoria nuclear y un segundo elemento de transición posterior a la mencionada región de trayectoria nuclear; y
el uso de la mencionada estructura de datos para descartar una porción de los mencionados datos temporales correspondientes a uno de los mencionados primer y segundo elementos de transición.
8. Un método para realizar la síntesis de habla por concatenación, que comprende:
la definición de un modelo estadístico para representar las propiedades del habla que varían en el tiempo;
la provisión de una pluralidad de datos temporales correspondientes a diferentes unidades de sonido que contienen la misma vocal, vocal que está formada por una región de trayectoria nuclear que representa el centro de dicha vocal con unos elementos de transición a ambos lados que representan los aspectos de dicha vocal que son específicos con respecto al fonema actual y a los sonidos que la preceden y que la siguen;
la extracción de parámetros de la señal del habla a partir de los mencionados datos temporales y el uso de los mencionados parámetros para entrenar el modelo estadístico;
caracterizado por
el uso del mencionado modelo estadístico entrenado para identificar una secuencia recurrente que sea uniforme en todas las instancias de la mencionada vocal en los mencionados datos temporales y la asociación de la mencionada secuencia recurrente con la región de trayectoria nuclear de la mencionada vocal;
el uso de la mencionada secuencia recurrente para delimitar una región de solapado de unidades para cada una de las mencionada unidades de sonido;
la síntesis por concatenación de una nueva unidad de sonido por solapamiento y fusión de los mencionados datos temporales correspondientes a dos de las mencionadas unidades diferentes basándose en la región de solapado de unidades de las mencionadas unidades de sonido.
9. El método de la reivindicación 8 que comprende además la alteración selectiva de la duración de al menos una de las mencionadas regiones de solapado de unidades para que coincida con la duración de otra de las mencionadas regiones de solapado de unidades antes de llevar a cabo el mencionado paso de fusión.
10. El método de la reivindicación 8 en el que el mencionado modelo estadístico es un Modelo oculto de Markov.
11. El método de la reivindicación 8 en el que el mencionado modelo estadístico es una red neural recurrente.
12. El método de la reivindicación 8 en el que los mencionados parámetros de la señal del habla incluyen formantes de habla.
13. El método de la reivindicación 8 en el que el mencionado modelo estadístico tiene una estructura de datos para realizar por separado la modelización de la región de estructura nuclear de una vocal y los elementos de transición situadas a ambos lados de la mencionada región de trayectoria nuclear.
14. El método de la reivindicación 8 en el que el paso del entrenamiento del mencionado modelo se lleva a cabo mediante la reestimación incorporada para generar un modelo convergente para el alineamiento de todo el conjunto de datos representado por dichos datos temporales.
15. El método de la reivindicación 8 en el que el mencionado modelo estadístico tiene una estructura de datos para modelizar por separado la región de trayectoria nuclear de una vocal, un primer elemento de transición anterior a la mencionada región de trayectoria nuclear y un segundo elemento de transición posterior a la mencionada región de trayectoria nuclear; y
el uso de la mencionada estructura de datos para descartar una porción de los mencionados datos temporales correspondientes a uno de los mencionados primer y segundo elementos de transición.
ES00301625T 1999-03-09 2000-02-29 Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion. Expired - Lifetime ES2204455T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/264,981 US6202049B1 (en) 1999-03-09 1999-03-09 Identification of unit overlap regions for concatenative speech synthesis system
US264981 1999-03-09

Publications (1)

Publication Number Publication Date
ES2204455T3 true ES2204455T3 (es) 2004-05-01

Family

ID=23008465

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00301625T Expired - Lifetime ES2204455T3 (es) 1999-03-09 2000-02-29 Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion.

Country Status (7)

Country Link
US (1) US6202049B1 (es)
EP (1) EP1035537B1 (es)
JP (1) JP3588302B2 (es)
CN (1) CN1158641C (es)
DE (1) DE60004420T2 (es)
ES (1) ES2204455T3 (es)
TW (1) TW466470B (es)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
EP1860645A3 (en) * 2002-03-29 2008-09-03 AT&T Corp. Automatic segmentation in speech synthesis
US7266497B2 (en) 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
DE60303688T2 (de) * 2002-09-17 2006-10-19 Koninklijke Philips Electronics N.V. Sprachsynthese durch verkettung von sprachsignalformen
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
US8583439B1 (en) * 2004-01-12 2013-11-12 Verizon Services Corp. Enhanced interface for use with speech recognition
US20070219799A1 (en) * 2005-12-30 2007-09-20 Inci Ozkaragoz Text to speech synthesis system using syllables as concatenative units
US9053753B2 (en) * 2006-11-09 2015-06-09 Broadcom Corporation Method and system for a flexible multiplexer and mixer
CN101178896B (zh) * 2007-12-06 2012-03-28 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
KR101214402B1 (ko) * 2008-05-30 2012-12-21 노키아 코포레이션 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
US8438122B1 (en) 2010-05-14 2013-05-07 Google Inc. Predictive analytic modeling platform
US8473431B1 (en) 2010-05-14 2013-06-25 Google Inc. Predictive analytic modeling platform
JP5699496B2 (ja) * 2010-09-06 2015-04-08 ヤマハ株式会社 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム
US8533222B2 (en) * 2011-01-26 2013-09-10 Google Inc. Updateable predictive analytical modeling
US8595154B2 (en) 2011-01-26 2013-11-26 Google Inc. Dynamic predictive modeling platform
US8533224B2 (en) * 2011-05-04 2013-09-10 Google Inc. Assessing accuracy of trained predictive models
US8489632B1 (en) * 2011-06-28 2013-07-16 Google Inc. Predictive model training management
JP5888013B2 (ja) 2012-01-25 2016-03-16 富士通株式会社 ニューラルネットワーク設計方法、プログラム及びデジタルアナログフィッティング方法
JP6524674B2 (ja) * 2015-01-22 2019-06-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6235763B2 (ja) * 2015-05-28 2017-11-22 三菱電機株式会社 入力表示装置、入力表示方法及び入力表示プログラム
CN106611604B (zh) * 2015-10-23 2020-04-14 中国科学院声学研究所 一种基于深度神经网络的自动语音叠音检测方法
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
JP6480644B1 (ja) 2016-03-23 2019-03-13 グーグル エルエルシー マルチチャネル音声認識のための適応的オーディオ強化
WO2017168252A1 (en) * 2016-03-31 2017-10-05 Maluuba Inc. Method and system for processing an input query
KR20210010505A (ko) 2018-05-14 2021-01-27 퀀텀-에스아이 인코포레이티드 상이한 데이터 모달리티들에 대한 통계적 모델들을 단일화하기 위한 시스템들 및 방법들
US11967436B2 (en) 2018-05-30 2024-04-23 Quantum-Si Incorporated Methods and apparatus for making biological predictions using a trained multi-modal statistical model
US11971963B2 (en) 2018-05-30 2024-04-30 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
KR20210018333A (ko) * 2018-05-30 2021-02-17 퀀텀-에스아이 인코포레이티드 트레이닝된 통계 모델을 사용하는 멀티 모달 예측을 위한 방법 및 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5751907A (en) 1995-08-16 1998-05-12 Lucent Technologies Inc. Speech synthesizer having an acoustic element database
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis

Also Published As

Publication number Publication date
DE60004420D1 (de) 2003-09-18
CN1266257A (zh) 2000-09-13
JP3588302B2 (ja) 2004-11-10
EP1035537B1 (en) 2003-08-13
TW466470B (en) 2001-12-01
CN1158641C (zh) 2004-07-21
JP2000310997A (ja) 2000-11-07
EP1035537A3 (en) 2002-04-17
US6202049B1 (en) 2001-03-13
EP1035537A2 (en) 2000-09-13
DE60004420T2 (de) 2004-06-09

Similar Documents

Publication Publication Date Title
ES2204455T3 (es) Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion.
US4802223A (en) Low data rate speech encoding employing syllable pitch patterns
ES2204071T3 (es) Sintetizador de habla basado en fomantes que utiliza una concatenacion de semisilabas con transicion independiente por fundido gradual en los dominios de los coeficientes de filtro y de fuentes.
US4696042A (en) Syllable boundary recognition from phonological linguistic unit string data
US7953600B2 (en) System and method for hybrid speech synthesis
US4799261A (en) Low data rate speech encoding employing syllable duration patterns
ES2243200T3 (es) Generacion y sintesis de plantillas de prosodia.
ES2261355T3 (es) Correspondencia de plantillas prosodicas para sistemas de conversion de texto en habla.
US4695962A (en) Speaking apparatus having differing speech modes for word and phrase synthesis
Collier et al. The role of intonation in speech perception
Swetha et al. Text to speech conversion
Post French tonal structures
Liang et al. A cross-language state mapping approach to bilingual (Mandarin-English) TTS
Kishore et al. Building Hindi and Telugu voices using festvox
Yoram et al. Language training system utilizing speech modification
Tepperman et al. Better nonnative intonation scores through prosodic theory.
Waghmare et al. Analysis of pitch and duration in speech synthesis using PSOLA
Trouvain et al. Speech synthesis: text-to-speech conversion and artificial voices
Pitrelli et al. Expressive speech synthesis using American English ToBI: questions and contrastive emphasis
Rusko et al. Slovak speech database for experiments and application building in unit-selection speech synthesis
Roy A technical guide to concatenative speech synthesis for hindi using festival
Gahlawat et al. Expressive speech synthesis system using unit selection
Deborah et al. Development of a Mobile Tourist Assistance for a Local Language
Jokisch et al. Creating an individual speech rhythm: a data driven approach
Juergen Text-to-Speech (TTS) Synthesis