ES2204455T3 - Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion. - Google Patents
Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion.Info
- Publication number
- ES2204455T3 ES2204455T3 ES00301625T ES00301625T ES2204455T3 ES 2204455 T3 ES2204455 T3 ES 2204455T3 ES 00301625 T ES00301625 T ES 00301625T ES 00301625 T ES00301625 T ES 00301625T ES 2204455 T3 ES2204455 T3 ES 2204455T3
- Authority
- ES
- Spain
- Prior art keywords
- mentioned
- vowel
- region
- units
- nuclear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 26
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000007704 transition Effects 0.000 claims abstract description 28
- 238000013179 statistical model Methods 0.000 claims abstract description 15
- 230000002123 temporal effect Effects 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims 2
- 230000004927 fusion Effects 0.000 claims 2
- 230000000306 recurrent effect Effects 0.000 claims 2
- 230000004075 alteration Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000543 intermediate Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Un método para identificar una región de solapado de unidades para la síntesis de habla por concatenación, que comprende: la definición de un modelo estadístico para representar las propiedades del habla que varían en el tiempo; la provisión de una pluralidad de datos temporales correspondientes a diferentes unidades de sonido que contienen la misma vocal, vocal que está formada por una región de trayectoria nuclear que representa el centro de la mencionada vocal con unos elementos de transición a ambos lados que representan los aspectos de la mencionada vocal que son específicos con respecto al fonema actual y a los sonidos que la preceden y que la siguen; la extracción de parámetros de la señal del habla de los mencionados datos temporales y el uso de los mencionados parámetros para entrenar al mencionado modelo estadístico; caracterizado por el uso del mencionado modelo estadístico entrenado para identificar una secuencia recurrente que sea uniforme en todas las instancias de la mencionada vocal en los mencionados datos temporales y la asociación de la mencionada secuencia recurrente con la región de trayectoria nuclear de la mencionada vocal; el uso de la mencionada secuencia recurrente para delimitar la región de solapado de unidades para la síntesis de habla por concatenación.
Description
Identificación de regiones de solapado de
unidades para un sistema de síntesis de habla por
concatenación.
La presente invención se refiere a los sistemas
de síntesis de habla por concatenación. En particular, la invención
se refiere a un sistema y método para identificar las regiones
limítrofes adecuadas en las unidades de habla concatenables. El
sistema utiliza una base de datos de unidades de habla que se ha
creado a partir de modelos de unidades de habla.
Hoy en día, existen diversas formas de síntesis
de habla por concatenación que se diferencian en la forma en que
las unidades de habla concatenables se almacenan y se procesan.
Estas formas incluyen representaciones de formas de onda en el
dominio del tiempo, representaciones en el dominio de la
frecuencia (como representaciones de formantes o representaciones
LPC, de codificación lineal predictiva) o alguna combinación de
las anteriores.
Independientemente de la forma de la unidad de
habla, la síntesis por concatenación se realiza identificando las
regiones limítrofes adecuadas en los bordes de cada unidad, en las
que las unidades se pueden solapar sin que se aprecien las uniones
para sintetizar nuevas unidades de sonido, incluidas palabras y
frases. Normalmente, las unidades de habla de los sistemas de
síntesis por concatenación son difonos o semisílabas. Como tales,
sus regiones limítrofes de solapado corresponden a las zonas
intermedias de los fonemas. Así, por ejemplo, la palabra
"tool" se puede ensamblar a partir de las unidades "tu"
y "ul" procedentes de las palabras "tooth" y "fool".
Lo que se debe determinar es la cantidad de las palabras de origen
que se deben guardar en las unidades de habla, y en qué medida
deben solaparse cuando se unen.
En trabajos anteriores sobre sistemas de texto a
habla (TTS) por concatenación, se han empleado diversos métodos
para determinar las regiones de solapado. En el diseño de estos
sistemas, se toman en consideración tres factores:
- \bullet
- Concatenación sin uniones: El solapamiento de las unidades de habla debe proporcionar una transición entre una unidad y la siguiente suficientemente suave como para que no se oiga ningún cambio brusco. Las personas que escuchan no tienen que percibir que el habla que están oyendo se está componiendo de distintas partes.
- \bullet
- Transición sin distorsión: El solapamiento de las unidades de habla no debe introducir ninguna distorsión en sí mismo. Las unidades se deben combinar de tal modo que el resultado no se pueda distinguir del habla sin solapado.
- \bullet
- Carga mínima del sistema: Los requisitos informáticos y/o de almacenamiento que se imponen al sintetizador deben ser tan pequeños como sea posible.
En los sistemas actuales hay un equilibrio entre
estos tres objetivos. No hay ningún sistema óptimo con respecto a
los tres. Generalmente, los enfoques actuales se pueden agrupar
según las dos elecciones que realizan para equilibrar estos
objetivos. La primera es si se emplean regiones de solapado cortas
o largas. Un solapado corto puede ser tan breve como un impulso
glótico simple, mientras que un solapado largo puede comprender la
mayor parte de un fonema completo. La segunda elección es si las
regiones de solapado son uniformes o pueden variar contextualmente.
En el primer caso, las porciones similares de cada unidad de
sonido se solapan con las unidades precedentes y siguientes,
independientemente de las unidades de que se trate. En el último
caso, las porciones usadas se modifican cada vez que se usa la
unidad, dependiendo de las unidades adyacentes.
El solapado largo tiene la ventaja de producir
unas transiciones entre unidades en las que no se advierten las
uniones, porque se dispone de más tiempo para eliminar las sutiles
diferencias entre ellas. No obstante, los solapados largos tienden a
crear distorsión. La distorsión es el resultado de mezclar señales
distintas.
El solapado corto tiene la ventaja de minimizar
la distorsión. Con un solapado corto es más fácil lograr que las
porciones solapadas coincidan adecuadamente. Las regiones de
solapamiento corto se pueden caracterizar aproximadamente como
estados instantáneos (en contraposición a los estados dinámicamente
variables). No obstante, el solapado corto sacrifica la
concatenación sin uniones que se logra en los sistemas de solapado
largo.
Si bien sería deseable tener la perfección de
concatenación de las técnicas de solapado largo y la baja
distorsión de las técnicas de solapado corto, hasta la fecha,
ningún sistema lo ha logrado. Algunos de los sistemas actuales han
experimentado con el uso de regiones de solapado variable en un
esfuerzo de minimizar la distorsión en tanto que mantienen las
ventajas del solapado largo. Sin embargo, estos sistemas requieren
un procesamiento informático muy caro, razón por la que se hacen
impracticables para muchas aplicaciones.
La EP-A-0 805 433
describe una segmentación automática de un corpus de habla para la
síntesis de habla por concatenación basada en los Modelos ocultos
de Markov (Hidden Markov Models).
La presente invención como reivindica en las
reivindicaciones 1 y 8 emplea una técnica de modelización
estadística para identificar las regiones de trayectoria nuclear
de las unidades de sonido; y estas regiones son utilizadas entonces
para identificar los límites óptimos de solapamiento. En la
realización actualmente preferida, se realiza un modelo
estadístico de los datos temporales utilizando Modelos ocultos de
Markov que se construyen en la región del fonema de cada unidad de
sonido y que luego se alinean óptimamente mediante el
entrenamiento o la reestimación incorporada.
En la realización preferida, se considera que los
fonemas inicial y final de cada unidad de sonido constan de tres
elementos: la trayectoria nuclear, un elemento de transición que
precede a la región nuclear y un elemento de transición posterior a
la región nuclear. El proceso de modelización identifica
óptimamente estos tres elementos, de tal manera que la región de
trayectoria nuclear permanece relativamente uniforme en todos los
casos en que aparece el fonema en cuestión.
Con la región de la trayectoria nuclear
identificada, los límites inicial y final de la región nuclear
sirven para delimitar la región de solapado que posteriormente se
usa en la síntesis por concatenación.
La realización actualmente preferida emplea un
modelo estadístico que tiene una estructura de datos para modelizar
por separado la región de trayectoria nuclear de una vocal, un
primer elemento de transición anterior a la región de trayectoria
nuclear y un segundo elemento de transición posterior a la región
de trayectoria nuclear. La estructura de datos puede usarse para
descartar una porción del dato de la unidad de sonido
correspondiente a esa porción de la unidad de sonido que no se usará
durante el proceso de concatenación.
La invención tiene un número de ventajas y usos.
Se puede usar como una base para la construcción automatizada de
bases de datos de unidades de habla para sistemas de síntesis de
habla por concatenación. Las técnicas automatizadas mejoran la
calidad del habla sintetizada derivada y ahorran un importante
volumen de trabajo en el proceso de recopilación para la base de
datos.
Para comprender mejor la invención, sus objetos y
sus ventajas, hay que referirse a la siguiente especificación y a
los dibujos que la acompañan.
La Figura 1 es un diagrama de bloques útil para
comprender la técnica de síntesis de hablar por concatenación;
la Figura 2 es un diagrama de flujo que ilustra
la manera en que se construyen las unidades de habla de acuerdo con
la invención;
la Figura 3 es un diagrama de bloques que ilustra
el proceso de síntesis de habla por concatenación utilizando la
base de unidades de habla de la invención.
Para poder apreciar mejor las técnicas empleadas
por la presente invención, se necesita un conocimiento básico de la
síntesis por concatenación. La Figura 1 ilustra el proceso de
síntesis por concatenación a través de un ejemplo en el cual las
unidades de sonido (en este caso, sílabas) de dos palabras
diferentes son concatenadas para formar una tercera palabra. Más
concretamente, unidades de sonido de las palabras "suffice" y
"tight" se combinan para sintetizar la palabra
"fight".
Con referencia a la Figura 1, se extraen datos
temporales de las palabras "suffice" y "tight",
preferiblemente en las zonas limítrofes de las sílabas, para
definir las unidades de sonido 10 y 12. En este caso, la unidad de
sonido 10 a su vez subdividido como se muestra en 14 para aislar
la porción necesaria pertinente para la concatenación.
Las unidades de habla se alinean entonces como se
muestra en 16 de modo que haya una región de solapamiento definida
por las respectivas porciones 18 y 20. Una vez alineados, los
datos temporales se fusionan para sintetizar la nueva palabra, como
se muestra en 22.
La presente invención presta una especial
atención a la región de solapamiento 16, y en particular, a la
optimización de las porciones 18 y 20 con el fin de que la
transición de una unidad de sonido a la otra se realice sin uniones
perceptibles y libre de distorsión.
La invención consigue este solapado óptimo
mediante un procedimiento automatizado que busca la región de
trayectoria nuclear dentro de la vocal, donde la señal del habla
sigue un patrón dinámico que es, sin embargo, relativamente estable
para diferentes ejemplos del mismo fonema.
El procedimiento para desarrollar estas regiones
de solapamiento óptimo se muestra en la Figura 2. Se incluye una
base de datos de unidades de habla 30. La base de datos puede
contener datos temporales correspondientes a diferentes unidades de
sonido que forman el sistema de síntesis por concatenación. En la
realización actualmente preferida, las unidades de sonido se
extraen de ejemplos de locuciones de palabras que se subdividen
por los límites de las sílabas. En la Figura 2, se representan en
forma diagramática dos unidades de habla 32 y 34. La unidad de
sonido 32 se extrae de la palabra "tight" y la unidad de
sonido 34 se extrae de la palabra "suffice".
Los datos temporales almacenados en la base de
datos 30 primero se parametrizan como se indica en 36. En general,
las unidades de sonido se pueden parametrizar utilizando cualquier
metodología adecuada. La realización actualmente preferida realiza
la parametrización mediante el análisis de formantes de la región
del fonema de cada unidad de sonido. El análisis de formantes
implica la extracción de las frecuencias de los formantes (la
realización preferida extrae las frecuencias de formantes F1, F2 y
F3). Si se desea, también se puede parametrizar el nivel de señal
eficaz (RMS).
Si bien actualmente se prefiere el análisis de
formantes, también se pueden usar otras formas de parametrización.
Por ejemplo, la extracción de características del habla se puede
realizar mediante procedimientos como la Codificación lineal
predictiva (LPC) para identificar y extraer parámetros de
características adecuados.
Una vez extraídos los parámetros adecuados para
representar la región de fonema de cada unidad de sonido, se
construye un modelo que representa la región de fonema de cada
unidad de sonido, como se ilustra en 38. La realización actualmente
preferida utiliza Modelos ocultos de Markov para este propósito. No
obstante, en general, puede utilizarse cualquier modelo
estadístico adecuado que represente el comportamiento de las
variaciones en el tiempo o dinámicas. Se podría utilizar, por
ejemplo, un modelo de red neural recurrente.
La realización actualmente preferida modeliza la
región de fonema desglosándola en tres regiones intermedias
diferentes. Estas regiones se ilustran en 40 e incluyen la región
de trayectoria nuclear 42, el elemento de transición 44 anterior a
la región nuclear y el elemento de transición 46 posterior a la
región nuclear. La realización preferida utiliza Modelos ocultos
de Markov diferentes para cada una de estas tres regiones. Se puede
usar un modelo de tres estados para los elementos de transición
anterior y posterior 44 y 46, mientras que para la región de
trayectoria nuclear 42 puede ser adecuado un modelo de cuatro o
cinco estados (en la Figura 2 se ilustra un modelos de cinco
estados). El uso de un número mayor de estados para la región de
trayectoria nuclear permite asegurar que el procedimiento
siguiente convergerá en una trayectoria nuclear no nula y
uniforme.
En un principio, los modelos de habla 40 se
pueden llenar con valores iniciales medios. Posteriormente, se
realiza una reestimación incorporada en estos modelos, como se
indica en 48. La reestimación, en realidad, constituye el proceso de
entrenamiento mediante el cual los modelos se optimizan para
representar mejor las secuencias recurrentes en los datos
temporales. La región de trayectoria nuclear 42 y los elementos de
transición anterior y posterior se diseñan de tal modo que el
proceso de entrenamiento construye modelos uniformes para cada
región de fonema, basándose en los datos reales suministrados a
través de la base de datos 30. A este respecto, la región nuclear
representa el centro de la vocal, y los elementos de transición
anterior y posterior representan los aspectos de la vocal que son
específicos al fonema actual y los sonidos que le preceden y le
siguen. Por ejemplo, en la unidad de sonido 32 extraída de la
palabra "tight" el elemento de transición anterior representa
la coloración dada al sonido vocálico "ay" por la consonante
precedente "t".
El proceso de entrenamiento converge naturalmente
en modelos con la alineación óptima. Para entender por qué esto es
así, hay que tener en cuenta que la base de datos de unidades de
habla 30 contiene por lo menos dos, y preferiblemente muchos,
ejemplos de cada sonido vocálico. Por ejemplo, el sonido vocálico
"ay" que aparece tanto en "tight" como "suffice" se
representa por las unidades de sonido 32 y 34 en la Figura 2. El
proceso de reestimación incorporada o el proceso de entrenamiento
utiliza estas diferentes instancias del sonido "ay" para
entrenar a los modelos iniciales de habla 40 y generar así los
modelos de habla con alineación óptima 50. La porción del dato
temporal que es uniforme en todos los ejemplos del sonido "ay"
representa el núcleo o la región de trayectoria nuclear. Como se
ilustra en 50, el sistema entrena por separado los elementos de
transición anterior y posterior. Desde luego, estos serán diferentes
dependiendo de los sonidos que precedan y sigan a la vocal.
Una vez que se han entrenado los modelos para
generar modelos con alineación óptima, se establecen las zonas
limítrofes a ambos lados de la región de trayectoria nuclear para
determinar la posición de los límites de solapado para la síntesis
por concatenación. Así, en el paso 52 se utilizan los modelos con
alineación óptima para determinar los límites de solapado. La
Figura 2 ilustra los límites de solapado A y B superpuestos sobre
los datos de frecuencia de los formantes de las unidades de sonido
derivadas de las palabras "suffice" y "tight".
Con los límites de solapado que se han
identificado en el dato del parámetro (en este caso, el dato de
frecuencia del formante), el sistema etiqueta entonces el dato
temporal en el paso 54 para establecer los límites de solapado en
el dato temporal. Si se desea, el dato etiquetado se puede
almacenar en la base de datos 30 para su uso posterior en la
síntesis de habla por concatenación.
Por medio de ilustración, la región de límite de
solapado que se ilustra diagramáticamente como una plantilla de
solapado 56 se muestra superpuesta sobre una representación
diagramática del dato temporal de la palabra "suffice".
Específicamente, la plantilla 56 se alinea como se ilustra en el
apartado 58 en la última sílaba "...fice". Cuando se usa esta
unidad de sonido para el habla por concatenación, la porción
precedente 62 se puede descartar y la región de trayectoria nuclear
64 (definida por los límites A y B) sirve de región de transición
por fundido gradual o de concatenación.
En ciertas realizaciones, puede ser necesario
ajustar la duración de la región de solapado para realizar la
síntesis por concatenación. Este proceso se ilustra en la Figura 3.
El texto de entrada 70 es analizado y se seleccionan unidades de
habla adecuadas de la base de datos 30 como se indica en el paso
72. Por ejemplo, si la palabra "fight" se suministra como
texto de entrada, el sistema puede seleccionar unidades de habla
previamente almacenadas extraídas de las palabras "tight" y
"suffice".
La región de trayectoria nuclear de las
respectivas unidades de habla pueden no abarcar necesariamente la
misma cantidad de tiempo. Así, en el paso 74, la duración de las
respectivas regiones de trayectoria nuclear se puede expandir o
contraer para hacer coincidir sus duraciones. En la Figura 3 la
región de trayectoria nuclear 64a se ha expandido a 64b. La unidad
de sonido B se puede modificar de forma similar. La Figura 3 ilustra
la región de trayectoria nuclear 64c que se comprime hasta formar
la región 64d, para que las respectivas regiones de las dos piezas
tengan la misma duración.
Una vez que se han ajustado las duraciones hasta
que coincidan, los datos de las unidades de sonido se fusionan en
el paso 76 para formar la nueva palabra concatenada como se indica
en 78.
De lo anterior se verá que la invención
proporciona un medio automatizado para construir bases de datos de
habla para sistemas de síntesis de habla por concatenación. Al
aislar las regiones de trayectoria nuclear, el sistema consigue un
solapado sin uniones y sin distorsión. Ventajosamente, las
regiones de solapamiento se pueden expandir o comprimir hasta un
tamaño fijo común, lo que contribuye a simplificar el proceso de
concatenación. En virtud del proceso de modelización estadística, la
región de trayectoria nuclear representa una porción de la señal
del habla en la que las propiedades acústicas del habla siguen un
patrón dinámico que es relativamente estable para ejemplos
diferentes de un mismo fonema. Esta estabilidad hace posible una
transición sin uniones y sin distorsión.
Las unidades de habla generadas de acuerdo con
los principios de la invención se pueden almacenar fácilmente en
una base de datos para su posterior extracción y concatenación con
una carga mínima en el sistema de procesamiento informático. Así,
el sistema es ideal para desarrollar productos y aplicaciones de
síntesis de habla en los que la potencia de procesamiento sea
limitada. Además, el procedimiento automatizado de generación de
unidades de sonido reduce considerablemente el tiempo y el trabajo
necesarios para construir bases de datos de unidades de habla para
aplicaciones especiales, como en los casos de creación de
vocabularios especializados o de desarrollo de sistemas de
síntesis de habla multilingües.
Claims (15)
1. Un método para identificar una región de
solapado de unidades para la síntesis de habla por concatenación,
que comprende:
- la definición de un modelo estadístico para representar las propiedades del habla que varían en el tiempo;
- la provisión de una pluralidad de datos temporales correspondientes a diferentes unidades de sonido que contienen la misma vocal, vocal que está formada por una región de trayectoria nuclear que representa el centro de la mencionada vocal con unos elementos de transición a ambos lados que representan los aspectos de la mencionada vocal que son específicos con respecto al fonema actual y a los sonidos que la preceden y que la siguen;
- la extracción de parámetros de la señal del habla de los mencionados datos temporales y el uso de los mencionados parámetros para entrenar al mencionado modelo estadístico; caracterizado por el uso del mencionado modelo estadístico entrenado para identificar una secuencia recurrente que sea uniforme en todas las instancias de la mencionada vocal en los mencionados datos temporales y la asociación de la mencionada secuencia recurrente con la región de trayectoria nuclear de la mencionada vocal;
- el uso de la mencionada secuencia recurrente para delimitar la región de solapado de unidades para la síntesis de habla por concatenación.
2. El método de la reivindicación 1 en el que el
mencionado modelo estadístico es un Modelo oculto de Markov.
3. El método de la reivindicación 1 en el que el
mencionado modelo estadístico es una red neural recurrente.
4. El método de la reivindicación 1 en el que los
mencionados parámetros de la señal del habla incluyen formantes de
habla.
5. El método de la reivindicación 1 en el que el
mencionado modelo estadístico tiene una estructura de datos para
realizar por separado la modelización de la región de estructura
nuclear de una vocal y los elementos de transición situadas a ambos
lados de la mencionada región de trayectoria nuclear.
6. El método de la reivindicación 1 en el que el
paso del entrenamiento del mencionado modelo se lleva a cabo
mediante la reestimación incorporada para generar un modelo
convergente para el alineamiento de todo el conjunto de datos
representado por los datos temporales.
7. El método de la reivindicación 1 en el que el
mencionado modelo estadístico tiene una estructura de datos para
modelizar por separado la región de trayectoria nuclear de una
vocal, un primer elemento de transición anterior a la mencionada
región de trayectoria nuclear y un segundo elemento de transición
posterior a la mencionada región de trayectoria nuclear; y
el uso de la mencionada estructura de datos para
descartar una porción de los mencionados datos temporales
correspondientes a uno de los mencionados primer y segundo
elementos de transición.
8. Un método para realizar la síntesis de habla
por concatenación, que comprende:
- la definición de un modelo estadístico para representar las propiedades del habla que varían en el tiempo;
- la provisión de una pluralidad de datos temporales correspondientes a diferentes unidades de sonido que contienen la misma vocal, vocal que está formada por una región de trayectoria nuclear que representa el centro de dicha vocal con unos elementos de transición a ambos lados que representan los aspectos de dicha vocal que son específicos con respecto al fonema actual y a los sonidos que la preceden y que la siguen;
- la extracción de parámetros de la señal del habla a partir de los mencionados datos temporales y el uso de los mencionados parámetros para entrenar el modelo estadístico;
caracterizado
por
el uso del mencionado modelo estadístico
entrenado para identificar una secuencia recurrente que sea
uniforme en todas las instancias de la mencionada vocal en los
mencionados datos temporales y la asociación de la mencionada
secuencia recurrente con la región de trayectoria nuclear de la
mencionada vocal;
el uso de la mencionada secuencia recurrente para
delimitar una región de solapado de unidades para cada una de las
mencionada unidades de sonido;
la síntesis por concatenación de una nueva unidad
de sonido por solapamiento y fusión de los mencionados datos
temporales correspondientes a dos de las mencionadas unidades
diferentes basándose en la región de solapado de unidades de las
mencionadas unidades de sonido.
9. El método de la reivindicación 8 que comprende
además la alteración selectiva de la duración de al menos una de
las mencionadas regiones de solapado de unidades para que
coincida con la duración de otra de las mencionadas regiones de
solapado de unidades antes de llevar a cabo el mencionado paso de
fusión.
10. El método de la reivindicación 8 en el que el
mencionado modelo estadístico es un Modelo oculto de Markov.
11. El método de la reivindicación 8 en el que el
mencionado modelo estadístico es una red neural recurrente.
12. El método de la reivindicación 8 en el que
los mencionados parámetros de la señal del habla incluyen
formantes de habla.
13. El método de la reivindicación 8 en el que el
mencionado modelo estadístico tiene una estructura de datos para
realizar por separado la modelización de la región de estructura
nuclear de una vocal y los elementos de transición situadas a ambos
lados de la mencionada región de trayectoria nuclear.
14. El método de la reivindicación 8 en el que el
paso del entrenamiento del mencionado modelo se lleva a cabo
mediante la reestimación incorporada para generar un modelo
convergente para el alineamiento de todo el conjunto de datos
representado por dichos datos temporales.
15. El método de la reivindicación 8 en el que el
mencionado modelo estadístico tiene una estructura de datos para
modelizar por separado la región de trayectoria nuclear de una
vocal, un primer elemento de transición anterior a la mencionada
región de trayectoria nuclear y un segundo elemento de transición
posterior a la mencionada región de trayectoria nuclear; y
el uso de la mencionada estructura de datos para
descartar una porción de los mencionados datos temporales
correspondientes a uno de los mencionados primer y segundo
elementos de transición.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/264,981 US6202049B1 (en) | 1999-03-09 | 1999-03-09 | Identification of unit overlap regions for concatenative speech synthesis system |
US264981 | 1999-03-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2204455T3 true ES2204455T3 (es) | 2004-05-01 |
Family
ID=23008465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00301625T Expired - Lifetime ES2204455T3 (es) | 1999-03-09 | 2000-02-29 | Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion. |
Country Status (7)
Country | Link |
---|---|
US (1) | US6202049B1 (es) |
EP (1) | EP1035537B1 (es) |
JP (1) | JP3588302B2 (es) |
CN (1) | CN1158641C (es) |
DE (1) | DE60004420T2 (es) |
ES (1) | ES2204455T3 (es) |
TW (1) | TW466470B (es) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
EP1860645A3 (en) * | 2002-03-29 | 2008-09-03 | AT&T Corp. | Automatic segmentation in speech synthesis |
US7266497B2 (en) | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
DE60303688T2 (de) * | 2002-09-17 | 2006-10-19 | Koninklijke Philips Electronics N.V. | Sprachsynthese durch verkettung von sprachsignalformen |
US7280967B2 (en) * | 2003-07-30 | 2007-10-09 | International Business Machines Corporation | Method for detecting misaligned phonetic units for a concatenative text-to-speech voice |
US8583439B1 (en) * | 2004-01-12 | 2013-11-12 | Verizon Services Corp. | Enhanced interface for use with speech recognition |
US20070219799A1 (en) * | 2005-12-30 | 2007-09-20 | Inci Ozkaragoz | Text to speech synthesis system using syllables as concatenative units |
US9053753B2 (en) * | 2006-11-09 | 2015-06-09 | Broadcom Corporation | Method and system for a flexible multiplexer and mixer |
CN101178896B (zh) * | 2007-12-06 | 2012-03-28 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
KR101214402B1 (ko) * | 2008-05-30 | 2012-12-21 | 노키아 코포레이션 | 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품 |
US8315871B2 (en) * | 2009-06-04 | 2012-11-20 | Microsoft Corporation | Hidden Markov model based text to speech systems employing rope-jumping algorithm |
US8438122B1 (en) | 2010-05-14 | 2013-05-07 | Google Inc. | Predictive analytic modeling platform |
US8473431B1 (en) | 2010-05-14 | 2013-06-25 | Google Inc. | Predictive analytic modeling platform |
JP5699496B2 (ja) * | 2010-09-06 | 2015-04-08 | ヤマハ株式会社 | 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム |
US8533222B2 (en) * | 2011-01-26 | 2013-09-10 | Google Inc. | Updateable predictive analytical modeling |
US8595154B2 (en) | 2011-01-26 | 2013-11-26 | Google Inc. | Dynamic predictive modeling platform |
US8533224B2 (en) * | 2011-05-04 | 2013-09-10 | Google Inc. | Assessing accuracy of trained predictive models |
US8489632B1 (en) * | 2011-06-28 | 2013-07-16 | Google Inc. | Predictive model training management |
JP5888013B2 (ja) | 2012-01-25 | 2016-03-16 | 富士通株式会社 | ニューラルネットワーク設計方法、プログラム及びデジタルアナログフィッティング方法 |
JP6524674B2 (ja) * | 2015-01-22 | 2019-06-05 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP6235763B2 (ja) * | 2015-05-28 | 2017-11-22 | 三菱電機株式会社 | 入力表示装置、入力表示方法及び入力表示プログラム |
CN106611604B (zh) * | 2015-10-23 | 2020-04-14 | 中国科学院声学研究所 | 一种基于深度神经网络的自动语音叠音检测方法 |
KR102313028B1 (ko) * | 2015-10-29 | 2021-10-13 | 삼성에스디에스 주식회사 | 음성 인식 시스템 및 방법 |
JP6480644B1 (ja) | 2016-03-23 | 2019-03-13 | グーグル エルエルシー | マルチチャネル音声認識のための適応的オーディオ強化 |
WO2017168252A1 (en) * | 2016-03-31 | 2017-10-05 | Maluuba Inc. | Method and system for processing an input query |
KR20210010505A (ko) | 2018-05-14 | 2021-01-27 | 퀀텀-에스아이 인코포레이티드 | 상이한 데이터 모달리티들에 대한 통계적 모델들을 단일화하기 위한 시스템들 및 방법들 |
US11967436B2 (en) | 2018-05-30 | 2024-04-23 | Quantum-Si Incorporated | Methods and apparatus for making biological predictions using a trained multi-modal statistical model |
US11971963B2 (en) | 2018-05-30 | 2024-04-30 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
KR20210018333A (ko) * | 2018-05-30 | 2021-02-17 | 퀀텀-에스아이 인코포레이티드 | 트레이닝된 통계 모델을 사용하는 멀티 모달 예측을 위한 방법 및 장치 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5400434A (en) * | 1990-09-04 | 1995-03-21 | Matsushita Electric Industrial Co., Ltd. | Voice source for synthetic speech system |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
US5751907A (en) | 1995-08-16 | 1998-05-12 | Lucent Technologies Inc. | Speech synthesizer having an acoustic element database |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
-
1999
- 1999-03-09 US US09/264,981 patent/US6202049B1/en not_active Expired - Lifetime
-
2000
- 2000-02-29 DE DE60004420T patent/DE60004420T2/de not_active Expired - Fee Related
- 2000-02-29 ES ES00301625T patent/ES2204455T3/es not_active Expired - Lifetime
- 2000-02-29 EP EP00301625A patent/EP1035537B1/en not_active Expired - Lifetime
- 2000-03-09 CN CNB001037595A patent/CN1158641C/zh not_active Expired - Fee Related
- 2000-03-09 JP JP2000065106A patent/JP3588302B2/ja not_active Expired - Fee Related
- 2000-04-10 TW TW089104179A patent/TW466470B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
DE60004420D1 (de) | 2003-09-18 |
CN1266257A (zh) | 2000-09-13 |
JP3588302B2 (ja) | 2004-11-10 |
EP1035537B1 (en) | 2003-08-13 |
TW466470B (en) | 2001-12-01 |
CN1158641C (zh) | 2004-07-21 |
JP2000310997A (ja) | 2000-11-07 |
EP1035537A3 (en) | 2002-04-17 |
US6202049B1 (en) | 2001-03-13 |
EP1035537A2 (en) | 2000-09-13 |
DE60004420T2 (de) | 2004-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2204455T3 (es) | Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion. | |
US4802223A (en) | Low data rate speech encoding employing syllable pitch patterns | |
ES2204071T3 (es) | Sintetizador de habla basado en fomantes que utiliza una concatenacion de semisilabas con transicion independiente por fundido gradual en los dominios de los coeficientes de filtro y de fuentes. | |
US4696042A (en) | Syllable boundary recognition from phonological linguistic unit string data | |
US7953600B2 (en) | System and method for hybrid speech synthesis | |
US4799261A (en) | Low data rate speech encoding employing syllable duration patterns | |
ES2243200T3 (es) | Generacion y sintesis de plantillas de prosodia. | |
ES2261355T3 (es) | Correspondencia de plantillas prosodicas para sistemas de conversion de texto en habla. | |
US4695962A (en) | Speaking apparatus having differing speech modes for word and phrase synthesis | |
Collier et al. | The role of intonation in speech perception | |
Swetha et al. | Text to speech conversion | |
Post | French tonal structures | |
Liang et al. | A cross-language state mapping approach to bilingual (Mandarin-English) TTS | |
Kishore et al. | Building Hindi and Telugu voices using festvox | |
Yoram et al. | Language training system utilizing speech modification | |
Tepperman et al. | Better nonnative intonation scores through prosodic theory. | |
Waghmare et al. | Analysis of pitch and duration in speech synthesis using PSOLA | |
Trouvain et al. | Speech synthesis: text-to-speech conversion and artificial voices | |
Pitrelli et al. | Expressive speech synthesis using American English ToBI: questions and contrastive emphasis | |
Rusko et al. | Slovak speech database for experiments and application building in unit-selection speech synthesis | |
Roy | A technical guide to concatenative speech synthesis for hindi using festival | |
Gahlawat et al. | Expressive speech synthesis system using unit selection | |
Deborah et al. | Development of a Mobile Tourist Assistance for a Local Language | |
Jokisch et al. | Creating an individual speech rhythm: a data driven approach | |
Juergen | Text-to-Speech (TTS) Synthesis |