ES2204455T3

ES2204455T3 - Identificacion de regiones de solapado de unidades para un sistema de sintesis de habla por concatenacion.

Info

Publication number: ES2204455T3
Application number: ES00301625T
Authority: ES
Inventors: Nicholas Kibre; Steve Pearson
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-03-09
Filing date: 2000-02-29
Publication date: 2004-05-01
Anticipated expiration: 2020-02-29
Also published as: DE60004420D1; CN1266257A; JP3588302B2; EP1035537B1; TW466470B; CN1158641C; JP2000310997A; EP1035537A3; US6202049B1; EP1035537A2; DE60004420T2

Abstract

Un método para identificar una región de solapado de unidades para la síntesis de habla por concatenación, que comprende: la definición de un modelo estadístico para representar las propiedades del habla que varían en el tiempo; la provisión de una pluralidad de datos temporales correspondientes a diferentes unidades de sonido que contienen la misma vocal, vocal que está formada por una región de trayectoria nuclear que representa el centro de la mencionada vocal con unos elementos de transición a ambos lados que representan los aspectos de la mencionada vocal que son específicos con respecto al fonema actual y a los sonidos que la preceden y que la siguen; la extracción de parámetros de la señal del habla de los mencionados datos temporales y el uso de los mencionados parámetros para entrenar al mencionado modelo estadístico; caracterizado por el uso del mencionado modelo estadístico entrenado para identificar una secuencia recurrente que sea uniforme en todas las instancias de la mencionada vocal en los mencionados datos temporales y la asociación de la mencionada secuencia recurrente con la región de trayectoria nuclear de la mencionada vocal; el uso de la mencionada secuencia recurrente para delimitar la región de solapado de unidades para la síntesis de habla por concatenación.

Description

Identificación de regiones de solapado de unidades para un sistema de síntesis de habla por concatenación.

Antecedentes y resumen de la invención

La presente invención se refiere a los sistemas de síntesis de habla por concatenación. En particular, la invención se refiere a un sistema y método para identificar las regiones limítrofes adecuadas en las unidades de habla concatenables. El sistema utiliza una base de datos de unidades de habla que se ha creado a partir de modelos de unidades de habla.

Hoy en día, existen diversas formas de síntesis de habla por concatenación que se diferencian en la forma en que las unidades de habla concatenables se almacenan y se procesan. Estas formas incluyen representaciones de formas de onda en el dominio del tiempo, representaciones en el dominio de la frecuencia (como representaciones de formantes o representaciones LPC, de codificación lineal predictiva) o alguna combinación de las anteriores.

Independientemente de la forma de la unidad de habla, la síntesis por concatenación se realiza identificando las regiones limítrofes adecuadas en los bordes de cada unidad, en las que las unidades se pueden solapar sin que se aprecien las uniones para sintetizar nuevas unidades de sonido, incluidas palabras y frases. Normalmente, las unidades de habla de los sistemas de síntesis por concatenación son difonos o semisílabas. Como tales, sus regiones limítrofes de solapado corresponden a las zonas intermedias de los fonemas. Así, por ejemplo, la palabra "tool" se puede ensamblar a partir de las unidades "tu" y "ul" procedentes de las palabras "tooth" y "fool". Lo que se debe determinar es la cantidad de las palabras de origen que se deben guardar en las unidades de habla, y en qué medida deben solaparse cuando se unen.

En trabajos anteriores sobre sistemas de texto a habla (TTS) por concatenación, se han empleado diversos métodos para determinar las regiones de solapado. En el diseño de estos sistemas, se toman en consideración tres factores:

\bullet: Concatenación sin uniones: El solapamiento de las unidades de habla debe proporcionar una transición entre una unidad y la siguiente suficientemente suave como para que no se oiga ningún cambio brusco. Las personas que escuchan no tienen que percibir que el habla que están oyendo se está componiendo de distintas partes.

\bullet: Transición sin distorsión: El solapamiento de las unidades de habla no debe introducir ninguna distorsión en sí mismo. Las unidades se deben combinar de tal modo que el resultado no se pueda distinguir del habla sin solapado.

\bullet: Carga mínima del sistema: Los requisitos informáticos y/o de almacenamiento que se imponen al sintetizador deben ser tan pequeños como sea posible.

En los sistemas actuales hay un equilibrio entre estos tres objetivos. No hay ningún sistema óptimo con respecto a los tres. Generalmente, los enfoques actuales se pueden agrupar según las dos elecciones que realizan para equilibrar estos objetivos. La primera es si se emplean regiones de solapado cortas o largas. Un solapado corto puede ser tan breve como un impulso glótico simple, mientras que un solapado largo puede comprender la mayor parte de un fonema completo. La segunda elección es si las regiones de solapado son uniformes o pueden variar contextualmente. En el primer caso, las porciones similares de cada unidad de sonido se solapan con las unidades precedentes y siguientes, independientemente de las unidades de que se trate. En el último caso, las porciones usadas se modifican cada vez que se usa la unidad, dependiendo de las unidades adyacentes.

El solapado largo tiene la ventaja de producir unas transiciones entre unidades en las que no se advierten las uniones, porque se dispone de más tiempo para eliminar las sutiles diferencias entre ellas. No obstante, los solapados largos tienden a crear distorsión. La distorsión es el resultado de mezclar señales distintas.

El solapado corto tiene la ventaja de minimizar la distorsión. Con un solapado corto es más fácil lograr que las porciones solapadas coincidan adecuadamente. Las regiones de solapamiento corto se pueden caracterizar aproximadamente como estados instantáneos (en contraposición a los estados dinámicamente variables). No obstante, el solapado corto sacrifica la concatenación sin uniones que se logra en los sistemas de solapado largo.

Si bien sería deseable tener la perfección de concatenación de las técnicas de solapado largo y la baja distorsión de las técnicas de solapado corto, hasta la fecha, ningún sistema lo ha logrado. Algunos de los sistemas actuales han experimentado con el uso de regiones de solapado variable en un esfuerzo de minimizar la distorsión en tanto que mantienen las ventajas del solapado largo. Sin embargo, estos sistemas requieren un procesamiento informático muy caro, razón por la que se hacen impracticables para muchas aplicaciones.

La EP-A-0 805 433 describe una segmentación automática de un corpus de habla para la síntesis de habla por concatenación basada en los Modelos ocultos de Markov (Hidden Markov Models).

La presente invención como reivindica en las reivindicaciones 1 y 8 emplea una técnica de modelización estadística para identificar las regiones de trayectoria nuclear de las unidades de sonido; y estas regiones son utilizadas entonces para identificar los límites óptimos de solapamiento. En la realización actualmente preferida, se realiza un modelo estadístico de los datos temporales utilizando Modelos ocultos de Markov que se construyen en la región del fonema de cada unidad de sonido y que luego se alinean óptimamente mediante el entrenamiento o la reestimación incorporada.

En la realización preferida, se considera que los fonemas inicial y final de cada unidad de sonido constan de tres elementos: la trayectoria nuclear, un elemento de transición que precede a la región nuclear y un elemento de transición posterior a la región nuclear. El proceso de modelización identifica óptimamente estos tres elementos, de tal manera que la región de trayectoria nuclear permanece relativamente uniforme en todos los casos en que aparece el fonema en cuestión.

Con la región de la trayectoria nuclear identificada, los límites inicial y final de la región nuclear sirven para delimitar la región de solapado que posteriormente se usa en la síntesis por concatenación.

La realización actualmente preferida emplea un modelo estadístico que tiene una estructura de datos para modelizar por separado la región de trayectoria nuclear de una vocal, un primer elemento de transición anterior a la región de trayectoria nuclear y un segundo elemento de transición posterior a la región de trayectoria nuclear. La estructura de datos puede usarse para descartar una porción del dato de la unidad de sonido correspondiente a esa porción de la unidad de sonido que no se usará durante el proceso de concatenación.

La invención tiene un número de ventajas y usos. Se puede usar como una base para la construcción automatizada de bases de datos de unidades de habla para sistemas de síntesis de habla por concatenación. Las técnicas automatizadas mejoran la calidad del habla sintetizada derivada y ahorran un importante volumen de trabajo en el proceso de recopilación para la base de datos.

Para comprender mejor la invención, sus objetos y sus ventajas, hay que referirse a la siguiente especificación y a los dibujos que la acompañan.

Breve descripción de los dibujos

La Figura 1 es un diagrama de bloques útil para comprender la técnica de síntesis de hablar por concatenación;

la Figura 2 es un diagrama de flujo que ilustra la manera en que se construyen las unidades de habla de acuerdo con la invención;

la Figura 3 es un diagrama de bloques que ilustra el proceso de síntesis de habla por concatenación utilizando la base de unidades de habla de la invención.

Descripción de la realización preferida

Para poder apreciar mejor las técnicas empleadas por la presente invención, se necesita un conocimiento básico de la síntesis por concatenación. La Figura 1 ilustra el proceso de síntesis por concatenación a través de un ejemplo en el cual las unidades de sonido (en este caso, sílabas) de dos palabras diferentes son concatenadas para formar una tercera palabra. Más concretamente, unidades de sonido de las palabras "suffice" y "tight" se combinan para sintetizar la palabra "fight".

Con referencia a la Figura 1, se extraen datos temporales de las palabras "suffice" y "tight", preferiblemente en las zonas limítrofes de las sílabas, para definir las unidades de sonido 10 y 12. En este caso, la unidad de sonido 10 a su vez subdividido como se muestra en 14 para aislar la porción necesaria pertinente para la concatenación.

Las unidades de habla se alinean entonces como se muestra en 16 de modo que haya una región de solapamiento definida por las respectivas porciones 18 y 20. Una vez alineados, los datos temporales se fusionan para sintetizar la nueva palabra, como se muestra en 22.

La presente invención presta una especial atención a la región de solapamiento 16, y en particular, a la optimización de las porciones 18 y 20 con el fin de que la transición de una unidad de sonido a la otra se realice sin uniones perceptibles y libre de distorsión.

La invención consigue este solapado óptimo mediante un procedimiento automatizado que busca la región de trayectoria nuclear dentro de la vocal, donde la señal del habla sigue un patrón dinámico que es, sin embargo, relativamente estable para diferentes ejemplos del mismo fonema.

El procedimiento para desarrollar estas regiones de solapamiento óptimo se muestra en la Figura 2. Se incluye una base de datos de unidades de habla 30. La base de datos puede contener datos temporales correspondientes a diferentes unidades de sonido que forman el sistema de síntesis por concatenación. En la realización actualmente preferida, las unidades de sonido se extraen de ejemplos de locuciones de palabras que se subdividen por los límites de las sílabas. En la Figura 2, se representan en forma diagramática dos unidades de habla 32 y 34. La unidad de sonido 32 se extrae de la palabra "tight" y la unidad de sonido 34 se extrae de la palabra "suffice".

Los datos temporales almacenados en la base de datos 30 primero se parametrizan como se indica en 36. En general, las unidades de sonido se pueden parametrizar utilizando cualquier metodología adecuada. La realización actualmente preferida realiza la parametrización mediante el análisis de formantes de la región del fonema de cada unidad de sonido. El análisis de formantes implica la extracción de las frecuencias de los formantes (la realización preferida extrae las frecuencias de formantes F1, F2 y F3). Si se desea, también se puede parametrizar el nivel de señal eficaz (RMS).

Si bien actualmente se prefiere el análisis de formantes, también se pueden usar otras formas de parametrización. Por ejemplo, la extracción de características del habla se puede realizar mediante procedimientos como la Codificación lineal predictiva (LPC) para identificar y extraer parámetros de características adecuados.

Una vez extraídos los parámetros adecuados para representar la región de fonema de cada unidad de sonido, se construye un modelo que representa la región de fonema de cada unidad de sonido, como se ilustra en 38. La realización actualmente preferida utiliza Modelos ocultos de Markov para este propósito. No obstante, en general, puede utilizarse cualquier modelo estadístico adecuado que represente el comportamiento de las variaciones en el tiempo o dinámicas. Se podría utilizar, por ejemplo, un modelo de red neural recurrente.

La realización actualmente preferida modeliza la región de fonema desglosándola en tres regiones intermedias diferentes. Estas regiones se ilustran en 40 e incluyen la región de trayectoria nuclear 42, el elemento de transición 44 anterior a la región nuclear y el elemento de transición 46 posterior a la región nuclear. La realización preferida utiliza Modelos ocultos de Markov diferentes para cada una de estas tres regiones. Se puede usar un modelo de tres estados para los elementos de transición anterior y posterior 44 y 46, mientras que para la región de trayectoria nuclear 42 puede ser adecuado un modelo de cuatro o cinco estados (en la Figura 2 se ilustra un modelos de cinco estados). El uso de un número mayor de estados para la región de trayectoria nuclear permite asegurar que el procedimiento siguiente convergerá en una trayectoria nuclear no nula y uniforme.

En un principio, los modelos de habla 40 se pueden llenar con valores iniciales medios. Posteriormente, se realiza una reestimación incorporada en estos modelos, como se indica en 48. La reestimación, en realidad, constituye el proceso de entrenamiento mediante el cual los modelos se optimizan para representar mejor las secuencias recurrentes en los datos temporales. La región de trayectoria nuclear 42 y los elementos de transición anterior y posterior se diseñan de tal modo que el proceso de entrenamiento construye modelos uniformes para cada región de fonema, basándose en los datos reales suministrados a través de la base de datos 30. A este respecto, la región nuclear representa el centro de la vocal, y los elementos de transición anterior y posterior representan los aspectos de la vocal que son específicos al fonema actual y los sonidos que le preceden y le siguen. Por ejemplo, en la unidad de sonido 32 extraída de la palabra "tight" el elemento de transición anterior representa la coloración dada al sonido vocálico "ay" por la consonante precedente "t".

El proceso de entrenamiento converge naturalmente en modelos con la alineación óptima. Para entender por qué esto es así, hay que tener en cuenta que la base de datos de unidades de habla 30 contiene por lo menos dos, y preferiblemente muchos, ejemplos de cada sonido vocálico. Por ejemplo, el sonido vocálico "ay" que aparece tanto en "tight" como "suffice" se representa por las unidades de sonido 32 y 34 en la Figura 2. El proceso de reestimación incorporada o el proceso de entrenamiento utiliza estas diferentes instancias del sonido "ay" para entrenar a los modelos iniciales de habla 40 y generar así los modelos de habla con alineación óptima 50. La porción del dato temporal que es uniforme en todos los ejemplos del sonido "ay" representa el núcleo o la región de trayectoria nuclear. Como se ilustra en 50, el sistema entrena por separado los elementos de transición anterior y posterior. Desde luego, estos serán diferentes dependiendo de los sonidos que precedan y sigan a la vocal.

Una vez que se han entrenado los modelos para generar modelos con alineación óptima, se establecen las zonas limítrofes a ambos lados de la región de trayectoria nuclear para determinar la posición de los límites de solapado para la síntesis por concatenación. Así, en el paso 52 se utilizan los modelos con alineación óptima para determinar los límites de solapado. La Figura 2 ilustra los límites de solapado A y B superpuestos sobre los datos de frecuencia de los formantes de las unidades de sonido derivadas de las palabras "suffice" y "tight".

Con los límites de solapado que se han identificado en el dato del parámetro (en este caso, el dato de frecuencia del formante), el sistema etiqueta entonces el dato temporal en el paso 54 para establecer los límites de solapado en el dato temporal. Si se desea, el dato etiquetado se puede almacenar en la base de datos 30 para su uso posterior en la síntesis de habla por concatenación.

Por medio de ilustración, la región de límite de solapado que se ilustra diagramáticamente como una plantilla de solapado 56 se muestra superpuesta sobre una representación diagramática del dato temporal de la palabra "suffice". Específicamente, la plantilla 56 se alinea como se ilustra en el apartado 58 en la última sílaba "...fice". Cuando se usa esta unidad de sonido para el habla por concatenación, la porción precedente 62 se puede descartar y la región de trayectoria nuclear 64 (definida por los límites A y B) sirve de región de transición por fundido gradual o de concatenación.

En ciertas realizaciones, puede ser necesario ajustar la duración de la región de solapado para realizar la síntesis por concatenación. Este proceso se ilustra en la Figura 3. El texto de entrada 70 es analizado y se seleccionan unidades de habla adecuadas de la base de datos 30 como se indica en el paso 72. Por ejemplo, si la palabra "fight" se suministra como texto de entrada, el sistema puede seleccionar unidades de habla previamente almacenadas extraídas de las palabras "tight" y "suffice".

La región de trayectoria nuclear de las respectivas unidades de habla pueden no abarcar necesariamente la misma cantidad de tiempo. Así, en el paso 74, la duración de las respectivas regiones de trayectoria nuclear se puede expandir o contraer para hacer coincidir sus duraciones. En la Figura 3 la región de trayectoria nuclear 64a se ha expandido a 64b. La unidad de sonido B se puede modificar de forma similar. La Figura 3 ilustra la región de trayectoria nuclear 64c que se comprime hasta formar la región 64d, para que las respectivas regiones de las dos piezas tengan la misma duración.

Una vez que se han ajustado las duraciones hasta que coincidan, los datos de las unidades de sonido se fusionan en el paso 76 para formar la nueva palabra concatenada como se indica en 78.

De lo anterior se verá que la invención proporciona un medio automatizado para construir bases de datos de habla para sistemas de síntesis de habla por concatenación. Al aislar las regiones de trayectoria nuclear, el sistema consigue un solapado sin uniones y sin distorsión. Ventajosamente, las regiones de solapamiento se pueden expandir o comprimir hasta un tamaño fijo común, lo que contribuye a simplificar el proceso de concatenación. En virtud del proceso de modelización estadística, la región de trayectoria nuclear representa una porción de la señal del habla en la que las propiedades acústicas del habla siguen un patrón dinámico que es relativamente estable para ejemplos diferentes de un mismo fonema. Esta estabilidad hace posible una transición sin uniones y sin distorsión.

Las unidades de habla generadas de acuerdo con los principios de la invención se pueden almacenar fácilmente en una base de datos para su posterior extracción y concatenación con una carga mínima en el sistema de procesamiento informático. Así, el sistema es ideal para desarrollar productos y aplicaciones de síntesis de habla en los que la potencia de procesamiento sea limitada. Además, el procedimiento automatizado de generación de unidades de sonido reduce considerablemente el tiempo y el trabajo necesarios para construir bases de datos de unidades de habla para aplicaciones especiales, como en los casos de creación de vocabularios especializados o de desarrollo de sistemas de síntesis de habla multilingües.

Claims

1. Un método para identificar una región de solapado de unidades para la síntesis de habla por concatenación, que comprende:

: la definición de un modelo estadístico para representar las propiedades del habla que varían en el tiempo;

: la provisión de una pluralidad de datos temporales correspondientes a diferentes unidades de sonido que contienen la misma vocal, vocal que está formada por una región de trayectoria nuclear que representa el centro de la mencionada vocal con unos elementos de transición a ambos lados que representan los aspectos de la mencionada vocal que son específicos con respecto al fonema actual y a los sonidos que la preceden y que la siguen;

: la extracción de parámetros de la señal del habla de los mencionados datos temporales y el uso de los mencionados parámetros para entrenar al mencionado modelo estadístico; caracterizado por el uso del mencionado modelo estadístico entrenado para identificar una secuencia recurrente que sea uniforme en todas las instancias de la mencionada vocal en los mencionados datos temporales y la asociación de la mencionada secuencia recurrente con la región de trayectoria nuclear de la mencionada vocal;

: el uso de la mencionada secuencia recurrente para delimitar la región de solapado de unidades para la síntesis de habla por concatenación.

2. El método de la reivindicación 1 en el que el mencionado modelo estadístico es un Modelo oculto de Markov.

3. El método de la reivindicación 1 en el que el mencionado modelo estadístico es una red neural recurrente.

4. El método de la reivindicación 1 en el que los mencionados parámetros de la señal del habla incluyen formantes de habla.

5. El método de la reivindicación 1 en el que el mencionado modelo estadístico tiene una estructura de datos para realizar por separado la modelización de la región de estructura nuclear de una vocal y los elementos de transición situadas a ambos lados de la mencionada región de trayectoria nuclear.

6. El método de la reivindicación 1 en el que el paso del entrenamiento del mencionado modelo se lleva a cabo mediante la reestimación incorporada para generar un modelo convergente para el alineamiento de todo el conjunto de datos representado por los datos temporales.

7. El método de la reivindicación 1 en el que el mencionado modelo estadístico tiene una estructura de datos para modelizar por separado la región de trayectoria nuclear de una vocal, un primer elemento de transición anterior a la mencionada región de trayectoria nuclear y un segundo elemento de transición posterior a la mencionada región de trayectoria nuclear; y

el uso de la mencionada estructura de datos para descartar una porción de los mencionados datos temporales correspondientes a uno de los mencionados primer y segundo elementos de transición.

8. Un método para realizar la síntesis de habla por concatenación, que comprende:

: la provisión de una pluralidad de datos temporales correspondientes a diferentes unidades de sonido que contienen la misma vocal, vocal que está formada por una región de trayectoria nuclear que representa el centro de dicha vocal con unos elementos de transición a ambos lados que representan los aspectos de dicha vocal que son específicos con respecto al fonema actual y a los sonidos que la preceden y que la siguen;

: la extracción de parámetros de la señal del habla a partir de los mencionados datos temporales y el uso de los mencionados parámetros para entrenar el modelo estadístico;

caracterizado por

el uso del mencionado modelo estadístico entrenado para identificar una secuencia recurrente que sea uniforme en todas las instancias de la mencionada vocal en los mencionados datos temporales y la asociación de la mencionada secuencia recurrente con la región de trayectoria nuclear de la mencionada vocal;

el uso de la mencionada secuencia recurrente para delimitar una región de solapado de unidades para cada una de las mencionada unidades de sonido;

la síntesis por concatenación de una nueva unidad de sonido por solapamiento y fusión de los mencionados datos temporales correspondientes a dos de las mencionadas unidades diferentes basándose en la región de solapado de unidades de las mencionadas unidades de sonido.

9. El método de la reivindicación 8 que comprende además la alteración selectiva de la duración de al menos una de las mencionadas regiones de solapado de unidades para que coincida con la duración de otra de las mencionadas regiones de solapado de unidades antes de llevar a cabo el mencionado paso de fusión.

10. El método de la reivindicación 8 en el que el mencionado modelo estadístico es un Modelo oculto de Markov.

11. El método de la reivindicación 8 en el que el mencionado modelo estadístico es una red neural recurrente.

12. El método de la reivindicación 8 en el que los mencionados parámetros de la señal del habla incluyen formantes de habla.

13. El método de la reivindicación 8 en el que el mencionado modelo estadístico tiene una estructura de datos para realizar por separado la modelización de la región de estructura nuclear de una vocal y los elementos de transición situadas a ambos lados de la mencionada región de trayectoria nuclear.

14. El método de la reivindicación 8 en el que el paso del entrenamiento del mencionado modelo se lleva a cabo mediante la reestimación incorporada para generar un modelo convergente para el alineamiento de todo el conjunto de datos representado por dichos datos temporales.

15. El método de la reivindicación 8 en el que el mencionado modelo estadístico tiene una estructura de datos para modelizar por separado la región de trayectoria nuclear de una vocal, un primer elemento de transición anterior a la mencionada región de trayectoria nuclear y un segundo elemento de transición posterior a la mencionada región de trayectoria nuclear; y