ES2325132T3

ES2325132T3 - Sistema y procedimiento de sintesis de voz por concatenacion de unidades acusticas.

Info

Publication number: ES2325132T3
Application number: ES06808137T
Authority: ES
Inventors: Edouard Hinard; Cedric Boidin; Laurent Roussarie
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-10-24
Filing date: 2006-09-14
Publication date: 2009-08-26
Anticipated expiration: 2026-09-14
Also published as: ATE427545T1; EP1952388A1; EP1952388B1; FR2892555A1; WO2007048891A1; DE602006006094D1

Abstract

Sistema de síntesis de voz por concatenación de unidades acústicas que comprende: - medios (6) de transcripción fonética adecuados para generar una sucesión de unidades acústicas diana, representativa del texto a sintetizar, - medios (7) de almacenamiento de unidades acústicas candidatas, comprendiendo cada unidad acústica candidata un fragmento de palabra grabada previamente, - medios (8) de preselección adecuados para producir al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y - medios (9) de interfaz adecuados para permitir a un operador evaluar la calidad auditiva de cada flujo de unidades acústicas candidatas preseleccionado, caracterizado porque los medios (8) de preselección son adecuados para producir una pluralidad de flujos de unidades acústicas candidatas que tienen los mejores costes globales, y porque los medios (9) de interfaz son adecuados para permitir a un operador comparar los flujos de unidades acústicas preseleccionados y seleccionar el flujo cuya calidad auditiva le parezca la mejor.

Description

Sistema y procedimiento de síntesis de voz por concatenación de unidades acústicas.

La presente invención se refiere a un sistema y un procedimiento de síntesis de voz por concatenación de unidades acústicas.

La síntesis de voz por concatenación de unidades acústicas utiliza cierto número de principios conocidos.

Típicamente, una cadena de síntesis de voz a partir del texto comprende las etapas de:

-: tratamiento lingüístico que permite extraer del texto informaciones pertinentes para la síntesis,

-: transcripción fonética que transforma las informaciones lingüísticas en una cadena fonética que comprende una sucesión de unidades acústicas diana,

-: selección de las unidades acústicas candidatas, es decir selección de los fragmentos de palabras grabadas previamente que se utilizarán para la síntesis, y

-: síntesis de la señal que consiste en concatenar las unidades acústicas candidatas seleccionadas para formar la señal sonora solicitada.

La calidad de la señal sonora depende esencialmente de la elección de las unidades acústicas candidatas: se trata de utilizar los fragmentos de palabras más apropiados para obtener una señal sonora "natural".

Tradicionalmente, la selección de las unidades acústicas candidatas se basa en un algoritmo de Viterbi. Éste determina la secuencia óptima de las unidades acústicas a utilizar calculando la trayectoria óptima en un gráfico, gráfico cuyos nudos son las unidades acústicas candidatas y los arcos las transiciones entre las unidades acústicas
candidatas.

La trayectoria es óptima en el sentido de una minimización de la suma de los costes asociados a los nudos y a los arcos que constituyen la trayectoria. El coste asociado a una unidad acústica candidata, nudo del gráfico, se denomina coste diana y mide la adecuación entre la unidad acústica candidata y la unidad acústica diana. El coste asociado a una transición, arco del gráfico, se denomina coste de concatenación y mide la calidad de la concatenación entre las dos unidades candidatas que une.

Estos diferentes costes se determinan mediante funciones de coste que permiten calcularlos para cada uno de los arcos y nudos del gráfico. Se entiende fácilmente que, al suponerse que estas funciones de coste representan la calidad de la síntesis, su elección y sus parametrizaciones tienen una gran influencia sobre el resultado final.

Para sintetizar la "mejor" frase, perceptualmente hablando, la solicitud de patente de Estados Unidos 2003/0229494 de RUTTEN et al., propone hacer intervenir a un operador que, por iteración sucesiva, ajuste la calidad de la frase producida. El procedimiento propuesto por esta solicitud, consiste por lo tanto en seleccionar de forma convencional, una sucesión de unidades acústicas candidatas, en hacer escuchar al operador la frase producida de este modo por el módulo de selección y después en ajustar los parámetros de la selección antes de volver a poner en marcha la selección, etc.

El procedimiento se repite hasta que el operador obtiene una solución que le resulta conveniente.

El procedimiento y el sistema de síntesis de voz propuestos por esta solicitud presentan el inconveniente de obligar al operador a intervenir sobre los parámetros de la selección para obtener una solución. Ahora bien, estos parámetros, como por ejemplo los parámetros de las funciones de coste, no siempre tienen vínculos directos e intuitivos con el resultado obtenido. Esto requiere por lo tanto, por parte del operador, un largo aprendizaje antes de ser capaz de utilizar dicho sistema eficazmente.

Además, en cada cambio de parámetros, es necesario poner en marcha una nueva etapa de selección que consume muchos recursos de cálculo.

El objeto de la invención es por lo tanto remediar estos inconvenientes proponiendo un sistema y un procedimiento de síntesis de voz, fáciles de aplicar.

El objeto de la invención es un sistema de síntesis de voz mediante concatenación de unidades acústicas que comprende:

-: medios de transcripción fonética adecuados para generar una sucesión de unidades acústicas diana, representativa del texto a sintetizar,

-: medios de almacenamiento de unidades acústicas candidatas, comprendiendo cada unidad acústica candidata un fragmento de palabra grabada previamente,

-: medios de preselección adecuados para producir al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y

-: medios de interfaz adecuados para permitir a un operador evaluar la calidad auditiva de cada flujo de unidades acústicas candidatas preseleccionado,

caracterizado porque los medios de preselección son adecuados para producir una pluralidad de flujos de unidades acústicas candidatas que tienen los mejores costes globales, y porque los medios de interfaz son adecuados para permitir a un operador comparar los flujos de unidades acústicas preseleccionados y seleccionar el flujo cuya calidad auditiva le parezca la mejor.

Otras características de la invención son

-: los medios de preselección utilizan un algoritmo de tipo N-best para preseleccionar la pluralidad de flujos de unidades acústicas candidatas;

-: los medios de interfaz comprenden medios de filtrado adecuados para eliminar, a partir de criterios fonéticos, un subconjunto de flujos de unidades acústicas candidatas de la pluralidad de los flujos de unidades acústicas candidatas pre-seleccionados;

-: los criterios fonéticos comprenden, en solitario o en combinación, criterios de prohibición de la presencia de una unidad acústica, criterios de prohibición de la presencia de una concatenación entre dos unidades acústicas y criterios de prohibición de una concatenación en una transición.

Otro objeto de la invención es un procedimiento de síntesis de voz por concatenación de unidades acústicas que comprende una etapa previa de almacenamiento de unidades acústicas candidatas, comprendiendo cada unidad acústica candidata un fragmento de palabra grabada previamente, y comprendiendo además dicho procedimiento las etapas de:

-: transcripción fonética adecuada para generar una sucesión de unidades acústicas diana representativa del texto a sintetizar,

-: preselección de al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y

-: evaluación por un operador de la calidad auditiva de cada flujo,

y dicho procedimiento se caracteriza porque

-: la etapa de preselección es adecuada para producir una pluralidad de flujos de unidades acústicas candidatas preseleccionadas que tienen los mejores costes globales, y

-: la etapa de evaluación consiste, para el operador, en comparar los flujos de unidades acústicas preseleccionados y en seleccionar el flujo cuya calidad auditiva le parezca la mejor.

Otras características de este objeto son

-: la etapa de preselección utiliza un algoritmo de tipo N-best para preseleccionar la pluralidad de flujos de unidades acústicas candidatas;

-: la etapa de evaluación comprende una etapa de filtrado, a partir de criterios fonéticos, adecuada para eliminar un subconjunto de flujos de unidades acústicas candidatas de la pluralidad de flujos preseleccionados de unidades acústicas candidatas;

-: los criterios fonéticos comprenden, en solitario o en combinación, criterios de prohibición de la presencia de una unidad acústica, criterios de prohibición de la presencia de una concatenación entre dos unidades acústicas, y criterios de prohibición de una concatenación en una transición.

Otro objeto es un producto de programa informático que comprende instrucciones de código de programa grabado en un soporte legible por un ordenador, para aplicar el procedimiento de síntesis de voz cuando dicho programa se ejecuta en un ordenador.

Otro objeto es un soporte de grabación legible por un ordenador en el que está grabado el programa informático.

La invención se entenderá mejor con la lectura de la siguiente descripción que se realiza únicamente a modo de ejemplo y en relación con los dibujos adjuntos en los que:

- la figura 1 es un esquema simplificado de un sistema de síntesis de voz de acuerdo con la invención;

- la figura 2 es un diagrama funcional del procedimiento de acuerdo con una realización preferida de la invención;

- la figura 3 es un esquema de preselección de las unidades acústicas candidatas; y

- la figura 4 es un esquema de una pantalla de interfaz con el operador del sistema de síntesis de voz de acuerdo con una realización preferida de la invención.

En referencia a la figura 1, un sistema 1 de síntesis de voz transformará un texto 2 en un flujo sonoro 3.

El texto 2 se introduce en el sistema 1 por medio de medios de recogida de datos 4 que lo transforman en un fichero, típicamente en el estándar UNICODE.

Este fichero es tratado por medios 5 de tratamientos lingüísticos que permiten extraer del texto informaciones pertinentes para la síntesis mediante un análisis lingüístico del texto.

Estas informaciones lingüísticas son utilizadas por los medios 6 de transcripción fonética. Esta transcripción, no necesariamente única, se presenta en forma de una sucesión de unidades acústicas diana, opcionalmente con un aumento de informaciones suplementarias tales como consignas prosódicas o categorías gramaticales.

Estos medios 4, 5 y 6 que permiten obtener una sucesión de unidades acústicas diana son bien conocidos por el especialista en la técnica y no se describirán con más detalle. Informaciones complementarias sobre estos medios pueden encontrarse, por ejemplo, en la solicitud de patente de Estados Unidos 2003/0229494 mencionada anteriormente.

El sistema 1 de síntesis de voz comprende también medios 7 de almacenamiento de unidades acústicas candidatas típicamente en forma de una base de datos. Estas unidades acústicas candidatas comprenden principalmente fragmentos de palabras grabadas previamente. Estos fragmentos pueden corresponder a fonemas, difonos, sílabas, etc. Cada unidad acústica candidata representa una variación sonora de una unidad acústica de base, por ejemplo variaciones de longitud, de timbre, etc. Típicamente, los medios 7 de almacenamiento pueden contener más de 100.000 unidades acústicas candidatas.

En la siguiente descripción, y a título puramente ilustrativo, se supondrá que las unidades acústicas son difonos.

Los medios 7 de almacenamiento están conectados a medios 8 de preselección cuyo objeto es producir al menos un flujo de unidades acústicas candidatas. Cada flujo de unidades acústicas candidatas es representativo de la sucesión de unidades acústicas diana.

Habitualmente, un sistema de síntesis de voz solamente produce un único flujo de unidades acústicas. Un algoritmo utilizado comúnmente para producir este único flujo es el algoritmo de Viterbi que minimiza el coste global, suma de los costes diana y de los costes de transición para las unidades acústicas candidatas y las transiciones de este flujo.

Ejemplos de funciones de coste utilizables en el marco de este algoritmo de Viterbi se describen en el documento "Perceptual and Objective Detection of discontinuities in concatenative Speech synthesis", Yannis Stylianou y Ann K. Syrdal, ICASSP 2001.

Para ello, los medios 8 de preselección solamente utilizan el algoritmo de Viterbi ya que éste solamente proporciona un único flujo, teniendo éste el mejor coste global. A título puramente ilustrativo, la sucesión de flujo producida por los medios 8 de preselección es el resultado de un algoritmo de tipo N-best que proporciona una sucesión ordenada de N flujos cuyo primer flujo corresponde a la solución del algoritmo de Viterbi.

Dos ejemplos de este tipo de algoritmo se describen en el documento "A comparison of two Exact Algorithms for finding the N-Best Sentence Hypothese in Continuous Speech Recognition", V.M. Jimenez, A. Marzal, J. Monné, Eurospeech 1995.

Los medios 8 de preselección están conectados a medios 9 de interfaz. Estos están conectados a medios 10 de restitución sonora permitiendo de este modo a un operador escuchar, a petición, uno de los flujos de unidades acústicas preseleccionados y determinar de este modo el que tiene la mejor calidad auditiva.

Los medios 9 de interfaz también están conectados a medios 11 de visualización y de recogida de datos que permiten al operador visualizar y seleccionar los diferentes flujos preseleccionados.

\newpage

Preferiblemente, estos medios 9 de interfaz comprenden medios 12 de filtrado. Estos están adaptados para que el operador, mediante la utilización de criterios fonéticos, pueda eliminar subconjuntos de flujos entre los flujos preseleccionados para limitar el número de escuchas y de comparaciones a realizar para seleccionar el mejor flujo.

A continuación se explicará el funcionamiento de este sistema en referencia a la figura 2.

El procedimiento se inicia en la etapa 20.

La recogida de un texto se realiza en la etapa 21.

Éste es tratado en 22 para extraer de él las informaciones lingüísticas.

Estas informaciones lingüísticas se utilizan en 23 para producir convencionalmente una sucesión de unidades acústicas diana.

Mediante utilización del algoritmo de preselección, se selecciona en 24 un número N de flujos de unidades acústicas candidatas.

Por ejemplo, en la figura 3, para la sucesión 30 de cuatro unidades acústicas diana, se ha representado en 31 el conjunto de gráficos posibles cuyas unidades acústicas candidatas son los nudos 10-1, 10-2, 11-1, etc.

El flujo 32, representado en trazo continuo grueso, corresponde a la primera solución. Corresponde al flujo de las unidades acústicas candidatas 10-1, 11-2, 12-1, 13-1.

El flujo 33, representado en trazo discontinuo grueso, corresponde a la segunda solución. Esta constituido por las unidades acústicas candidatas 10-2, 11-1, 12-3, 13-3.

El conjunto de N flujos preseleccionados de este modo se almacena en la memoria y se pone a disposición del usuario.

Éste escucha en 25, figura 2, uno de los flujos preseleccionado.

Si está satisfecho con la calidad de este flujo en 26, entonces el procedimiento termina en 27.

Por el contrario, si el flujo escuchado no es satisfactorio, se escucha otro flujo en 25 hasta la escucha de un flujo de buena calidad.

Se comprende que esta escucha sucesiva puede ser larga y fastidiosa. Por lo tanto, es ventajoso ofrecer al usuario un interfaz que permita filtrar el conjunto de flujos según criterios fonéticos modificables por el usuario.

De este modo, una etapa 28 de edición de los filtros se inserta, de manera facultativa, en el bucle de escucha/selección.

A modo de ejemplo, en la figura 4 se representa un esquema simplificado de la pantalla del interfaz.

El flujo tratado y escuchado actualmente por el operador se representa en 40 con la sucesión de unidades acústicas candidatas seleccionadas.

Mediante la utilización de los botones 41 y 42, el operador pasa al flujo anterior o al flujo siguiente. También puede seleccionar uno de los flujos que ya ha escuchado y que está retenido en la ventana 43.

Dispone de operaciones de filtrado para acotar las propiedades de los flujos que quiere visionar o escuchar.

Entre las operaciones de filtrado a su disposición, puede:

-: prohibir en 44 la presencia de una unidad en los flujos filtrados. Por ejemplo, puede prohibir la presencia de la unidad acústica 10-4,

-: prohibir en 45 la presencia de una concatenación entre dos unidades acústicas en los flujos filtrados. Por ejemplo, puede prohibir la transición entre las unidades 11-2 y 12-1,

-: prohibir en 46 cualquier concatenación en una transición. Por ejemplo, puede prohibir cualquier concatenación entre los estados acústicos 12 y 13. Los únicos flujos autorizados tendrán entonces necesariamente, para esta transición, dos unidades adyacentes en la base.

La línea 47 resume el conjunto de los filtros utilizados.

Se entiende que es posible combinar varios filtros de acuerdo con una lógica booleana.

De este modo se han descrito un sistema y un procedimiento de síntesis de voz por concatenación de unidades acústicas fáciles de manipular, puesto que el operador sólo tiene que esperar a que se realicen los cálculos de optimización para comparar dos flujos. En efecto, todos los cálculos se realizan durante la etapa de preselección y por lo tanto se realizan sin que intervenga el operador.

Además, las operaciones de filtrado tales como la supresión de una concatenación corresponden a un análisis auditivo directo de los flujos. En efecto, basta con escuchar un flujo que comprende dicha concatenación, darse cuenta de que es mal sonante y, por lo tanto, decidir la eliminación de todos los flujos que comprenden esta concatenación.

Este procedimiento de síntesis de voz puede ser aplicado por un programa informático en ejecución en un ordenador de tipo estación de trabajo. Este programa informático está grabado en un soporte de datos legible por este ordenador.

Claims

1. Sistema de síntesis de voz por concatenación de unidades acústicas que comprende:

-: medios (6) de transcripción fonética adecuados para generar una sucesión de unidades acústicas diana, representativa del texto a sintetizar,

-: medios (7) de almacenamiento de unidades acústicas candidatas, comprendiendo cada unidad acústica candidata un fragmento de palabra grabada previamente,

-: medios (8) de preselección adecuados para producir al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y

-: medios (9) de interfaz adecuados para permitir a un operador evaluar la calidad auditiva de cada flujo de unidades acústicas candidatas preseleccionado,

caracterizado porque los medios (8) de preselección son adecuados para producir una pluralidad de flujos de unidades acústicas candidatas que tienen los mejores costes globales, y porque los medios (9) de interfaz son adecuados para permitir a un operador comparar los flujos de unidades acústicas preseleccionados y seleccionar el flujo cuya calidad auditiva le parezca la mejor.

2. Sistema de síntesis de voz de acuerdo con la reivindicación 1, caracterizado porque los medios de preselección utilizan un algoritmo de tipo N-best para preseleccionar la pluralidad de flujos de unidades acústicas candidatas.

3. Sistema de síntesis de voz de acuerdo con la reivindicación 1 ó 2, caracterizado porque los medios (9) de interfaz comprenden medios (12) de filtrado adecuados para eliminar, a partir de criterios fonéticos, un subconjunto de flujos de unidades acústicas candidatas de la pluralidad de flujos preseleccionados de unidades acústicas candidatas.

4. Sistema de síntesis de voz de acuerdo con la reivindicación 3, caracterizado porque los criterios fonéticos comprenden, en solitario o en combinación, criterios de prohibición de la presencia de una unidad acústica, criterios de prohibición de la presencia de una concatenación entre dos unidades acústicas y criterios de prohibición de una concatenación en una transición.

5. Procedimiento de síntesis de voz por concatenación de unidades acústicas que comprende una etapa previa de almacenamiento de unidades acústicas candidatas, comprendiendo cada unidad acústica candidata un fragmento de palabra grabada previamente y comprendiendo dicho procedimiento además las etapas de:

-: transcripción fonética (23) adecuada para generar una sucesión de unidades acústicas diana representativa del texto a sintetizar,

-: preselección (24) de al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y

-: evaluación (25, 26) por un operador de la calidad auditiva de cada flujo,

y dicho procedimiento se caracteriza porque

6. Procedimiento de síntesis de voz de acuerdo con la reivindicación 5, caracterizado porque la etapa de preselección utiliza un algoritmo de tipo N-best para preseleccionar la pluralidad de flujos de unidades acústicas candidatas.

7. Procedimiento de síntesis de voz de acuerdo con la reivindicación 5 ó 6, caracterizado porque la etapa (25, 26) de evaluación comprende una etapa (28) de filtrado, a partir de criterios fonéticos, adecuada para eliminar un subconjunto de flujos de unidades acústicas candidatas de la pluralidad de flujos preseleccionados de unidades acústicas candidatas.

8. Procedimiento de síntesis de voz de acuerdo con la reivindicación 7, caracterizado porque los criterios fonéticos comprenden, en solitario o en combinación, criterios de prohibición de la presencia de una unidad acústica, criterios de prohibición de la presencia de una concatenación entre dos unidades acústicas y criterios de prohibición de una concatenación en una transición.

9. Producto de programa informático que comprende instrucciones de código de programa grabado en un soporte legible por un ordenador, siendo estas instrucciones adecuadas para la aplicación del procedimiento de síntesis de voz de acuerdo con una de las reivindicaciones 6 a 8 cuando dicho programa se ejecuta en un ordenador.

10. Soporte de grabación legible por un ordenador, en el que se graba un programa informático de acuerdo con la reivindicación 9.