ES2336686T3

ES2336686T3 - Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones.

Info

Publication number: ES2336686T3
Application number: ES05754668T
Authority: ES
Inventors: Alessio Cervone; Ivano Salvatore Collotta; Paolo Coppo; Donato Ettorre; Maurizio Fodrini; Maura Turolla
Original assignee: Telecom Italia SpA
Current assignee: Telecom Italia SpA
Priority date: 2005-05-31
Filing date: 2005-05-31
Publication date: 2010-04-15
Anticipated expiration: 2025-05-31
Also published as: US20090306986A1; ATE449399T1; DE602005017829D1; US8583437B2; EP1886302B1; WO2006128480A1; EP1886302A1

Abstract

Procedimiento para generar habla sintetizada a partir de información textual en un terminal de usuario (2), estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) teniendo una base de datos básica (6) de formas de onda de habla, comprendiendo las etapas de: - iniciar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos básica (6) de formas de onda de habla; - extraer (42) información de contexto asociada a dicha información textual; - seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto; - proporcionar (48) a dicho terminal de usuario (2) dicha base de datos incremental (DB1, ...DBN); - gestionar (50) la composición de una base de datos ampliada de formas de onda de habla incluyendo dicha bases de datos básica (6) y dicha incremental de formas de onda de habla; y - continuar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos ampliada de formas de onda de habla.

Description

Proporcionar síntesis del habla en terminales de usuario en una red de comunicaciones.

Campo de la invención

La presente invención se refiere a un procedimiento y a un sistema para proporcionar síntesis del habla a un terminal de usuario a través de una red de telecomunicaciones. En particular, la presente invención se refiere a una arquitectura de servicios para proporcionar síntesis del habla en terminales de usuarios con memoria disponible limitada, como teléfonos móviles, PDAs (Asistente Personal Digital), organizadores personales y cámaras digitales.

La invención se ha desarrollado prestando atención particular a su posible utilización en redes de telecomunicaciones inalámbricas, para proporcionar servicios de texto a voz (TTS) a terminales móviles que tienen incorporado un módulo sintetizador del habla basado en la concatenación de formas de onda del habla almacenadas en una base de datos. Descripción de la técnica relacionada.

La síntesis del habla basada en la técnica de concatenación es muy conocida en la técnica, es decir, por la solicitud de patente WO 00/30069 o de la publicación "A concatenative speech synthesis method using context dependent phoneme sequences with variable length as search units", NHK (Nippon Hoso Kyokai; Japan Broadcasting Corp.) Science and Technical Research Laboratories, 5th ISCA Speech Synthesis Workshop, Pittsburgh, USA, June 2004.

El documento WO 00/30069 describe un sintetizador del habla basado en la concatenación de unidades de habla tomadas digitalmente desde una gran base de datos.

La publicación "A concatenative speech synthesis method using context dependent phoneme sequences with variable length as search units" proporciona un procedimiento de división de un texto de entrada en una secuencia de fonemas dependientes de contexto y un procedimiento de selección de una forma de onda de voz apropiada desde una base de datos de habla estática. La calidad del habla aumenta cuando se utiliza una base de datos de habla grande.

El solicitante ha observado que la calidad de tal sistema de síntesis del habla, cuando está incorporado en un terminal móvil, está limitado intrínsicamente por el tamaño máximo de la base de datos, que no puede aumentarse según se desee en un terminal de recursos limitados.

El documento EP 1.471.499 A1 ilustra un procedimiento de síntesis del habla distribuido que realiza una conversión texto a voz basada en un procesamiento distribuido entre un servidor remoto y un terminal de usuario. En particular, la síntesis de segmentos de habla es realizada por el servidor. El terminal de usuario descarga segmentos de habla sintetizados y los concatena mediante las reglas del servidor. Además, el terminal de usuario realiza un mecanismo de memoria caché según las reglas proporcionadas por el servidor.

El solicitante ha observado que, aunque la síntesis del habla de alta calidad puede lograrse utilizando un sistema de síntesis del habla distribuido, en tales sistemas no es factible realizar síntesis del habla sin una conexión de red activa, limitando así la eficacia de algunos terminales de usuario, por ejemplo, PDAs.

La patente EP-A1-1.431.958 describe la descarga de diferentes voces de hablantes.

El documento US 2004/0054534 ilustra un ejemplo de personalización de síntesis del habla basada en preferencias del usuario. El usuario selecciona los criterios de voz en un terminal de usuario local. Los criterios de voz representan las características que el usuario desea para una voz sintetizada. Los criterios de voz se comunican a un servidor. El servidor genera una serie de reglas de voz sintetizada basada en los criterios de voz y los envía al terminal de usuario local. Las reglas de voz sintetizada representan aspectos prosódicos de la voz sintetizada.

El solicitante ha observado que la calidad de síntesis del habla de los sistemas de síntesis del habla arriba mencionados está, como normal general, directamente relacionada con el tamaño de la base de datos de las formas de onda utilizadas.

El solicitante ha abordado el problema de obtener un aumento significativo de la calidad de la síntesis del habla en sistemas que están incorporados en terminales móviles, sin afectar demasiado a los requisitos de memoria de la base de datos de formas de onda del habla. En particular, el solicitante ha abordado el problema de personalizar dinámicamente un sistema de síntesis del habla basado en la técnica de concatenación, logrando la misma calidad que una solución estática basada en una base de datos de formas de onda tan grande que no puede almacenarse en terminales de usuarios portátiles.

Objeto y resumen de la invención

El solicitante ha hallado que este problema se puede solucionar proporcionando una arquitectura de sistema de red capaz de descargar dinámicamente bases de datos incrementales de formas de onda del habla e información de indexación relacionada que, integradas en el módulo de síntesis del habla en el terminal móvil, mejoran una base de datos reducida en el terminal.

Un objeto particular de la presente invención es proporciona una arquitectura de servicio para proporcionar síntesis del habla de alta calidad en terminales de usuario móviles con baja memoria disponible.

El objeto de la invención es, por tanto, responder satisfactoriamente a las necesidades anteriores.

Según la presente invención, ese objeto se alcanza por medio de un procedimiento que tiene las características expuestas en la reivindicación 1. La invención también se refiere a una arquitectura de servicio, reivindicada en la reivindicación 10, así como a un producto de programa informático relacionado, reivindicado en la reivindicación 21. Las realizaciones preferidas se exponen en las reivindicaciones dependientes.

La referencia a "al menos un ordenador" está destinada evidentemente a subrayar la posibilidad de que la presente invención se implemente de forma distribuida/modular.

Las reivindicaciones son una parte integrante de la descripción de la invención aquí descrita.

La solución de síntesis del habla dinámica aquí propuesta puede lograr la misma calidad que una solución estática basada en una base de datos grande. La solución dinámica trabaja en una gran base de datos virtual utilizando una base de datos estática reducida ubicada dentro del terminal de usuario y descargando las bases de datos incrementales adecuadas solo cuando es necesario. Cada base de datos incremental, que contiene elementos de habla adicionales respecto a la base de datos por defecto, está relacionada con el contexto de la información específica que se va a sintetizar. Al utilizar la base de datos extendida, proporcionada por la base de datos por defecto más la base(s) de datos incremental(es) descargada, la síntesis del habla en el terminal de usuario logra una calidad mejorada.

Cada base de datos incremental dinámica está relacionada con uno o más contextos de información, por ejemplo, economía, deporte, humor, etcétera. La misma base de datos incremental se puede utilizar para mejorar la síntesis de varios contenidos relacionados con el mismo contexto. Un mecanismo de memoria caché se puede implementar en el terminal de usuario para evitar descargas adicionales de la misma base de datos incremental cuando el contexto de información no ha cambiado, o cuando se utiliza frecuentemente el mismo contexto. Además, se pueden utilizar bases de datos incrementales para personalizar la síntesis del habla realizada en un terminal de usuario respecto a reglas de contexto, según el perfil de usuario específico o las preferencias de usuario específicas.

Características y ventajas adicionales de la presente invención se clarificarán a partir de la siguiente descripción detallada de algunos ejemplos de la misma, provista simplemente a modo de ejemplo sin ninguna intención restrictiva. La descripción detallada se referirá a las siguientes figuras, en las que:

- La figura 1 muestra esquemáticamente una arquitectura de servicio para proporcionar síntesis del habla en terminales de usuario, según la presente invención;

- La figura 2 muestra un diagrama de flujo de un procedimiento para proporcionar síntesis del habla en terminales de usuario, según la presente invención;

- La figura 3 muestra un diagrama de flujo de un procedimiento alternativo para proporcionar síntesis del habla en terminales de usuario, según un ejemplo;

- La figura 4 muestra esquemáticamente una base de datos por defecto de un sistema de síntesis del habla incorporado en un terminal de usuario, según la presente invención; y

- La figura 5 muestra esquemáticamente una base de datos mejorada de un sistema de síntesis del habla incorporado en un terminal de usuario, según la presente invención.

En referencia a la figura 1, una arquitectura de servicio para proporcionar, en un terminal de usuario 2 con al menos una conexión (alámbrica o inalámbrica) con una red de telecomunicaciones 12, síntesis del habla a partir de información de texto, comprende, además del terminal 2 y la red 12, un servidor de contenido 16 para descargar contenidos al terminal de usuario, un servidor de contexto 14 para seleccionar un contexto asociado a la información solicitada por el usuario, y un servidor de base de datos 8 que contiene una pluralidad de bases de datos incrementales DB1, ...DBN destinadas a descargarse en el terminal de usuario 2.

El terminal de usuario 2 está equipado con un sintetizador del habla 4 incorporado y con una base de datos por defecto limitada 6. Al utilizar esta configuración básica, el terminal 2 puede sintetizar cualquier información relacionada con cualquier contexto en un nivel de calidad mínimo. La información textual puede estar ya presente en el terminal de usuario 2 o puede recuperarse del servidor de contenido remoto 16 por medio de una aplicación de exploración 18 instalada en la misma terminal 2 y visualizada en una pantalla 20.

Para mejorar la calidad de síntesis, la arquitectura propuesta utiliza una servidor de base de datos 8 (o una pluralidad de servidores de bases de datos) capaz de proporcionar una pluralidad de bases de datos incrementales DB1, ...DBN con el objetivo de aumentar la base de datos por defecto 6 ubicada en el terminal de usuario 2.

\newpage

Se proporciona también un mecanismo de memoria caché en el terminal de usuario 2 para gestionar eficientemente la descarga y el almacenamiento de las bases de datos incrementales en el terminal de usuario. Una memoria caché 10 hace que esté disponible la base de datos incremental almacenada durante todo el tiempo en que se utiliza el contexto relativo, ya que la distinta información requerida por el usuario puede referirse al mismo contexto y por tanto a la misma base de datos incremental. En este caso, no se descarga otra base de datos incremental desde la red, el proceso de síntesis del habla se acelera y los recursos de red se optimizan.

El mecanismo caché asocia el parámetro "tiempo de vida" a cada base de datos incremental almacenada para evitar descargas adicionales cuando se reutiliza frecuentemente el contexto relativo. Los parámetros que rigen el mecanismo caché, como por ejemplo el tamaño de la memoria caché y el "tiempo de vida", se pueden establecer en el terminal de usuario, por medio del ajuste del usuario, o bien según las reglas proporcionadas por el servidor de contexto 14.

Cuando el usuario desea sintetizar una información textual proporcionada por un servidor de contenido remoto 16, se realizan las siguientes acciones. Primero, el explorador 18 del terminal de usuario envía al servidor de contexto 14 una solicitud (flecha 30) relacionada con la información que se va a sintetizar, a través de la conexión de red 12. Un gestor de contexto 22 localizado en el servidor de contexto 14 pide al servidor de contenido 16 que descargue los contenidos de información en el explorador de terminal de usuario (flecha 34) y extrae la información de contexto de los contenidos de información. Mientras tanto, el gestor de contexto 22 comprueba si el terminal de usuario ya tiene en la memoria caché 10 la base de datos incremental adecuada. Diversas alternativas para realizar esta comprobación son posibles, por ejemplo, el terminal 2 puede comunicar la descripción de las bases de datos ya disponibles junto con la solicitud (flecha 30), o el gestor de contexto 22 puede controlar todas las descargas de bases de datos previas 32 asociadas a un terminal de usuario específico. Si el terminal de usuario necesita la base de datos incremental, el gestor de contexto 22 activa un selector de contexto 24 para elegir una base de datos incremental adecuada DB2 en el servidor de base de datos 8, y transfiere dicha base de datos incremental a un gestor de bases de datos 26 en el terminal de usuario (flecha 32). El servidor de contenido 16, el servidor de base de datos 8 y el servidor de contexto 14 pueden estar ubicados en el mismo servidor, o de lo contrario, en servidores separados conectados a una red de telecomunicaciones común (p. ej., Internet).

El gestor de la base de datos 26 en el terminal de usuario 2 recibe la base de datos incremental desde la red y gestiona la composición de una nueva base de datos aumentada, como se explica más detalladamente a continuación. Cuando la base de datos ampliada está disponible en el terminal, el gestor de base de datos 26 notifica al sintetizador del habla 4 que una nueva base de datos de formas de onda del habla está disponible, logrando así una calidad de síntesis mayor.

En cuanto a la relación entre los contenidos de información solicitados por el usuario y la base de datos incremental descargada, diferentes aproximaciones son posibles. Tal relación puede establecerse en el "lado servidor", es decir, en el servidor de contexto 14, o en el "lado cliente", es decir, según las preferencias del usuario. En el primer caso, tal relación está establecida según las reglas del servidor del contexto del servidor, como contextos económicos, deportivos o humorísticos, etc., o según un perfil de usuario específico almacenado en el servidor. En el segundo caso, la decisión se toma según las preferencias específicas del usuario, por ejemplo una personalización prosódica, inflexión dialectal, etcétera.

Si se requiere, la base de datos básica 2 de formas de onda del habla se puede reemplazar por una de substitución, descargando una nueva base de datos en el terminal de usuario. El proceso de descarga y reemplazo es gestionado por el gestor de bases de datos 26, que recupera la nueva base de datos desde un servidor remoto, (p. ej., el mismo servidor de base de datos 8) y reemplaza la base de datos en la memoria del terminal. Tal reemplazo puede ser útil, por ejemplo, si un usuario desea cambiar el idioma del sistema TTS.

El proceso de síntesis del habla incorporado en el terminal de usuario 2 puede llevarse a cabo según dos técnicas diferentes. Según una primera técnica, la síntesis del habla puede comenzar tan pronto como el contenido está disponible en el terminal de usuario, evitando retrasos adicionales, utilizando la base de datos por defecto, proporcionando el mínimo nivel de calidad. La calidad de síntesis del habla se mejora cuando la base de datos incremental se ha descargado y unido completamente con la base de datos ya presente en el terminal, permitiendo que el motor texto a voz utilice una base de datos mayor. De lo contrario, según una segunda técnica no acorde con la invención, la síntesis del habla no comienza inmediatamente utilizando la base de datos por defecto, sino que solo comienza tan pronto como la base de datos incremental está disponible en el terminal de usuario. En este caso, la síntesis del habla está sujeta a un retraso en el tiempo de inicio, pero la calidad de síntesis, es, desde el inicio, constante a niveles altos.

El diagrama de flujos mostrado en la figura 2 ilustra un proceso según la primera técnica, centrándose en el paralelismo de diferentes procesos. Una solicitud de usuario (etapa 40) en el explorador del terminal activa (etapa 42) el gestor de contexto (22) en el servidor de contexto 14, iniciando dos procesos paralelos (etapas 44, 46) respectivamente para descargar los contenidos de información solicitada en el terminal de usuario y para comprobar si la base de datos incremental asociada ya está presente en la memoria caché 10 del terminal de usuario. Tan pronto como los contenidos de información solicitada se descargan en el terminal, comienza la síntesis del habla (etapa 52), lo mismo ocurre si la base de datos incremental asociada ya está presente en la memoria caché 10. Por el contrario, si la base de datos incremental asociada no está presente en la memoria caché, se descarga en el terminal de usuario (etapa 48) y se une con la base de datos actual en una nueva base de datos ampliada (etapa 50), de modo que la síntesis del habla continúa (etapa 52) con una calidad mejorada.

El diagrama de flujos mostrado en la figura 3 ilustra un proceso según la segunda técnica que no es acorde a la invención, centrándose en el señalización de diferentes procesos. Una solicitud de usuario (etapa 60) en el explorador del terminal activa (etapa 62) el gestor de contexto (22) en el servidor de contexto 14 para descargar la información solicitada en el terminal de usuario (etapa 64) y para comprobar subsiguientemente (etapa 66) si la base de datos incremental asociada ya está presente en la memoria caché 10 del terminal de usuario. Si la base de datos incremental asociada ya está presente, comienza la síntesis del habla (etapa 72), sino se descarga en el terminal de usuario (etapa 68) y se fusiona con la base de datos actual en una nueva base de datos ampliada (etapa 70), y después se inicia la síntesis del habla (etapa 72). Según esta técnica, el proceso de síntesis del habla se retrasa hasta que una nueva base de datos ampliada está disponible, de modo que la calidad del habla es constante durante la fase de síntesis.

El proceso de fusión de una base de datos incremental con una base de datos existente, es decir, la base de datos por defecto en el terminal de usuario, se explicará detalladamente a continuación en referencia a las figuras 4 y 5.

La figura 4 ilustra una estructura de base de datos de habla de un sistema de síntesis del habla, en particular la base de datos por defecto 6 del terminal de usuario 2. La base de datos del habla comprende una base de datos de unidades de habla, o formas de onda de habla, 80 y un archivo descriptor 82 asociado relacionado con dicha base de datos. El archivo descriptor 82 contiene una tabla de referencia que deja que el sintetizador del habla 3 conozca la posición de la unidad de habla requerida en la base de datos de unidades del habla 80.

En una realización particular, el archivo descriptor 82 es una tabla de referencia de difonos, donde un "difono" se interpreta como una unidad de habla compuesta de dos medio-fonos adyacentes. La tabla de referencia de difonos 82 contiene información acerca de todos los difonos presentes en la base de datos de unidades de habla 80. Cada difono #1 .. #N tiene una porción correspondiente E1... EN de la tabla 82, como se muestra en la figura 4, que contiene:

-: los indicadores P(#n) para todos los segmentos de habla de la base de datos de habla por defecto que contienen tal difono;

-: cualquier otra información necesaria para el algoritmo de síntesis para realizar la mejor selección de unidad (p. ej., información prosódica, campo, posición del difono dentro del segmento de habla).

\vskip1.000000\baselineskip

La figura 5 ilustra una estructura de base de datos de habla tras la descarga de una base de datos incremental 92 de las unidades de habla en una base de datos previa de unidades de habla 90 ya presentes en el terminal de usuario, y la actualización correspondiente de la tabla de referencia de difonos 94. La actualización de la tabla de referencia de difonos 94 incluye, por ejemplo, si la base de datos incremental de unidades de habla 92 contiene un segmento de habla con el difono #1, la integración de la porción E1 de la tabla relativa al difono #1 con indicadores adicionales P'(#1) a aquellos segmentos de habla añadidos.

En cuanto al procedimiento de actualización de la base de datos de habla en el terminal de usuario, realizado remotamente por el servidor de contenido 14, dos aproximaciones son posibles.

Según una primera aproximación, el gestor de contexto 22 envía al terminal de usuario 2 una base de datos incremental adecuada con un nuevo archivo descriptor asociado (el archivo descriptor de difonos completo 94 en el ejemplo anterior). El gestor de base de datos 26 almacena la base de datos incremental en la memoria caché 10 y reemplaza el archivo descriptor por el nuevo.

Según una segunda aproximación, el gestor de contexto 22 envía al terminal de usuario 2 una base de datos incremental y un archivo de revisión que el gestor de base de datos 26 aplica al archivo descriptor ya presente en el terminal de usuario para actualizarlo con el nuevo archivo descriptor 94.

Ventajosamente, según la presente invención, la síntesis del habla puede realizarse en un terminal móvil sin ninguna conexión de red, mejorando la utilización de las aplicaciones/servicios basados en la síntesis del habla. Un motor TTS totalmente operativo, de hecho, siempre está disponible en el terminal, gracias a la base de datos de habla por defecto incorporada.

Además, gracias a las bases de datos incrementales descargadas a través de la conexión de red, se puede mejorar la calidad de síntesis del habla, logrando la misma alta calidad que una solución estática basada en una base de datos grande que no se puede almacenar en un terminal de usuario de memoria limitada.

Según la invención, los proveedores de servicio pueden diferenciar entre servicios basados en síntesis de habla a través de la diferenciación de la calidad de servicios suministrados, según la disponibilidad de las bases de datos incrementales.

\newpage

Referencias citadas en la descripción

Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad al respecto.

Documentos de patente citados en la descripción

\bullet WO 0030069 A [0003] [0004]

\bullet EP 1471499 A1 [0007]

\bullet EP 1431958 A1 [0009]

\bullet US 20040054534 A [0010].

Claims

1. Procedimiento para generar habla sintetizada a partir de información textual en un terminal de usuario (2), estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) teniendo una base de datos básica (6) de formas de onda de habla, comprendiendo las etapas de:

-: iniciar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos básica (6) de formas de onda de habla;

-: extraer (42) información de contexto asociada a dicha información textual;

-: seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto;

-: proporcionar (48) a dicho terminal de usuario (2) dicha base de datos incremental (DB1, ...DBN);

-: gestionar (50) la composición de una base de datos ampliada de formas de onda de habla incluyendo dicha bases de datos básica (6) y dicha incremental de formas de onda de habla; y

-: continuar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos ampliada de formas de onda de habla.

\vskip1.000000\baselineskip

2. Procedimiento según la reivindicación 1, en el que dicha etapa de proporcionar dicho terminal de usuario con dicha base de datos incremental incluye:

-: verificar (46) si dicha base de datos incremental ya está presente en dicho terminal de usuario; y

-: descargar (48), a través de una red de comunicaciones (12), dicha base de datos incremental en dicho terminal de usuario, si todavía no está presente.

\vskip1.000000\baselineskip

3. Procedimiento según la reivindicación 2, en el que dicha etapa de descarga de dicha base de datos incremental en dicho terminal de usuario incluye:

-: descargar una base de datos incremental de formas de onda de habla (92); y

-: actualizar un archivo descriptor (94) de dicha base de datos ampliada de formas de onda de habla.

\vskip1.000000\baselineskip

4. Procedimiento según la reivindicación 1, comprendiendo además la etapa de almacenar dicha base de datos incremental en una memoria caché en dicho terminal de usuario.

5. Procedimiento según la reivindicación 1, en el que dicha etapa de seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto se realiza según las reglas de contexto independientes de perfiles de usuario.

6. Procedimiento según la reivindicación 1, en el que dicha etapa de seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto se realiza según las reglas de contexto basadas en un perfil de usuario.

7. Procedimiento según la reivindicación 1, en el que dicha información textual es recuperada por dicho terminal de usuario a través de una red de comunicaciones (12).

8. Procedimiento según la reivindicación 1, incluyendo las etapas de:

-: reemplazar dicha base de datos estática (6) de formas de onda de habla descargando, a través de una red de comunicaciones (12), una base de datos básica substituta en dicho terminal de usuario (2).

9. Procedimiento según cualquiera de las reivindicaciones 2, 3, 7 u 8, en el que dicha red de comunicaciones es una red de comunicaciones inalámbrica.

10. Arquitectura de servicio incluyendo un terminal de usuario para proporcionar a dicho terminal de usuario (2) síntesis del habla relativa a información textual, estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) y una base de datos básica de formas de onda de habla (6), caracterizada por el hecho de que incluye:

\newpage

-: un servidor de contexto (14) para descargar una base de datos incremental (DB1, ...DBN) de formas de onda de habla en dicho terminal de usuario, estando dicha base de datos incremental asociada a información de contexto asociada a dicha información textual;

-: un gestor de base de datos (26) en dicho terminal de usuario (2) para gestionar la composición de una base de datos ampliada de formas de onda de habla para dicho motor de síntesis del habla incluyendo dicha base de datos básica (6) y dicha incremental (DB1, ...DBN) de formas de onda de habla, estando dicho motor de síntesis del habla (4) operativo para iniciar la síntesis del habla de dicha información textual utilizando dicha base de datos básica de formas de onda de habla (6) siempre que dicha base de datos ampliada de formas de onda de habla no esté disponible todavía.

\vskip1.000000\baselineskip

11. Arquitectura de servicio según la reivindicación 10, en la que dicho servidor de contexto (14) incluye:

-: un gestor de contexto (22) para extraer información de contexto a partir de dicha información textual;

-: un selector de contexto (24) para seleccionar una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto y para descargar dicha base de datos incremental en dicho terminal de usuario.

\vskip1.000000\baselineskip

12. Arquitectura de servicio según la reivindicación 10, comprendiendo además en dicho terminal de usuario (2) una memoria caché para almacenar temporalmente al menos una base de datos incremental descargada.

13. Arquitectura de servicio según la reivindicación 11, comprendiendo además un servidor de base de datos (8) que almacena una pluralidad de bases de datos incrementales (DB1, ...DBN) seleccionadas por dicho selector de contexto (24).

14. Arquitectura de servicio según la reivindicación 11, en la que dicho selector de contexto (24) funciona según las reglas de contexto independientes de perfiles de usuario.

15. Arquitectura de servicio según la reivindicación 11, en la que dicho selector de contexto (24) funciona según las reglas de contexto basadas en un perfil de usuario.

16. Arquitectura de servicio según la reivindicación 10, comprendiendo además un servidor de contenido (16) para descargar dicha información textual en dicho terminal de usuario.

17. Arquitectura de servicio según cualquiera de las reivindicaciones 10 a 16, en la que dicha red de comunicaciones es una red de comunicaciones inalámbrica.

18. Terminal de usuario (2) para una red de comunicaciones incluyendo:

-: una base de datos básica (6) de formas de onda de habla;

-: medio (18) para recuperar información textual destinada a convertirse en habla sintetizada,

\vskip1.000000\baselineskip

caracterizado por el hecho de que comprende:

-: un gestor de bases de datos (26) para descargar una base de datos incremental de formas de onda de habla (DB1, ...DBN) desde un servidor de bases de datos, estando dicha base de datos incremental asociada a información de contexto asociada a dicha información textual, y para gestionar la composición de una base de datos de formas de onda de habla ampliada para dicho motor de síntesis de habla (4), incluyendo dicha base de datos básica (6) y dicha incremental de formas de onda de habla;

-: un motor de síntesis del habla (4) operativo para iniciar la síntesis del habla de dicha información textual utilizando dicha base de datos básica de formas de onda de habla (6) siempre que dicha base de datos ampliada no esté disponible todavía.

\vskip1.000000\baselineskip

19. Terminal de usuario según la reivindicación 18, comprendiendo además una memoria caché (10) para almacenar temporalmente al menos una base de datos incremental descargada.

20. Terminal de usuario según la reivindicación 18, en el que dicho motor de síntesis de habla (4) está basado en una síntesis de habla concatenativa.

21. Producto de programa informático, que se puede cargar en la memoria de al menos un ordenador y que incluye porciones de código de software para realizar el procedimiento de cualquiera de las reivindicaciones 1 a 9.