ES2336686T3 - Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones. - Google Patents

Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones. Download PDF

Info

Publication number
ES2336686T3
ES2336686T3 ES05754668T ES05754668T ES2336686T3 ES 2336686 T3 ES2336686 T3 ES 2336686T3 ES 05754668 T ES05754668 T ES 05754668T ES 05754668 T ES05754668 T ES 05754668T ES 2336686 T3 ES2336686 T3 ES 2336686T3
Authority
ES
Spain
Prior art keywords
database
speech
incremental
user terminal
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05754668T
Other languages
English (en)
Inventor
Alessio Cervone
Ivano Salvatore Collotta
Paolo Coppo
Donato Ettorre
Maurizio Fodrini
Maura Turolla
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia SpA
Original Assignee
Telecom Italia SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia SpA filed Critical Telecom Italia SpA
Application granted granted Critical
Publication of ES2336686T3 publication Critical patent/ES2336686T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Machine Translation (AREA)

Abstract

Procedimiento para generar habla sintetizada a partir de información textual en un terminal de usuario (2), estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) teniendo una base de datos básica (6) de formas de onda de habla, comprendiendo las etapas de: - iniciar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos básica (6) de formas de onda de habla; - extraer (42) información de contexto asociada a dicha información textual; - seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto; - proporcionar (48) a dicho terminal de usuario (2) dicha base de datos incremental (DB1, ...DBN); - gestionar (50) la composición de una base de datos ampliada de formas de onda de habla incluyendo dicha bases de datos básica (6) y dicha incremental de formas de onda de habla; y - continuar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos ampliada de formas de onda de habla.

Description

Proporcionar síntesis del habla en terminales de usuario en una red de comunicaciones.
Campo de la invención
La presente invención se refiere a un procedimiento y a un sistema para proporcionar síntesis del habla a un terminal de usuario a través de una red de telecomunicaciones. En particular, la presente invención se refiere a una arquitectura de servicios para proporcionar síntesis del habla en terminales de usuarios con memoria disponible limitada, como teléfonos móviles, PDAs (Asistente Personal Digital), organizadores personales y cámaras digitales.
La invención se ha desarrollado prestando atención particular a su posible utilización en redes de telecomunicaciones inalámbricas, para proporcionar servicios de texto a voz (TTS) a terminales móviles que tienen incorporado un módulo sintetizador del habla basado en la concatenación de formas de onda del habla almacenadas en una base de datos. Descripción de la técnica relacionada.
La síntesis del habla basada en la técnica de concatenación es muy conocida en la técnica, es decir, por la solicitud de patente WO 00/30069 o de la publicación "A concatenative speech synthesis method using context dependent phoneme sequences with variable length as search units", NHK (Nippon Hoso Kyokai; Japan Broadcasting Corp.) Science and Technical Research Laboratories, 5th ISCA Speech Synthesis Workshop, Pittsburgh, USA, June 2004.
El documento WO 00/30069 describe un sintetizador del habla basado en la concatenación de unidades de habla tomadas digitalmente desde una gran base de datos.
La publicación "A concatenative speech synthesis method using context dependent phoneme sequences with variable length as search units" proporciona un procedimiento de división de un texto de entrada en una secuencia de fonemas dependientes de contexto y un procedimiento de selección de una forma de onda de voz apropiada desde una base de datos de habla estática. La calidad del habla aumenta cuando se utiliza una base de datos de habla grande.
El solicitante ha observado que la calidad de tal sistema de síntesis del habla, cuando está incorporado en un terminal móvil, está limitado intrínsicamente por el tamaño máximo de la base de datos, que no puede aumentarse según se desee en un terminal de recursos limitados.
El documento EP 1.471.499 A1 ilustra un procedimiento de síntesis del habla distribuido que realiza una conversión texto a voz basada en un procesamiento distribuido entre un servidor remoto y un terminal de usuario. En particular, la síntesis de segmentos de habla es realizada por el servidor. El terminal de usuario descarga segmentos de habla sintetizados y los concatena mediante las reglas del servidor. Además, el terminal de usuario realiza un mecanismo de memoria caché según las reglas proporcionadas por el servidor.
El solicitante ha observado que, aunque la síntesis del habla de alta calidad puede lograrse utilizando un sistema de síntesis del habla distribuido, en tales sistemas no es factible realizar síntesis del habla sin una conexión de red activa, limitando así la eficacia de algunos terminales de usuario, por ejemplo, PDAs.
La patente EP-A1-1.431.958 describe la descarga de diferentes voces de hablantes.
El documento US 2004/0054534 ilustra un ejemplo de personalización de síntesis del habla basada en preferencias del usuario. El usuario selecciona los criterios de voz en un terminal de usuario local. Los criterios de voz representan las características que el usuario desea para una voz sintetizada. Los criterios de voz se comunican a un servidor. El servidor genera una serie de reglas de voz sintetizada basada en los criterios de voz y los envía al terminal de usuario local. Las reglas de voz sintetizada representan aspectos prosódicos de la voz sintetizada.
El solicitante ha observado que la calidad de síntesis del habla de los sistemas de síntesis del habla arriba mencionados está, como normal general, directamente relacionada con el tamaño de la base de datos de las formas de onda utilizadas.
El solicitante ha abordado el problema de obtener un aumento significativo de la calidad de la síntesis del habla en sistemas que están incorporados en terminales móviles, sin afectar demasiado a los requisitos de memoria de la base de datos de formas de onda del habla. En particular, el solicitante ha abordado el problema de personalizar dinámicamente un sistema de síntesis del habla basado en la técnica de concatenación, logrando la misma calidad que una solución estática basada en una base de datos de formas de onda tan grande que no puede almacenarse en terminales de usuarios portátiles.
Objeto y resumen de la invención
El solicitante ha hallado que este problema se puede solucionar proporcionando una arquitectura de sistema de red capaz de descargar dinámicamente bases de datos incrementales de formas de onda del habla e información de indexación relacionada que, integradas en el módulo de síntesis del habla en el terminal móvil, mejoran una base de datos reducida en el terminal.
Un objeto particular de la presente invención es proporciona una arquitectura de servicio para proporcionar síntesis del habla de alta calidad en terminales de usuario móviles con baja memoria disponible.
El objeto de la invención es, por tanto, responder satisfactoriamente a las necesidades anteriores.
Según la presente invención, ese objeto se alcanza por medio de un procedimiento que tiene las características expuestas en la reivindicación 1. La invención también se refiere a una arquitectura de servicio, reivindicada en la reivindicación 10, así como a un producto de programa informático relacionado, reivindicado en la reivindicación 21. Las realizaciones preferidas se exponen en las reivindicaciones dependientes.
La referencia a "al menos un ordenador" está destinada evidentemente a subrayar la posibilidad de que la presente invención se implemente de forma distribuida/modular.
Las reivindicaciones son una parte integrante de la descripción de la invención aquí descrita.
La solución de síntesis del habla dinámica aquí propuesta puede lograr la misma calidad que una solución estática basada en una base de datos grande. La solución dinámica trabaja en una gran base de datos virtual utilizando una base de datos estática reducida ubicada dentro del terminal de usuario y descargando las bases de datos incrementales adecuadas solo cuando es necesario. Cada base de datos incremental, que contiene elementos de habla adicionales respecto a la base de datos por defecto, está relacionada con el contexto de la información específica que se va a sintetizar. Al utilizar la base de datos extendida, proporcionada por la base de datos por defecto más la base(s) de datos incremental(es) descargada, la síntesis del habla en el terminal de usuario logra una calidad mejorada.
Cada base de datos incremental dinámica está relacionada con uno o más contextos de información, por ejemplo, economía, deporte, humor, etcétera. La misma base de datos incremental se puede utilizar para mejorar la síntesis de varios contenidos relacionados con el mismo contexto. Un mecanismo de memoria caché se puede implementar en el terminal de usuario para evitar descargas adicionales de la misma base de datos incremental cuando el contexto de información no ha cambiado, o cuando se utiliza frecuentemente el mismo contexto. Además, se pueden utilizar bases de datos incrementales para personalizar la síntesis del habla realizada en un terminal de usuario respecto a reglas de contexto, según el perfil de usuario específico o las preferencias de usuario específicas.
Características y ventajas adicionales de la presente invención se clarificarán a partir de la siguiente descripción detallada de algunos ejemplos de la misma, provista simplemente a modo de ejemplo sin ninguna intención restrictiva. La descripción detallada se referirá a las siguientes figuras, en las que:
- La figura 1 muestra esquemáticamente una arquitectura de servicio para proporcionar síntesis del habla en terminales de usuario, según la presente invención;
- La figura 2 muestra un diagrama de flujo de un procedimiento para proporcionar síntesis del habla en terminales de usuario, según la presente invención;
- La figura 3 muestra un diagrama de flujo de un procedimiento alternativo para proporcionar síntesis del habla en terminales de usuario, según un ejemplo;
- La figura 4 muestra esquemáticamente una base de datos por defecto de un sistema de síntesis del habla incorporado en un terminal de usuario, según la presente invención; y
- La figura 5 muestra esquemáticamente una base de datos mejorada de un sistema de síntesis del habla incorporado en un terminal de usuario, según la presente invención.
En referencia a la figura 1, una arquitectura de servicio para proporcionar, en un terminal de usuario 2 con al menos una conexión (alámbrica o inalámbrica) con una red de telecomunicaciones 12, síntesis del habla a partir de información de texto, comprende, además del terminal 2 y la red 12, un servidor de contenido 16 para descargar contenidos al terminal de usuario, un servidor de contexto 14 para seleccionar un contexto asociado a la información solicitada por el usuario, y un servidor de base de datos 8 que contiene una pluralidad de bases de datos incrementales DB1, ...DBN destinadas a descargarse en el terminal de usuario 2.
El terminal de usuario 2 está equipado con un sintetizador del habla 4 incorporado y con una base de datos por defecto limitada 6. Al utilizar esta configuración básica, el terminal 2 puede sintetizar cualquier información relacionada con cualquier contexto en un nivel de calidad mínimo. La información textual puede estar ya presente en el terminal de usuario 2 o puede recuperarse del servidor de contenido remoto 16 por medio de una aplicación de exploración 18 instalada en la misma terminal 2 y visualizada en una pantalla 20.
Para mejorar la calidad de síntesis, la arquitectura propuesta utiliza una servidor de base de datos 8 (o una pluralidad de servidores de bases de datos) capaz de proporcionar una pluralidad de bases de datos incrementales DB1, ...DBN con el objetivo de aumentar la base de datos por defecto 6 ubicada en el terminal de usuario 2.
\newpage
Se proporciona también un mecanismo de memoria caché en el terminal de usuario 2 para gestionar eficientemente la descarga y el almacenamiento de las bases de datos incrementales en el terminal de usuario. Una memoria caché 10 hace que esté disponible la base de datos incremental almacenada durante todo el tiempo en que se utiliza el contexto relativo, ya que la distinta información requerida por el usuario puede referirse al mismo contexto y por tanto a la misma base de datos incremental. En este caso, no se descarga otra base de datos incremental desde la red, el proceso de síntesis del habla se acelera y los recursos de red se optimizan.
El mecanismo caché asocia el parámetro "tiempo de vida" a cada base de datos incremental almacenada para evitar descargas adicionales cuando se reutiliza frecuentemente el contexto relativo. Los parámetros que rigen el mecanismo caché, como por ejemplo el tamaño de la memoria caché y el "tiempo de vida", se pueden establecer en el terminal de usuario, por medio del ajuste del usuario, o bien según las reglas proporcionadas por el servidor de contexto 14.
Cuando el usuario desea sintetizar una información textual proporcionada por un servidor de contenido remoto 16, se realizan las siguientes acciones. Primero, el explorador 18 del terminal de usuario envía al servidor de contexto 14 una solicitud (flecha 30) relacionada con la información que se va a sintetizar, a través de la conexión de red 12. Un gestor de contexto 22 localizado en el servidor de contexto 14 pide al servidor de contenido 16 que descargue los contenidos de información en el explorador de terminal de usuario (flecha 34) y extrae la información de contexto de los contenidos de información. Mientras tanto, el gestor de contexto 22 comprueba si el terminal de usuario ya tiene en la memoria caché 10 la base de datos incremental adecuada. Diversas alternativas para realizar esta comprobación son posibles, por ejemplo, el terminal 2 puede comunicar la descripción de las bases de datos ya disponibles junto con la solicitud (flecha 30), o el gestor de contexto 22 puede controlar todas las descargas de bases de datos previas 32 asociadas a un terminal de usuario específico. Si el terminal de usuario necesita la base de datos incremental, el gestor de contexto 22 activa un selector de contexto 24 para elegir una base de datos incremental adecuada DB2 en el servidor de base de datos 8, y transfiere dicha base de datos incremental a un gestor de bases de datos 26 en el terminal de usuario (flecha 32). El servidor de contenido 16, el servidor de base de datos 8 y el servidor de contexto 14 pueden estar ubicados en el mismo servidor, o de lo contrario, en servidores separados conectados a una red de telecomunicaciones común (p. ej., Internet).
El gestor de la base de datos 26 en el terminal de usuario 2 recibe la base de datos incremental desde la red y gestiona la composición de una nueva base de datos aumentada, como se explica más detalladamente a continuación. Cuando la base de datos ampliada está disponible en el terminal, el gestor de base de datos 26 notifica al sintetizador del habla 4 que una nueva base de datos de formas de onda del habla está disponible, logrando así una calidad de síntesis mayor.
En cuanto a la relación entre los contenidos de información solicitados por el usuario y la base de datos incremental descargada, diferentes aproximaciones son posibles. Tal relación puede establecerse en el "lado servidor", es decir, en el servidor de contexto 14, o en el "lado cliente", es decir, según las preferencias del usuario. En el primer caso, tal relación está establecida según las reglas del servidor del contexto del servidor, como contextos económicos, deportivos o humorísticos, etc., o según un perfil de usuario específico almacenado en el servidor. En el segundo caso, la decisión se toma según las preferencias específicas del usuario, por ejemplo una personalización prosódica, inflexión dialectal, etcétera.
Si se requiere, la base de datos básica 2 de formas de onda del habla se puede reemplazar por una de substitución, descargando una nueva base de datos en el terminal de usuario. El proceso de descarga y reemplazo es gestionado por el gestor de bases de datos 26, que recupera la nueva base de datos desde un servidor remoto, (p. ej., el mismo servidor de base de datos 8) y reemplaza la base de datos en la memoria del terminal. Tal reemplazo puede ser útil, por ejemplo, si un usuario desea cambiar el idioma del sistema TTS.
El proceso de síntesis del habla incorporado en el terminal de usuario 2 puede llevarse a cabo según dos técnicas diferentes. Según una primera técnica, la síntesis del habla puede comenzar tan pronto como el contenido está disponible en el terminal de usuario, evitando retrasos adicionales, utilizando la base de datos por defecto, proporcionando el mínimo nivel de calidad. La calidad de síntesis del habla se mejora cuando la base de datos incremental se ha descargado y unido completamente con la base de datos ya presente en el terminal, permitiendo que el motor texto a voz utilice una base de datos mayor. De lo contrario, según una segunda técnica no acorde con la invención, la síntesis del habla no comienza inmediatamente utilizando la base de datos por defecto, sino que solo comienza tan pronto como la base de datos incremental está disponible en el terminal de usuario. En este caso, la síntesis del habla está sujeta a un retraso en el tiempo de inicio, pero la calidad de síntesis, es, desde el inicio, constante a niveles altos.
El diagrama de flujos mostrado en la figura 2 ilustra un proceso según la primera técnica, centrándose en el paralelismo de diferentes procesos. Una solicitud de usuario (etapa 40) en el explorador del terminal activa (etapa 42) el gestor de contexto (22) en el servidor de contexto 14, iniciando dos procesos paralelos (etapas 44, 46) respectivamente para descargar los contenidos de información solicitada en el terminal de usuario y para comprobar si la base de datos incremental asociada ya está presente en la memoria caché 10 del terminal de usuario. Tan pronto como los contenidos de información solicitada se descargan en el terminal, comienza la síntesis del habla (etapa 52), lo mismo ocurre si la base de datos incremental asociada ya está presente en la memoria caché 10. Por el contrario, si la base de datos incremental asociada no está presente en la memoria caché, se descarga en el terminal de usuario (etapa 48) y se une con la base de datos actual en una nueva base de datos ampliada (etapa 50), de modo que la síntesis del habla continúa (etapa 52) con una calidad mejorada.
El diagrama de flujos mostrado en la figura 3 ilustra un proceso según la segunda técnica que no es acorde a la invención, centrándose en el señalización de diferentes procesos. Una solicitud de usuario (etapa 60) en el explorador del terminal activa (etapa 62) el gestor de contexto (22) en el servidor de contexto 14 para descargar la información solicitada en el terminal de usuario (etapa 64) y para comprobar subsiguientemente (etapa 66) si la base de datos incremental asociada ya está presente en la memoria caché 10 del terminal de usuario. Si la base de datos incremental asociada ya está presente, comienza la síntesis del habla (etapa 72), sino se descarga en el terminal de usuario (etapa 68) y se fusiona con la base de datos actual en una nueva base de datos ampliada (etapa 70), y después se inicia la síntesis del habla (etapa 72). Según esta técnica, el proceso de síntesis del habla se retrasa hasta que una nueva base de datos ampliada está disponible, de modo que la calidad del habla es constante durante la fase de síntesis.
El proceso de fusión de una base de datos incremental con una base de datos existente, es decir, la base de datos por defecto en el terminal de usuario, se explicará detalladamente a continuación en referencia a las figuras 4 y 5.
La figura 4 ilustra una estructura de base de datos de habla de un sistema de síntesis del habla, en particular la base de datos por defecto 6 del terminal de usuario 2. La base de datos del habla comprende una base de datos de unidades de habla, o formas de onda de habla, 80 y un archivo descriptor 82 asociado relacionado con dicha base de datos. El archivo descriptor 82 contiene una tabla de referencia que deja que el sintetizador del habla 3 conozca la posición de la unidad de habla requerida en la base de datos de unidades del habla 80.
En una realización particular, el archivo descriptor 82 es una tabla de referencia de difonos, donde un "difono" se interpreta como una unidad de habla compuesta de dos medio-fonos adyacentes. La tabla de referencia de difonos 82 contiene información acerca de todos los difonos presentes en la base de datos de unidades de habla 80. Cada difono #1 .. #N tiene una porción correspondiente E1... EN de la tabla 82, como se muestra en la figura 4, que contiene:
-
los indicadores P(#n) para todos los segmentos de habla de la base de datos de habla por defecto que contienen tal difono;
-
cualquier otra información necesaria para el algoritmo de síntesis para realizar la mejor selección de unidad (p. ej., información prosódica, campo, posición del difono dentro del segmento de habla).
\vskip1.000000\baselineskip
La figura 5 ilustra una estructura de base de datos de habla tras la descarga de una base de datos incremental 92 de las unidades de habla en una base de datos previa de unidades de habla 90 ya presentes en el terminal de usuario, y la actualización correspondiente de la tabla de referencia de difonos 94. La actualización de la tabla de referencia de difonos 94 incluye, por ejemplo, si la base de datos incremental de unidades de habla 92 contiene un segmento de habla con el difono #1, la integración de la porción E1 de la tabla relativa al difono #1 con indicadores adicionales P'(#1) a aquellos segmentos de habla añadidos.
En cuanto al procedimiento de actualización de la base de datos de habla en el terminal de usuario, realizado remotamente por el servidor de contenido 14, dos aproximaciones son posibles.
Según una primera aproximación, el gestor de contexto 22 envía al terminal de usuario 2 una base de datos incremental adecuada con un nuevo archivo descriptor asociado (el archivo descriptor de difonos completo 94 en el ejemplo anterior). El gestor de base de datos 26 almacena la base de datos incremental en la memoria caché 10 y reemplaza el archivo descriptor por el nuevo.
Según una segunda aproximación, el gestor de contexto 22 envía al terminal de usuario 2 una base de datos incremental y un archivo de revisión que el gestor de base de datos 26 aplica al archivo descriptor ya presente en el terminal de usuario para actualizarlo con el nuevo archivo descriptor 94.
Ventajosamente, según la presente invención, la síntesis del habla puede realizarse en un terminal móvil sin ninguna conexión de red, mejorando la utilización de las aplicaciones/servicios basados en la síntesis del habla. Un motor TTS totalmente operativo, de hecho, siempre está disponible en el terminal, gracias a la base de datos de habla por defecto incorporada.
Además, gracias a las bases de datos incrementales descargadas a través de la conexión de red, se puede mejorar la calidad de síntesis del habla, logrando la misma alta calidad que una solución estática basada en una base de datos grande que no se puede almacenar en un terminal de usuario de memoria limitada.
Según la invención, los proveedores de servicio pueden diferenciar entre servicios basados en síntesis de habla a través de la diferenciación de la calidad de servicios suministrados, según la disponibilidad de las bases de datos incrementales.
\newpage
Referencias citadas en la descripción
Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad al respecto.
Documentos de patente citados en la descripción
\bullet WO 0030069 A [0003] [0004]
\bullet EP 1471499 A1 [0007]
\bullet EP 1431958 A1 [0009]
\bullet US 20040054534 A [0010].

Claims (21)

1. Procedimiento para generar habla sintetizada a partir de información textual en un terminal de usuario (2), estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) teniendo una base de datos básica (6) de formas de onda de habla, comprendiendo las etapas de:
-
iniciar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos básica (6) de formas de onda de habla;
-
extraer (42) información de contexto asociada a dicha información textual;
-
seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto;
-
proporcionar (48) a dicho terminal de usuario (2) dicha base de datos incremental (DB1, ...DBN);
-
gestionar (50) la composición de una base de datos ampliada de formas de onda de habla incluyendo dicha bases de datos básica (6) y dicha incremental de formas de onda de habla; y
-
continuar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos ampliada de formas de onda de habla.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1, en el que dicha etapa de proporcionar dicho terminal de usuario con dicha base de datos incremental incluye:
-
verificar (46) si dicha base de datos incremental ya está presente en dicho terminal de usuario; y
-
descargar (48), a través de una red de comunicaciones (12), dicha base de datos incremental en dicho terminal de usuario, si todavía no está presente.
\vskip1.000000\baselineskip
3. Procedimiento según la reivindicación 2, en el que dicha etapa de descarga de dicha base de datos incremental en dicho terminal de usuario incluye:
-
descargar una base de datos incremental de formas de onda de habla (92); y
-
actualizar un archivo descriptor (94) de dicha base de datos ampliada de formas de onda de habla.
\vskip1.000000\baselineskip
4. Procedimiento según la reivindicación 1, comprendiendo además la etapa de almacenar dicha base de datos incremental en una memoria caché en dicho terminal de usuario.
5. Procedimiento según la reivindicación 1, en el que dicha etapa de seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto se realiza según las reglas de contexto independientes de perfiles de usuario.
6. Procedimiento según la reivindicación 1, en el que dicha etapa de seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto se realiza según las reglas de contexto basadas en un perfil de usuario.
7. Procedimiento según la reivindicación 1, en el que dicha información textual es recuperada por dicho terminal de usuario a través de una red de comunicaciones (12).
8. Procedimiento según la reivindicación 1, incluyendo las etapas de:
-
reemplazar dicha base de datos estática (6) de formas de onda de habla descargando, a través de una red de comunicaciones (12), una base de datos básica substituta en dicho terminal de usuario (2).
9. Procedimiento según cualquiera de las reivindicaciones 2, 3, 7 u 8, en el que dicha red de comunicaciones es una red de comunicaciones inalámbrica.
10. Arquitectura de servicio incluyendo un terminal de usuario para proporcionar a dicho terminal de usuario (2) síntesis del habla relativa a información textual, estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) y una base de datos básica de formas de onda de habla (6), caracterizada por el hecho de que incluye:
\newpage
-
un servidor de contexto (14) para descargar una base de datos incremental (DB1, ...DBN) de formas de onda de habla en dicho terminal de usuario, estando dicha base de datos incremental asociada a información de contexto asociada a dicha información textual;
-
un gestor de base de datos (26) en dicho terminal de usuario (2) para gestionar la composición de una base de datos ampliada de formas de onda de habla para dicho motor de síntesis del habla incluyendo dicha base de datos básica (6) y dicha incremental (DB1, ...DBN) de formas de onda de habla, estando dicho motor de síntesis del habla (4) operativo para iniciar la síntesis del habla de dicha información textual utilizando dicha base de datos básica de formas de onda de habla (6) siempre que dicha base de datos ampliada de formas de onda de habla no esté disponible todavía.
\vskip1.000000\baselineskip
11. Arquitectura de servicio según la reivindicación 10, en la que dicho servidor de contexto (14) incluye:
-
un gestor de contexto (22) para extraer información de contexto a partir de dicha información textual;
-
un selector de contexto (24) para seleccionar una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto y para descargar dicha base de datos incremental en dicho terminal de usuario.
\vskip1.000000\baselineskip
12. Arquitectura de servicio según la reivindicación 10, comprendiendo además en dicho terminal de usuario (2) una memoria caché para almacenar temporalmente al menos una base de datos incremental descargada.
13. Arquitectura de servicio según la reivindicación 11, comprendiendo además un servidor de base de datos (8) que almacena una pluralidad de bases de datos incrementales (DB1, ...DBN) seleccionadas por dicho selector de contexto (24).
14. Arquitectura de servicio según la reivindicación 11, en la que dicho selector de contexto (24) funciona según las reglas de contexto independientes de perfiles de usuario.
15. Arquitectura de servicio según la reivindicación 11, en la que dicho selector de contexto (24) funciona según las reglas de contexto basadas en un perfil de usuario.
16. Arquitectura de servicio según la reivindicación 10, comprendiendo además un servidor de contenido (16) para descargar dicha información textual en dicho terminal de usuario.
17. Arquitectura de servicio según cualquiera de las reivindicaciones 10 a 16, en la que dicha red de comunicaciones es una red de comunicaciones inalámbrica.
18. Terminal de usuario (2) para una red de comunicaciones incluyendo:
-
una base de datos básica (6) de formas de onda de habla;
-
medio (18) para recuperar información textual destinada a convertirse en habla sintetizada,
\vskip1.000000\baselineskip
caracterizado por el hecho de que comprende:
-
un gestor de bases de datos (26) para descargar una base de datos incremental de formas de onda de habla (DB1, ...DBN) desde un servidor de bases de datos, estando dicha base de datos incremental asociada a información de contexto asociada a dicha información textual, y para gestionar la composición de una base de datos de formas de onda de habla ampliada para dicho motor de síntesis de habla (4), incluyendo dicha base de datos básica (6) y dicha incremental de formas de onda de habla;
-
un motor de síntesis del habla (4) operativo para iniciar la síntesis del habla de dicha información textual utilizando dicha base de datos básica de formas de onda de habla (6) siempre que dicha base de datos ampliada no esté disponible todavía.
\vskip1.000000\baselineskip
19. Terminal de usuario según la reivindicación 18, comprendiendo además una memoria caché (10) para almacenar temporalmente al menos una base de datos incremental descargada.
20. Terminal de usuario según la reivindicación 18, en el que dicho motor de síntesis de habla (4) está basado en una síntesis de habla concatenativa.
21. Producto de programa informático, que se puede cargar en la memoria de al menos un ordenador y que incluye porciones de código de software para realizar el procedimiento de cualquiera de las reivindicaciones 1 a 9.
ES05754668T 2005-05-31 2005-05-31 Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones. Active ES2336686T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2005/005818 WO2006128480A1 (en) 2005-05-31 2005-05-31 Method and system for providing speech synthsis on user terminals over a communications network

Publications (1)

Publication Number Publication Date
ES2336686T3 true ES2336686T3 (es) 2010-04-15

Family

ID=35252393

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05754668T Active ES2336686T3 (es) 2005-05-31 2005-05-31 Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones.

Country Status (6)

Country Link
US (1) US8583437B2 (es)
EP (1) EP1886302B1 (es)
AT (1) ATE449399T1 (es)
DE (1) DE602005017829D1 (es)
ES (1) ES2336686T3 (es)
WO (1) WO2006128480A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
JP2009265279A (ja) * 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
CN101593516B (zh) 2008-05-28 2011-08-24 国际商业机器公司 语音合成的方法和系统
PL401347A1 (pl) * 2012-10-25 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Spójny interfejs do lokalnej i oddalonej syntezy mowy
US9159314B2 (en) * 2013-01-14 2015-10-13 Amazon Technologies, Inc. Distributed speech unit inventory for TTS systems
CN110460654A (zh) * 2019-02-26 2019-11-15 北京蓦然认知科技有限公司 一种智能交互平台中交互引擎的下载方法及装置
CN111429878B (zh) * 2020-03-11 2023-05-26 云知声智能科技股份有限公司 一种自适应语音合成方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173250B1 (en) * 1998-06-03 2001-01-09 At&T Corporation Apparatus and method for speech-text-transmit communication over data networks
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
US6665641B1 (en) 1998-11-13 2003-12-16 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
US20020156630A1 (en) * 2001-03-02 2002-10-24 Kazunori Hayashi Reading system and information terminal
US7035794B2 (en) * 2001-03-30 2006-04-25 Intel Corporation Compressing and using a concatenative speech database in text-to-speech systems
US6950798B1 (en) * 2001-04-13 2005-09-27 At&T Corp. Employing speech models in concatenative speech synthesis
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2002366186A (ja) * 2001-06-11 2002-12-20 Hitachi Ltd 音声合成方法及びそれを実施する音声合成装置
US20030028377A1 (en) * 2001-07-31 2003-02-06 Noyes Albert W. Method and device for synthesizing and distributing voice types for voice-enabled devices
JP3748064B2 (ja) * 2002-02-08 2006-02-22 日本電信電話株式会社 音声合成方法、音声合成装置および音声合成プログラム
US20040054534A1 (en) * 2002-09-13 2004-03-18 Junqua Jean-Claude Client-server voice customization
AU2003260854A1 (en) 2002-10-04 2004-04-23 Koninklijke Philips Electronics N.V. Speech synthesis apparatus with personalized speech segments
EP1431958B1 (en) 2002-12-16 2018-07-18 Sony Mobile Communications Inc. Apparatus connectable to or incorporating a device for generating speech, and computer program product therefor
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
EP1471499B1 (en) 2003-04-25 2014-10-01 Alcatel Lucent Method of distributed speech synthesis
US7260539B2 (en) * 2003-04-25 2007-08-21 At&T Corp. System for low-latency animation of talking heads
GB0323551D0 (en) 2003-10-08 2003-11-12 Radioscape Ltd DAB radio system with voiced control feedback
US8666746B2 (en) * 2004-05-13 2014-03-04 At&T Intellectual Property Ii, L.P. System and method for generating customized text-to-speech voices
US7599838B2 (en) * 2004-09-01 2009-10-06 Sap Aktiengesellschaft Speech animation with behavioral contexts for application scenarios

Also Published As

Publication number Publication date
US20090306986A1 (en) 2009-12-10
ATE449399T1 (de) 2009-12-15
DE602005017829D1 (de) 2009-12-31
US8583437B2 (en) 2013-11-12
EP1886302B1 (en) 2009-11-18
WO2006128480A1 (en) 2006-12-07
EP1886302A1 (en) 2008-02-13

Similar Documents

Publication Publication Date Title
ES2336686T3 (es) Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones.
KR101055045B1 (ko) 음성 합성 방법 및 시스템
US7783474B2 (en) System and method for generating a phrase pronunciation
US20060235684A1 (en) Wireless device to access network-based voice-activated services using distributed speech recognition
JP2005227758A5 (es)
EP1453037A3 (en) Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network
JP2006501509A (ja) 個人適応音声セグメントを備える音声合成装置
CN1894687A (zh) 装备有话音用户接口的电子设备以及在电子设备中用于执行用户接口的语言配置的方法
US7702510B2 (en) System and method for dynamically selecting among TTS systems
Conkie et al. Preselection of candidate units in a unit selection-based text-to-speech synthesis system
JP3748064B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
KR20120095777A (ko) 루미네어 및 그를 위한 램프 홀더
KR101023911B1 (ko) 추천 질의어 제공 방법 및 시스템
CN1901723A (zh) 用音频文件同步通信设备的外围设备的方法及相应通信设备
CN100351838C (zh) 字数据库压缩
US8560310B1 (en) Method and apparatus providing improved voice activated functions
US8175865B2 (en) Method and apparatus of generating text script for a corpus-based text-to speech system
TW200425059A (en) A method of synthesis for a steady sound signal
JP4428093B2 (ja) ピッチパターン生成装置、ピッチパターン生成方法及びピッチパターン生成プログラム
CN113327571B (zh) 语音合成代理方法、装置、电子设备和可读存储介质
US7447625B2 (en) Method for generating text script of high efficiency
ES2325132T3 (es) Sistema y procedimiento de sintesis de voz por concatenacion de unidades acusticas.
KR20030037403A (ko) 음성 합성기술을 이용한 휴대통신 단말기의 벨소리제공시스템
JP2010218099A (ja) 通信端末、及び、電子メール作成方法
JP2001092481A (ja) 規則音声合成方法