ES2336686T3 - Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones. - Google Patents
Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones. Download PDFInfo
- Publication number
- ES2336686T3 ES2336686T3 ES05754668T ES05754668T ES2336686T3 ES 2336686 T3 ES2336686 T3 ES 2336686T3 ES 05754668 T ES05754668 T ES 05754668T ES 05754668 T ES05754668 T ES 05754668T ES 2336686 T3 ES2336686 T3 ES 2336686T3
- Authority
- ES
- Spain
- Prior art keywords
- database
- speech
- incremental
- user terminal
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 66
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 claims description 36
- 230000003068 static effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000001934 delay Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 241000665848 Isca Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
- Machine Translation (AREA)
Abstract
Procedimiento para generar habla sintetizada a partir de información textual en un terminal de usuario (2), estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) teniendo una base de datos básica (6) de formas de onda de habla, comprendiendo las etapas de: - iniciar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos básica (6) de formas de onda de habla; - extraer (42) información de contexto asociada a dicha información textual; - seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto; - proporcionar (48) a dicho terminal de usuario (2) dicha base de datos incremental (DB1, ...DBN); - gestionar (50) la composición de una base de datos ampliada de formas de onda de habla incluyendo dicha bases de datos básica (6) y dicha incremental de formas de onda de habla; y - continuar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos ampliada de formas de onda de habla.
Description
Proporcionar síntesis del habla en terminales de
usuario en una red de comunicaciones.
La presente invención se refiere a un
procedimiento y a un sistema para proporcionar síntesis del habla a
un terminal de usuario a través de una red de telecomunicaciones. En
particular, la presente invención se refiere a una arquitectura de
servicios para proporcionar síntesis del habla en terminales de
usuarios con memoria disponible limitada, como teléfonos móviles,
PDAs (Asistente Personal Digital), organizadores personales y
cámaras digitales.
La invención se ha desarrollado prestando
atención particular a su posible utilización en redes de
telecomunicaciones inalámbricas, para proporcionar servicios de
texto a voz (TTS) a terminales móviles que tienen incorporado un
módulo sintetizador del habla basado en la concatenación de formas
de onda del habla almacenadas en una base de datos. Descripción de
la técnica relacionada.
La síntesis del habla basada en la técnica de
concatenación es muy conocida en la técnica, es decir, por la
solicitud de patente WO 00/30069 o de la publicación "A
concatenative speech synthesis method using context dependent
phoneme sequences with variable length as search units", NHK
(Nippon Hoso Kyokai; Japan Broadcasting Corp.) Science and
Technical Research Laboratories, 5th ISCA Speech Synthesis Workshop,
Pittsburgh, USA, June 2004.
El documento WO 00/30069 describe un
sintetizador del habla basado en la concatenación de unidades de
habla tomadas digitalmente desde una gran base de datos.
La publicación "A concatenative speech
synthesis method using context dependent phoneme sequences with
variable length as search units" proporciona un procedimiento de
división de un texto de entrada en una secuencia de fonemas
dependientes de contexto y un procedimiento de selección de una
forma de onda de voz apropiada desde una base de datos de habla
estática. La calidad del habla aumenta cuando se utiliza una base de
datos de habla grande.
El solicitante ha observado que la calidad de
tal sistema de síntesis del habla, cuando está incorporado en un
terminal móvil, está limitado intrínsicamente por el tamaño máximo
de la base de datos, que no puede aumentarse según se desee en un
terminal de recursos limitados.
El documento EP 1.471.499 A1 ilustra un
procedimiento de síntesis del habla distribuido que realiza una
conversión texto a voz basada en un procesamiento distribuido entre
un servidor remoto y un terminal de usuario. En particular, la
síntesis de segmentos de habla es realizada por el servidor. El
terminal de usuario descarga segmentos de habla sintetizados y los
concatena mediante las reglas del servidor. Además, el terminal de
usuario realiza un mecanismo de memoria caché según las reglas
proporcionadas por el servidor.
El solicitante ha observado que, aunque la
síntesis del habla de alta calidad puede lograrse utilizando un
sistema de síntesis del habla distribuido, en tales sistemas no es
factible realizar síntesis del habla sin una conexión de red
activa, limitando así la eficacia de algunos terminales de usuario,
por ejemplo, PDAs.
La patente
EP-A1-1.431.958 describe la descarga
de diferentes voces de hablantes.
El documento US 2004/0054534 ilustra un ejemplo
de personalización de síntesis del habla basada en preferencias del
usuario. El usuario selecciona los criterios de voz en un terminal
de usuario local. Los criterios de voz representan las
características que el usuario desea para una voz sintetizada. Los
criterios de voz se comunican a un servidor. El servidor genera una
serie de reglas de voz sintetizada basada en los criterios de voz y
los envía al terminal de usuario local. Las reglas de voz
sintetizada representan aspectos prosódicos de la voz
sintetizada.
El solicitante ha observado que la calidad de
síntesis del habla de los sistemas de síntesis del habla arriba
mencionados está, como normal general, directamente relacionada con
el tamaño de la base de datos de las formas de onda utilizadas.
El solicitante ha abordado el problema de
obtener un aumento significativo de la calidad de la síntesis del
habla en sistemas que están incorporados en terminales móviles, sin
afectar demasiado a los requisitos de memoria de la base de datos
de formas de onda del habla. En particular, el solicitante ha
abordado el problema de personalizar dinámicamente un sistema de
síntesis del habla basado en la técnica de concatenación, logrando
la misma calidad que una solución estática basada en una base de
datos de formas de onda tan grande que no puede almacenarse en
terminales de usuarios portátiles.
El solicitante ha hallado que este problema se
puede solucionar proporcionando una arquitectura de sistema de red
capaz de descargar dinámicamente bases de datos incrementales de
formas de onda del habla e información de indexación relacionada
que, integradas en el módulo de síntesis del habla en el terminal
móvil, mejoran una base de datos reducida en el terminal.
Un objeto particular de la presente invención es
proporciona una arquitectura de servicio para proporcionar síntesis
del habla de alta calidad en terminales de usuario móviles con baja
memoria disponible.
El objeto de la invención es, por tanto,
responder satisfactoriamente a las necesidades anteriores.
Según la presente invención, ese objeto se
alcanza por medio de un procedimiento que tiene las características
expuestas en la reivindicación 1. La invención también se refiere a
una arquitectura de servicio, reivindicada en la reivindicación 10,
así como a un producto de programa informático relacionado,
reivindicado en la reivindicación 21. Las realizaciones preferidas
se exponen en las reivindicaciones dependientes.
La referencia a "al menos un ordenador"
está destinada evidentemente a subrayar la posibilidad de que la
presente invención se implemente de forma distribuida/modular.
Las reivindicaciones son una parte integrante de
la descripción de la invención aquí descrita.
La solución de síntesis del habla dinámica aquí
propuesta puede lograr la misma calidad que una solución estática
basada en una base de datos grande. La solución dinámica trabaja en
una gran base de datos virtual utilizando una base de datos
estática reducida ubicada dentro del terminal de usuario y
descargando las bases de datos incrementales adecuadas solo cuando
es necesario. Cada base de datos incremental, que contiene elementos
de habla adicionales respecto a la base de datos por defecto, está
relacionada con el contexto de la información específica que se va
a sintetizar. Al utilizar la base de datos extendida, proporcionada
por la base de datos por defecto más la base(s) de datos
incremental(es) descargada, la síntesis del habla en el
terminal de usuario logra una calidad mejorada.
Cada base de datos incremental dinámica está
relacionada con uno o más contextos de información, por ejemplo,
economía, deporte, humor, etcétera. La misma base de datos
incremental se puede utilizar para mejorar la síntesis de varios
contenidos relacionados con el mismo contexto. Un mecanismo de
memoria caché se puede implementar en el terminal de usuario para
evitar descargas adicionales de la misma base de datos incremental
cuando el contexto de información no ha cambiado, o cuando se
utiliza frecuentemente el mismo contexto. Además, se pueden
utilizar bases de datos incrementales para personalizar la síntesis
del habla realizada en un terminal de usuario respecto a reglas de
contexto, según el perfil de usuario específico o las preferencias
de usuario específicas.
Características y ventajas adicionales de la
presente invención se clarificarán a partir de la siguiente
descripción detallada de algunos ejemplos de la misma, provista
simplemente a modo de ejemplo sin ninguna intención restrictiva. La
descripción detallada se referirá a las siguientes figuras, en las
que:
- La figura 1 muestra esquemáticamente una
arquitectura de servicio para proporcionar síntesis del habla en
terminales de usuario, según la presente invención;
- La figura 2 muestra un diagrama de flujo de un
procedimiento para proporcionar síntesis del habla en terminales de
usuario, según la presente invención;
- La figura 3 muestra un diagrama de flujo de un
procedimiento alternativo para proporcionar síntesis del habla en
terminales de usuario, según un ejemplo;
- La figura 4 muestra esquemáticamente una base
de datos por defecto de un sistema de síntesis del habla incorporado
en un terminal de usuario, según la presente invención; y
- La figura 5 muestra esquemáticamente una base
de datos mejorada de un sistema de síntesis del habla incorporado
en un terminal de usuario, según la presente invención.
En referencia a la figura 1, una arquitectura de
servicio para proporcionar, en un terminal de usuario 2 con al
menos una conexión (alámbrica o inalámbrica) con una red de
telecomunicaciones 12, síntesis del habla a partir de información
de texto, comprende, además del terminal 2 y la red 12, un servidor
de contenido 16 para descargar contenidos al terminal de usuario,
un servidor de contexto 14 para seleccionar un contexto asociado a
la información solicitada por el usuario, y un servidor de base de
datos 8 que contiene una pluralidad de bases de datos incrementales
DB1, ...DBN destinadas a descargarse en el terminal de usuario
2.
El terminal de usuario 2 está equipado con un
sintetizador del habla 4 incorporado y con una base de datos por
defecto limitada 6. Al utilizar esta configuración básica, el
terminal 2 puede sintetizar cualquier información relacionada con
cualquier contexto en un nivel de calidad mínimo. La información
textual puede estar ya presente en el terminal de usuario 2 o puede
recuperarse del servidor de contenido remoto 16 por medio de una
aplicación de exploración 18 instalada en la misma terminal 2 y
visualizada en una pantalla 20.
Para mejorar la calidad de síntesis, la
arquitectura propuesta utiliza una servidor de base de datos 8 (o
una pluralidad de servidores de bases de datos) capaz de
proporcionar una pluralidad de bases de datos incrementales DB1,
...DBN con el objetivo de aumentar la base de datos por defecto 6
ubicada en el terminal de usuario 2.
\newpage
Se proporciona también un mecanismo de memoria
caché en el terminal de usuario 2 para gestionar eficientemente la
descarga y el almacenamiento de las bases de datos incrementales en
el terminal de usuario. Una memoria caché 10 hace que esté
disponible la base de datos incremental almacenada durante todo el
tiempo en que se utiliza el contexto relativo, ya que la distinta
información requerida por el usuario puede referirse al mismo
contexto y por tanto a la misma base de datos incremental. En este
caso, no se descarga otra base de datos incremental desde la red,
el proceso de síntesis del habla se acelera y los recursos de red se
optimizan.
El mecanismo caché asocia el parámetro "tiempo
de vida" a cada base de datos incremental almacenada para evitar
descargas adicionales cuando se reutiliza frecuentemente el contexto
relativo. Los parámetros que rigen el mecanismo caché, como por
ejemplo el tamaño de la memoria caché y el "tiempo de vida",
se pueden establecer en el terminal de usuario, por medio del ajuste
del usuario, o bien según las reglas proporcionadas por el servidor
de contexto 14.
Cuando el usuario desea sintetizar una
información textual proporcionada por un servidor de contenido
remoto 16, se realizan las siguientes acciones. Primero, el
explorador 18 del terminal de usuario envía al servidor de contexto
14 una solicitud (flecha 30) relacionada con la información que se
va a sintetizar, a través de la conexión de red 12. Un gestor de
contexto 22 localizado en el servidor de contexto 14 pide al
servidor de contenido 16 que descargue los contenidos de información
en el explorador de terminal de usuario (flecha 34) y extrae la
información de contexto de los contenidos de información. Mientras
tanto, el gestor de contexto 22 comprueba si el terminal de usuario
ya tiene en la memoria caché 10 la base de datos incremental
adecuada. Diversas alternativas para realizar esta comprobación son
posibles, por ejemplo, el terminal 2 puede comunicar la descripción
de las bases de datos ya disponibles junto con la solicitud (flecha
30), o el gestor de contexto 22 puede controlar todas las descargas
de bases de datos previas 32 asociadas a un terminal de usuario
específico. Si el terminal de usuario necesita la base de datos
incremental, el gestor de contexto 22 activa un selector de
contexto 24 para elegir una base de datos incremental adecuada DB2
en el servidor de base de datos 8, y transfiere dicha base de datos
incremental a un gestor de bases de datos 26 en el terminal de
usuario (flecha 32). El servidor de contenido 16, el servidor de
base de datos 8 y el servidor de contexto 14 pueden estar ubicados
en el mismo servidor, o de lo contrario, en servidores separados
conectados a una red de telecomunicaciones común (p. ej.,
Internet).
El gestor de la base de datos 26 en el terminal
de usuario 2 recibe la base de datos incremental desde la red y
gestiona la composición de una nueva base de datos aumentada, como
se explica más detalladamente a continuación. Cuando la base de
datos ampliada está disponible en el terminal, el gestor de base de
datos 26 notifica al sintetizador del habla 4 que una nueva base de
datos de formas de onda del habla está disponible, logrando así una
calidad de síntesis mayor.
En cuanto a la relación entre los contenidos de
información solicitados por el usuario y la base de datos
incremental descargada, diferentes aproximaciones son posibles. Tal
relación puede establecerse en el "lado servidor", es decir,
en el servidor de contexto 14, o en el "lado cliente", es
decir, según las preferencias del usuario. En el primer caso, tal
relación está establecida según las reglas del servidor del
contexto del servidor, como contextos económicos, deportivos o
humorísticos, etc., o según un perfil de usuario específico
almacenado en el servidor. En el segundo caso, la decisión se toma
según las preferencias específicas del usuario, por ejemplo una
personalización prosódica, inflexión dialectal, etcétera.
Si se requiere, la base de datos básica 2 de
formas de onda del habla se puede reemplazar por una de
substitución, descargando una nueva base de datos en el terminal de
usuario. El proceso de descarga y reemplazo es gestionado por el
gestor de bases de datos 26, que recupera la nueva base de datos
desde un servidor remoto, (p. ej., el mismo servidor de base de
datos 8) y reemplaza la base de datos en la memoria del terminal.
Tal reemplazo puede ser útil, por ejemplo, si un usuario desea
cambiar el idioma del sistema TTS.
El proceso de síntesis del habla incorporado en
el terminal de usuario 2 puede llevarse a cabo según dos técnicas
diferentes. Según una primera técnica, la síntesis del habla puede
comenzar tan pronto como el contenido está disponible en el
terminal de usuario, evitando retrasos adicionales, utilizando la
base de datos por defecto, proporcionando el mínimo nivel de
calidad. La calidad de síntesis del habla se mejora cuando la base
de datos incremental se ha descargado y unido completamente con la
base de datos ya presente en el terminal, permitiendo que el motor
texto a voz utilice una base de datos mayor. De lo contrario, según
una segunda técnica no acorde con la invención, la síntesis del
habla no comienza inmediatamente utilizando la base de datos por
defecto, sino que solo comienza tan pronto como la base de datos
incremental está disponible en el terminal de usuario. En este
caso, la síntesis del habla está sujeta a un retraso en el tiempo de
inicio, pero la calidad de síntesis, es, desde el inicio, constante
a niveles altos.
El diagrama de flujos mostrado en la figura 2
ilustra un proceso según la primera técnica, centrándose en el
paralelismo de diferentes procesos. Una solicitud de usuario (etapa
40) en el explorador del terminal activa (etapa 42) el gestor de
contexto (22) en el servidor de contexto 14, iniciando dos procesos
paralelos (etapas 44, 46) respectivamente para descargar los
contenidos de información solicitada en el terminal de usuario y
para comprobar si la base de datos incremental asociada ya está
presente en la memoria caché 10 del terminal de usuario. Tan pronto
como los contenidos de información solicitada se descargan en el
terminal, comienza la síntesis del habla (etapa 52), lo mismo
ocurre si la base de datos incremental asociada ya está presente en
la memoria caché 10. Por el contrario, si la base de datos
incremental asociada no está presente en la memoria caché, se
descarga en el terminal de usuario (etapa 48) y se une con la base
de datos actual en una nueva base de datos ampliada (etapa 50), de
modo que la síntesis del habla continúa (etapa 52) con una calidad
mejorada.
El diagrama de flujos mostrado en la figura 3
ilustra un proceso según la segunda técnica que no es acorde a la
invención, centrándose en el señalización de diferentes procesos.
Una solicitud de usuario (etapa 60) en el explorador del terminal
activa (etapa 62) el gestor de contexto (22) en el servidor de
contexto 14 para descargar la información solicitada en el terminal
de usuario (etapa 64) y para comprobar subsiguientemente (etapa 66)
si la base de datos incremental asociada ya está presente en la
memoria caché 10 del terminal de usuario. Si la base de datos
incremental asociada ya está presente, comienza la síntesis del
habla (etapa 72), sino se descarga en el terminal de usuario (etapa
68) y se fusiona con la base de datos actual en una nueva base de
datos ampliada (etapa 70), y después se inicia la síntesis del habla
(etapa 72). Según esta técnica, el proceso de síntesis del habla se
retrasa hasta que una nueva base de datos ampliada está disponible,
de modo que la calidad del habla es constante durante la fase de
síntesis.
El proceso de fusión de una base de datos
incremental con una base de datos existente, es decir, la base de
datos por defecto en el terminal de usuario, se explicará
detalladamente a continuación en referencia a las figuras 4 y
5.
La figura 4 ilustra una estructura de base de
datos de habla de un sistema de síntesis del habla, en particular
la base de datos por defecto 6 del terminal de usuario 2. La base de
datos del habla comprende una base de datos de unidades de habla, o
formas de onda de habla, 80 y un archivo descriptor 82 asociado
relacionado con dicha base de datos. El archivo descriptor 82
contiene una tabla de referencia que deja que el sintetizador del
habla 3 conozca la posición de la unidad de habla requerida en la
base de datos de unidades del habla 80.
En una realización particular, el archivo
descriptor 82 es una tabla de referencia de difonos, donde un
"difono" se interpreta como una unidad de habla compuesta de
dos medio-fonos adyacentes. La tabla de referencia
de difonos 82 contiene información acerca de todos los difonos
presentes en la base de datos de unidades de habla 80. Cada difono
#1 .. #N tiene una porción correspondiente E1... EN de la tabla 82,
como se muestra en la figura 4, que contiene:
- -
- los indicadores P(#n) para todos los segmentos de habla de la base de datos de habla por defecto que contienen tal difono;
- -
- cualquier otra información necesaria para el algoritmo de síntesis para realizar la mejor selección de unidad (p. ej., información prosódica, campo, posición del difono dentro del segmento de habla).
\vskip1.000000\baselineskip
La figura 5 ilustra una estructura de base de
datos de habla tras la descarga de una base de datos incremental 92
de las unidades de habla en una base de datos previa de unidades de
habla 90 ya presentes en el terminal de usuario, y la actualización
correspondiente de la tabla de referencia de difonos 94. La
actualización de la tabla de referencia de difonos 94 incluye, por
ejemplo, si la base de datos incremental de unidades de habla 92
contiene un segmento de habla con el difono #1, la integración de la
porción E1 de la tabla relativa al difono #1 con indicadores
adicionales P'(#1) a aquellos segmentos de habla añadidos.
En cuanto al procedimiento de actualización de
la base de datos de habla en el terminal de usuario, realizado
remotamente por el servidor de contenido 14, dos aproximaciones son
posibles.
Según una primera aproximación, el gestor de
contexto 22 envía al terminal de usuario 2 una base de datos
incremental adecuada con un nuevo archivo descriptor asociado (el
archivo descriptor de difonos completo 94 en el ejemplo anterior).
El gestor de base de datos 26 almacena la base de datos incremental
en la memoria caché 10 y reemplaza el archivo descriptor por el
nuevo.
Según una segunda aproximación, el gestor de
contexto 22 envía al terminal de usuario 2 una base de datos
incremental y un archivo de revisión que el gestor de base de datos
26 aplica al archivo descriptor ya presente en el terminal de
usuario para actualizarlo con el nuevo archivo descriptor 94.
Ventajosamente, según la presente invención, la
síntesis del habla puede realizarse en un terminal móvil sin
ninguna conexión de red, mejorando la utilización de las
aplicaciones/servicios basados en la síntesis del habla. Un motor
TTS totalmente operativo, de hecho, siempre está disponible en el
terminal, gracias a la base de datos de habla por defecto
incorporada.
Además, gracias a las bases de datos
incrementales descargadas a través de la conexión de red, se puede
mejorar la calidad de síntesis del habla, logrando la misma alta
calidad que una solución estática basada en una base de datos
grande que no se puede almacenar en un terminal de usuario de
memoria limitada.
Según la invención, los proveedores de servicio
pueden diferenciar entre servicios basados en síntesis de habla a
través de la diferenciación de la calidad de servicios
suministrados, según la disponibilidad de las bases de datos
incrementales.
\newpage
Esta lista de referencias citadas por el
solicitante está prevista únicamente para ayudar al lector y no
forma parte del documento de patente europea. Aunque se ha puesto
el máximo cuidado en su realización, no se pueden excluir errores u
omisiones y la OEP declina cualquier responsabilidad al
respecto.
\bullet WO 0030069 A [0003] [0004]
\bullet EP 1471499 A1 [0007]
\bullet EP 1431958 A1 [0009]
\bullet US 20040054534 A [0010].
Claims (21)
1. Procedimiento para generar habla sintetizada
a partir de información textual en un terminal de usuario (2),
estando dicho terminal de usuario provisto de un motor de síntesis
del habla (4) teniendo una base de datos básica (6) de formas de
onda de habla, comprendiendo las etapas de:
- -
- iniciar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos básica (6) de formas de onda de habla;
- -
- extraer (42) información de contexto asociada a dicha información textual;
- -
- seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto;
- -
- proporcionar (48) a dicho terminal de usuario (2) dicha base de datos incremental (DB1, ...DBN);
- -
- gestionar (50) la composición de una base de datos ampliada de formas de onda de habla incluyendo dicha bases de datos básica (6) y dicha incremental de formas de onda de habla; y
- -
- continuar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos ampliada de formas de onda de habla.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1, en
el que dicha etapa de proporcionar dicho terminal de usuario con
dicha base de datos incremental incluye:
- -
- verificar (46) si dicha base de datos incremental ya está presente en dicho terminal de usuario; y
- -
- descargar (48), a través de una red de comunicaciones (12), dicha base de datos incremental en dicho terminal de usuario, si todavía no está presente.
\vskip1.000000\baselineskip
3. Procedimiento según la reivindicación 2, en
el que dicha etapa de descarga de dicha base de datos incremental
en dicho terminal de usuario incluye:
- -
- descargar una base de datos incremental de formas de onda de habla (92); y
- -
- actualizar un archivo descriptor (94) de dicha base de datos ampliada de formas de onda de habla.
\vskip1.000000\baselineskip
4. Procedimiento según la reivindicación 1,
comprendiendo además la etapa de almacenar dicha base de datos
incremental en una memoria caché en dicho terminal de usuario.
5. Procedimiento según la reivindicación 1, en
el que dicha etapa de seleccionar (42) una base de datos incremental
(DB1, ...DBN) de formas de onda de habla asociada a dicha
información de contexto se realiza según las reglas de contexto
independientes de perfiles de usuario.
6. Procedimiento según la reivindicación 1, en
el que dicha etapa de seleccionar (42) una base de datos incremental
(DB1, ...DBN) de formas de onda de habla asociada a dicha
información de contexto se realiza según las reglas de contexto
basadas en un perfil de usuario.
7. Procedimiento según la reivindicación 1, en
el que dicha información textual es recuperada por dicho terminal
de usuario a través de una red de comunicaciones (12).
8. Procedimiento según la reivindicación 1,
incluyendo las etapas de:
- -
- reemplazar dicha base de datos estática (6) de formas de onda de habla descargando, a través de una red de comunicaciones (12), una base de datos básica substituta en dicho terminal de usuario (2).
9. Procedimiento según cualquiera de las
reivindicaciones 2, 3, 7 u 8, en el que dicha red de comunicaciones
es una red de comunicaciones inalámbrica.
10. Arquitectura de servicio incluyendo un
terminal de usuario para proporcionar a dicho terminal de usuario
(2) síntesis del habla relativa a información textual, estando dicho
terminal de usuario provisto de un motor de síntesis del habla (4)
y una base de datos básica de formas de onda de habla (6),
caracterizada por el hecho de que incluye:
\newpage
- -
- un servidor de contexto (14) para descargar una base de datos incremental (DB1, ...DBN) de formas de onda de habla en dicho terminal de usuario, estando dicha base de datos incremental asociada a información de contexto asociada a dicha información textual;
- -
- un gestor de base de datos (26) en dicho terminal de usuario (2) para gestionar la composición de una base de datos ampliada de formas de onda de habla para dicho motor de síntesis del habla incluyendo dicha base de datos básica (6) y dicha incremental (DB1, ...DBN) de formas de onda de habla, estando dicho motor de síntesis del habla (4) operativo para iniciar la síntesis del habla de dicha información textual utilizando dicha base de datos básica de formas de onda de habla (6) siempre que dicha base de datos ampliada de formas de onda de habla no esté disponible todavía.
\vskip1.000000\baselineskip
11. Arquitectura de servicio según la
reivindicación 10, en la que dicho servidor de contexto (14)
incluye:
- -
- un gestor de contexto (22) para extraer información de contexto a partir de dicha información textual;
- -
- un selector de contexto (24) para seleccionar una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto y para descargar dicha base de datos incremental en dicho terminal de usuario.
\vskip1.000000\baselineskip
12. Arquitectura de servicio según la
reivindicación 10, comprendiendo además en dicho terminal de usuario
(2) una memoria caché para almacenar temporalmente al menos una
base de datos incremental descargada.
13. Arquitectura de servicio según la
reivindicación 11, comprendiendo además un servidor de base de datos
(8) que almacena una pluralidad de bases de datos incrementales
(DB1, ...DBN) seleccionadas por dicho selector de contexto
(24).
14. Arquitectura de servicio según la
reivindicación 11, en la que dicho selector de contexto (24)
funciona según las reglas de contexto independientes de perfiles de
usuario.
15. Arquitectura de servicio según la
reivindicación 11, en la que dicho selector de contexto (24)
funciona según las reglas de contexto basadas en un perfil de
usuario.
16. Arquitectura de servicio según la
reivindicación 10, comprendiendo además un servidor de contenido
(16) para descargar dicha información textual en dicho terminal de
usuario.
17. Arquitectura de servicio según cualquiera de
las reivindicaciones 10 a 16, en la que dicha red de comunicaciones
es una red de comunicaciones inalámbrica.
18. Terminal de usuario (2) para una red de
comunicaciones incluyendo:
- -
- una base de datos básica (6) de formas de onda de habla;
- -
- medio (18) para recuperar información textual destinada a convertirse en habla sintetizada,
\vskip1.000000\baselineskip
caracterizado por el hecho de que
comprende:
- -
- un gestor de bases de datos (26) para descargar una base de datos incremental de formas de onda de habla (DB1, ...DBN) desde un servidor de bases de datos, estando dicha base de datos incremental asociada a información de contexto asociada a dicha información textual, y para gestionar la composición de una base de datos de formas de onda de habla ampliada para dicho motor de síntesis de habla (4), incluyendo dicha base de datos básica (6) y dicha incremental de formas de onda de habla;
- -
- un motor de síntesis del habla (4) operativo para iniciar la síntesis del habla de dicha información textual utilizando dicha base de datos básica de formas de onda de habla (6) siempre que dicha base de datos ampliada no esté disponible todavía.
\vskip1.000000\baselineskip
19. Terminal de usuario según la reivindicación
18, comprendiendo además una memoria caché (10) para almacenar
temporalmente al menos una base de datos incremental descargada.
20. Terminal de usuario según la reivindicación
18, en el que dicho motor de síntesis de habla (4) está basado en
una síntesis de habla concatenativa.
21. Producto de programa informático, que se
puede cargar en la memoria de al menos un ordenador y que incluye
porciones de código de software para realizar el procedimiento de
cualquiera de las reivindicaciones 1 a 9.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2005/005818 WO2006128480A1 (en) | 2005-05-31 | 2005-05-31 | Method and system for providing speech synthsis on user terminals over a communications network |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2336686T3 true ES2336686T3 (es) | 2010-04-15 |
Family
ID=35252393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05754668T Active ES2336686T3 (es) | 2005-05-31 | 2005-05-31 | Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones. |
Country Status (6)
Country | Link |
---|---|
US (1) | US8583437B2 (es) |
EP (1) | EP1886302B1 (es) |
AT (1) | ATE449399T1 (es) |
DE (1) | DE602005017829D1 (es) |
ES (1) | ES2336686T3 (es) |
WO (1) | WO2006128480A1 (es) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8600753B1 (en) * | 2005-12-30 | 2013-12-03 | At&T Intellectual Property Ii, L.P. | Method and apparatus for combining text to speech and recorded prompts |
JP2009265279A (ja) * | 2008-04-23 | 2009-11-12 | Sony Ericsson Mobilecommunications Japan Inc | 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム |
CN101593516B (zh) | 2008-05-28 | 2011-08-24 | 国际商业机器公司 | 语音合成的方法和系统 |
PL401347A1 (pl) * | 2012-10-25 | 2014-04-28 | Ivona Software Spółka Z Ograniczoną Odpowiedzialnością | Spójny interfejs do lokalnej i oddalonej syntezy mowy |
US9159314B2 (en) * | 2013-01-14 | 2015-10-13 | Amazon Technologies, Inc. | Distributed speech unit inventory for TTS systems |
CN110460654A (zh) * | 2019-02-26 | 2019-11-15 | 北京蓦然认知科技有限公司 | 一种智能交互平台中交互引擎的下载方法及装置 |
CN111429878B (zh) * | 2020-03-11 | 2023-05-26 | 云知声智能科技股份有限公司 | 一种自适应语音合成方法及装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6173250B1 (en) * | 1998-06-03 | 2001-01-09 | At&T Corporation | Apparatus and method for speech-text-transmit communication over data networks |
US6446040B1 (en) * | 1998-06-17 | 2002-09-03 | Yahoo! Inc. | Intelligent text-to-speech synthesis |
US6665641B1 (en) | 1998-11-13 | 2003-12-16 | Scansoft, Inc. | Speech synthesis using concatenation of speech waveforms |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
FI115868B (fi) * | 2000-06-30 | 2005-07-29 | Nokia Corp | Puhesynteesi |
US20020156630A1 (en) * | 2001-03-02 | 2002-10-24 | Kazunori Hayashi | Reading system and information terminal |
US7035794B2 (en) * | 2001-03-30 | 2006-04-25 | Intel Corporation | Compressing and using a concatenative speech database in text-to-speech systems |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
JP2002358092A (ja) * | 2001-06-01 | 2002-12-13 | Sony Corp | 音声合成システム |
JP2002366186A (ja) * | 2001-06-11 | 2002-12-20 | Hitachi Ltd | 音声合成方法及びそれを実施する音声合成装置 |
US20030028377A1 (en) * | 2001-07-31 | 2003-02-06 | Noyes Albert W. | Method and device for synthesizing and distributing voice types for voice-enabled devices |
JP3748064B2 (ja) * | 2002-02-08 | 2006-02-22 | 日本電信電話株式会社 | 音声合成方法、音声合成装置および音声合成プログラム |
US20040054534A1 (en) * | 2002-09-13 | 2004-03-18 | Junqua Jean-Claude | Client-server voice customization |
AU2003260854A1 (en) | 2002-10-04 | 2004-04-23 | Koninklijke Philips Electronics N.V. | Speech synthesis apparatus with personalized speech segments |
EP1431958B1 (en) | 2002-12-16 | 2018-07-18 | Sony Mobile Communications Inc. | Apparatus connectable to or incorporating a device for generating speech, and computer program product therefor |
US7533023B2 (en) * | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
EP1471499B1 (en) | 2003-04-25 | 2014-10-01 | Alcatel Lucent | Method of distributed speech synthesis |
US7260539B2 (en) * | 2003-04-25 | 2007-08-21 | At&T Corp. | System for low-latency animation of talking heads |
GB0323551D0 (en) | 2003-10-08 | 2003-11-12 | Radioscape Ltd | DAB radio system with voiced control feedback |
US8666746B2 (en) * | 2004-05-13 | 2014-03-04 | At&T Intellectual Property Ii, L.P. | System and method for generating customized text-to-speech voices |
US7599838B2 (en) * | 2004-09-01 | 2009-10-06 | Sap Aktiengesellschaft | Speech animation with behavioral contexts for application scenarios |
-
2005
- 2005-05-31 EP EP05754668A patent/EP1886302B1/en active Active
- 2005-05-31 AT AT05754668T patent/ATE449399T1/de not_active IP Right Cessation
- 2005-05-31 DE DE602005017829T patent/DE602005017829D1/de active Active
- 2005-05-31 WO PCT/EP2005/005818 patent/WO2006128480A1/en active Application Filing
- 2005-05-31 US US11/921,403 patent/US8583437B2/en active Active
- 2005-05-31 ES ES05754668T patent/ES2336686T3/es active Active
Also Published As
Publication number | Publication date |
---|---|
US20090306986A1 (en) | 2009-12-10 |
ATE449399T1 (de) | 2009-12-15 |
DE602005017829D1 (de) | 2009-12-31 |
US8583437B2 (en) | 2013-11-12 |
EP1886302B1 (en) | 2009-11-18 |
WO2006128480A1 (en) | 2006-12-07 |
EP1886302A1 (en) | 2008-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2336686T3 (es) | Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones. | |
KR101055045B1 (ko) | 음성 합성 방법 및 시스템 | |
US7783474B2 (en) | System and method for generating a phrase pronunciation | |
US20060235684A1 (en) | Wireless device to access network-based voice-activated services using distributed speech recognition | |
JP2005227758A5 (es) | ||
EP1453037A3 (en) | Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network | |
JP2006501509A (ja) | 個人適応音声セグメントを備える音声合成装置 | |
CN1894687A (zh) | 装备有话音用户接口的电子设备以及在电子设备中用于执行用户接口的语言配置的方法 | |
US7702510B2 (en) | System and method for dynamically selecting among TTS systems | |
Conkie et al. | Preselection of candidate units in a unit selection-based text-to-speech synthesis system | |
JP3748064B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
KR20120095777A (ko) | 루미네어 및 그를 위한 램프 홀더 | |
KR101023911B1 (ko) | 추천 질의어 제공 방법 및 시스템 | |
CN1901723A (zh) | 用音频文件同步通信设备的外围设备的方法及相应通信设备 | |
CN100351838C (zh) | 字数据库压缩 | |
US8560310B1 (en) | Method and apparatus providing improved voice activated functions | |
US8175865B2 (en) | Method and apparatus of generating text script for a corpus-based text-to speech system | |
TW200425059A (en) | A method of synthesis for a steady sound signal | |
JP4428093B2 (ja) | ピッチパターン生成装置、ピッチパターン生成方法及びピッチパターン生成プログラム | |
CN113327571B (zh) | 语音合成代理方法、装置、电子设备和可读存储介质 | |
US7447625B2 (en) | Method for generating text script of high efficiency | |
ES2325132T3 (es) | Sistema y procedimiento de sintesis de voz por concatenacion de unidades acusticas. | |
KR20030037403A (ko) | 음성 합성기술을 이용한 휴대통신 단말기의 벨소리제공시스템 | |
JP2010218099A (ja) | 通信端末、及び、電子メール作成方法 | |
JP2001092481A (ja) | 規則音声合成方法 |