ES2208212T3

ES2208212T3 - Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos.

Info

Publication number: ES2208212T3
Application number: ES00127747T
Authority: ES
Inventors: Meinrad Niemoeller
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-12-18
Filing date: 2000-12-18
Publication date: 2004-06-16
Anticipated expiration: 2020-12-18
Also published as: EP1220200B1; DE50003855D1; EP1220200A1

Abstract

Procedimiento para el reconocimiento de voz independiente del locutor para un terminal de telecomunicaciones o terminal de datos (MS,T) en una red de telecomunicaciones y red de datos (GSM,TN), respectivamente, donde el terminal recibe palabras pronunciadas y las emite como palabras escritas y/o las utiliza internamente para fines de control así como se pueden introducir en el terminal palabras nuevas para la ampliación del vocabulario como palabras escritas con la finalidad de la creación de una trascripción fonética, donde las palabras nuevas escritas son transmitidas por el terminal a través de un trayecto de transmisión de datos (B) de la red de telecomunicaciones y de la red de datos, respectivamente, hacia un servidor central (TS), siendo realizada en el servidor central una reproducción de las palabras en una trascripción fonética, la trascripción fonética es retransmitida a través de un trayecto de transmisión de datos de la red de telecomunicaciones y de la red de datos, respectivamente, hacia el terminal y la trascripción fonética es recibida por éste y es memorizada en éste, caracterizado porque la reproducción en la trascripción fonética se realiza en función de una identificación del terminal utilizando una de una pluralidad de redes neuronales.

Description

Procedimiento y disposición para el reconocimiento de voz independiente del locutor para un terminal de telecomunicaciones o terminal de datos.

La invención se refiere a un procedimiento para el reconocimiento de voz independiente del locutor para un terminal de telecomunicación o terminal de datos según el preámbulo de la reivindicación 1 así como a una disposición para la realización de este procedimiento.

Después de que ha dado buen resultado en PCs desde hace años la entrada de programas de texto por voz así como el control por voz de funciones de aparatos y después de que se ha alcanzado un alto grado de exactitud en el reconocimiento, se emplea desde hace poco tiempo cada vez con mayor intensidad también en terminales más sencillos de redes de telecomunicaciones o bien de redes de datos, especialmente de teléfonos móviles y de PCs portátiles y de PDAs (Personal Digital Assistants). Ya se pueden adquirir en el mercado aparatos correspondientes. El control por voz ofrece aquí una comodidad de manejo elevada durante la activación de funciones que se requieren con frecuencia o bien en el caso de selección de números de llamada utilizados con frecuencia.

El reconocimiento de voz en tales terminales se basa, en general, en algoritmos de la identificación de voz en función del locutor. En estos procedimientos, el vocabulario debe ser entrenado a través de la pronunciación de todas las palabras por parte del usuario.

En oposición a ello, los procedimientos de conocimiento de voz independientes del locutor permiten el empleo inmediato sin inicialización, el llamado proceso de inscripción. Los terminales más sencillos, relativamente económicos (aparatos de bajo coste) disponen ya de microcontroladores o microprocesadores relativamente potentes con alta capacidad de cálculo, de manera que durante los próximos años es previsible una resolución del reconocimiento de voz más incómoda dependiente del locutor en tales aparatos a través del reconocimiento de voz independiente del locutor más cotoso con respecto a la capacidad de procesamiento necesaria. Por otra parte, esto tiene la ventaja de que no tiene que conocerse el vocabulario a priori - lo que sólo posibilita, en general, determinadas aplicaciones.

Una ampliación del vocabulario en procedimientos de reconocimiento de voz independiente del locutor se realiza a través de la generación de una transcripción fonética desde una representación ortográfica de cada palabra nueva. Por lo tanto, las palabras nuevas son introducidas como texto a través del usuario (por ejemplo por medio de un teclado alfanumérico o de una pantalla de contacto (Touch-Screen), y el texto es reproducido a continuación en una transcripción fonética normalizada de los fonemas en el idioma respectivo. Esta representación forma entonces la base para otras etapas de procesamiento, en las que los fonemas son divididos en segmentos más pequeños y son procesados adicionalmente según algoritmos establecidos del reconocimiento de voz, por ejemplo son registrados como estados de Hidden-Markov en un espacio de búsqueda de un modelo de Hidden-Markov.

En idiomas como italiano o español, la conversión de la ortografía a una trascripción fonética es esencialmente trivial, porque en estos idiomas se escribe esencialmente como se habla. En cambio, esta reproducción en otros idiomas, como inglés o francés, es un proceso costoso, que se desarrolla añadiendo léxicos de referencia grandes o un mecanismo de regulación complejo o una red neuronas.

La ejecución de estos mecanismos de reproducción no es crítica en los PCs modernos con sus memorias grandes y sus procesadores de capacidad máxima, pero representa todavía actualmente un problema práctico serio para terminales de telecomunicaciones o terminales de datos del tipo de bajo coste. Por lo tanto, los terminales pequeños están equipados hasta hoy con un reconocimiento de voz dependiente del locutor. En todo caso, actualmente se pueden realizar sistemas, en los que se lleva a cabo una ampliación del vocabulario a través de la pronunciación de las palabras nuevas y, por lo tanto, no se realiza ya realmente de una manera independiente del locutor.

Para la solución de los problemas explicados anteriormente, el documento EP 1 047 046 A2 prepara un procedimiento según el preámbulo de la reivindicación 1. El empleo de léxicos de pronunciación en el reconocimiento de voz es conocido, por ejemplo, a partir del documento US 6.078.885 A1.

La invención tiene el cometido de indicar un procedimiento mejorado de este tipo, en el que se realiza de una manera más eficiente y más rápida así como de una manera más sencilla para el usuario una variante de reconocimiento de voz adecuada para él. Además, debe indicarse una disposición adecuada para la realización de este procedimiento.

Este cometido se soluciona en lo que se refiere a su aspecto de procedimiento a través de un procedimiento con las características de la reivindicación 1 y en lo que se refiere a su aspecto del dispositivo a través de una disposición con las características de la reivindicación 6.

La invención parte de la idea esencial de desplazar la reproducción de un texto en una trascripción fonética para un terminal sencillo conectado a una red de telecomunicaciones o bien a una red de datos al menos en sus partes esenciales sobre un servidor en la red.

Esto posibilita de una manera ventajosa una descarga del terminal de gasto de procesamiento y la puesta a disposición de medios de procesamiento de alta calidad, costosos de espacio de memoria, por ejemplo de léxicos de referencia grandes, de una red neuronal de alto desarrollo, etc.- independientemente de la dotación de memoria del terminal. Por lo tanto, se pueden utilizar léxicos de referencia muy grandes y de una manera más ventajosas se pueden cuidar y ampliar también de una manera centralizada, en los que se pueden anotar una pluralidad de variantes de la pronunciación. Para las palabras, que no están depositadas en un léxico de referencia, se pueden aplicar para la reproducción sobre un servidor correspondientemente potente mecanismos de regulación complejos y, por lo tanto, costosos de procesamiento o bien redes neuronales. También con respecto a tales procedimientos, la ejecución en un servidor central posibilita una ampliación y actualización sencillas y directamente accesibles de una manera ventajosa para todos los usuarios en la red. La disponibilidad constante de los mejores recursos de reproducción posibles en el servidor proporciona para el usuario siempre los mejores resultados de trascripción posible en el estado respectivo de la técnica.

Según la invención, la trascripción fonética se lleva a cabo accediendo a una base de datos de léxicos de pronunciación asociada al servidor, en otras formas de realización utilizando una red neuronal ejecutada en el servidor u otro mecanismo de regulación de procesamiento complejo. También es conveniente una combinación de estas formas de realización.

Además, la trascripción fonética se realiza en función de una identificación del terminal o de una identificación del usuario transmitida a través del terminal de una manera específica, por ejemplo típica del dialecto o de la pronunciación. A tal fin se accede especialmente a variantes de pronunciación depositadas en un léxico de pronunciación grande y/o a uno de una pluralidad de léxicos de pronunciación diferentes o bien se utiliza una pluralidad de redes neuronales, formadas para dialectos o variantes sistemáticas de pronunciación, etc.

En una variante especialmente interesante desde el punto de vista económico, el procedimiento propuesto se realiza como servicio de una sociedad de telecomunicaciones o bien de un proveedor de servicios y se ofrece como tal a los usuarios, especialmente contra pago, pero en determinados casos también como servicio gratuito.

Según la forma de realización concreta de la red de telecomunicaciones o bien de datos y del terminal respectivo se utilizan con preferencia en cada caso los recursos disponibles más altamente desarrollados para la transmisión de las nuevas palabras introducidas hacia el servidor. En el caso de un teléfono móvil convencional conectado en una red de radio móvil según la Norma GSM, la transmisión se realiza con preferencia como mensaje corto de texto por SMS. En el caso de un teléfono móvil con capacidad WAP, se transmite con preferencia como mensaje de texto según la Norma WAP. Para las futuras normas de radio móvil, sus protocolos ofrecen posibilidades correspondientes -especialmente para una red UMTS será posible la transmisión por medio de un protocolo estándar de Internet (http).

En el caso de un teléfono de red fija conectada en una red ISDN, la transmisión se realiza a través de un canal de datos de la red ISDN. La entrada se realiza aquí con preferencia (como en el teléfono móvil) a través de un teclado alfanumérico o por MFV.

Las ventajas y las conveniencias de la invención se deducen, además, a partir de las reivindicaciones dependientes así como de la descripción siguiente de un ejemplo de realización preferido con la ayuda de la figura.

Ésta muestra -en una representación sinóptica, pero que se puede realizar técnicamente también cuando existen los supuestos económicos- formas de realización preferidas de la invención en un teléfono de red fija ISDN T y en un teléfono móvil GSM MS, que están conectados en una red telefónica por cable TN o bien en una red de radio móvil GSM, en colaboración con un servidor de adaptación AS, que está asociado en común a las dos redes de comunicación TN y GSM. El teléfono de red fija T y el teléfono móvil MS están en comunicación a través de una línea telefónica-ISDN ISDN o bien de un interfaz de aire (no designado especialmente) así como de una estación de base BTS/BSC, respectivamente, con un centro de conmutación SC o bien MSC de su red. A través de éste se establece directamente (en la red fija) o bien indirectamente a través de un servidor adicional de tránsito GS una comunicación con un centro común de administración y de servicio PRO de un proveedor de servicios, que ofrece tanto en la red fija TN como también en la red de radio móvil GSM un servicio de adaptación como servicio sujeto a tarifas.

Al servidor de la trascripción TS están asociadas varias bases de datos de léxicos de pronunciación PDB1 a PDB3 (se representa en forma de dos bloques funcionales) así como una red neuronal NN para el procesamiento de palabras nuevas no contenidas en las bases de datos de léxicos de pronunciación PDB1 a PDB3. Además, al servidor de la trascripción TS está asociada una instalación de facturación BM para la facturación de una utilización del servicio de trascripción.

Las bases de datos de los léxicos de pronunciación -bases de datos PDB1 a PDB3 contienen léxicos de referencia relacionados con la lengua del país o bien con el dialecto, que están adaptados a determinados países o regiones de origen de los usuarios de la red fija TN o bien de la red de radio móvil GSM. Los lugares de origen respectivos son identificados en la red fija con la ayuda de un número d identificación del lugar del teléfono conectado T y en la red de radio móvil con la ayuda de las inscripciones den una tarjeta-SIM SIM (en colaboración con un Registro de Lugares Nacionales -no mostrado aquí-).

Como medios para la entrada de texto, los dos terminales T y MS presentan un teclado alfanumérico de una manera habitual al menos en los teléfonos móviles. Se entiende que en su lugar puede entrad una pantalla de contacto u otra instalación de entrada para caracteres alfabéticos. En el teléfono de red fija T está montada una instalación de interfaz ISDN IF, que está mostrada sólo de manera simbólica como bloque especial en la figura. La línea ISDN entre el teléfono de red fija T y el centro de conmutación SC correspondiente tiene de manera conocida un canal de voz A y un canal de datos B independiente.

Para la explicación del modo de funcionamiento de esta disposición se supone que el teléfono móvil está equipado con un software de base para la identificación de voz independiente del locutor, pero contiene como vocabulario correspondiente en el suministro en primer lugar sólo las cifras para la selección y las instrucciones de control habituales. Con objeto de la utilización del reconocimiento de voz para la selección de interlocutores, el usuario introduce su nombre en un listín telefónico de su teléfono móvil. En virtud de esta entrada, se puede realizar posteriormente a través de la pronunciación del nombre correspondiente una selección del interlocutor deseado sin pulsaciones de tecla. No obstante, en primer lugar, el sistema de reconocimiento de voz debe recibir transcripciones fonéticas de los nombres seleccionados.

A tal fin, se introduce el nombre respectivo en el teclado del teléfono móvil y se transmite a través de los bloques funcionales intercalados al centro de administración y de servicio PRO del proveedor y, por lo tanto, al servidor de la trascripción TS conectado allí. Este servidor busca en primer lugar el nombre correspondiente en la base de datos de léxicos de pronunciación PDB1 a PDB3, que está asociada al lugar de origen del usuario del teléfono móvil. Si esta búsqueda no tiene éxito, entonces o bien se busca en las otras bases de datos de léxicos de pronunciación, o se emplea uno de los otros mecanismos de trascripción disponibles, a saber, la red neuronal NN para la generación de la trascripción fonética.

En un tiempo muy corto, el servicio proporciona entonces una transcripción fonética del nombre introducido como resultado y la transmite de nuevo al teléfono móvil MS. Allí se dividen los fonemas individuales en otras subunidades y se introducen como estados HMM en un espacio de búsqueda de reconocimiento (no representado). El nuevo nombre está disponible para el usuario entonces con alta calidad para futuras entradas de voz.

De una manera similar se puede realizar la entrada de nuevos nombres o de otras palabras en principio también en el teléfono de red fija T. El nombre introducido por teclado alfanumérico es transmitido en cada caso a través de la línea de datos B de la red-ISDN ISDN, y ésta es utilizada para el "reconocimiento" de la trascripción fonética, de manera que la línea de voz no está implicada en estos procesos. En lugar de un espacio de búsqueda de reconocimiento ejecutado en el teléfono T, se pueden utilizar también instalaciones de reconocimiento de voz asociadas externamente al teléfono para la parte, que se encuentra en el terminal, de la inicialización y utilización del sistema de reconocimiento de voz. La realización de la invención no está limitada a este ejemplo, sino que en el marco de las reivindicaciones son posibles también una pluralidad de variaciones, que están en el marco de los conocimientos técnicos.

Claims

1. Procedimiento para el reconocimiento de voz independiente del locutor para un terminal de telecomunicaciones o terminal de datos (MS, T) en una red de telecomunicaciones y red de datos (GSM, TN), respectivamente, donde el terminal recibe palabras pronunciadas y las emite como palabras escritas y/o las utiliza internamente para fines de control así como se pueden introducir en el terminal palabras nuevas para la ampliación del vocabulario como palabras escritas con la finalidad de la creación de una trascripción fonética, donde las palabras nuevas escritas son transmitidas por el terminal a través de un trayecto de transmisión de datos (B) de la red de telecomunicaciones y de la red de datos, respectivamente, hacia un servidor central (TS), siendo realizada en el servidor central una reproducción de las palabras en una trascripción fonética, la trascripción fonética es retransmitida a través de un trayecto de transmisión de datos de la red de telecomunicaciones y de la red de datos, respectivamente, hacia el terminal y la trascripción fonética es recibida por éste y es memorizada en éste, caracterizado porque la reproducción en la trascripción fonética se realiza en función de una identificación del terminal utilizando una de una pluralidad de redes neuronales.

2. Procedimiento según la reivindicación 1, caracterizado porque la reproducción en la trascripción fonética se realiza utilizando una red neuronal (NN) ejecutada en el servidor.

3. Procedimiento según una de las reivindicaciones anteriores, caracterizado porque la reproducción en la trascripción fonética está organizada como servicio autónomo en la red de telecomunicaciones y en la red de datos (GSM, TN), respectivamente.

4. Procedimiento según una de las reivindicaciones anteriores, caracterizado porque la transmisión desde y hacia un terminal de radio móvil (MS) se realiza como mensaje corto o por medio de WAP a través de una red de radio móvil (GSM), especialmente incluyendo una comunicación con una red IP.

5. Procedimiento según una de las reivindicaciones 1 a 4, caracterizado porque la transmisión desde y hacia un teléfono de red fija (T) se realiza a través de un canal de datos ISDN (B) de una red fija ISDN (TN).

6. Disposición, adaptada para la realización de cada etapa individual de un procedimiento según una de las reivindicaciones anteriores, con una pluralidad de terminales (MS, T) conectados en la red de telecomunicaciones y en la red de datos, respectivamente, y con un servidor (TS) conectado en una central de servicio (PRO) de la red de telecomunicaciones y de la red de datos (GSM, TN), que puede acceder a una base de datos de léxicos de conversación (PDB1 a PDB3) con una pluralidad de léxicos de conversación accesibles en función de identificaciones de los terminales y/o presenta una pluralidad de redes neuronales (NH), accesibles igualmente en función de identificaciones de los terminales (PDB1 a PDB3, NN, HMM) para la reproducción de las palabras nuevas introducidas en uno de los terminales en una trascripción fonética.

7. Disposición según la reivindicación 6, caracterizada por una instalación de facturación (BM) asociada al servidor para la facturación de la reproducción en la trascripción fonética como servicio.

8. Disposición según la reivindicación 6 ó 7, caracterizada porque al menos una parte de los terminales conectados están configurados como terminales de radio móvil (MS) con medios para la emisión de un mensaje de texto corto por SMS o de un mensaje de texto a través de un protocolo de Internet, especialmente el WAP.

9. Disposición según una de las reivindicaciones 6 a 8, caracterizada porque al menos una parte de los terminales conectados están configurados como teléfono de red fija (T) con medios para la entrada y transmisión de texto, especialmente de una instalación de interfaz ISDN (IF).