ES2228739T3 - Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi. - Google Patents

Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi.

Info

Publication number
ES2228739T3
ES2228739T3 ES01129647T ES01129647T ES2228739T3 ES 2228739 T3 ES2228739 T3 ES 2228739T3 ES 01129647 T ES01129647 T ES 01129647T ES 01129647 T ES01129647 T ES 01129647T ES 2228739 T3 ES2228739 T3 ES 2228739T3
Authority
ES
Spain
Prior art keywords
vocabulary
language
words
language recognition
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01129647T
Other languages
English (en)
Inventor
Gerhard Hoffmann
Tobias Dr. Schneider
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2228739T3 publication Critical patent/ES2228739T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/18Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

Sistema de reconocimiento de lenguaje (3) para la introducción controlada por lenguaje de mensajes cortos en un aparato terminal de telecomunicaciones (1), en particular teléfono móvil o sin hilos, con un módulo reconocedor de lenguaje (5) que funciona independientemente de la persona que habla, en el que está memorizado o bien puede establecerse un vocabulario específico para elaborar mensajes cortos, llevando cada elemento del vocabulario asociado al menos un fonema y representando cada fonema al menos un sonido según una trascripción fonética predeterminada, caracterizado por una memoria intermedia de vocabulario de mensajes (13) para la memorización temporal de un mensaje breve enviado o recibido, una unidad comparadora de vocabulario (15) unida por un lado con la memoria intermedia del vocabulario de mensajes (13) y por otro lado con el módulo reconocedor de lenguaje (5), para comparar los respectivos vocabularios memorizados y para emitir las palabras nuevas que se presentan en el mensaje corto a un módulo de control de vocabulario (23), un módulo conversor texto-fonema (9), para la conversión de las palabras nuevas que se presentan en la trascripción fonética y el módulo de control de vocabulario (23) para complementar el vocabulario o bien para sustituir elementos del mismo por las nuevas palabras que se presentan, así como los fonemas asociados a las mismas.

Description

Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema así.
La invención se refiere a un sistema de reconocimiento de lenguaje, así como a un procedimiento, realizado especialmente a medida para elaborar mensajes cortos en un o para un aparato terminal de telecomunicaciones.
El estándar de telefonía móvil actualmente vigente GSM define condiciones marco para el envío de mensajes de texto de longitud limitada - mensajes o bien informaciones cortas - a través de las redes de telefonía móvil, para lo que se ha generalizado la denominación SMS (Short Messaging Service) también en la vida diaria. Los mensajes SMS se han establecido en las redes GSM como elemento de comunicación para mensajes cortos. Mediante la presente invención se facilita la introducción de mensajes SMS en terminales móviles.
Aparte de las múltiples posibilidades de envío de SMS a partir de Internet o mediante Call Center o su elaboración más fácil sobre PCs o laptops, la predominante mayoría de todos los mensajes SMS enviados hoy día se elaboran directamente sobre terminales móviles. Estos SMS deben introducirse de manera relativamente trabajosa con el teclado de doce teclas existente. También los procedimientos instalados en el mercado para la reducción de la cantidad de pulsaciones, como Tegic T9, sólo logran condicionadamente simplificaciones y aumentos de la velocidad de introducción de los SMS. Además, la utilización del modo T9 exige una cierta rutina en la elaboración de los SMS.
La introducción ya indicada mediante un PC o computador portátil es bastante más sencilla, debido a que claramente el teclado se maneja bastante mejor, y básicamente los sistemas de tratamiento de lenguaje muy evolucionados para su utilización en ordenadores son también adecuados para la introducción de mensajes cortos a través del PC. Pero todas estas posibilidades están precisamente ligadas a la disponibilidad del correspondiente computador con teclado totalmente alfanumérico o bien los recursos de hardware y software para un tratamiento de lenguaje avanzado. Estos recursos sólo los tienen a disposición una minoría de los usuarios de SMS en las situaciones típicas de utilización.
La DE 197 51 123 C1 describe un dispositivo así como un procedimiento para la selección de nombres de lenguaje independientemente del que habla para equipos terminales de telecomunicaciones. El dispositivo dispone de un reconocedor de lenguaje basado en fonema, un teclado alfanumérico para la introducción de textos, así como un equipo para la conversión texto-fonema. Un usuario introduce un nombre mediante el teclado. En el conversor se le asocia al nombre un modelo de palabra digital, es decir, una secuencia de fonemas. Se memorizan nombre y secuencia de fonemas. Si indica el usuario un nombre, el reconocedor de lenguaje compara la secuencia de fonemas indicada con las secuencias de fonemas memorizadas, identifica aquella secuencia que tiene la mayor coincidencia y toma de la memoria el texto asociado, es decir, el nombre. Solamente pueden ser llamados y enviados de manera simplificada mensajes fijamente predeterminados.
La WO 01/78245 A1 describe un procedimiento para configurar y enviar mensajes SMS con soporte de lenguaje. Para ello el usuario indica una palabra distintiva de mensaje. Esta palabra distintiva de mensaje identifica un mensaje predeterminado. Éste puede a continuación ser enviado mediante órdenes de lenguaje introducidas adicionalmente.
La invención tiene por lo tanto la tarea básica de poner a disposición un sistema y procedimiento mejorados para la introducción de SMS directamente en un terminal de telecomunicaciones (en particular, móvil).
Esta tarea se resuelve, en cuanto a dispositivo, mediante un sistema con las particularidades de la reivindicación 1 y en cuanto a procedimiento mediante un procedimiento con las particularidades de la reivindicación 14.
La invención incluye la idea básica de prescindir casi por completo de la introducción de textos usual hasta ahora para la elaboración de mensajes breves. Además, incluye la idea de sustituir ésta -a pesar de que los recursos (capacidad de procesamiento y memoria) de un pequeño terminal de telecomunicación de mano son muy imitados- esencialmente mediante la introducción de un lenguaje de forma inigualablemente sencilla y confortable para el usuario. El efecto de la invención se basa en la reducción del volumen del vocabulario a un tamaño adecuado para terminales móviles, utilizando preconfiguraciones y un sistema que autoaprende.
La presente invención se refiere así a procedimientos y aspectos de la introducción controlada por lenguaje de mensajes SMS que pueden utilizarse individualmente o en combinación. Se trata aquí de la selección controlada por lenguaje de palabras/plantillas predefinidas o bien de la selección controlada por lenguaje de grupos de palabras y órdenes de lenguaje o bien metáforas y un sistema que autoaprende para la configuración de un reconocedor de lenguaje con el vocabulario SMS utilizado por el usuario.
Plantillas SMS controladas por lenguaje
En la elaboración de los SMS es posible la introducción de textos libres. Una introducción completa del mensaje por lenguaje, exigiría un sistema de dictado que funcionase libre de errores (con un vocabulario de \geq 50000 palabras) en el aparato terminal móvil. Debido a lo limitado de los recursos en los terminales, esto es actualmente técnicamente irrealizable. No obstante, si se considera que muchos contenidos de mensajes SMS son similares, se reduce claramente el vocabulario utilizado activamente y se puede trabajar a menudo también con plantillas prefabricadas.
Sobre el terminal móvil se instala un reconocedor de lenguaje independiente del usuario que, debido a la limitación de recursos, soporta sólo una cantidad limitada de palabras en el vocabulario activo (por ejemplo 1000 palabras). Tal como se suministra el aparato, el reconocimiento del lenguaje está preconfigurado con las palabras más importantes usuales por lo general en mensajes SMS, como por ejemplo "hoy", "ayer", "mañana", "encuentro", "cine", etc.
Esta información preinstalada puede ser complementada o modificada individualmente por el usuario (observando una cantidad máxima de palabras soportadas). Las modificaciones pueden realizarse, por ejemplo, independientemente del usuario, mediante introducción de texto y subsiguiente conversión automática en una trascripción fonética que puede entender el reconocedor (conversión texto-fonema) o bien, en función del usuario, mediante introducción de texto y a continuación emisión verbal del concepto. De esta manera puede personalizarse individualmente el vocabulario a soportar, sin mantener las dimensiones de recursos de un sistema de dictado. Las modificaciones pueden realizarse en particular directamente en el aparato o bien en varias etapas mediante PC y descarga (download) sobre el terminal de telecomunicaciones.
Elección de texto mediante metáforas de voz
En lugar de palabras individuales, con una orden de lenguaje pueden ser también llamados pequeños textos, las llamadas plantillas, como por ejemplo "afectuosos saludos", "muchos saludos", "ya vengo", "¿vienes?", "yo quisiera", "¿puedes?", "hasta pronto", etc. También es imaginable la introducción por lenguaje de metáforas para grupos de palabras como por ejemplo "salutación" o "retórica final". Tras realizarse el reconocimiento de estas palabras, se ofrecen sobre el display algunas posibles variantes de texto respecto a estas metáforas. Por ejemplo, sobre "salutación", puede entonces seguir una oferta como "Buenos días, hola, hola ¿cómo estás?, querido, querida...". El usuario puede entonces elegir el registro por él deseado mediante selección manual o bien mediante introducción por lenguaje (por ejemplo, el correspondiente número de lugar). Las listas que se encuentran detrás de las metáforas individuales, pueden ampliarse o bien adaptarse individualmente por el usuario.
Sistema de vocabulario que autoaprende para introducción de SMS controlados por lenguaje
Como adaptación del vocabulario y de palabras estándar al comportamiento en comunicación del usuario, puede realizarse una adaptación automática, que autoaprende, del vocabulario básico. Para ello, en función de los ajustes, el sistema analiza todos los mensajes enviados y/o recibidos. Las palabras no conocidas hasta ahora por el reconocedor de lenguaje, se transforman mediante una conversión texto-a-fonema existente en el aparato en una forma comprensible por el reconocedor de lenguaje y se recogen en el vocabulario. El vocabulario a soportar queda entonces limitado a una cantidad máxima de palabras adecuada para "Embedded Devices". Cuando se alcanza el límite máximo, pueden seguirse adaptando los vocabularios activos mediante estrategias de sustitución (por ejemplo, first-in-first-out (FIFO), priorización en función de la frecuencia con la que se presentan). Puesto que los vocabularios en los mensajes SMS para un determinado usuario son relativamente pequeños por lo general, se forma mediante este proceso progresivamente un sistema personalizado, que permite al usuario introducir por lenguaje su SMS casi por completo.
Mientras el módulo reconocedor de lenguaje propiamente dicho está realizado como modelo Hidden-Markov, conocido pero configurado con una demanda de recursos adaptada a las premisas de un aparato electrónico pequeño de mano, el módulo conversor texto-fonema se realiza preferentemente en base a una red neuronal. También la realización de tales conversores en base a redes neuronales es en sí conocida y por lo tanto no necesita aquí de aclaración adicional alguna para el especialista.
Como interfaz para la entrada de texto sirve preferentemente un teclado de entrada "clásico", en particular un teclado alfanumérico integrado en el aparato con ocupación múltiple de cada tecla, o bien una pantalla táctil (touchscreen) configurada correspondientemente. También es posible realizar la entrada de textos con ayuda de un teclado adicional insertable (que pueden suministrar varios fabricantes) o bien mediante un PC conectado o un laptop/notebook.
Según lo anterior, se realiza en el módulo de control de vocabulario un algoritmo de control de sustitución para sustituir elementos del vocabulario básico con nuevas palabras o bien plantillas, según una estrategia de sustitución predeterminada, en particular en función del instante y/o de la frecuencia con la que se presenten en la interfaz de entrada de textos. De esta manera se forma a lo largo del tiempo una estructura de vocabulario adaptada de la mejor manera posible a las costumbres del usuario concreto y de su interlocutor de comunicación. Por otra parte, también es posible, mediante elementos sencillos de hardware y software, llevar a cabo una actualización continua del vocabulario según el principio FIFO, es decir, eliminar del vocabulario palabras que no se utilizan desde hace mucho tiempo y de esta manera renovar continuamente el vocabulario.
Tal como ha quedado ya claro en base a las anteriores observaciones, pueden existir como elementos del vocabulario básico, al igual que del vocabulario actual del reconocedor del lenguaje, además de palabras, también secuencias de palabras (frases), y se pueden denominar ambas clases de elementos conjuntamente "plantillas". Cuanto más acusadamente siga rituales preestablecidos la comunicación de mensajes breves de un usuario, tanto más eficiente es la memorización de frases enteras junto a palabras individuales.
De manera conveniente, se combinan las secuencias de palabras con una orden de lenguaje o una metáfora, mediante cuya introducción por lenguaje son llamadas al funcionamiento del sistema. Al respecto, pueden asignarse distintas frases, a una y la misma metáfora o a una y la misma orden de lenguaje y llevarla, como reacción a una correspondiente entrada, al display, de manera que el usuario puede elegir la secuencia de palabras deseada en la correspondiente situación. También esto puede realizarse mediante una orden de lenguaje, pero también de forma convencional mediante scroll del display y pulsación de tecla "OK" en la posición deseada.
De las anteriores explicaciones resulta que una memoria de vocabulario del reconocedor de lenguaje está dividida convenientemente en varias zonas de memoria que pueden ser llamadas y manejadas separadamente. Una primera zona de memoria, para el vocabulario básico suministrado con el equipo por el fabricante y sus complementos o bien sustitutos, que se acumulan durante el funcionamiento del sistema, está entonces separada de otra zona de memoria, en la que conscientemente se memorizan por el usuario plantillas introducidas. Lógicamente, esta última zona de memoria no puede ser sobrescrita por nuevos registros en la primera, sino en todo caso mediante introducciones actuales del usuario.
Ventajas y aspectos convenientes resultan por lo demás de las reivindicaciones secundarias, así como de la subsiguiente descripción detallada de las figuras. De éstas, muestran:
Fig. 1 un esquema de principio de los componentes esenciales de un sistema de reconocimiento de lenguaje según la presente invención y
Fig. 2 una representación esquemática de un sistema de reconocimiento de lenguaje realizado como parte integrante de un teléfono móvil en una ejecución modificada respecto a la fig. 1.
Tal como puede observarse en la fig. 1, pueden considerarse como componentes esenciales de un sistema de reconocimiento de lenguaje preferente, según la invención, una etapa de control de vocabulario, una etapa de control de plantilla, una interfaz de texto y una memoria intermedia de SMS, así como el reconocedor de lenguaje propiamente dicho, (con componentes adicionales respecto a un reconocedor de lenguaje tradicional). El sistema está unido mediante la interfaz de texto con un equipo de entrada de textos, por ejemplo un teclado de handy. A la memoria intermedia de SMS se llevan tanto mensajes cortos de salida generados mediante el teclado y el interfaz de texto, como también mensajes cortos de entrada recibidos a través del handy. El interfaz de texto está unido por el lado de salida con entradas de la etapa de control de plantillas, con un módulo conversor "texto-a-fonema" y un módulo "tabla de secuencias". Estos módulos se llevan a través de la interfaz de texto a un alias de voz o bien a una tabla de texto y a partir de aquí se genera una secuencia de fonemas o bien una tabla de secuencias. Éstas se depositan finalmente en una memoria de frases del reconocedor de lenguaje.
La salida de la memoria intermedia de SMS está unida con un comparador de vocabulario, así como un preparador de estadísticas dentro de la etapa de control del vocabulario. Éstos están en cada caso unidos por su lado de salida con otra etapa conversora "texto-a-fonema", que a su vez está unida con una memoria de vocabulario complementario en el reconocedor de lenguaje. La unidad de preparación de estadísticas está además unida con un módulo "información estadística" en el reconocedor de lenguaje, para memorizar allí, a partir de los mensajes cortos de entrada y de salida, informaciones estadísticas obtenidas para el funcionamiento del reconocedor de lenguaje.
El comparador de vocabulario está unido mediante otra entrada con una salida del reconocedor de lenguaje y recibe de allí la base comparativa para la evaluación de los SMS actuales para complementar el vocabulario memorizado en el reconocedor de lenguaje.
El funcionamiento de este reconocedor de lenguaje resulta de las explicaciones anteriores generales y de la propia figura, con lo que aquí no es necesaria ninguna descripción funcional más extensa.
El sistema de reconocimiento de lenguaje 3 de un teléfono móvil 1 según la figura 2 incluye un reconocedor de lenguaje HMM 5 con reducida necesidad de recursos y una memoria de vocabulario y frases 7, que incluye una zona de memoria básica 7A, una zona de memoria de vocabulario complementario 7B y una zona de memoria de frases 7C. En la zona de memoria básica 7A está, memorizado un vocabulario básico del reconocedor de lenguaje 5 invariable, es decir, que los elementos allí almacenados del vocabulario del reconocedor de lenguaje no pueden borrarse ni sobrescribirse. En la zona de memoria del vocabulario complementario 7B se memorizan en este ejemplo adicionalmente tanto nuevas palabras introducidas por el usuario mediante introducción de textos como también palabras puestas a disposición por el sistema de reconocimiento de lenguaje de la manera que se describe más abajo, caracterizándose los primeros elementos citados con un distintivo como entradas activas del usuario y no pudiendo borrarse igualmente. En la zona de memoria de frases 7C, ya en el estado de suministro del teléfono móvil 1 están memorizadas secuencias de palabras relativas a situaciones estándar de la vida, en asociación a respectivas órdenes de lenguaje o bien metáforas, que el usuario puede incluir en un mensaje corto de la forma que después se describirá.
Para realizar la invención puede utilizarse un reconocedor de lenguaje basado en HMM, que posee una gama de prestaciones de 1000 palabras para el idioma alemán y que así es suficientemente pequeño para poder correr sobre embedded devices. El reconocedor de lenguaje 5 es preconfigurado para el suministro inicial con 1000 palabras de uso común para el idioma alemán. Las palabras para la información de ocupación previa se obtienen entonces a partir del análisis de una gran cantidad de mensajes cortos SMS enviados por muchos usuarios.
Además, se instala sobre el teléfono móvil 1 un conversor texto - fonema 9, en base a una red neuronal, el cual realiza la conversión de entradas de texto en la trascripción fonética necesaria para el reconocedor de lenguaje. Éste permite al usuario introducir mediante el teclado de doce teclas 11 del teléfono móvil 1 nuevas palabras, que el mismo desea memorizar en la zona de memoria de vocabulario complementario 7B como texto y prepara la representación que puede memorizarse.
Además, el conversor texto-fonema 9 permite la realización de una función de autoaprendizaje, para cuya realización se prevén una memoria intermedia 13 para la memorización temporal del vocabulario de mensajes breves recibidos y/o enviados, una unidad comparadora de vocabulario 15 unida con el anterior así como con la memoria de vocabulario y de frases 7 para comparar el vocabulario memorizado en cada caso, una unidad de evaluación estadística 17 para determinar magnitudes estadísticas de las palabras nuevas que se presentan en los mensajes cortos recibidos o bien enviados y una unidad comparadora de magnitudes características 19 para comparar estas magnitudes características con magnitudes características memorizadas del vocabulario básico. La unidad comparadora de magnitudes características 19 está unida por el lado de entrada por una parte con la unidad evaluadora 17 y por la otra con una memoria de magnitudes características 21 del reconocedor de lenguaje HMM 5, donde están memorizados los valores relevantes de los elementos del vocabulario básico. Para el control de la actualización del vocabulario se prevé una etapa de control de vocabulario 23, que por su parte recibe informaciones de control de la unidad comparadora de vocabulario 15 y la unidad comparadora de magnitudes características 19.
Para la adaptación/personalización automática del vocabulario, el usuario puede activar la función de autoaprendizaje del sistema. Al respecto, puede conectarse libremente tanto el análisis de mensajes cortos SMS entrantes como también salientes. La activación del análisis de mensajes SMS entrantes es especialmente interesante cuando la funcionalidad manual de entrada en el aparato terminal móvil está fuertemente limitada, como por ejemplo en un reloj de mano.
En un sistema de autoaprendizaje activado, se comparan todas las palabras de cada mensaje SMS de entrada y/o de salida con el vocabulario básico existente. Si en el mensaje SMS están incluidas palabras que no se encuentran en el vocabulario básico del reconocedor, entonces éstas se añaden mediante una conversión texto-fonema al vocabulario según una estrategia de sustitución. Para la estrategia de sustitución, a cada palabra se le asigna en el vocabulario la fecha de utilización y la frecuencia de utilización. Para el suministro inicial de palabras determinadas previamente, se utilizan valores iniciales. Entonces una nueva palabra a registrar sustituye la palabra con la frecuencia de utilización más baja y con la fecha de utilización más antigua. De esta manera se forma paso a paso un sistema individual personalizado.
Adicionalmente, se ofrece al usuario la posibilidad de elaborar, mediante un control de menú de plantillas 25, plantillas propias individuales y combinar éstas con una orden de lenguaje (alias de voz). Aquí una plantilla puede estar compuesta por una o varias palabras. Para ello, se introduce el texto de la plantilla en forma de tabla y se asigna a un alias de voz (orden de lenguaje) -igualmente introducido por teclado 11 como texto.
El conversor texto-fonema 9 traduce el alias de voz y lo inscribe en el vocabulario del reconocedor de lenguaje; el propio texto de la plantilla se memoriza en la zona de memoria de frases 7C y la orden de lenguaje en la zona de memoria de vocabulario complementario 7B. El alias de voz sustituye entonces a una palabra del vocabulario según la estrategia de sustitución ya descrita.
El alias de voz se denomina como tal. El mismo no está sometido a la estrategia de sustitución, puesto que representa una inscripción explícita del usuario. Sólo puede ser borrado por el propio usuario.
Como función adicional, pueden también asignarse a un alias de voz varios textos de plantilla. Cuando se llama a un alias de voz, se le pone a disposición al usuario, mediante el control de menús 23, todos los textos de plantilla precedidos de un número para la elección. La elección de la plantilla se realiza a continuación manualmente mediante selección por teclado o mediante introducción por lenguaje del número de plantilla. Por ejemplo, el alias de voz "Saludos" puede estar combinado con los textos de plantilla "Afectuosos saludos" y "Con amistosos saludos". Al introducir "Saludos", se le visualizan al usuario los textos "1 Afectuosos saludos" y "2 Con amistosos saludos". Mediante introducción a continuación del número de plantilla "2" se selecciona el texto "Con amistosos saludos".
Para lograr una proporción equilibrada entre vocabulario básico y plantillas definidas por el usuario, se preajusta un máximo de inscripciones de plantillas, por ejemplo 100 plantillas de usuario. El usuario puede definir alias de voces propios hasta este valor máximo, sustituyendo las mismas en cada caso una inscripción del vocabulario básico existente. Si se alcanza el límite máximo, recibe el usuario el correspondiente aviso de advertencia. El usuario puede modificar mediante una opción el valor máximo de plantillas. En caso extremo, puede elegir el valor máximo de 1000 para las plantillas, lo cual significa, cuando se aprovecha el valor máximo, una eliminación del vocabulario básico y de la función de análisis.
La ejecución de la invención no queda limitada al ejemplo antes descrito, sino que son igualmente posibles múltiples variaciones, que quedan en el marco del manejo del especialista.

Claims (20)

1. Sistema de reconocimiento de lenguaje (3) para la introducción controlada por lenguaje de mensajes cortos en un aparato terminal de telecomunicaciones (1), en particular teléfono móvil o sin hilos,
con un módulo reconocedor de lenguaje (5) que funciona independientemente de la persona que habla, en el que está memorizado o bien puede establecerse un vocabulario específico para elaborar mensajes cortos, llevando cada elemento del vocabulario asociado al menos un fonema y representando cada fonema al menos un sonido según una trascripción fonética predeterminada,
caracterizado por
una memoria intermedia de vocabulario de mensajes (13) para la memorización temporal de un mensaje breve enviado o recibido,
una unidad comparadora de vocabulario (15) unida por un lado con la memoria intermedia del vocabulario de mensajes (13) y por otro lado con el módulo reconocedor de lenguaje (5), para comparar los respectivos vocabularios memorizados y para emitir las palabras nuevas que se presentan en el mensaje corto a un módulo de control de vocabulario (23),
un módulo conversor texto-fonema (9), para la conversión de las palabras nuevas que se presentan en la trascripción fonética y
el módulo de control de vocabulario (23) para complementar el vocabulario o bien para sustituir elementos del mismo por las nuevas palabras que se presentan, así como los fonemas asociados a las mismas.
2. Sistema de reconocimiento de lenguaje según la reivindicación 1,
caracterizado porque el reconocedor de lenguaje y/o el módulo conversor texto-fonema (9) está configurado sobre la base de una red neuronal.
3. Sistema de reconocimiento de lenguaje según la reivindicación 1 ó 2,
caracterizado porque está configurada una interfaz de entrada de textos (11) para la entrada directa de textos, de palabras o frases, y un teclado de entrada, en particular un teclado alfanumérico integrado en el aparato con ocupación múltiple de las teclas, o una pantalla táctil (touchscreen) correspondientemente configurada.
4. Sistema de reconocimiento de lenguaje según una de las reivindicaciones precedentes,
caracterizado porque en el módulo reconocedor de lenguaje (5) está implementado un modelo Hidden-Markov.
5. Sistema de reconocimiento de lenguaje según una de las reivindicaciones precedentes,
caracterizado porque en el módulo de control de vocabulario (23) está implementado un algoritmo de control de sustitución para sustituir elementos del vocabulario por nuevas palabras o frases, según una estrategia de sustitución previamente determinada, en particular en función del momento y/o de la frecuencia con la que se presentan en la interfaz de entrada de textos.
6. Sistema de reconocimiento de lenguaje según una de las reivindicaciones precedentes,
caracterizado por elementos (25) para implementar un control de menús para la combinación individual para cada usuario de frases con respectivas órdenes de lenguaje o bien una metáfora y para la memorización de la orden de lenguaje o bien de la metáfora como representante de las frases en el vocabulario del reconocedor de lenguaje.
7. Sistema de reconocimiento de lenguaje según la reivindicación 6,
caracterizado porque el control de menú (25) está configurado para la combinación en cada caso de varias frases con una orden de lenguaje y para la visualización de las frases disponibles como reacción a la entrada de lenguaje de la orden de lenguaje, así como para la elección de la frase actualmente deseada mediante un proceso de entrada adicional.
8. Sistema de reconocimiento de lenguaje según una de las reivindicaciones precedentes,
caracterizado por
- una unidad de evaluación estadística (17) para determinar magnitudes características estadísticas de las palabras nuevas que se presentan y
- una unidad comparadora de magnitudes características (19) para comparar las magnitudes características estadísticamente calculadas con las correspondientes magnitudes características de las palabras memorizadas en el reconocedor de lenguaje y para la salida de una señal de decisión representativa del resultado de la comparación a una entrada del módulo de control de vocabulario (23), para iniciar el complemento o sustitución del vocabulario del reconocedor de lenguaje como reacción al resultado de la comparación.
9. Sistema de reconocimiento de lenguaje según una de las reivindicaciones precedentes,
caracterizado porque el reconocedor de lenguaje (5) presenta una memoria de vocabulario y de frases (7) con varias zonas de memoria (7A, 7B, 7C) de las cuales al menos una primera zona de memoria (7A) está ocupada con un vocabulario básico invariable.
10. Sistema de reconocimiento de lenguaje según la reivindicación 9,
caracterizado porque una segunda zona de memoria (7C) de la memoria de vocabulario y de frases está configurada para alojar una cantidad máxima predeterminada de frases y órdenes de lenguaje asignadas, a elección.
11. Sistema de reconocimiento de lenguaje según la reivindicación 1 u 8 y la reivindicación 9 ó 10,
caracterizado porque a partir del vocabulario de mensajes cortos enviados y/o recibidos, pueden archivarse automáticamente palabras tomadas sin la influencia del contenido de la segunda zona de memoria (7C) en la primera (7A) o bien en una tercera zona de memoria (7B) de la memoria del vocabulario.
12. Sistema de reconocimiento de lenguaje según una de las reivindicaciones 3 a 11,
caracterizado porque la interfaz de entrada de textos (11) está configurada como interfaz externa hacia otro sistema de reconocimiento de lenguaje o aparato externo, en particular un ordenador personal o portátil.
13. Aparato terminal de telecomunicaciones con un sistema de control de lenguaje según una de las reivindicaciones precedentes.
14. Procedimiento de reconocimiento de lenguaje para la introducción controlada por lenguaje de mensajes cortos en un aparato terminal de telecomunicaciones (1), en particular teléfono móvil, donde
un vocabulario del reconocedor de lenguaje presenta un vocabulario básico con elementos para elaborar mensajes cortos, siendo un elemento una palabra o una frase, estando asignado a cada elemento al menos un fonema, y estando representado cada fonema según una trascripción fonética predeterminada, y donde
en una primera etapa se pone a disposición el vocabulario básico,
caracterizado porque en una segunda etapa se comparan palabras de mensajes cortos con el vocabulario básico, para detectar palabras que no están contenidas en el vocabulario básico,
se asignan a las palabras detectadas secuencias de fonemas según una conversión texto-fonema y
las palabras detectadas y las secuencias de fonemas asociadas se agregan al vocabulario básico.
15. Procedimiento de reconocimiento de lenguaje según la reivindicación 14,
caracterizado porque la primera etapa de la puesta a disposición del vocabulario básico se realiza mediante programación previa.
16. Procedimiento de reconocimiento de lenguaje según la reivindicación 14,
caracterizado porque la primera etapa de la puesta a disposición del vocabulario básico se realiza juntamente con la segunda etapa del complemento de la misma sin programación previa.
17. Procedimiento de reconocimiento de lenguaje según una de las reivindicaciones 14 a 16,
caracterizado porque la segunda etapa incluye también una entrada manual de nuevas palabras o frases por el usuario.
18. Procedimiento de reconocimiento de lenguaje según la reivindicación 17,
caracterizado porque el vocabulario básico se memoriza en una primera zona de memoria (7A, 7B) de una memoria de vocabulario y de frases (7) y las palabras nuevas o frases introducidas manualmente se memorizan en una segunda zona de memoria separada (7C) de la memoria de vocabulario y de frases (7), de tal manera que las palabras nuevas introducidas del vocabulario básico pero no las palabras o frases introducidas manualmente, puede ser sustituidas.
19. Procedimiento de reconocimiento de lenguaje según una de las reivindicaciones 14 a 18,
caracterizado porque en una primera etapa se memorizan los elementos del vocabulario básico, en cada caso indicando una magnitud característica estadística representativa en particular de su importancia para los mensajes cortos,
las nuevas palabras incluidas en mensajes breves enviados y/o recibidos se someten a una evaluación estadística para obtener una magnitud característica estadística representativa en particular de su importancia para noticias breves y
se sustituyen elementos del vocabulario básico por palabras introducidas en función del resultado de una comparación de sus magnitudes estadísticas correspondientes.
20. Procedimiento de reconocimiento de lenguaje según una de las reivindicaciones 17 a 19,
caracterizado porque son memorizadas las palabras nuevas o frases introducidas manualmente y elementos a elección del vocabulario básico, asociándolos a órdenes de lenguaje o metáforas y, durante el funcionamiento del sistema de reconocimiento de lenguaje, tras la introducción de la orden de lenguaje asignada o de la metáfora juntamente con otras correspondientes palabras o frases, son visualizados para su selección en el marco de una conducción por menú.
ES01129647T 2001-12-12 2001-12-12 Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi. Expired - Lifetime ES2228739T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP01129647A EP1324314B1 (de) 2001-12-12 2001-12-12 Spracherkennungssystem und Verfahren zum Betrieb eines solchen

Publications (1)

Publication Number Publication Date
ES2228739T3 true ES2228739T3 (es) 2005-04-16

Family

ID=8179520

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01129647T Expired - Lifetime ES2228739T3 (es) 2001-12-12 2001-12-12 Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi.

Country Status (4)

Country Link
US (1) US7243070B2 (es)
EP (1) EP1324314B1 (es)
DE (1) DE50104036D1 (es)
ES (1) ES2228739T3 (es)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050048992A1 (en) * 2003-08-28 2005-03-03 Alcatel Multimode voice/screen simultaneous communication device
US20050154587A1 (en) * 2003-09-11 2005-07-14 Voice Signal Technologies, Inc. Voice enabled phone book interface for speaker dependent name recognition and phone number categorization
GB2422276B (en) * 2003-09-11 2007-10-03 Voice Signal Technologies Inc Phone number and name pronunciation interchange via mobile phone
US20050137878A1 (en) * 2003-09-11 2005-06-23 Voice Signal Technologies, Inc. Automatic voice addressing and messaging methods and apparatus
US20050149327A1 (en) * 2003-09-11 2005-07-07 Voice Signal Technologies, Inc. Text messaging via phrase recognition
CN100353417C (zh) * 2003-09-23 2007-12-05 摩托罗拉公司 用于提供文本消息的方法和装置
GB2406471B (en) * 2003-09-25 2007-05-23 Samsung Electronics Co Ltd Improvements in mobile communication devices
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
KR20070007882A (ko) * 2004-04-20 2007-01-16 보이스 시그널 테크놀로지스, 인코포레이티드. 보이스 오버 단문 메시지 서비스
US7583974B2 (en) * 2004-05-27 2009-09-01 Alcatel-Lucent Usa Inc. SMS messaging with speech-to-text and text-to-speech conversion
US20050273327A1 (en) * 2004-06-02 2005-12-08 Nokia Corporation Mobile station and method for transmitting and receiving messages
CA2648617C (en) 2006-04-05 2017-12-12 Yap, Inc. Hosted voice recognition system for wireless devices
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US8204748B2 (en) * 2006-05-02 2012-06-19 Xerox Corporation System and method for providing a textual representation of an audio message to a mobile device
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8335830B2 (en) * 2007-08-22 2012-12-18 Canyon IP Holdings, LLC. Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof
US9053489B2 (en) * 2007-08-22 2015-06-09 Canyon Ip Holdings Llc Facilitating presentation of ads relating to words of a message
US20110307250A1 (en) * 2010-06-10 2011-12-15 Gm Global Technology Operations, Inc. Modular Speech Recognition Architecture
US8655661B2 (en) 2010-10-08 2014-02-18 Blackberry Limited Methods and apparatus to audibly provide messages in a mobile device
US20120259633A1 (en) * 2011-04-07 2012-10-11 Microsoft Corporation Audio-interactive message exchange
US8924219B1 (en) * 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
US20130325459A1 (en) * 2012-05-31 2013-12-05 Royce A. Levien Speech recognition adaptation systems based on adaptation data
US9495966B2 (en) * 2012-05-31 2016-11-15 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325474A1 (en) * 2012-05-31 2013-12-05 Royce A. Levien Speech recognition adaptation systems based on adaptation data
US20130325449A1 (en) * 2012-05-31 2013-12-05 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9899040B2 (en) * 2012-05-31 2018-02-20 Elwha, Llc Methods and systems for managing adaptation data
US8843371B2 (en) * 2012-05-31 2014-09-23 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325451A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US9305565B2 (en) * 2012-05-31 2016-04-05 Elwha Llc Methods and systems for speech adaptation data
US10431235B2 (en) * 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
JP2015172792A (ja) * 2014-03-11 2015-10-01 株式会社リコー 翻訳システム、情報処理装置、情報処理方法およびプログラム
KR102305117B1 (ko) * 2014-04-30 2021-09-27 삼성전자주식회사 텍스트 입력 제어 방법 및 그 전자 장치
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
GB201620232D0 (en) * 2016-11-29 2017-01-11 Microsoft Technology Licensing Llc Data input system with online learning
CN111107504B (zh) * 2019-12-31 2022-04-26 苏州极易科技股份有限公司 基于大数据的电商客户关怀短信推送方法
CN115470781B (zh) * 2022-11-01 2023-03-14 北京红棉小冰科技有限公司 语料生成方法、装置和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
DE4331710A1 (de) * 1993-09-17 1995-03-23 Sel Alcatel Ag Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5774860A (en) * 1994-06-27 1998-06-30 U S West Technologies, Inc. Adaptive knowledge base of complex information through interactive voice dialogue
US6005927A (en) * 1996-12-16 1999-12-21 Northern Telecom Limited Telephone directory apparatus and method
DE19751123C1 (de) * 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
US6483899B2 (en) * 1998-06-19 2002-11-19 At&T Corp Voice messaging system
US6219638B1 (en) * 1998-11-03 2001-04-17 International Business Machines Corporation Telephone messaging and editing system
US6507643B1 (en) * 2000-03-16 2003-01-14 Breveon Incorporated Speech recognition system and method for converting voice mail messages to electronic mail messages
AU2001251452A1 (en) * 2000-04-06 2001-10-23 Tom North Improved short message service

Also Published As

Publication number Publication date
DE50104036D1 (de) 2004-11-11
EP1324314A1 (de) 2003-07-02
US7243070B2 (en) 2007-07-10
EP1324314B1 (de) 2004-10-06
US20030139922A1 (en) 2003-07-24

Similar Documents

Publication Publication Date Title
ES2228739T3 (es) Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi.
KR101542136B1 (ko) 문자 메시지 작성 방법 및 이를 이용한 휴대 단말기
US7583974B2 (en) SMS messaging with speech-to-text and text-to-speech conversion
US8204748B2 (en) System and method for providing a textual representation of an audio message to a mobile device
US20040162116A1 (en) User programmable voice dialing for mobile handset
US8280025B2 (en) Automated unique call announcement
JP2009104156A (ja) 電話通信端末
EP1431958B1 (en) Apparatus connectable to or incorporating a device for generating speech, and computer program product therefor
EP1851757A1 (en) Selecting an order of elements for a speech synthesis
KR20120088263A (ko) 의사소통 보조 장치 및 방법
JP4118098B2 (ja) 無線通信装置
US20090055167A1 (en) Method for translation service using the cellular phone
JP2011248002A (ja) 翻訳装置
JP4070963B2 (ja) 移動体通信機器
CN103312854A (zh) 基于语音识别查找联系人的方法和系统
JP2000101705A (ja) 無線電話機
EP1269722B1 (en) Telephonic device for deaf-mutes
KR20150072397A (ko) 문자 메시지 작성 방법 및 이를 이용한 휴대 단말기
JP2003015689A (ja) 音声操作装置
KR102496398B1 (ko) 사용자 디바이스에 페어링되어 음성-텍스트를 변환하는 장치 및 그 방법
CN100527223C (zh) 用于生成语音的设备,可连接到或含有该设备的装置以及相关的计算机程序产品
KR20070071881A (ko) 의사소통장애인을 위한 이동통신 단말기의 대화 중계 방법
US20170094041A1 (en) Phone device
KR20120066949A (ko) 휴대전화
TW521516B (en) Automatic voice prompting method of mobile phone