ES2254086T3 - Terminal portatil con marcacion vocal minimizando la utilizacion de memoria. - Google Patents

Terminal portatil con marcacion vocal minimizando la utilizacion de memoria.

Info

Publication number
ES2254086T3
ES2254086T3 ES00118293T ES00118293T ES2254086T3 ES 2254086 T3 ES2254086 T3 ES 2254086T3 ES 00118293 T ES00118293 T ES 00118293T ES 00118293 T ES00118293 T ES 00118293T ES 2254086 T3 ES2254086 T3 ES 2254086T3
Authority
ES
Spain
Prior art keywords
database
sequence
sequences
previous
terminal according
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00118293T
Other languages
English (en)
Inventor
Hans-Gunter Hirsch
Stefan Dobler
Andreas Kiessling
Ralph Schleifer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2254086T3 publication Critical patent/ES2254086T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/275Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips implemented by means of portable electronic directories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un terminal portátil (100) que comprende: - un interfaz para acceder a una base de datos externa (120) que está conectada de forma desmontable al terminal (100), conteniendo la base de datos externa (120) una pluralidad de secuencias con uno o más caracteres alfanuméricos; - una base de datos sintáctica (220) que define un carácter o secuencia de caracteres actualmente admisibles sobre la base de la pluralidad de secuencias contenidas en la base de datos externa (120); - un reconocedor automático de voz (160) para acceder a una base de datos de referencia (170), conteniendo la base de datos de referencia (170) información relativa a caracteres alfanuméricos deletreados que comprenden al menos letras o dígitos, en el que el acceso del reconocedor automático de voz (160) a la base de datos de referencia (170) está limitado por la base de datos sintáctica (220) al carácter o secuencia de caracteres actualmente admisibles; - una unidad de procesamiento (140) para buscar al menos una secuencia coincidente entre la pluralidad de secuencias sobre la base de uno o más caracteres alfanuméricos reconocidos por el reconocedor automático de voz (160). caracterizado porque: - la base de datos sintáctica (220) está generada en una memoria interna del terminal (100) cuando el terminal (100) está conectado, cuando la base de datos externa (120) está conectada al terminal (100) o cuando se cambia una secuencia en la base de datos externa (120) o se añade una nueva secuencia.

Description

Terminal portátil con marcación vocal minimizando la utilización de memoria.
Antecedentes del invento 1. Campo técnico
El invento se refiere a un terminal portátil para acceder a una base de datos externa, en el que la base de datos externa se puede conectar de forma desmontable con el terminal y contiene una pluralidad de secuencias con uno o más caracteres alfanuméricos como letras o dígitos.
2. Discusión de la técnica anterior
Muchos terminales portátiles tales como teléfonos móviles o asistentes digitales personales (PDA) están adaptados para acceder a una base de datos personal. La base de datos personal puede contener información relativa a citas de negocios o un directorio telefónico personal. En la base de datos personal esta información normalmente se almacena como secuencias ordenadas con uno o más caracteres alfanuméricos.
La base de datos personal puede solamente usarse para buscar información personal como citas de negocios o para realizar acciones especiales tales como establecer una conexión telefónica con una persona o una compañía después de la selección del nombre de la persona o de la compañía. En lo que sigue, el acceso a la base de datos en teléfonos móviles con la intención de establecer automáticamente una llamada a una persona o a una compañía se ilustra adicionalmente como un ejemplo.
Casi todos los teléfonos móviles ofrecen la característica de almacenar un directorio telefónico personal que contiene los nombres de personas y compañías juntamente con sus respectivos números de teléfono. Usualmente, este directorio telefónico personal se almacena en una base de datos externa como una tarjeta SIM (módulo de identidad de abonado). El directorio telefónico personal está así disponible después de que la tarjeta SIM ha sido enchufada en el teléfono móvil.
Para establecer una llamada, se puede acceder a una entrada de directorio telefónico ya existente presionando una secuencia de teclas en el teclado del teléfono móvil. Con el fin de seleccionar un nombre, hay que teclear una o más letras del nombre. El tecleo de las letras usualmente se realiza con las teclas de los dígitos. Cada tecla de dígito representa de tres a cuatro letras. La tecla "2", por ejemplo, representa [ABC] y la tecla "9" representa [WXYZ]. Con el fin de obtener la letra "W", hay que presionar una vez la tecla del dígito "9". Igualmente, con el fin de teclear la letra "X", hay que presionar la tecla del dígito "9" rápidamente dos veces. Está claro que el tecleo de letras con las teclas de un teléfono móvil es complicado y lento.
Otro ejemplo de acceso a una entrada de directorio telefónico ya existente es la funcionalidad de los teléfonos móviles denominada "marcación del nombre". La "marcación del nombre" está, por ejemplo, descrita en el manual de Ericsson del Manual del Usuario del T28s, 1ª edición, junio de 1999, páginas 76-78. De acuerdo con la función "marcación del nombre", un usuario pronuncia un nombre correspondiente que representa una entrada de directorio telefónico a la que acceder. El nombre pronunciado por el usuario es reconocido por medio de reconocimiento automático de voz. A continuación, se busca una coincidencia de secuencia con el nombre reconocido en la base de datos externa y se marca automáticamente el número de teléfono asociado con la secuencia coincidente.
La función de "marcación de nombre" necesita que los correspondientes nombres hayan sido previamente preparados como modelos de voz de palabra completa y hayan sido asignados a una o más entradas de directorio telefónico. Sin embargo, debido a limitaciones de los equipos informáticos y, sobre todo, a limitaciones de memoria, el número de entradas de directorio telefónico por "marcación de nombre" está usualmente limitado a sólo unos pocos nombres debido a que los modelos de voz de palabra completa tienen que ser almacenados para un nombre correspondiente completo.
El documento WO 00/28527 A se refiere a un sistema de procesamiento de datos tal como un terminal móvil con un dispositivo para reconocimiento de objetos acústicos en forma de letras únicas, combinaciones de letras o instrucciones. Basado en los objetos reconocidos se identifican y recuperan las entradas de directorio telefónico almacenadas en un directorio telefónico local. El sistema de procesamiento de datos comprende además un dispositivo para transferir acústica u ópticamente los objetos acústicos reconocidos.
El documento EP 0.376.501 describe un sistema que correlaciona las pronunciaciones verbales con una secuencia de caracteres textuales presentando un usuario del sistema con un menú de una o más secuencias de caracteres textuales que el usuario puede seleccionar en respuesta a una pronunciación. El sistema también permite que, en algunas circunstancias, el usuario edite secuencias de caracteres seleccionados para representar una secuencia de caracteres diferente que también pueden ser correlacionadas con una pronunciación verbal. El reconocimiento puede limitar el vocabulario usado para el reconocimiento basado en pronunciaciones verbales ya reconocidas.
Existe la necesidad de un terminal portátil más consistente que realice el proceso de reconocimiento.
Resumen del invento
El presente invento satisface esta necesidad proporcionando un terminal portátil de acuerdo con la reivindicación 1.
El terminal portátil incluye un interfaz para acceder a una base de datos externa. La base de datos externa es conectable de forma desmontable al terminal y contiene una pluralidad de secuencias con uno o más caracteres alfanuméricos. El terminal portátil comprende un reconocedor de voz automático para acceder a una base de datos de referencias interna o externa, conteniendo la base de datos de referencias información relativa a caracteres alfanuméricos deletreados, que comprende al menos letras o dígitos, una unidad de procesamiento para buscar al menos una secuencia coincidente entre la pluralidad de secuencias en la base de uno o más caracteres alfanuméricos reconocidos por el reconocedor de voz automático y un interfaz para acceder a la base de datos externa. Puede además incluir una unidad de análisis de secuencia para proporcionar puntos de partida adicionales y/o alternativos dentro de una secuencia para la búsqueda de la unidad de procesamiento.
De acuerdo con el invento, la secuencia "MUSTERMANN" en la base de datos externa puede simplemente ser localizada por pronunciación de, por ejemplo, la primera letra "M". La ASR reconoce la letra basada en la información contenida en la base de datos de referencia. La base de datos de referencia define el vocabulario de la ASR. Después del reconocimiento de la letra "M", la unidad de procesamiento busca todas las secuencias coincidentes, por ejemplo, todas las secuencias que empiezan o que contienen la letra reconocida "M". En el caso de que se hayan encontrado dos o más secuencias coincidentes, puede ser necesaria una selección por el usuario. Después, la unidad de procesamiento puede acceder a la secuencia coincidente seleccionada o a información como un número de teléfono o a una cita de negocios asociada con la secuencia coincidente seleccionada en la base de datos externa.
Con el fin de acceder a toda la base de datos externa, ya no es necesario proporcionar un modelo de voz de palabra completa en la base de datos de referencia para cada secuencia única contenida en la base de datos externa. Es suficiente proporcionar un modelo de voz de palabra completa de cada una de, por ejemplo, las 26 letras del alfabeto latino más, si se desea, de los dígitos cero a nueve y algunas palabras de mando. Consecuentemente, se puede acceder a cada secuencia en la base de datos externa aunque el número de entradas en la base de datos de referencia puede ser considerablemente menor que el número de secuencias en la base de datos externa. El tamaño total de la base de datos de referencia es, por tanto, independiente del número de secuencias en la base de datos externa que da lugar a una necesidad de memoria considerablemente menor con respecto a la base de datos de referencia en caso de un gran número de secuencias en la base de datos externa. Además, incluso si se cambian las secuencias en la base de datos externa o se añaden nuevas secuencias, la base de datos de referencia no necesita ser cambiada.
Mientras que las bases de datos de referencia de los terminales portátiles de la técnica anterior requieren necesariamente preparación para generar la base de datos de referencia, de acuerdo con el invento no es necesario tal preparación si se usa el reconocimiento de voz automático independiente del orador. De acuerdo con el reconocimiento de voz automático independiente del orador, los modelos de letra deletreados están preparados de antemano basados en una enorme cantidad de datos de habla de muchos oradores. Incluso si se usa el reconocimiento de voz automático dependiente del orador, y la base de datos así personalizada, solamente tienen que ser preparadas las letras más, si se desea, los dígitos y unas pocas palabras de mando. Para grandes bases de datos externas, la preparación es así todavía considerablemente menos lenta, ya que en la técnica anterior tendría que ser preparada cada secuencia en la base de datos externa. Otra ventaja del invento es el hecho de que no es necesaria una posterior preparación si se cambian las secuencias en la base de datos externa o se añaden nuevas secuencias.
La base de datos de referencia que contiene el vocabulario reconocible por la ASR puede ser una base de datos conectable de forma desmontable al terminal portátil o una base de datos interna dentro del terminal portátil. Preferiblemente, la base de datos de referencia es una base de datos interna si contiene información independiente del orador y es una base de datos externa si contiene información dependiente del orador. Sin embargo, la base de datos de referencia puede también ser una base de datos externa y contener información independiente del orador. La última proporciona la posibilidad de emplear una pluralidad de bases de datos de referencia externas, conteniendo cada base de datos de referencia información independiente del orador en una lengua diferente. Consecuentemente, el mismo terminal portátil puede ser distribuido en países diferentes con diferentes bases de datos de referencia externas.
En el caso de que la base de datos de referencia sea una base de datos externa, la base de datos de referencia está preferiblemente ordenada en el mismo soporte físico que el de la base de datos externa que contiene la pluralidad de secuencias. Tanto las bases de datos de referencia como la base de datos externa que contiene la pluralidad de secuencias pueden, por ejemplo, estar dispuestas en una tarjeta SIM.
El terminal portátil puede además comprender una memoria intermedia para almacenar al menos algunas secuencias contenidas en la base de datos externa. Las bases de datos externas son a menudo almacenadas en memorias que son comparativamente lentas. Con el fin de mejorar la accesibilidad de las secuencias contenidas en la base de datos externa, las secuencias son por tanto cargadas desde la base de datos externa a través del interfaz en la memoria intermedia, por ejemplo inmediatamente después de que el terminal portátil esté conectado o inmediatamente después de que la base de datos externa esté conectada al interfaz o inmediatamente después de que haya sido cambiada una entrada en la base de datos externa o de que se haya añadido una nueva entrada. La unidad de proceso puede así, buscar las secuencias cargadas en la memoria intermedia o las secuencias en la base de datos externa.
De acuerdo con una realización preferida, la unidad de procesamiento es configurada para comenzar a buscar tan pronto como la ASR ha reconocido un primer carácter. Consecuentemente, se proporciona un mecanismo de identificación temprano, ya que se puede acceder inmediatamente a una o más secuencias coincidentes que contienen el primer carácter reconocido y, por ejemplo, la transferencia por una unidad de transferencia sin esperar el deletreo de todos los caracteres contenidos en la secuencia. Debido al hecho de que la búsqueda puede comenzar basada en un único carácter reconocido, la probabilidad de que pueda ser encontrada más de una secuencia coincidente es comparativamente alta. Por lo tanto, puede ser ventajoso proporcionar una unidad de entrada que permita al usuario una selección entre dos o más secuencias coincidentes.
El terminal portátil puede además comprender una unidad de señalización para transferir señales acústicas u ópticas. Estas señales pueden avisar a un usuario de que comience a deletrear una o más letras (solicitud de comienzo de deletreo). Las señales también pueden ser usadas como una solicitud de deletreo continuo después de que una primera letra haya sido deletreada y haya sido reconocida correctamente. Una solicitud de deletreo continuo es, por ejemplo, ventajosa si el número de secuencias coincidentes es demasiado alto para ser mostradas en pantalla por la unidad de transferencia. Cuando se pone en práctica una unidad de señalización para producir una solicitud de pronunciación continua, se puede emplear el reconocimiento de una palabra aislada (IWR). El IWR es conocido para dar resultados más precisos que el reconocimiento de palabra conectado (CWR) que es preferiblemente empleado para permitir que el usuario hable más fluidamente.
Es sabido que el reconocimiento automático de deletreos es difícil debido a la existencia de letras fonéticamente similares y, por tanto, altamente confundibles como la denominada conjunto E en inglés, es decir, las letras B, D, T, P, etc. Por lo tanto, el proceso de reconocimiento en la ASR está limitado a aquellas secuencias de caracteres alfanuméricos actualmente contenidos en la pluralidad de secuencias en la base de datos externa. Por lo tanto, el terminal portátil contiene además una primera red que define para la ASR un carácter o secuencia de caracteres actualmente admisibles sobre la base de la pluralidad de secuencias en la base de datos externa. Por medio de la primera red, el acceso de la ASR a la base de datos de referencia está limitado al carácter o secuencia de caracteres actualmente admisibles. La primera red está realizada como base de datos sintáctica, que contiene todas las secuencias de carácter admisibles de acuerdo con la pluralidad de secuencias contenidas en la base de datos externa. Esta base de datos sintáctica es generada en una memoria interna del terminal portátil cada vez que el terminal portátil se conecta, o cada vez que la base de datos externa se conecta al terminal, o cada vez que se cambia una secuencia en la base de datos externa, o se añade una nueva secuencia.
De acuerdo con una posterior realización del invento, el terminal portátil puede incluir una segunda red para rechazar la información fuera de vocabulario como carraspera o pausas de relleno (por ejemplo la inglesa "uh" o la alemana "äh"). La segunda red está preferiblemente asociada con la ASR de tal forma que cualquier información reconocida como fuera de vocabulario es rechazada y no reconocida erróneamente como un carácter alfanumérico.
Preferiblemente, el terminal portátil comprende una unidad de análisis de secuencias que proporciona puntos de partida adicionales o alternativos para la búsqueda dentro de una o más de la pluralidad de secuencias. Tras el reconocimiento por la ASR de uno o más caracteres alfanuméricos pronunciados, la unidad de procesamiento así no solamente comienza su búsqueda en el comienzo de las secuencias, sino también o alternativamente en las posiciones de los caracteres dentro de la secuencia. Consecuentemente, se puede acceder a una secuencia que contiene, por ejemplo, un nombre y un apellido de una persona deletreando las primeras letras del apellido así como deletreando las primeras letras del nombre. Igualmente, una secuencia que contiene, por ejemplo, un nombre de una persona, un número telefónico de una persona y una dirección postal de una persona, se puede acceder bien deletreando las primeras letras del nombre, los primeros dígitos del número de teléfono o las primeras letras que aparecen en el nombre de la dirección de la persona.
Se debería observar que aunque el terminal portátil de acuerdo con el invento está adaptado a acceder a la base de datos externa, la base de datos propiamente dicha no es preciso necesariamente que esté conectada al terminal portátil. Sin embargo, de acuerdo con una realización preferida, la base de datos externa está conectada con el terminal portátil a través del interfaz del terminal.
Breve descripción de los dibujos
Por la lectura de la siguiente descripción detallada de una realización preferida del invento se harán evidentes otros aspectos y ventajas del invento y con relación a los dibujos, en los que:
La Figura 1 muestra un diagrama esquemático de un teléfono móvil de acuerdo con el presente invento; y
la Figura 2 muestra una primera red que define un carácter o secuencia de caracteres actualmente admisibles.
Descripción de la realización preferida
En la Figura 1 se ilustra un diagrama esquemático de una realización de un terminal portátil de acuerdo con el invento. Un teléfono móvil 100 representado en la Figura 1 comprende un interfaz 110 para acceder a una base de datos externa 120 que contiene un directorio telefónico personal. El directorio telefónico personal contiene una pluralidad de secuencias de nombres relativos a los nombres de personas y compañías y una correspondiente pluralidad de secuencias de números relativos a los correspondientes números telefónicos. Cada secuencia de la pluralidad de secuencias de nombres está asociada con la correspondiente secuencia de la pluralidad de secuencias de números. La base de datos 120 puede además comprender una tercera pluralidad de secuencias relativas a un único número asignado a cada par de nombres y números de teléfono correspondientes contenidos en las pluralidades de secuencias de nombre y número. Consecuentemente, a cada par de nombres y números puede accederse por un único número. Naturalmente, un nombre y un correspondiente número telefónico también puede estar contenido en una única secuencia.
La base de datos externa 120 está almacenada en una tarjeta SIM convencional que puede ser conectada y retirada del interfaz 110.
Las secuencias en la base de datos externa 120 almacenadas en la tarjeta SIM son cargadas en una memoria intermedia 130 cada vez que el teléfono móvil es conectado con la tarjeta SIM conectada al interfaz 110. Consecuentemente, cuando se busca una coincidencia de secuencia, una unidad de procesamiento 140 del teléfono móvil 100 puede bien acceder a las secuencias almacenadas en la tarjeta SIM o a las secuencias de la memoria intermedia 130. Sin embargo, como la memoria en la tarjeta SIM con frecuencia es comparativamente lenta, es ventajoso acceder a la memoria intermedia 130.
El teléfono móvil 100 tiene una entrada acústica 150 que puede ser un micrófono conectado a una ASR 160. La ASR 160 puede ser realizada como se conoce en la técnica. Por lo tanto, se omite una descripción de la estructura y función de la ASR 160.
Toda la información reconocible por la ASR 160 está contenida en una base de datos de referencia 170. La base de datos de referencia 170 puede bien estar realizada como parte de la ASR 160 o como una base de datos independiente que es cargada en una memoria de la ASR 160 cada vez que se conecta el teléfono móvil 100.
La base de datos de referencia 170 constituye el vocabulario de la ASR 160 y contiene toda la información necesaria que permite al menos el reconocimiento de las letras deletreadas. Esta información puede consistir, por ejemplo, en palabras relativas a alfabetos de pronunciación normalizada como el alfabeto de la OTAN (Alfa, Bravo, Charly,...) o de alfabetos de pronunciación definidos personalmente. El uso de alfabetos de pronunciación definidos personalmente solamente es posible cuando se emplean técnicas automáticas de reconocimiento de voz dependientes del orador. Alternativa o adicionalmente, la base de datos de referencia puede contener palabras relativas a la pronunciación natural de letras, es decir que corresponden con la trascripción fonética de letras. Así, de acuerdo con la realización más simple de la base de datos de referencia 170, las entradas en la base de datos de referencia 170 consisten solamente de las 26 palabras de un alfabeto de deletreo o de letras pronunciadas de forma natural. Para tal pequeña base de datos de referencia, se puede realizar un reconocimiento consistente e independiente del orador, incluso en condiciones ambientales adversas. Aunque la base de datos de referencia 170 contiene preferiblemente palabras relativas a las letras pronunciadas, también es factible construir la base de datos de referencia a partir de esos fonemas o combinación de fonemas requeridos para construir letras deletreadas.
La base de datos de referencia 170 puede además contener información relativa a los diez dígitos de cero a nueve y a algunas palabras de mando. En caso de que la base de datos de referencia contenga información relativa a dígitos, también se puede acceder a una secuencia en la base de datos externa 120 que contenga un número telefónico pronunciando uno o más dígitos únicos (marcación digital). Preferiblemente, la unidad de procesamiento 140 comienza a buscar coincidencias de secuencias de números tan pronto como el primer dígito es reconocido por la ASR 160. Consecuentemente, la unidad de procesamiento puede encontrar dos o más números de teléfono coincidentes, de forma que puede llegar a ser necesaria una selección de usuario entre todos los números de teléfono que coinciden.
La marcación digital permite que el usuario pronuncie, por ejemplo los dígitos de un código de zona para ver todas las secuencias de números que contienen el código de zona o todas las secuencias de nombres asociadas con secuencias de números que contienen este código de zona. En algunos casos, podría ser más rápido establecer una conexión telefónica pronunciando los primeros dígitos de una secuencia de números que pronunciar las primeras letras del nombre de una persona a la que se va a llamar.
Una posible palabra de mando contenida en la base de datos de referencia 170 puede ser "SPELL" para indicar que el usuario desea iniciar una llamada deletreando un nombre contenido en la base de datos externa. Otras posibles palabras de mando son, por ejemplo, "YES" para confirmaciones de usuario o "NEXT", "PREVIOUS", "START", etc para buscar en pantalla dentro de la base de datos externa o dentro de varias secuencias que coinciden encontradas por la unidad de procesamiento y que son transferidas por una unidad de transferencia 180, por ejemplo, una visualización gráfica o alfanumérica en pantalla.
Supóngase que existen varias secuencias de nombres como "MUSTERMANN HOME", "MUSTERMANN WORK", etc y las correspondientes secuencias de números en la base de datos externa 120. Con el fin de iniciar una llamada, el usuario comienza pronunciando la palabra de mando "SPELL". Después de esto, el usuario pronuncia las dos primeras letras "M" y "U". La unidad de transferencia 180 muestra en pantalla "MUSTERMANN HOME" seguido por un icono gráfico, tal como una flecha, que indica que allí existen más secuencias de nombres en la base de datos externa 120 que comienzan con las letras "M" y "U". El usuario pronuncia la palabra de mando "NEXT" y la unidad de transferencia 180 muestra en pantalla "MUSTERMANN WORK". Si el usuario desea llamar a Mustermann en el trabajo, pronuncia "YES" y la unidad de salida 180 muestra en pantalla "CALLING...".
En el ejemplo descrito anteriormente, una selección de usuario entre dos secuencias de nombre coincidentes "MUSTERMANN HOME" Y "MUSTERMANN WORK" se realiza pronunciando las palabras de mando "NEXT" y "YES". Adicionalmente, se dispone una unidad de entrada 200 independiente para permitir una selección de usuario entre varias secuencias coincidentes de nombres mostradas en pantalla, por ejemplo, presionando una tecla del teléfono móvil asociada con la secuencia coincidente para ser seleccionada. La unidad de entrada 200 puede comprender también una rueda o dos o más teclas para buscar en pantalla las secuencias que coinciden y una tecla adicional para confirmación de una selección de usuario entre las secuencias coincidentes.
Tan pronto como un usuario confirma, por ejemplo, pronunciando la palabra de mando "YES" o presionando una tecla del teléfono móvil 100, que desea iniciar una llamada sobre la base de una secuencia de nombres que coinciden, una unidad de marcación 190 asociada con la unidad de procesamiento 140 marca el correspondiente número de teléfono. Como se ha explicado anteriormente, el número de teléfono está contenido en la correspondiente secuencia de números asociada con la secuencia de nombres que coinciden. El contenido de la correspondencia secuencia de números es transferido por la unidad de procesamiento 140 desde, por ejemplo, la memoria intermedia 130 a la unidad de marcación 190.
Con el fin de permitir el uso del IWR y para así mejorar la probabilidad de reconocimiento de secuencias de letras, el teléfono móvil 100 comprende una unidad de señalización 210 que transfiere una solicitud de inicio de deletreo después de que el usuario pronuncie la palabra de mando "SPELL". Además, por medio de una solicitud de deletreo continua acústica se pide al usuario que haga pausas cortas después de cada letra.
Con el fin de acelerar y facilitar una llamada, el teléfono móvil 100 comprende además dos redes 220, 230 y una unidad 240 que analiza la secuencia.
La primera red 220 está configurada como una base de datos sintáctica que define un carácter actualmente admisible o secuencia de caracteres y limita el acceso de la ASR 160 a información específica dentro de la base de datos de referencia 170.
Como se ha representado en la Figura 2, se puede imaginar que la primera red 220 tiene la estructura de un árbol. Por ejemplo, supóngase que la base de datos externa 120 solamente contiene las dos secuencias de nombres "HUGO" y "HUBERT" así como las dos secuencias de números correspondientes. Si un usuario comienza deletreando, el acceso de la ASR 160 a la base de datos de referencia 170 está limitado por la primera red 220 a la primera letra "H" ya que la base de datos externa no contiene secuencia de nombres con una primera letra diferente de "H". Igualmente, el acceso de la ASR 160 a la base de datos de referencia 170 está limitado a la letra "U" en caso de que la segunda letra sea pronunciada y a las letras "G" y "B" en caso de que la tercera letra sea deletreada.
Las terceras letras "G" y "B", ambas son miembros del conjunto E. Por lo tanto, existe una cierta probabilidad de que, por ejemplo, una de las secuencias de letras incorrectas "HUE" y "HUP" sean reconocidas por la ASR 160 en lugar de una de las secuencias de letras correctas "HUB" y "HUG". Debido a la primera red 220, sin embargo, secuencias de letras incorrectas como "HUE" o "HUP" no pueden ser utilizadas como base para la búsqueda de una secuencia coincidente.
Consecuentemente, la primera red 220 realiza el proceso de reconocimiento más rápido y más consistentemente, ya que la transferencia posible de la ASR 160 está limitada a aquellas letras o secuencias de letras que actualmente se producen en las secuencias de la base de datos externa 120 en una posición dada dentro de las secuencias.
En la realización representada en la Figura 1, la primera red 220 comunica a través de la unidad de procesamiento 140 con la base de datos externa 120 para generar una base de datos sintáctica que constituye la primera red 220. Además, la primera red 220 comunica tanto con la ASR 160 como con la base de datos de referencia 170 para limitar el acceso de la ASR 160 a la base de datos de referencia 170. La segunda red 230 del teléfono móvil 100 rechaza la información fuera del vocabulario para hacer el proceso de reconocimiento de voz más consistente. En caso de que la ASR 160 reconozca información fuera del vocabulario, esta información es automáticamente rechazada y no transferida a la unidad de procesamiento 140. La información fuera del vocabulario tiene ciertos ruidos de fondo así como producciones de articulaciones verbales o no verbales (por ejemplo, pausas de relleno) realizadas por el usuario.
La unidad de análisis de secuencias 240 está dispuesta entre la unidad de procesamiento 140 y la memoria intermedia 130 buscada por la unidad de procesamiento 140. Si es necesario, la unidad de análisis de secuencias 240 proporciona puntos de partida adicionales o alternativos dentro de una secuencia para la búsqueda.
Si, por ejemplo, una secuencia contiene tanto el nombre de una persona como el apellido, la unidad de análisis de secuencias proporciona dos diferentes puntos de partida para la búsqueda dentro de esta secuencia. El primer punto de partida se define por el comienzo del nombre de la persona y el segundo punto de partida por el principio del apellido de la persona. Por lo tanto, si una primera letra deletreada es reconocida por la ASR 160 y es transferida a la unidad de procesamiento 140, la unidad de procesamiento comprueba si la letra reconocida está presente, bien en el principio del nombre o en el principio del apellido. Por lo tanto, la secuencia de nombres es transferida como una secuencia coincidente si la primera letra del nombre o la primera letra del apellido se corresponde con la letra reconocida. La unidad de análisis 240 de secuencias puede proporcionar puntos de partida en o después de cada límite de palabra, por ejemplo, después de que en una secuencia de texto se detecte un espacio en blanco, un punto, o una barra inclinada.
La unidad de análisis 240 de secuencias es, por ejemplo, especialmente ventajosa si existen varias secuencias de nombres que tienen una titulación académica tal como "DR. KOCH", "DR. BRINKAMM", etc. Debido a la presencia de la unidad de análisis 240 de secuencias, se puede acceder a la secuencia de nombres "DR. KOCH" deletreando "K" y "O" permitiendo así omitir el deletreo de "DR." ya que el punto está reconocido como límite de palabra.
Es posible combinar acceso a directorio telefónico por reconocimiento de caracteres pronunciados con la ya existente función de "marcación de nombre" dependiente del orador, de forma que se pueda acceder a una entrada de directorio telefónico pronunciando el nombre completo así como pronunciando uno o más caracteres contenidos en el nombre. Por tanto, una tercera persona que use el teléfono móvil puede al menos acceder a ambas entradas del directorio telefónico por reconocimiento independiente del orador.
El terminal portátil de acuerdo con el invento no está limitado a teléfonos móviles sino que también puede ser realizado, por ejemplo, como asistente digital personal. Además, las secuencias contenidas en la base de datos externa no necesitan estar limitadas a secuencias de nombres y a secuencias de números sino que también se pueden referir, por ejemplo, a citas de negocios y a datos relativos a citas como la fecha de una cita. Además, el terminal de acuerdo con el invento también puede usarse para dictar mensajes cortos (SMS) o para reconocimiento de palabras deletreadas para acceso a protocolos de aplicación inalámbricos (WAP).
El reconocimiento de letras también puede usarse para programar la base de datos externa propiamente dicha. Así, se pueden insertar nuevas secuencias como secuencias de nombres y las correspondientes secuencias de números. Hasta la fecha, esto es incluso más tedioso que el acceso al directorio telefónico debido a que los nombres y números completos tienen que ser tecleados letra a letra y dígito a dígito.
De acuerdo con el invento, se puede generar simplemente una nueva secuencia de nombres deletreando el nombre correspondiente por medio de, por ejemplo, un alfabeto normalizado, o pronunciación natural. Igualmente, se puede generar una correspondiente secuencia de números telefónicos simplemente pronunciando la secuencia de dígitos del número de teléfono. El problema de reconocimiento es aquí mucho más difícil debido a que el vocabulario no es conocido. Sin embargo, el reconocimiento podría ser soportado por los denominados modelos estadísticos de lenguaje preparados en grandes colecciones de escritos que contienen muchos nombres diferentes.

Claims (15)

1. Un terminal portátil (100) que comprende:
-
un interfaz para acceder a una base de datos externa (120) que está conectada de forma desmontable al terminal (100), conteniendo la base de datos externa (120) una pluralidad de secuencias con uno o más caracteres alfanuméricos;
-
una base de datos sintáctica (220) que define un carácter o secuencia de caracteres actualmente admisibles sobre la base de la pluralidad de secuencias contenidas en la base de datos externa (120);
-
un reconocedor automático de voz (160) para acceder a una base de datos de referencia (170), conteniendo la base de datos de referencia (170) información relativa a caracteres alfanuméricos deletreados que comprenden al menos letras o dígitos, en el que el acceso del reconocedor automático de voz (160) a la base de datos de referencia (170) está limitado por la base de datos sintáctica (220) al carácter o secuencia de caracteres actualmente admisibles;
-
una unidad de procesamiento (140) para buscar al menos una secuencia coincidente entre la pluralidad de secuencias sobre la base de uno o más caracteres alfanuméricos reconocidos por el reconocedor automático de voz (160).
caracterizado porque:
-
la base de datos sintáctica (220) está generada en una memoria interna del terminal (100) cuando el terminal (100) está conectado, cuando la base de datos externa (120) está conectada al terminal (100) o cuando se cambia una secuencia en la base de datos externa (120) o se añade una nueva secuencia.
2. El terminal (100) de acuerdo con la reivindicación 1, que además comprende una unidad de análisis sintáctico (240) para proveer puntos de partida adicionales y/o alternativos dentro de una secuencia para la búsqueda de la unidad de procesamiento (140).
3. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, que además comprende una memoria intermedia (130) para almacenar al menos algunas secuencias contenidas en la base de datos externa.
4. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, en el que la unidad de procesamiento (140) está configurada para comenzar a buscar tan pronto como el reconocedor automático de voz (160) ha reconocido un primer carácter.
5. El terminal de acuerdo con una de las reivindicaciones anteriores, que además comprende una unidad de transferencia (180) para transferir una o más secuencias coincidentes.
6. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, que además comprende una unidad de señalización (210) para transferir una solicitud de comienzo de pronunciación y/o una solicitud de deletreo continuo.
7. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, que además comprende una unidad de entrada (200) para permitir a un usuario seleccionar entre dos o más secuencias coincidentes.
8. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, que además comprende una unidad de marcación (190) para marcar un número telefónico contenido en o asignado a una secuencia coincidente.
9. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, en el que la base de datos de referencia (170) contiene además información relativa a al menos una de las palabras del alfabeto de deletreo y/o de mando.
10. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, que además comprende una primera red (220) que define un carácter o secuencia de caracteres actualmente admisibles sobre la base de la pluralidad de secuencias.
11. El terminal de acuerdo con la reivindicación 10, en el que el acceso del reconocedor automático de voz (160) a la base de datos de referencia (170) está limitado al carácter o secuencia de caracteres actualmente admisibles por medio de la primera red
(220).
12. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, que además comprende una segunda red (230) para rechazar información fuera de vocabulario.
13. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, que además comprende una base de datos externa (120) conectada al interfaz (110).
14. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, en el que la base de datos externa (120) o la base de datos externa (120) y la base de datos de referencia (170) están almacenadas en una tarjeta SIM y en el que el terminal (100) es un teléfono móvil.
15. El terminal de acuerdo con cualquiera de las reivindicaciones anteriores, en el que la información relativa a los caracteres alfanuméricos deletreados disponible para el reconocedor automático de voz (160) se usa para permitir la programación de la base de datos externa (120).
ES00118293T 2000-09-05 2000-09-05 Terminal portatil con marcacion vocal minimizando la utilizacion de memoria. Expired - Lifetime ES2254086T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP00118293A EP1187431B1 (en) 2000-09-05 2000-09-05 Portable terminal with voice dialing minimizing memory usage

Publications (1)

Publication Number Publication Date
ES2254086T3 true ES2254086T3 (es) 2006-06-16

Family

ID=8169627

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00118293T Expired - Lifetime ES2254086T3 (es) 2000-09-05 2000-09-05 Terminal portatil con marcacion vocal minimizando la utilizacion de memoria.

Country Status (4)

Country Link
EP (2) EP1187431B1 (es)
AT (1) ATE313908T1 (es)
DE (1) DE60024990T2 (es)
ES (1) ES2254086T3 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003152856A (ja) * 2001-11-15 2003-05-23 Nec Corp 通信端末装置、通信方法、およびそのプログラム
DE50213130D1 (de) * 2002-10-23 2009-01-29 Continental Automotive Gmbh Texteingabe für ein Endgerät
DE102005002474A1 (de) * 2005-01-19 2006-07-27 Obstfelder, Sigrid Handy und Verfahren zur Spracheingabe in ein solches sowie Spracheingabebaustein und Verfahren zur Spracheingabe in einen solchen
CN105956160A (zh) * 2016-05-17 2016-09-21 武汉邮电科学研究院 一种Android应用访问数据库的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5708804A (en) * 1994-07-25 1998-01-13 International Business Machines Corp. Apparatus and method therefor of intelligently searching for information in a personal communications device
DE19851287A1 (de) * 1998-11-06 2000-06-21 Siemens Ag Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte

Also Published As

Publication number Publication date
DE60024990D1 (de) 2006-01-26
EP1617635A3 (en) 2006-02-01
EP1187431A1 (en) 2002-03-13
EP1617635A2 (en) 2006-01-18
DE60024990T2 (de) 2007-06-14
ATE313908T1 (de) 2006-01-15
EP1187431B1 (en) 2005-12-21

Similar Documents

Publication Publication Date Title
US7162412B2 (en) Multilingual conversation assist system
CN100592385C (zh) 用于对多语言的姓名进行语音识别的方法和系统
KR950015131A (ko) 정보 액세스 시스템 및 기록 매체
ES2254664T3 (es) Procedimiento para permitir la interaccion por voz con una pagina web.
JPS58132800A (ja) 音声応答装置
WO2009006081A2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
US20060217981A1 (en) Device for generating speech, apparatus connectable to or incorporating such a device, and computer program product therefor
van Heuven et al. Analysis and synthesis of speech: strategic research towards high-quality text-to-speech generation
JP2007517278A (ja) トランスレータ用フレーズコンストラクタ
ES2254086T3 (es) Terminal portatil con marcacion vocal minimizando la utilizacion de memoria.
JP3364976B2 (ja) 中国語学習装置
CN101539428A (zh) 导航系统中拼音加声调检索的方法及装置
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
JPH1011457A (ja) 携帯型検索装置
CN1310371B (zh) 字符输入方法和装置
KR100598020B1 (ko) 전화기를이용한문자입력시스템
JP3888701B2 (ja) 文字変換装置
JPH01300334A (ja) 文章読み上げ装置
JPH0656609B2 (ja) 中文入力装置
JPH0812665B2 (ja) 中文入力装置
JPS62229473A (ja) 翻訳装置
JPH06175576A (ja) 中国語学習装置
JPH1011427A (ja) 自動議事録作成装置
JPH08234786A (ja) 検索装置および音声合成装置
JPH1078955A (ja) かな漢字変換システム