ES2254086T3 - Terminal portatil con marcacion vocal minimizando la utilizacion de memoria. - Google Patents
Terminal portatil con marcacion vocal minimizando la utilizacion de memoria.Info
- Publication number
- ES2254086T3 ES2254086T3 ES00118293T ES00118293T ES2254086T3 ES 2254086 T3 ES2254086 T3 ES 2254086T3 ES 00118293 T ES00118293 T ES 00118293T ES 00118293 T ES00118293 T ES 00118293T ES 2254086 T3 ES2254086 T3 ES 2254086T3
- Authority
- ES
- Spain
- Prior art keywords
- database
- sequence
- sequences
- previous
- terminal according
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015654 memory Effects 0.000 title claims description 12
- 230000001755 vocal effect Effects 0.000 title description 5
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000012546 transfer Methods 0.000 claims description 12
- 230000011664 signaling Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000012300 Sequence Analysis Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000003825 pressing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/274—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
- H04M1/2745—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
- H04M1/275—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips implemented by means of portable electronic directories
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
Un terminal portátil (100) que comprende: - un interfaz para acceder a una base de datos externa (120) que está conectada de forma desmontable al terminal (100), conteniendo la base de datos externa (120) una pluralidad de secuencias con uno o más caracteres alfanuméricos; - una base de datos sintáctica (220) que define un carácter o secuencia de caracteres actualmente admisibles sobre la base de la pluralidad de secuencias contenidas en la base de datos externa (120); - un reconocedor automático de voz (160) para acceder a una base de datos de referencia (170), conteniendo la base de datos de referencia (170) información relativa a caracteres alfanuméricos deletreados que comprenden al menos letras o dígitos, en el que el acceso del reconocedor automático de voz (160) a la base de datos de referencia (170) está limitado por la base de datos sintáctica (220) al carácter o secuencia de caracteres actualmente admisibles; - una unidad de procesamiento (140) para buscar al menos una secuencia coincidente entre la pluralidad de secuencias sobre la base de uno o más caracteres alfanuméricos reconocidos por el reconocedor automático de voz (160). caracterizado porque: - la base de datos sintáctica (220) está generada en una memoria interna del terminal (100) cuando el terminal (100) está conectado, cuando la base de datos externa (120) está conectada al terminal (100) o cuando se cambia una secuencia en la base de datos externa (120) o se añade una nueva secuencia.
Description
Terminal portátil con marcación vocal minimizando
la utilización de memoria.
El invento se refiere a un terminal portátil para
acceder a una base de datos externa, en el que la base de datos
externa se puede conectar de forma desmontable con el terminal y
contiene una pluralidad de secuencias con uno o más caracteres
alfanuméricos como letras o dígitos.
Muchos terminales portátiles tales como teléfonos
móviles o asistentes digitales personales (PDA) están adaptados para
acceder a una base de datos personal. La base de datos personal
puede contener información relativa a citas de negocios o un
directorio telefónico personal. En la base de datos personal esta
información normalmente se almacena como secuencias ordenadas con
uno o más caracteres alfanuméricos.
La base de datos personal puede solamente usarse
para buscar información personal como citas de negocios o para
realizar acciones especiales tales como establecer una conexión
telefónica con una persona o una compañía después de la selección
del nombre de la persona o de la compañía. En lo que sigue, el
acceso a la base de datos en teléfonos móviles con la intención de
establecer automáticamente una llamada a una persona o a una
compañía se ilustra adicionalmente como un ejemplo.
Casi todos los teléfonos móviles ofrecen la
característica de almacenar un directorio telefónico personal que
contiene los nombres de personas y compañías juntamente con sus
respectivos números de teléfono. Usualmente, este directorio
telefónico personal se almacena en una base de datos externa como
una tarjeta SIM (módulo de identidad de abonado). El directorio
telefónico personal está así disponible después de que la tarjeta
SIM ha sido enchufada en el teléfono móvil.
Para establecer una llamada, se puede acceder a
una entrada de directorio telefónico ya existente presionando una
secuencia de teclas en el teclado del teléfono móvil. Con el fin de
seleccionar un nombre, hay que teclear una o más letras del nombre.
El tecleo de las letras usualmente se realiza con las teclas de los
dígitos. Cada tecla de dígito representa de tres a cuatro letras.
La tecla "2", por ejemplo, representa [ABC] y la tecla
"9" representa [WXYZ]. Con el fin de obtener la letra "W",
hay que presionar una vez la tecla del dígito "9". Igualmente,
con el fin de teclear la letra "X", hay que presionar la tecla
del dígito "9" rápidamente dos veces. Está claro que el tecleo
de letras con las teclas de un teléfono móvil es complicado y
lento.
Otro ejemplo de acceso a una entrada de
directorio telefónico ya existente es la funcionalidad de los
teléfonos móviles denominada "marcación del nombre". La
"marcación del nombre" está, por ejemplo, descrita en el manual
de Ericsson del Manual del Usuario del T28s, 1ª edición, junio de
1999, páginas 76-78. De acuerdo con la función
"marcación del nombre", un usuario pronuncia un nombre
correspondiente que representa una entrada de directorio telefónico
a la que acceder. El nombre pronunciado por el usuario es reconocido
por medio de reconocimiento automático de voz. A continuación, se
busca una coincidencia de secuencia con el nombre reconocido en la
base de datos externa y se marca automáticamente el número de
teléfono asociado con la secuencia coincidente.
La función de "marcación de nombre" necesita
que los correspondientes nombres hayan sido previamente preparados
como modelos de voz de palabra completa y hayan sido asignados a una
o más entradas de directorio telefónico. Sin embargo, debido a
limitaciones de los equipos informáticos y, sobre todo, a
limitaciones de memoria, el número de entradas de directorio
telefónico por "marcación de nombre" está usualmente limitado a
sólo unos pocos nombres debido a que los modelos de voz de palabra
completa tienen que ser almacenados para un nombre correspondiente
completo.
El documento WO 00/28527 A se refiere a un
sistema de procesamiento de datos tal como un terminal móvil con un
dispositivo para reconocimiento de objetos acústicos en forma de
letras únicas, combinaciones de letras o instrucciones. Basado en
los objetos reconocidos se identifican y recuperan las entradas de
directorio telefónico almacenadas en un directorio telefónico
local. El sistema de procesamiento de datos comprende además un
dispositivo para transferir acústica u ópticamente los objetos
acústicos reconocidos.
El documento EP 0.376.501 describe un sistema que
correlaciona las pronunciaciones verbales con una secuencia de
caracteres textuales presentando un usuario del sistema con un menú
de una o más secuencias de caracteres textuales que el usuario
puede seleccionar en respuesta a una pronunciación. El sistema
también permite que, en algunas circunstancias, el usuario edite
secuencias de caracteres seleccionados para representar una
secuencia de caracteres diferente que también pueden ser
correlacionadas con una pronunciación verbal. El reconocimiento
puede limitar el vocabulario usado para el reconocimiento basado en
pronunciaciones verbales ya reconocidas.
Existe la necesidad de un terminal portátil más
consistente que realice el proceso de reconocimiento.
El presente invento satisface esta necesidad
proporcionando un terminal portátil de acuerdo con la reivindicación
1.
El terminal portátil incluye un interfaz para
acceder a una base de datos externa. La base de datos externa es
conectable de forma desmontable al terminal y contiene una
pluralidad de secuencias con uno o más caracteres alfanuméricos. El
terminal portátil comprende un reconocedor de voz automático para
acceder a una base de datos de referencias interna o externa,
conteniendo la base de datos de referencias información relativa a
caracteres alfanuméricos deletreados, que comprende al menos letras
o dígitos, una unidad de procesamiento para buscar al menos una
secuencia coincidente entre la pluralidad de secuencias en la base
de uno o más caracteres alfanuméricos reconocidos por el
reconocedor de voz automático y un interfaz para acceder a la base
de datos externa. Puede además incluir una unidad de análisis de
secuencia para proporcionar puntos de partida adicionales y/o
alternativos dentro de una secuencia para la búsqueda de la unidad
de procesamiento.
De acuerdo con el invento, la secuencia
"MUSTERMANN" en la base de datos externa puede simplemente ser
localizada por pronunciación de, por ejemplo, la primera letra
"M". La ASR reconoce la letra basada en la información
contenida en la base de datos de referencia. La base de datos de
referencia define el vocabulario de la ASR. Después del
reconocimiento de la letra "M", la unidad de procesamiento
busca todas las secuencias coincidentes, por ejemplo, todas las
secuencias que empiezan o que contienen la letra reconocida
"M". En el caso de que se hayan encontrado dos o más
secuencias coincidentes, puede ser necesaria una selección por el
usuario. Después, la unidad de procesamiento puede acceder a la
secuencia coincidente seleccionada o a información como un número de
teléfono o a una cita de negocios asociada con la secuencia
coincidente seleccionada en la base de datos externa.
Con el fin de acceder a toda la base de datos
externa, ya no es necesario proporcionar un modelo de voz de palabra
completa en la base de datos de referencia para cada secuencia única
contenida en la base de datos externa. Es suficiente proporcionar un
modelo de voz de palabra completa de cada una de, por ejemplo, las
26 letras del alfabeto latino más, si se desea, de los dígitos cero
a nueve y algunas palabras de mando. Consecuentemente, se puede
acceder a cada secuencia en la base de datos externa aunque el
número de entradas en la base de datos de referencia puede ser
considerablemente menor que el número de secuencias en la base de
datos externa. El tamaño total de la base de datos de referencia es,
por tanto, independiente del número de secuencias en la base de
datos externa que da lugar a una necesidad de memoria
considerablemente menor con respecto a la base de datos de
referencia en caso de un gran número de secuencias en la base de
datos externa. Además, incluso si se cambian las secuencias en la
base de datos externa o se añaden nuevas secuencias, la base de
datos de referencia no necesita ser cambiada.
Mientras que las bases de datos de referencia de
los terminales portátiles de la técnica anterior requieren
necesariamente preparación para generar la base de datos de
referencia, de acuerdo con el invento no es necesario tal
preparación si se usa el reconocimiento de voz automático
independiente del orador. De acuerdo con el reconocimiento de voz
automático independiente del orador, los modelos de letra
deletreados están preparados de antemano basados en una enorme
cantidad de datos de habla de muchos oradores. Incluso si se usa el
reconocimiento de voz automático dependiente del orador, y la base
de datos así personalizada, solamente tienen que ser preparadas las
letras más, si se desea, los dígitos y unas pocas palabras de mando.
Para grandes bases de datos externas, la preparación es así todavía
considerablemente menos lenta, ya que en la técnica anterior tendría
que ser preparada cada secuencia en la base de datos externa. Otra
ventaja del invento es el hecho de que no es necesaria una
posterior preparación si se cambian las secuencias en la base de
datos externa o se añaden nuevas secuencias.
La base de datos de referencia que contiene el
vocabulario reconocible por la ASR puede ser una base de datos
conectable de forma desmontable al terminal portátil o una base de
datos interna dentro del terminal portátil. Preferiblemente, la
base de datos de referencia es una base de datos interna si contiene
información independiente del orador y es una base de datos externa
si contiene información dependiente del orador. Sin embargo, la
base de datos de referencia puede también ser una base de datos
externa y contener información independiente del orador. La última
proporciona la posibilidad de emplear una pluralidad de bases de
datos de referencia externas, conteniendo cada base de datos de
referencia información independiente del orador en una lengua
diferente. Consecuentemente, el mismo terminal portátil puede ser
distribuido en países diferentes con diferentes bases de datos de
referencia externas.
En el caso de que la base de datos de referencia
sea una base de datos externa, la base de datos de referencia está
preferiblemente ordenada en el mismo soporte físico que el de la
base de datos externa que contiene la pluralidad de secuencias.
Tanto las bases de datos de referencia como la base de datos externa
que contiene la pluralidad de secuencias pueden, por ejemplo, estar
dispuestas en una tarjeta SIM.
El terminal portátil puede además comprender una
memoria intermedia para almacenar al menos algunas secuencias
contenidas en la base de datos externa. Las bases de datos externas
son a menudo almacenadas en memorias que son comparativamente
lentas. Con el fin de mejorar la accesibilidad de las secuencias
contenidas en la base de datos externa, las secuencias son por
tanto cargadas desde la base de datos externa a través del interfaz
en la memoria intermedia, por ejemplo inmediatamente después de que
el terminal portátil esté conectado o inmediatamente después de que
la base de datos externa esté conectada al interfaz o inmediatamente
después de que haya sido cambiada una entrada en la base de datos
externa o de que se haya añadido una nueva entrada. La unidad de
proceso puede así, buscar las secuencias cargadas en la memoria
intermedia o las secuencias en la base de datos externa.
De acuerdo con una realización preferida, la
unidad de procesamiento es configurada para comenzar a buscar tan
pronto como la ASR ha reconocido un primer carácter.
Consecuentemente, se proporciona un mecanismo de identificación
temprano, ya que se puede acceder inmediatamente a una o más
secuencias coincidentes que contienen el primer carácter reconocido
y, por ejemplo, la transferencia por una unidad de transferencia sin
esperar el deletreo de todos los caracteres contenidos en la
secuencia. Debido al hecho de que la búsqueda puede comenzar basada
en un único carácter reconocido, la probabilidad de que pueda ser
encontrada más de una secuencia coincidente es comparativamente
alta. Por lo tanto, puede ser ventajoso proporcionar una unidad de
entrada que permita al usuario una selección entre dos o más
secuencias coincidentes.
El terminal portátil puede además comprender una
unidad de señalización para transferir señales acústicas u ópticas.
Estas señales pueden avisar a un usuario de que comience a deletrear
una o más letras (solicitud de comienzo de deletreo). Las señales
también pueden ser usadas como una solicitud de deletreo continuo
después de que una primera letra haya sido deletreada y haya sido
reconocida correctamente. Una solicitud de deletreo continuo es,
por ejemplo, ventajosa si el número de secuencias coincidentes es
demasiado alto para ser mostradas en pantalla por la unidad de
transferencia. Cuando se pone en práctica una unidad de señalización
para producir una solicitud de pronunciación continua, se puede
emplear el reconocimiento de una palabra aislada (IWR). El IWR es
conocido para dar resultados más precisos que el reconocimiento de
palabra conectado (CWR) que es preferiblemente empleado para
permitir que el usuario hable más fluidamente.
Es sabido que el reconocimiento automático de
deletreos es difícil debido a la existencia de letras fonéticamente
similares y, por tanto, altamente confundibles como la denominada
conjunto E en inglés, es decir, las letras B, D, T, P, etc. Por lo
tanto, el proceso de reconocimiento en la ASR está limitado a
aquellas secuencias de caracteres alfanuméricos actualmente
contenidos en la pluralidad de secuencias en la base de datos
externa. Por lo tanto, el terminal portátil contiene además una
primera red que define para la ASR un carácter o secuencia de
caracteres actualmente admisibles sobre la base de la pluralidad de
secuencias en la base de datos externa. Por medio de la primera
red, el acceso de la ASR a la base de datos de referencia está
limitado al carácter o secuencia de caracteres actualmente
admisibles. La primera red está realizada como base de datos
sintáctica, que contiene todas las secuencias de carácter admisibles
de acuerdo con la pluralidad de secuencias contenidas en la base de
datos externa. Esta base de datos sintáctica es generada en una
memoria interna del terminal portátil cada vez que el terminal
portátil se conecta, o cada vez que la base de datos externa se
conecta al terminal, o cada vez que se cambia una secuencia en la
base de datos externa, o se añade una nueva secuencia.
De acuerdo con una posterior realización del
invento, el terminal portátil puede incluir una segunda red para
rechazar la información fuera de vocabulario como carraspera o
pausas de relleno (por ejemplo la inglesa "uh" o la alemana
"äh"). La segunda red está preferiblemente asociada con la ASR
de tal forma que cualquier información reconocida como fuera de
vocabulario es rechazada y no reconocida erróneamente como un
carácter alfanumérico.
Preferiblemente, el terminal portátil comprende
una unidad de análisis de secuencias que proporciona puntos de
partida adicionales o alternativos para la búsqueda dentro de una o
más de la pluralidad de secuencias. Tras el reconocimiento por la
ASR de uno o más caracteres alfanuméricos pronunciados, la unidad de
procesamiento así no solamente comienza su búsqueda en el comienzo
de las secuencias, sino también o alternativamente en las
posiciones de los caracteres dentro de la secuencia.
Consecuentemente, se puede acceder a una secuencia que contiene,
por ejemplo, un nombre y un apellido de una persona deletreando las
primeras letras del apellido así como deletreando las primeras
letras del nombre. Igualmente, una secuencia que contiene, por
ejemplo, un nombre de una persona, un número telefónico de una
persona y una dirección postal de una persona, se puede acceder
bien deletreando las primeras letras del nombre, los primeros
dígitos del número de teléfono o las primeras letras que aparecen
en el nombre de la dirección de la persona.
Se debería observar que aunque el terminal
portátil de acuerdo con el invento está adaptado a acceder a la
base de datos externa, la base de datos propiamente dicha no es
preciso necesariamente que esté conectada al terminal portátil. Sin
embargo, de acuerdo con una realización preferida, la base de datos
externa está conectada con el terminal portátil a través del
interfaz del terminal.
Por la lectura de la siguiente descripción
detallada de una realización preferida del invento se harán
evidentes otros aspectos y ventajas del invento y con relación a los
dibujos, en los que:
La Figura 1 muestra un diagrama esquemático de un
teléfono móvil de acuerdo con el presente invento; y
la Figura 2 muestra una primera red que define un
carácter o secuencia de caracteres actualmente admisibles.
En la Figura 1 se ilustra un diagrama esquemático
de una realización de un terminal portátil de acuerdo con el
invento. Un teléfono móvil 100 representado en la Figura 1 comprende
un interfaz 110 para acceder a una base de datos externa 120 que
contiene un directorio telefónico personal. El directorio telefónico
personal contiene una pluralidad de secuencias de nombres relativos
a los nombres de personas y compañías y una correspondiente
pluralidad de secuencias de números relativos a los correspondientes
números telefónicos. Cada secuencia de la pluralidad de secuencias
de nombres está asociada con la correspondiente secuencia de la
pluralidad de secuencias de números. La base de datos 120 puede
además comprender una tercera pluralidad de secuencias relativas a
un único número asignado a cada par de nombres y números de teléfono
correspondientes contenidos en las pluralidades de secuencias de
nombre y número. Consecuentemente, a cada par de nombres y números
puede accederse por un único número. Naturalmente, un nombre y un
correspondiente número telefónico también puede estar contenido en
una única secuencia.
La base de datos externa 120 está almacenada en
una tarjeta SIM convencional que puede ser conectada y retirada del
interfaz 110.
Las secuencias en la base de datos externa 120
almacenadas en la tarjeta SIM son cargadas en una memoria intermedia
130 cada vez que el teléfono móvil es conectado con la tarjeta SIM
conectada al interfaz 110. Consecuentemente, cuando se busca una
coincidencia de secuencia, una unidad de procesamiento 140 del
teléfono móvil 100 puede bien acceder a las secuencias almacenadas
en la tarjeta SIM o a las secuencias de la memoria intermedia 130.
Sin embargo, como la memoria en la tarjeta SIM con frecuencia es
comparativamente lenta, es ventajoso acceder a la memoria intermedia
130.
El teléfono móvil 100 tiene una entrada acústica
150 que puede ser un micrófono conectado a una ASR 160. La ASR 160
puede ser realizada como se conoce en la técnica. Por lo tanto, se
omite una descripción de la estructura y función de la ASR 160.
Toda la información reconocible por la ASR 160
está contenida en una base de datos de referencia 170. La base de
datos de referencia 170 puede bien estar realizada como parte de la
ASR 160 o como una base de datos independiente que es cargada en una
memoria de la ASR 160 cada vez que se conecta el teléfono móvil
100.
La base de datos de referencia 170 constituye el
vocabulario de la ASR 160 y contiene toda la información necesaria
que permite al menos el reconocimiento de las letras deletreadas.
Esta información puede consistir, por ejemplo, en palabras relativas
a alfabetos de pronunciación normalizada como el alfabeto de la OTAN
(Alfa, Bravo, Charly,...) o de alfabetos de pronunciación definidos
personalmente. El uso de alfabetos de pronunciación definidos
personalmente solamente es posible cuando se emplean técnicas
automáticas de reconocimiento de voz dependientes del orador.
Alternativa o adicionalmente, la base de datos de referencia puede
contener palabras relativas a la pronunciación natural de letras, es
decir que corresponden con la trascripción fonética de letras. Así,
de acuerdo con la realización más simple de la base de datos de
referencia 170, las entradas en la base de datos de referencia 170
consisten solamente de las 26 palabras de un alfabeto de deletreo o
de letras pronunciadas de forma natural. Para tal pequeña base de
datos de referencia, se puede realizar un reconocimiento consistente
e independiente del orador, incluso en condiciones ambientales
adversas. Aunque la base de datos de referencia 170 contiene
preferiblemente palabras relativas a las letras pronunciadas,
también es factible construir la base de datos de referencia a
partir de esos fonemas o combinación de fonemas requeridos para
construir letras deletreadas.
La base de datos de referencia 170 puede además
contener información relativa a los diez dígitos de cero a nueve y a
algunas palabras de mando. En caso de que la base de datos de
referencia contenga información relativa a dígitos, también se puede
acceder a una secuencia en la base de datos externa 120 que contenga
un número telefónico pronunciando uno o más dígitos únicos
(marcación digital). Preferiblemente, la unidad de procesamiento 140
comienza a buscar coincidencias de secuencias de números tan pronto
como el primer dígito es reconocido por la ASR 160.
Consecuentemente, la unidad de procesamiento puede encontrar dos o
más números de teléfono coincidentes, de forma que puede llegar a
ser necesaria una selección de usuario entre todos los números de
teléfono que coinciden.
La marcación digital permite que el usuario
pronuncie, por ejemplo los dígitos de un código de zona para ver
todas las secuencias de números que contienen el código de zona o
todas las secuencias de nombres asociadas con secuencias de números
que contienen este código de zona. En algunos casos, podría ser más
rápido establecer una conexión telefónica pronunciando los primeros
dígitos de una secuencia de números que pronunciar las primeras
letras del nombre de una persona a la que se va a llamar.
Una posible palabra de mando contenida en la base
de datos de referencia 170 puede ser "SPELL" para indicar que
el usuario desea iniciar una llamada deletreando un nombre contenido
en la base de datos externa. Otras posibles palabras de mando son,
por ejemplo, "YES" para confirmaciones de usuario o
"NEXT", "PREVIOUS", "START", etc para buscar en
pantalla dentro de la base de datos externa o dentro de varias
secuencias que coinciden encontradas por la unidad de procesamiento
y que son transferidas por una unidad de transferencia 180, por
ejemplo, una visualización gráfica o alfanumérica en pantalla.
Supóngase que existen varias secuencias de
nombres como "MUSTERMANN HOME", "MUSTERMANN WORK", etc y
las correspondientes secuencias de números en la base de datos
externa 120. Con el fin de iniciar una llamada, el usuario comienza
pronunciando la palabra de mando "SPELL". Después de esto, el
usuario pronuncia las dos primeras letras "M" y "U". La
unidad de transferencia 180 muestra en pantalla "MUSTERMANN
HOME" seguido por un icono gráfico, tal como una flecha, que
indica que allí existen más secuencias de nombres en la base de
datos externa 120 que comienzan con las letras "M" y "U".
El usuario pronuncia la palabra de mando "NEXT" y la unidad de
transferencia 180 muestra en pantalla "MUSTERMANN WORK". Si el
usuario desea llamar a Mustermann en el trabajo, pronuncia
"YES" y la unidad de salida 180 muestra en pantalla
"CALLING...".
En el ejemplo descrito anteriormente, una
selección de usuario entre dos secuencias de nombre coincidentes
"MUSTERMANN HOME" Y "MUSTERMANN WORK" se realiza
pronunciando las palabras de mando "NEXT" y "YES".
Adicionalmente, se dispone una unidad de entrada 200 independiente
para permitir una selección de usuario entre varias secuencias
coincidentes de nombres mostradas en pantalla, por ejemplo,
presionando una tecla del teléfono móvil asociada con la secuencia
coincidente para ser seleccionada. La unidad de entrada 200 puede
comprender también una rueda o dos o más teclas para buscar en
pantalla las secuencias que coinciden y una tecla adicional para
confirmación de una selección de usuario entre las secuencias
coincidentes.
Tan pronto como un usuario confirma, por ejemplo,
pronunciando la palabra de mando "YES" o presionando una tecla
del teléfono móvil 100, que desea iniciar una llamada sobre la base
de una secuencia de nombres que coinciden, una unidad de marcación
190 asociada con la unidad de procesamiento 140 marca el
correspondiente número de teléfono. Como se ha explicado
anteriormente, el número de teléfono está contenido en la
correspondiente secuencia de números asociada con la secuencia de
nombres que coinciden. El contenido de la correspondencia secuencia
de números es transferido por la unidad de procesamiento 140 desde,
por ejemplo, la memoria intermedia 130 a la unidad de marcación
190.
Con el fin de permitir el uso del IWR y para así
mejorar la probabilidad de reconocimiento de secuencias de letras,
el teléfono móvil 100 comprende una unidad de señalización 210 que
transfiere una solicitud de inicio de deletreo después de que el
usuario pronuncie la palabra de mando "SPELL". Además, por
medio de una solicitud de deletreo continua acústica se pide al
usuario que haga pausas cortas después de cada letra.
Con el fin de acelerar y facilitar una llamada,
el teléfono móvil 100 comprende además dos redes 220, 230 y una
unidad 240 que analiza la secuencia.
La primera red 220 está configurada como una base
de datos sintáctica que define un carácter actualmente admisible o
secuencia de caracteres y limita el acceso de la ASR 160 a
información específica dentro de la base de datos de referencia
170.
Como se ha representado en la Figura 2, se puede
imaginar que la primera red 220 tiene la estructura de un árbol. Por
ejemplo, supóngase que la base de datos externa 120 solamente
contiene las dos secuencias de nombres "HUGO" y "HUBERT"
así como las dos secuencias de números correspondientes. Si un
usuario comienza deletreando, el acceso de la ASR 160 a la base de
datos de referencia 170 está limitado por la primera red 220 a la
primera letra "H" ya que la base de datos externa no contiene
secuencia de nombres con una primera letra diferente de "H".
Igualmente, el acceso de la ASR 160 a la base de datos de referencia
170 está limitado a la letra "U" en caso de que la segunda
letra sea pronunciada y a las letras "G" y "B" en caso de
que la tercera letra sea deletreada.
Las terceras letras "G" y "B", ambas
son miembros del conjunto E. Por lo tanto, existe una cierta
probabilidad de que, por ejemplo, una de las secuencias de letras
incorrectas "HUE" y "HUP" sean reconocidas por la ASR 160
en lugar de una de las secuencias de letras correctas "HUB" y
"HUG". Debido a la primera red 220, sin embargo, secuencias de
letras incorrectas como "HUE" o "HUP" no pueden ser
utilizadas como base para la búsqueda de una secuencia
coincidente.
Consecuentemente, la primera red 220 realiza el
proceso de reconocimiento más rápido y más consistentemente, ya que
la transferencia posible de la ASR 160 está limitada a aquellas
letras o secuencias de letras que actualmente se producen en las
secuencias de la base de datos externa 120 en una posición dada
dentro de las secuencias.
En la realización representada en la Figura 1, la
primera red 220 comunica a través de la unidad de procesamiento 140
con la base de datos externa 120 para generar una base de datos
sintáctica que constituye la primera red 220. Además, la primera
red 220 comunica tanto con la ASR 160 como con la base de datos de
referencia 170 para limitar el acceso de la ASR 160 a la base de
datos de referencia 170. La segunda red 230 del teléfono móvil 100
rechaza la información fuera del vocabulario para hacer el proceso
de reconocimiento de voz más consistente. En caso de que la ASR 160
reconozca información fuera del vocabulario, esta información es
automáticamente rechazada y no transferida a la unidad de
procesamiento 140. La información fuera del vocabulario tiene
ciertos ruidos de fondo así como producciones de articulaciones
verbales o no verbales (por ejemplo, pausas de relleno) realizadas
por el usuario.
La unidad de análisis de secuencias 240 está
dispuesta entre la unidad de procesamiento 140 y la memoria
intermedia 130 buscada por la unidad de procesamiento 140. Si es
necesario, la unidad de análisis de secuencias 240 proporciona
puntos de partida adicionales o alternativos dentro de una secuencia
para la búsqueda.
Si, por ejemplo, una secuencia contiene tanto el
nombre de una persona como el apellido, la unidad de análisis de
secuencias proporciona dos diferentes puntos de partida para la
búsqueda dentro de esta secuencia. El primer punto de partida se
define por el comienzo del nombre de la persona y el segundo punto
de partida por el principio del apellido de la persona. Por lo
tanto, si una primera letra deletreada es reconocida por la ASR 160
y es transferida a la unidad de procesamiento 140, la unidad de
procesamiento comprueba si la letra reconocida está presente, bien
en el principio del nombre o en el principio del apellido. Por lo
tanto, la secuencia de nombres es transferida como una secuencia
coincidente si la primera letra del nombre o la primera letra del
apellido se corresponde con la letra reconocida. La unidad de
análisis 240 de secuencias puede proporcionar puntos de partida en o
después de cada límite de palabra, por ejemplo, después de que en
una secuencia de texto se detecte un espacio en blanco, un punto, o
una barra inclinada.
La unidad de análisis 240 de secuencias es, por
ejemplo, especialmente ventajosa si existen varias secuencias de
nombres que tienen una titulación académica tal como "DR.
KOCH", "DR. BRINKAMM", etc. Debido a la presencia de la
unidad de análisis 240 de secuencias, se puede acceder a la
secuencia de nombres "DR. KOCH" deletreando "K" y
"O" permitiendo así omitir el deletreo de "DR." ya que el
punto está reconocido como límite de palabra.
Es posible combinar acceso a directorio
telefónico por reconocimiento de caracteres pronunciados con la ya
existente función de "marcación de nombre" dependiente del
orador, de forma que se pueda acceder a una entrada de directorio
telefónico pronunciando el nombre completo así como pronunciando uno
o más caracteres contenidos en el nombre. Por tanto, una tercera
persona que use el teléfono móvil puede al menos acceder a ambas
entradas del directorio telefónico por reconocimiento independiente
del orador.
El terminal portátil de acuerdo con el invento no
está limitado a teléfonos móviles sino que también puede ser
realizado, por ejemplo, como asistente digital personal. Además, las
secuencias contenidas en la base de datos externa no necesitan estar
limitadas a secuencias de nombres y a secuencias de números sino que
también se pueden referir, por ejemplo, a citas de negocios y a
datos relativos a citas como la fecha de una cita. Además, el
terminal de acuerdo con el invento también puede usarse para dictar
mensajes cortos (SMS) o para reconocimiento de palabras deletreadas
para acceso a protocolos de aplicación inalámbricos (WAP).
El reconocimiento de letras también puede usarse
para programar la base de datos externa propiamente dicha. Así, se
pueden insertar nuevas secuencias como secuencias de nombres y las
correspondientes secuencias de números. Hasta la fecha, esto es
incluso más tedioso que el acceso al directorio telefónico debido a
que los nombres y números completos tienen que ser tecleados letra a
letra y dígito a dígito.
De acuerdo con el invento, se puede generar
simplemente una nueva secuencia de nombres deletreando el nombre
correspondiente por medio de, por ejemplo, un alfabeto normalizado,
o pronunciación natural. Igualmente, se puede generar una
correspondiente secuencia de números telefónicos simplemente
pronunciando la secuencia de dígitos del número de teléfono. El
problema de reconocimiento es aquí mucho más difícil debido a que el
vocabulario no es conocido. Sin embargo, el reconocimiento podría
ser soportado por los denominados modelos estadísticos de lenguaje
preparados en grandes colecciones de escritos que contienen muchos
nombres diferentes.
Claims (15)
1. Un terminal portátil (100) que comprende:
- -
- un interfaz para acceder a una base de datos externa (120) que está conectada de forma desmontable al terminal (100), conteniendo la base de datos externa (120) una pluralidad de secuencias con uno o más caracteres alfanuméricos;
- -
- una base de datos sintáctica (220) que define un carácter o secuencia de caracteres actualmente admisibles sobre la base de la pluralidad de secuencias contenidas en la base de datos externa (120);
- -
- un reconocedor automático de voz (160) para acceder a una base de datos de referencia (170), conteniendo la base de datos de referencia (170) información relativa a caracteres alfanuméricos deletreados que comprenden al menos letras o dígitos, en el que el acceso del reconocedor automático de voz (160) a la base de datos de referencia (170) está limitado por la base de datos sintáctica (220) al carácter o secuencia de caracteres actualmente admisibles;
- -
- una unidad de procesamiento (140) para buscar al menos una secuencia coincidente entre la pluralidad de secuencias sobre la base de uno o más caracteres alfanuméricos reconocidos por el reconocedor automático de voz (160).
caracterizado porque:
- -
- la base de datos sintáctica (220) está generada en una memoria interna del terminal (100) cuando el terminal (100) está conectado, cuando la base de datos externa (120) está conectada al terminal (100) o cuando se cambia una secuencia en la base de datos externa (120) o se añade una nueva secuencia.
2. El terminal (100) de acuerdo con la
reivindicación 1, que además comprende una unidad de análisis
sintáctico (240) para proveer puntos de partida adicionales y/o
alternativos dentro de una secuencia para la búsqueda de la unidad
de procesamiento (140).
3. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, que además comprende una memoria
intermedia (130) para almacenar al menos algunas secuencias
contenidas en la base de datos externa.
4. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, en el que la unidad de procesamiento
(140) está configurada para comenzar a buscar tan pronto como el
reconocedor automático de voz (160) ha reconocido un primer
carácter.
5. El terminal de acuerdo con una de las
reivindicaciones anteriores, que además comprende una unidad de
transferencia (180) para transferir una o más secuencias
coincidentes.
6. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, que además comprende una unidad de
señalización (210) para transferir una solicitud de comienzo de
pronunciación y/o una solicitud de deletreo continuo.
7. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, que además comprende una unidad de
entrada (200) para permitir a un usuario seleccionar entre dos o más
secuencias coincidentes.
8. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, que además comprende una unidad de
marcación (190) para marcar un número telefónico contenido en o
asignado a una secuencia coincidente.
9. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, en el que la base de datos de
referencia (170) contiene además información relativa a al menos una
de las palabras del alfabeto de deletreo y/o de mando.
10. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, que además comprende una primera red
(220) que define un carácter o secuencia de caracteres actualmente
admisibles sobre la base de la pluralidad de secuencias.
11. El terminal de acuerdo con la reivindicación
10, en el que el acceso del reconocedor automático de voz (160) a la
base de datos de referencia (170) está limitado al carácter o
secuencia de caracteres actualmente admisibles por medio de la
primera red
(220).
(220).
12. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, que además comprende una segunda red
(230) para rechazar información fuera de vocabulario.
13. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, que además comprende una base de datos
externa (120) conectada al interfaz (110).
14. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, en el que la base de datos externa
(120) o la base de datos externa (120) y la base de datos de
referencia (170) están almacenadas en una tarjeta SIM y en el que el
terminal (100) es un teléfono móvil.
15. El terminal de acuerdo con cualquiera de las
reivindicaciones anteriores, en el que la información relativa a los
caracteres alfanuméricos deletreados disponible para el reconocedor
automático de voz (160) se usa para permitir la programación de la
base de datos externa (120).
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00118293A EP1187431B1 (en) | 2000-09-05 | 2000-09-05 | Portable terminal with voice dialing minimizing memory usage |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2254086T3 true ES2254086T3 (es) | 2006-06-16 |
Family
ID=8169627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00118293T Expired - Lifetime ES2254086T3 (es) | 2000-09-05 | 2000-09-05 | Terminal portatil con marcacion vocal minimizando la utilizacion de memoria. |
Country Status (4)
Country | Link |
---|---|
EP (2) | EP1187431B1 (es) |
AT (1) | ATE313908T1 (es) |
DE (1) | DE60024990T2 (es) |
ES (1) | ES2254086T3 (es) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003152856A (ja) * | 2001-11-15 | 2003-05-23 | Nec Corp | 通信端末装置、通信方法、およびそのプログラム |
DE50213130D1 (de) * | 2002-10-23 | 2009-01-29 | Continental Automotive Gmbh | Texteingabe für ein Endgerät |
DE102005002474A1 (de) * | 2005-01-19 | 2006-07-27 | Obstfelder, Sigrid | Handy und Verfahren zur Spracheingabe in ein solches sowie Spracheingabebaustein und Verfahren zur Spracheingabe in einen solchen |
CN105956160A (zh) * | 2016-05-17 | 2016-09-21 | 武汉邮电科学研究院 | 一种Android应用访问数据库的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5708804A (en) * | 1994-07-25 | 1998-01-13 | International Business Machines Corp. | Apparatus and method therefor of intelligently searching for information in a personal communications device |
DE19851287A1 (de) * | 1998-11-06 | 2000-06-21 | Siemens Ag | Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte |
-
2000
- 2000-09-05 EP EP00118293A patent/EP1187431B1/en not_active Expired - Lifetime
- 2000-09-05 EP EP05022457A patent/EP1617635A3/en not_active Ceased
- 2000-09-05 ES ES00118293T patent/ES2254086T3/es not_active Expired - Lifetime
- 2000-09-05 DE DE60024990T patent/DE60024990T2/de not_active Expired - Lifetime
- 2000-09-05 AT AT00118293T patent/ATE313908T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
DE60024990D1 (de) | 2006-01-26 |
EP1617635A3 (en) | 2006-02-01 |
EP1187431A1 (en) | 2002-03-13 |
EP1617635A2 (en) | 2006-01-18 |
DE60024990T2 (de) | 2007-06-14 |
ATE313908T1 (de) | 2006-01-15 |
EP1187431B1 (en) | 2005-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7162412B2 (en) | Multilingual conversation assist system | |
CN100592385C (zh) | 用于对多语言的姓名进行语音识别的方法和系统 | |
KR950015131A (ko) | 정보 액세스 시스템 및 기록 매체 | |
ES2254664T3 (es) | Procedimiento para permitir la interaccion por voz con una pagina web. | |
JPS58132800A (ja) | 音声応答装置 | |
WO2009006081A2 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
US20060217981A1 (en) | Device for generating speech, apparatus connectable to or incorporating such a device, and computer program product therefor | |
van Heuven et al. | Analysis and synthesis of speech: strategic research towards high-quality text-to-speech generation | |
JP2007517278A (ja) | トランスレータ用フレーズコンストラクタ | |
ES2254086T3 (es) | Terminal portatil con marcacion vocal minimizando la utilizacion de memoria. | |
JP3364976B2 (ja) | 中国語学習装置 | |
CN101539428A (zh) | 导航系统中拼音加声调检索的方法及装置 | |
KR100910302B1 (ko) | 멀티모달 기반의 정보 검색 장치 및 방법 | |
JPH1011457A (ja) | 携帯型検索装置 | |
CN1310371B (zh) | 字符输入方法和装置 | |
KR100598020B1 (ko) | 전화기를이용한문자입력시스템 | |
JP3888701B2 (ja) | 文字変換装置 | |
JPH01300334A (ja) | 文章読み上げ装置 | |
JPH0656609B2 (ja) | 中文入力装置 | |
JPH0812665B2 (ja) | 中文入力装置 | |
JPS62229473A (ja) | 翻訳装置 | |
JPH06175576A (ja) | 中国語学習装置 | |
JPH1011427A (ja) | 自動議事録作成装置 | |
JPH08234786A (ja) | 検索装置および音声合成装置 | |
JPH1078955A (ja) | かな漢字変換システム |