ES2238054T3 - Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño. - Google Patents

Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño.

Info

Publication number
ES2238054T3
ES2238054T3 ES01991834T ES01991834T ES2238054T3 ES 2238054 T3 ES2238054 T3 ES 2238054T3 ES 01991834 T ES01991834 T ES 01991834T ES 01991834 T ES01991834 T ES 01991834T ES 2238054 T3 ES2238054 T3 ES 2238054T3
Authority
ES
Spain
Prior art keywords
characters
letters
server
network
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01991834T
Other languages
English (en)
Inventor
Meinrad Niemoller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2238054T3 publication Critical patent/ES2238054T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Procedimiento para el reconocimiento de voz para un aparato pequeño (MS, T) unido con una red de telecomunicaciones o bien una red de datos (GSM, TN), donde el procedimiento incluye un reconocimiento de cadenas de letras o bien caracteres como palabras, que se emiten como palabra escrita y/o se utiliza para fines de mando, y el reconocimiento de las cadenas de letras o bien caracteres se realiza al menos parcialmente en un servidor central (PRO) unido a través de la red de comunicaciones o bien de datos con el aparato pequeño, caracterizado porque las cadenas de letras o bien caracteres a reconocer se forman a partir de letras o bien caracteres individuales pronunciados, y en el aparato pequeño (MST) se realiza en una primera etapa de transformación una conversión voz-texto de la cadena de letras o bien caracteres pronunciada en una cadena provisional escrita de letras o bien caracteres, se transmite la cadena de letras o bien caracteres provisional escrita al servidor central (PRO), se comprueba y dado el caso se corrige en el servidor en una segunda etapa de transformación la cadena provisional de letras o bien caracteres, en base a una matriz de confusión de letras (CMA) y/o un modelo de letras-voz (SMO) y se confecciona la palabra y, la palabra se transmite de retorno al aparato pequeño y es recibida por éste y es procesada y/o memorizada en éste.

Description

Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño
La invención se refiere a un procedimiento para el reconocimiento de voz para un aparato pequeño unido con una red de telecomunicaciones o bien de datos, según el concepto general de las reivindicaciones 1 y 2, así como un sistema correspondiente o bien o un aparato correspondiente.
Los pequeños aparatos electrónicos, cuya marcha triunfal en la electrónica de consumo comenzó con los aparatos radiotransistores portátiles o de bolsillo y que ha continuado de manera impresionante con el walkman y posteriormente el discman, en la gama de los aparatos de audio, así como con las calculadoras de bolsillo y traductoras de bolsillo, así como bases de datos en la gama de los aparatos de tratamiento de datos y memorización de datos, son cada vez más potentes y complejos y formulan en parte exigencias bastante elevadas a la destreza de manejo del usuario. También los sistemas inteligentes de diálogo, tal como los que se utilizan hoy en día en pequeños aparatos complejos como teléfonos móviles o PCs portátiles, formulan en cuanto a su manejo exigencias todavía relativamente elevadas a la destreza y paciencia de sus usuarios. Por lo tanto, la introducción del reconocimiento de voz para el control de tales aparatos es interesante en particular para los usuarios muy ocupados con el centro de gravedad en su utilización profesional por un lado y personas mayores así como niños por otro lado.
Los aparatos pequeños con control por voz son - en particular como teléfonos móviles - ya conocidos y pueden obtenerse en el mercado. Los sistemas allí implementados para el reconocimiento de la voz, no pueden no obstante, debido a la necesariamente limitada capacidad de procesamiento y memoria de los aparatos pequeños, a pesar de todos los progresos en la técnica de los procesadores y de la memoria, lograr las prestaciones de los sistemas de reconocimiento de voz, tales como los que se utilizan en PCs por ejemplo para la introducción de textos. Actualmente pueden realizarse a menudo sólo vocabularios de varios cientos de palabras. Aquí tiene una repercusión especialmente grave el problema general de los reconocimientos erróneos al pronunciar palabras desconocidas, que existe en todos los sistemas de reconocimiento de voz.
En este contexto Gilloire y otros dan a conocer en "Procesamiento innovador de la voz para terminales móviles: una bibliografía comentada", Signal Processing (procesamiento de señales) 80 (2000), págs. 1149-1166, principios para un procedimiento para el reconocimiento de la voz para un sistema móvil unido a una red de telefonía móvil, en el que están implementados los algoritmos necesarios para el proceso de reconocimiento totalmente (pág. 1150, columna derecha) o bien parcialmente (pág. 1160, columna izquierda) en la red o bien en un servidor unido con la red. El reconocimiento de voz se trata desde luego en la publicación sólo bajo el aspecto del reconocimiento de un flujo de habla continuo. Tampoco se discute cómo se realizarían técnicamente estos principios.
En la comunicación humana, para el reconocimiento de palabras o formas de escrituras desconocidas, se recurre desde hace siglos al deletreado. No obstante, cuando se pronuncia sencillamente una secuencia de letras, la tasa de errores en la comunicación humana es ya relativamente elevada, y los sistemas de reconocimiento de voz actuales aportan todavía resultados poco satisfactorios. En particular, grupos de letras como los grupos c, b, d, e, g, p, t, t, w o bien m, n o bien a, h, k, implican un gran peligro de confusión, ya que suenan muy similares.
En una secuencia de letras, por supuesto puede utilizar el ser humano positivamente su sentido del lenguaje y su conocimiento del contexto y eliminar claramente o probablemente combinaciones de letras que no tienen sentido y que resultan de un reconocimiento incorrecto de letras individuales de una secuencia, e "imaginar" en su lugar combinaciones razonables. Además del mencionado conocimiento del contexto, le son también de gran ayuda el conocimiento de las secuencias de letras probables y de redundancia en las palabras. De esta forma se reduce de manera importante en la comunicación humana la tasa de errores al deletrear.
También se conoce la práctica de utilizar en sistemas de reconocimiento de voz la probabilidad de determinadas secuencias de letras para el reconocimiento de palabras pronunciadas mediante deletreo. Por lo demás, los correspondientes sistemas se utilizan ya desde hace mucho tiempo en teléfonos móviles para la introducción de mensajes cortos (SMS) mediante el teclado, y se han acreditado allí. Básicamente, es posible también la utilización del conocimiento del contexto en sistemas de reconocimiento de voz, pero ésta exige, no obstante, capacidades de memoria muy grandes y por lo tanto prácticamente es irrealizable actualmente en aparatos pequeños.
La invención tiene por tanto como tarea básica la puesta a disposición de un procedimiento de este tipo, así como el correspondiente sistema, con los cuales pueda mejorarse sensiblemente con un coste razonable el reconocimiento de cadenas de letras o de caracteres hablados.
Esta tarea se resuelve en cuanto a su aspecto de procedimiento mediante un procedimiento con las particularidades de la reivindicación 1 ó 2 y en cuanto a su aspecto de dispositivo mediante un sistema y un aparato pequeño con las particularidades de la reivindicación 10.
La invención incluye la idea fundamental de desplazar al exterior del aparato pequeño al menos las etapas costosas en cuanto a lugares de memoria del reconocimiento de una secuencia de letras hablada en el aparato pequeño. Además, incluye la idea de utilizar para estas etapas del procedimiento un servidor central dispuesto en la red de telecomunicaciones o de datos, el cual dispone para ello prácticamente de una capacidad ilimitada. En el aparato pequeño permanece, ventajosamente, sólo un sencillo reconocimiento de cadenas de letras, para el que se necesita poca potencia de cálculo y espacio de memoria y que por lo tanto también es posible mediante microcontroladores y DSPs (Digital Signal Processors) de los pequeños aparatos mencionados.
Mediante la utilización del conocimiento del fondo y del contexto en el servidor, pueden lograrse también entonces en su conjunto prestaciones de reconocimiento muy buenas a nivel de palabra, cuando en el precedente reconocimiento de cadenas de letras inicial se presentaba una tasa de errores muy elevada. La invención prevé en el sentido de la mencionada división del trabajo entre el aparato pequeño como cliente y el servidor central una conversión voz - texto de las cadenas de letras o signos habladas en una cadena de letras o signos provisional escrita en el aparato pequeño, a continuación la transmisión de la misma al servidor, a continuación una comprobación y dado el caso corrección de estas cadenas de letras o signos en el servidor y la transmisión de retorno de la cadena de signos y letras comprobada al aparato pequeño, a continuación de lo cual puede realizarse en el aparato pequeño otro procesamiento sencillo en el sentido de una confirmación de la palabra recibida.
En una ejecución alternativa de la invención se prevé que el reconocimiento se cierre ya en el servidor y se transmita de retorno la palabra definitiva al aparato pequeño, sea recibida por éste y allí memorizada. Se entiende que una memorización en el aparato pequeño, de manera razonable, tiene lugar también cuando la fijación definitiva de la palabra reconocida tiene lugar allí.
El componente esencial del procedimiento que reside en el servidor corre en particular en base a una o varias matrices de confusión de letras o bien un modelo de lenguaje de letras, pudiendo éste utilizar, debido a los recursos prácticamente ilimitados del servidor, algoritmos complejos y extensas bases de datos de contexto.
En una ejecución preferente de la invención, se introduce en el aparato pequeño, en relación con la cadena de letras y caracteres, un clasificador de palabras por parte del usuario y se transmite juntamente con la cadena provisional escrita de letras y signos al servidor, donde el mismo la utiliza como información adicional para el proceso de reconocimiento que allí corre (comprobación y dado el caso corrección). En el aparato pequeño se forma en particular a partir de la búsqueda de cadenas de letras un llamado gráfico de hipótesis de palabras y se transmite al servidor y en el servidor se realiza sobre este gráfico de hipótesis de palabras una búsqueda en una base de datos de vocabulario con varias zonas de memoria o en varias bases de datos de vocabularios.
Las clases de palabras especificadas mediante el clasificador de palabras pueden ser por ejemplo nombres de personas, nombres de calles o de lugares o direcciones de internet, o también términos especializados de un determinado sector o similares, para los cuales se lleva en cada caso en el servidor un índice o bien vocabulario. El procesamiento centralizado ofrece aquí también la ventaja especial de una actualización y conservación económica de las existencias de datos, lo cual dado el rápidamente creciente número de nombres de dominio, es en particular muy importante para direcciones de internet.
En una variante especialmente interesante desde el punto de vista económico, se realiza el procedimiento propuesto como servicio de una empresa de telecomunicaciones o bien de un ofertante de servicios y se ofrece como tal a los usuarios, en particular frente a tarifa, pero también ocasionalmente como servicio gratuito.
En función de la ejecución concreta de la red de telecomunicaciones o de datos y del correspondiente aparato terminal, se utilizan en cada caso preferentemente los recursos más evolucionados disponibles para la transmisión al servidor de las nuevas palabras introducidas. Para un teléfono móvil conectado a una red de telefonía móvil según el estándar GSM, tiene lugar la transmisión preferentemente como mensaje breve de texto por SMS, y en un teléfono móvil con posibilidad de WAP preferentemente como mensaje breve según el estándar WAP. Para futuros estándares de telefonía móvil, sus protocolos ofrecerán las correspondientes posibilidades; en particular, para una red UMTS será posible la transmisión mediante un protocolo estándar de internet (HTTP). Para un teléfono de red fija conectado a una red ISDN, se realiza la transmisión mediante un canal de datos de la red ISDN. La entrada se realiza aquí preferentemente (como en el caso del teléfono móvil) mediante un teclado alfanumérico o por MFV.
Además de las ejecuciones antes mencionadas, el aparato pequeño puede estar realizado en particular también como PC portátil o PDA para su conexión a una red de telecomunicaciones y/o de datos, o bien también como unidad móvil de entrada de un sistema de control con manejo a distancia.
El mismo presenta en particular un equipo de visualización configurado para la visualización de varias cadenas de letras o de caracteres y un equipo de confirmación para la confirmación de una palabra reconocida por el servidor. Esta puede estar realizada en particular como softkey relacionada con un control por menú o sobre una pantalla táctil (Touch-Screen).
Las ventajas y aspectos convenientes de la invención resultan por lo demás de las reivindicaciones secundarias, así como de la siguiente descripción de un ejemplo de ejecución preferente en base a la figura.
Esta muestra - en una representación sinóptica, que no obstante también es realizable técnicamente si existen las premisas económicas - ejecuciones preferentes de la invención sobre un teléfono T para una red fija ISDN y un teléfono móvil GSM MS, que están conectados a una red de telefonía ligada a línea TN y una red de telefonía móvil GSM respectivamente, interactuando con un reconocedor de secuencias de letras CSR, que está asociado conjuntamente a ambas redes de comunicaciones TN y GSM. El teléfono de red fija T y el teléfono móvil MS están enlazados respectivamente mediante una red telefónica ISDN y mediante una interfaz de aire (no dibujada separadamente), así como una estación de base BTS/BSC en cada caso con una central de conmutación SC y MSC respectivamente de su red. Mediante la misma se genera directamente (en la red fija) e indirectamente a través de un servidor de puerta de entrada (Gateway-Server) adicional GS un enlace con un centro común de gestión y servicios PRO de un ofertante de servicios, que tanto en la red fija TN como también en la red móvil GSM ofrece un servicio de transcripción como servicio ligado a tarifas.
En la figura se han dibujado a modo de boceto componentes de procesamiento de señal internos para el teléfono móvil MS, los cuales participan en el proceso completo del reconocimiento de la cadena de caracteres; naturalmente el teléfono de red fija T puede disponer también de componentes analógicos. Al respecto, se trata de un convertidor voz-texto STC para la conversión de las cadenas de letras pronunciadas en cadenas de letras forma de textos, un gráfico de hipótesis de palabras WHG unido con el anterior, así como un clasificador de palabras WCL unido con el teclado de entrada y, finalmente, una etapa emisora de cadenas de letras CCT, que es alimentada por los componentes citados al principio.
El reconocedor de secuencias de letras CSR lleva asociadas varias bases de datos de vocabulario de texto PDB1 a PDB3, así como (representada esquemáticamente en forma de dos bloques funcionales) una matriz de confusión de letras CMA, así como un modelo de letras-voz SMO para la elaboración. Además, el reconocedor de secuencias de letras lleva asociado un equipo de tarificación BM para la tarificación de una utilización de servicio de transcripción.
En el teléfono de red fija T está alojado un equipo de interfaz ISDN IF, que en la figura simplemente se ha mostrado simbólicamente como bloque separado. La línea ISDN entre el teléfono de red fija T y la correspondiente central de conmutación SC tiene, de la manera conocida, un canal de voz A y un canal de datos B independiente.
Tal como se mencionó antes, tiene lugar en el teléfono móvil tras la conversión de la voz en texto en el convertidor voz-texto STC e involucrando el gráfico de hipótesis de palabras WHG, un reconocimiento provisional de cadenas de letras para palabras deletreadas por el usuario. El resultado del reconocimiento se transmite mediante la etapa emisora de cadenas de letras CCT juntamente con el clasificador de palabras introducido por el usuario por teclado al centro de gestión y servicios PRO del proveedor, así como el reconocedor de secuencia de letras CSR allí conectado. Este ejecuta, accediendo a las bases de datos del vocabulario de referencia PDB1 a PDB3, la matriz de confusión de letras CMA y el modelo de letras-voz SMO, una comprobación de la cadena de letras emitida por el teléfono móvil en base a un extenso conocimiento idiomático de la base y del contexto del correspondiente idioma del usuario.
La elección del idioma tiene lugar entonces en base a los datos del usuario memorizados en la tarjeta SIM y/o en base a una elección realizada por el usuario al comienzo del correspondiente menú. Se comprende que la pronunciación típica del país de caracteres, costumbres de deletreo, etc., son tenidas en
cuenta al respecto.
Si en base a la comprobación resulta que para otras cadenas de letras diferentes a la cadena de letras provisional emitida por el teléfono móvil, es decir, otras palabras deletreadas, existen probabilidades significativas, entonces todas estas palabras son transmitidas de retorno al teléfono móvil y mostradas en su display juntamente con una solicitud de selección dirigida al usuario. Una vez que el usuario ha realizado su selección actuando sobre una softkey, queda fijada la palabra correspondiente y se incluye en la memoria de vocabulario interna. (Es también posible que se transmita de retorno al teléfono móvil exclusivamente la cadena de letras o bien la palabra con la máxima probabilidad calculada por el reconocedor de cadenas de letras, y allí se procese como resultado definitivo del proceso de reconocimiento y (a elección) se memorice.
Análogamente funciona el distintivo de cadenas de letras comprobado para cadenas de letras pronunciadas en el teléfono de red fija T. La transmisión de retorno de la cadena de letras o cadenas de letras comprobada(s) y dado el caso corregida(s), se realiza aquí en particular mediante el canal B de la red ISDN. Aquí puede tener lugar también una preselección o confirmación de las fuentes de conocimiento a utilizar en la comprobación central en el reconocedor de cadenas de letras CSR por parte del usuario, o las mismas son elegidas en función del distintivo de la red local o nacional del usuario del teléfono de red fija.
La ejecución de la invención no queda limitada a este ejemplo, sino que es posible en el marco de las reivindicaciones también en el marco de múltiples modificaciones que se encuentran en el ámbito del trato especializado.

Claims (18)

1. Procedimiento para el reconocimiento de voz para un aparato pequeño (MS, T) unido con una red de telecomunicaciones o bien una red de datos (GSM, TN),
donde el procedimiento incluye un reconocimiento de cadenas de letras o bien caracteres como palabras, que se emiten como palabra escrita y/o se utiliza para fines de mando, y el reconocimiento de las cadenas de letras o bien caracteres se realiza al menos parcialmente en un servidor central (PRO) unido a través de la red de comunicaciones o bien de datos con el aparato pequeño,
caracterizado porque las cadenas de letras o bien caracteres a reconocer se forman a partir de letras o bien caracteres individuales pronunciados, y en el aparato pequeño (MST) se realiza en una primera etapa de transformación una conversión voz-texto de la cadena de letras o bien caracteres pronunciada en una cadena provisional escrita de letras o bien caracteres,
se transmite la cadena de letras o bien caracteres provisional escrita al servidor central (PRO),
se comprueba y dado el caso se corrige en el servidor en una segunda etapa de transformación la cadena provisional de letras o bien caracteres, en base a una matriz de confusión de letras (CMA) y/o un modelo de letras-voz (SMO) y se confecciona la palabra y,
la palabra se transmite de retorno al aparato pequeño y es recibida por éste y es procesada y/o memorizada en éste.
2. Procedimiento para el reconocimiento de la voz para un aparato pequeño (MS, T) unido con una red de telecomunicaciones o bien de datos (GSM, TN),
en el que el procedimiento incluye un reconocimiento de cadenas de letras o bien caracteres como palabras, que se emiten como palabra escrita y/o se utilizan para fines de mando y ejecutándose el reconocimiento de las cadenas de letras o bien caracteres al menos en parte en un servidor central (PRO) unido a través de la red de comunicaciones o bien de datos con el aparato pequeño, caracterizado porque
las cadenas de letras o bien caracteres a reconocer se forman a partir de las letras o bien caracteres individuales pronunciados y en el aparato pequeño (MS, T) se ejecuta en una primera etapa de transformación una conversión provisional voz-texto de la cadena de letras o bien caracteres pronunciada en una cadena de letras o bien caracteres provisional escrita,
se transmite la cadena de letras o bien caracteres provisional escrita al servidor central (PRO),
se comprueba y dado el caso se corrige en el servidor en una segunda etapa de transformación la cadena provisional de letras o bien caracteres, en base a una matriz de confusión de letras y/o un modelo de letras-voz y se genera al menos una cadena de letras o bien caracteres comprobada y corregida,
la cadena de letras o bien caracteres comprobada o bien las cadenas de letras y caracteres comprobadas se transmite(n) de retorno al aparato pequeño y es/son recibida(s) por éste y
en el aparato pequeño, en una tercera etapa de transformación a partir de la cadena de letras o bien caracteres comprobada o de las cadenas de letras o bien caracteres comprobadas, se forma la palabra y se memoriza y/o procesa.
3. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque en el aparato pequeño (MS, T) se introduce en relación con la cadena de letras o bien caracteres un clasificador de palabras,
el clasificador de palabras se transmite juntamente con la cadena provisional de letras o bien caracteres al servidor (PRO) y se evalúa como información adicional para el reconocimiento.
4. Procedimiento según la reivindicación 5, caracterizado porque en el aparato pequeño (MS, T), a partir del reconocimiento de las cadenas de caracteres se forma un gráfico de hipótesis de palabras y se transmite al servidor (PRO) y en el servidor se ejecuta sobre el gráfico de hipótesis de palabras una búsqueda en una base de datos de vocabulario de texto con varias zonas de memoria asociadas en cada caso a una clase de palabras.
5. Procedimiento según una de las reivindicaciones 2 a 4, caracterizado porque la cadena de letras o bien caracteres comprobada o las cadenas de letras o bien caracteres comprobadas, se visualiza o visualizan sobre el aparato pequeño (MS, T), para la determinación final por parte del usuario.
6. Procedimiento según la reivindicación 5, caracterizado porque la visualización de las cadenas de palabras o bien caracteres se realiza en la secuencia según su probabilidad determinada por el servidor.
7. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque la parte del reconocimiento que corre en el servidor (PRO) se organiza como servicio de la red de telecomunicaciones o bien de datos.
8. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque la transmisión desde y hacia un aparato terminal de telefonía móvil (MS) se realiza como mensaje corto o bien a través de la WAP mediante una red de telefonía móvil (GSM), en particular incluyendo un enlace con una red IP.
9. Procedimiento según una de las reivindicaciones 1 a 7, caracterizado porque la transmisión desde y hacia un teléfono de la red fija (T) se realiza a través de un canal de datos ISDN (B) de una red fija ISDN (ISDN).
10. Sistema que dispone de medios para la realización de cada etapa individual del procedimiento según una de las reivindicaciones precedentes,
con múltiples aparatos terminales (MS, T) conectados a la red de telecomunicaciones o bien de datos (GSM, ISDN) y un servidor (PRO) conectado a una central de servicios de telecomunicaciones o bien de datos,
caracterizado porque el servidor (PRO) dispone de medios (CSR) para el reconocimiento de la cadena de letras o bien caracteres.
11. Sistema según la reivindicación 10, caracterizado porque los elementos (CSR) para el reconocimiento de la cadena de letras o bien caracteres presentan al menos una matriz de confusión de letras (CMA) y/o al menos un modelo letras-voz (SMO).
12. Sistema según una de las reivindicaciones 10 u 11, caracterizado por un equipo de tarificación (BM) asociado al servidor (PRO), para la tarificación de la parte aportada por el servidor del reconocimiento de la cadena de letras o bien caracteres como servicio.
13. Sistema según una de las reivindicaciones 10 a 12, caracterizado porque el aparato pequeño está configurado como aparato terminal de telefonía móvil (MS) que está unido mediante una red de telefonía móvil (GSM), en particular incluyendo un enlace con una red IP con el servidor.
14. Sistema según una de las reivindicaciones 10 a 13, caracterizado porque el aparato pequeño está configurado como teléfono de red fija (T), que está unido mediante un canal de datos ISDN (B) de una red fija ISDN (ISDN) con el servidor.
15. Sistema según una de las reivindicaciones 10 a 14, caracterizado porque el aparato pequeño está configurado como un aparato de procesamiento de datos o de operación, unido con el servidor mediante una red telefónica fija, en particular una red fija ISDN, una red de telefonía móvil o una red de datos, estando configurado en particular como un PC portátil o unidad de entrada móvil de un sistema de telecontrol.
16. Sistema según una de las reivindicaciones 10 a 15, caracterizado porque el aparato pequeño presenta un equipo de visualización configurado para visualizar varias cadenas de letras o bien caracteres y un equipo de confirmación para la determinación definitiva de la palabra.
17. Sistema según la reivindicación 16, caracterizado porque el dispositivo de visualización para visualizar las cadenas de letras o caracteres está configurado según su probabilidad determinada por el servidor.
18. Sistema según la reivindicación 16 ó 17, caracterizado porque equipo de confirmación presenta una pantalla táctil (touch-screen) o un control por menú unido por una tecla de entrada, en particular una softkey.
ES01991834T 2000-12-14 2001-12-12 Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño. Expired - Lifetime ES2238054T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00127457 2000-12-14
EP00127457 2000-12-14

Publications (1)

Publication Number Publication Date
ES2238054T3 true ES2238054T3 (es) 2005-08-16

Family

ID=8170671

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01991834T Expired - Lifetime ES2238054T3 (es) 2000-12-14 2001-12-12 Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño.

Country Status (5)

Country Link
US (1) US20040049386A1 (es)
EP (1) EP1352388B1 (es)
DE (1) DE50106056D1 (es)
ES (1) ES2238054T3 (es)
WO (1) WO2002049004A2 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418381B2 (en) * 2001-09-07 2008-08-26 Hewlett-Packard Development Company, L.P. Device for automatically translating and presenting voice messages as text messages
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US20070016420A1 (en) * 2005-07-07 2007-01-18 International Business Machines Corporation Dictionary lookup for mobile devices using spelling recognition
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US10049198B2 (en) * 2015-03-18 2018-08-14 International Business Machines Corporation Securing a device using graphical analysis
US10049199B2 (en) * 2015-03-18 2018-08-14 International Business Machines Corporation Securing a device using graphical analysis

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
FR2696067B1 (fr) * 1992-09-21 1994-11-25 France Telecom Installation de télécommunication à téléchargement sécurisé de moyens de pré-paiement et procédé de téléchargement correspondant.
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5812639A (en) * 1994-12-05 1998-09-22 Bell Atlantic Network Services, Inc. Message communication via common signaling channel
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
CA2219008C (en) * 1997-10-21 2002-11-19 Bell Canada A method and apparatus for improving the utility of speech recognition
US6161082A (en) * 1997-11-18 2000-12-12 At&T Corp Network based language translation system
US20020055351A1 (en) * 1999-11-12 2002-05-09 Elsey Nicholas J. Technique for providing personalized information and communications services

Also Published As

Publication number Publication date
EP1352388B1 (de) 2005-04-27
US20040049386A1 (en) 2004-03-11
WO2002049004A2 (de) 2002-06-20
WO2002049004A3 (de) 2002-09-19
DE50106056D1 (de) 2005-06-02
EP1352388A2 (de) 2003-10-15

Similar Documents

Publication Publication Date Title
ES2233002T3 (es) Sistema de reconocimiento de habla con lexico actualizable mediante introduccion de palabras deletreadas.
CA2929018C (en) Natural expression processing method, processing and response method, device and system
KR101670150B1 (ko) 이름 발음을 위한 시스템 및 방법
KR101703214B1 (ko) 문자 데이터의 내용을 문자 데이터 송신자의 음성으로 출력하는 방법
ES2208908T3 (es) Sistema y procedimiento para la codificacion y la difusion de informaciones vocales.
CN101105894B (zh) 多功能语言学习机
KR20090085376A (ko) 문자 메시지의 음성 합성을 이용한 서비스 방법 및 장치
KR20080032640A (ko) 숫자의 텍스트 및 스피치 변환
CN1731510B (zh) 混合语言文语转换
CN107993646A (zh) 一种实现实时语音互译的方法
ES2238054T3 (es) Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño.
KR101277313B1 (ko) 의사소통 보조 장치 및 방법
KR20000072073A (ko) 음성 인식 및 음성 합성 기술을 이용한 자동동시통역서비스 방법 및 그 시스템
KR102416041B1 (ko) 다국어 동시 학습 시스템
US20090306978A1 (en) Method and system for encoding languages
KR101746180B1 (ko) 피아노 교습 서비스 제공 방법 및 이를 기록한 기록매체
KR101873379B1 (ko) 대화를 이용한 언어 학습 시스템
ES2208212T3 (es) Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos.
CN113160804A (zh) 混合语音的识别方法及装置、存储介质、电子装置
CN102067575A (zh) 拉丁字符输入设备和使用该设备的便携式终端单元
CN104517485A (zh) 一种在虚拟社区学习英语的方法
KR20200085433A (ko) 탈부착형 스피커를 포함한 음성합성 시스템 및 방법
KR20140104605A (ko) 쓰기 말하기 원리를 적용한 영어 기반 문자 소통 시스템 및 그 방법
KR20020043468A (ko) 휴대형 정보통신기기에서의 외국어 학습 컨텐츠 제공 방법
KR20170022137A (ko) 심상화된 이미지를 이용한 두뇌기억 개발을 제공하는 영어 단어 학습 방법, 단어 학습 장치, 영어 단어 학습 카드 및 단말기를 이용한 영어 단어 학습 서비스 제공 방법