ES2208212T3 - Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos. - Google Patents

Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos.

Info

Publication number
ES2208212T3
ES2208212T3 ES00127747T ES00127747T ES2208212T3 ES 2208212 T3 ES2208212 T3 ES 2208212T3 ES 00127747 T ES00127747 T ES 00127747T ES 00127747 T ES00127747 T ES 00127747T ES 2208212 T3 ES2208212 T3 ES 2208212T3
Authority
ES
Spain
Prior art keywords
network
terminal
phonetic transcription
data
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00127747T
Other languages
English (en)
Inventor
Meinrad Niemoeller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2208212T3 publication Critical patent/ES2208212T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Procedimiento para el reconocimiento de voz independiente del locutor para un terminal de telecomunicaciones o terminal de datos (MS,T) en una red de telecomunicaciones y red de datos (GSM,TN), respectivamente, donde el terminal recibe palabras pronunciadas y las emite como palabras escritas y/o las utiliza internamente para fines de control así como se pueden introducir en el terminal palabras nuevas para la ampliación del vocabulario como palabras escritas con la finalidad de la creación de una trascripción fonética, donde las palabras nuevas escritas son transmitidas por el terminal a través de un trayecto de transmisión de datos (B) de la red de telecomunicaciones y de la red de datos, respectivamente, hacia un servidor central (TS), siendo realizada en el servidor central una reproducción de las palabras en una trascripción fonética, la trascripción fonética es retransmitida a través de un trayecto de transmisión de datos de la red de telecomunicaciones y de la red de datos, respectivamente, hacia el terminal y la trascripción fonética es recibida por éste y es memorizada en éste, caracterizado porque la reproducción en la trascripción fonética se realiza en función de una identificación del terminal utilizando una de una pluralidad de redes neuronales.

Description

Procedimiento y disposición para el reconocimiento de voz independiente del locutor para un terminal de telecomunicaciones o terminal de datos.
La invención se refiere a un procedimiento para el reconocimiento de voz independiente del locutor para un terminal de telecomunicación o terminal de datos según el preámbulo de la reivindicación 1 así como a una disposición para la realización de este procedimiento.
Después de que ha dado buen resultado en PCs desde hace años la entrada de programas de texto por voz así como el control por voz de funciones de aparatos y después de que se ha alcanzado un alto grado de exactitud en el reconocimiento, se emplea desde hace poco tiempo cada vez con mayor intensidad también en terminales más sencillos de redes de telecomunicaciones o bien de redes de datos, especialmente de teléfonos móviles y de PCs portátiles y de PDAs (Personal Digital Assistants). Ya se pueden adquirir en el mercado aparatos correspondientes. El control por voz ofrece aquí una comodidad de manejo elevada durante la activación de funciones que se requieren con frecuencia o bien en el caso de selección de números de llamada utilizados con frecuencia.
El reconocimiento de voz en tales terminales se basa, en general, en algoritmos de la identificación de voz en función del locutor. En estos procedimientos, el vocabulario debe ser entrenado a través de la pronunciación de todas las palabras por parte del usuario.
En oposición a ello, los procedimientos de conocimiento de voz independientes del locutor permiten el empleo inmediato sin inicialización, el llamado proceso de inscripción. Los terminales más sencillos, relativamente económicos (aparatos de bajo coste) disponen ya de microcontroladores o microprocesadores relativamente potentes con alta capacidad de cálculo, de manera que durante los próximos años es previsible una resolución del reconocimiento de voz más incómoda dependiente del locutor en tales aparatos a través del reconocimiento de voz independiente del locutor más cotoso con respecto a la capacidad de procesamiento necesaria. Por otra parte, esto tiene la ventaja de que no tiene que conocerse el vocabulario a priori - lo que sólo posibilita, en general, determinadas aplicaciones.
Una ampliación del vocabulario en procedimientos de reconocimiento de voz independiente del locutor se realiza a través de la generación de una transcripción fonética desde una representación ortográfica de cada palabra nueva. Por lo tanto, las palabras nuevas son introducidas como texto a través del usuario (por ejemplo por medio de un teclado alfanumérico o de una pantalla de contacto (Touch-Screen), y el texto es reproducido a continuación en una transcripción fonética normalizada de los fonemas en el idioma respectivo. Esta representación forma entonces la base para otras etapas de procesamiento, en las que los fonemas son divididos en segmentos más pequeños y son procesados adicionalmente según algoritmos establecidos del reconocimiento de voz, por ejemplo son registrados como estados de Hidden-Markov en un espacio de búsqueda de un modelo de Hidden-Markov.
En idiomas como italiano o español, la conversión de la ortografía a una trascripción fonética es esencialmente trivial, porque en estos idiomas se escribe esencialmente como se habla. En cambio, esta reproducción en otros idiomas, como inglés o francés, es un proceso costoso, que se desarrolla añadiendo léxicos de referencia grandes o un mecanismo de regulación complejo o una red neuronas.
La ejecución de estos mecanismos de reproducción no es crítica en los PCs modernos con sus memorias grandes y sus procesadores de capacidad máxima, pero representa todavía actualmente un problema práctico serio para terminales de telecomunicaciones o terminales de datos del tipo de bajo coste. Por lo tanto, los terminales pequeños están equipados hasta hoy con un reconocimiento de voz dependiente del locutor. En todo caso, actualmente se pueden realizar sistemas, en los que se lleva a cabo una ampliación del vocabulario a través de la pronunciación de las palabras nuevas y, por lo tanto, no se realiza ya realmente de una manera independiente del locutor.
Para la solución de los problemas explicados anteriormente, el documento EP 1 047 046 A2 prepara un procedimiento según el preámbulo de la reivindicación 1. El empleo de léxicos de pronunciación en el reconocimiento de voz es conocido, por ejemplo, a partir del documento US 6.078.885 A1.
La invención tiene el cometido de indicar un procedimiento mejorado de este tipo, en el que se realiza de una manera más eficiente y más rápida así como de una manera más sencilla para el usuario una variante de reconocimiento de voz adecuada para él. Además, debe indicarse una disposición adecuada para la realización de este procedimiento.
Este cometido se soluciona en lo que se refiere a su aspecto de procedimiento a través de un procedimiento con las características de la reivindicación 1 y en lo que se refiere a su aspecto del dispositivo a través de una disposición con las características de la reivindicación 6.
La invención parte de la idea esencial de desplazar la reproducción de un texto en una trascripción fonética para un terminal sencillo conectado a una red de telecomunicaciones o bien a una red de datos al menos en sus partes esenciales sobre un servidor en la red.
Esto posibilita de una manera ventajosa una descarga del terminal de gasto de procesamiento y la puesta a disposición de medios de procesamiento de alta calidad, costosos de espacio de memoria, por ejemplo de léxicos de referencia grandes, de una red neuronal de alto desarrollo, etc.- independientemente de la dotación de memoria del terminal. Por lo tanto, se pueden utilizar léxicos de referencia muy grandes y de una manera más ventajosas se pueden cuidar y ampliar también de una manera centralizada, en los que se pueden anotar una pluralidad de variantes de la pronunciación. Para las palabras, que no están depositadas en un léxico de referencia, se pueden aplicar para la reproducción sobre un servidor correspondientemente potente mecanismos de regulación complejos y, por lo tanto, costosos de procesamiento o bien redes neuronales. También con respecto a tales procedimientos, la ejecución en un servidor central posibilita una ampliación y actualización sencillas y directamente accesibles de una manera ventajosa para todos los usuarios en la red. La disponibilidad constante de los mejores recursos de reproducción posibles en el servidor proporciona para el usuario siempre los mejores resultados de trascripción posible en el estado respectivo de la técnica.
Según la invención, la trascripción fonética se lleva a cabo accediendo a una base de datos de léxicos de pronunciación asociada al servidor, en otras formas de realización utilizando una red neuronal ejecutada en el servidor u otro mecanismo de regulación de procesamiento complejo. También es conveniente una combinación de estas formas de realización.
Además, la trascripción fonética se realiza en función de una identificación del terminal o de una identificación del usuario transmitida a través del terminal de una manera específica, por ejemplo típica del dialecto o de la pronunciación. A tal fin se accede especialmente a variantes de pronunciación depositadas en un léxico de pronunciación grande y/o a uno de una pluralidad de léxicos de pronunciación diferentes o bien se utiliza una pluralidad de redes neuronales, formadas para dialectos o variantes sistemáticas de pronunciación, etc.
En una variante especialmente interesante desde el punto de vista económico, el procedimiento propuesto se realiza como servicio de una sociedad de telecomunicaciones o bien de un proveedor de servicios y se ofrece como tal a los usuarios, especialmente contra pago, pero en determinados casos también como servicio gratuito.
Según la forma de realización concreta de la red de telecomunicaciones o bien de datos y del terminal respectivo se utilizan con preferencia en cada caso los recursos disponibles más altamente desarrollados para la transmisión de las nuevas palabras introducidas hacia el servidor. En el caso de un teléfono móvil convencional conectado en una red de radio móvil según la Norma GSM, la transmisión se realiza con preferencia como mensaje corto de texto por SMS. En el caso de un teléfono móvil con capacidad WAP, se transmite con preferencia como mensaje de texto según la Norma WAP. Para las futuras normas de radio móvil, sus protocolos ofrecen posibilidades correspondientes -especialmente para una red UMTS será posible la transmisión por medio de un protocolo estándar de Internet (http).
En el caso de un teléfono de red fija conectada en una red ISDN, la transmisión se realiza a través de un canal de datos de la red ISDN. La entrada se realiza aquí con preferencia (como en el teléfono móvil) a través de un teclado alfanumérico o por MFV.
Las ventajas y las conveniencias de la invención se deducen, además, a partir de las reivindicaciones dependientes así como de la descripción siguiente de un ejemplo de realización preferido con la ayuda de la figura.
Ésta muestra -en una representación sinóptica, pero que se puede realizar técnicamente también cuando existen los supuestos económicos- formas de realización preferidas de la invención en un teléfono de red fija ISDN T y en un teléfono móvil GSM MS, que están conectados en una red telefónica por cable TN o bien en una red de radio móvil GSM, en colaboración con un servidor de adaptación AS, que está asociado en común a las dos redes de comunicación TN y GSM. El teléfono de red fija T y el teléfono móvil MS están en comunicación a través de una línea telefónica-ISDN ISDN o bien de un interfaz de aire (no designado especialmente) así como de una estación de base BTS/BSC, respectivamente, con un centro de conmutación SC o bien MSC de su red. A través de éste se establece directamente (en la red fija) o bien indirectamente a través de un servidor adicional de tránsito GS una comunicación con un centro común de administración y de servicio PRO de un proveedor de servicios, que ofrece tanto en la red fija TN como también en la red de radio móvil GSM un servicio de adaptación como servicio sujeto a tarifas.
Al servidor de la trascripción TS están asociadas varias bases de datos de léxicos de pronunciación PDB1 a PDB3 (se representa en forma de dos bloques funcionales) así como una red neuronal NN para el procesamiento de palabras nuevas no contenidas en las bases de datos de léxicos de pronunciación PDB1 a PDB3. Además, al servidor de la trascripción TS está asociada una instalación de facturación BM para la facturación de una utilización del servicio de trascripción.
Las bases de datos de los léxicos de pronunciación -bases de datos PDB1 a PDB3 contienen léxicos de referencia relacionados con la lengua del país o bien con el dialecto, que están adaptados a determinados países o regiones de origen de los usuarios de la red fija TN o bien de la red de radio móvil GSM. Los lugares de origen respectivos son identificados en la red fija con la ayuda de un número d identificación del lugar del teléfono conectado T y en la red de radio móvil con la ayuda de las inscripciones den una tarjeta-SIM SIM (en colaboración con un Registro de Lugares Nacionales -no mostrado aquí-).
Como medios para la entrada de texto, los dos terminales T y MS presentan un teclado alfanumérico de una manera habitual al menos en los teléfonos móviles. Se entiende que en su lugar puede entrad una pantalla de contacto u otra instalación de entrada para caracteres alfabéticos. En el teléfono de red fija T está montada una instalación de interfaz ISDN IF, que está mostrada sólo de manera simbólica como bloque especial en la figura. La línea ISDN entre el teléfono de red fija T y el centro de conmutación SC correspondiente tiene de manera conocida un canal de voz A y un canal de datos B independiente.
Para la explicación del modo de funcionamiento de esta disposición se supone que el teléfono móvil está equipado con un software de base para la identificación de voz independiente del locutor, pero contiene como vocabulario correspondiente en el suministro en primer lugar sólo las cifras para la selección y las instrucciones de control habituales. Con objeto de la utilización del reconocimiento de voz para la selección de interlocutores, el usuario introduce su nombre en un listín telefónico de su teléfono móvil. En virtud de esta entrada, se puede realizar posteriormente a través de la pronunciación del nombre correspondiente una selección del interlocutor deseado sin pulsaciones de tecla. No obstante, en primer lugar, el sistema de reconocimiento de voz debe recibir transcripciones fonéticas de los nombres seleccionados.
A tal fin, se introduce el nombre respectivo en el teclado del teléfono móvil y se transmite a través de los bloques funcionales intercalados al centro de administración y de servicio PRO del proveedor y, por lo tanto, al servidor de la trascripción TS conectado allí. Este servidor busca en primer lugar el nombre correspondiente en la base de datos de léxicos de pronunciación PDB1 a PDB3, que está asociada al lugar de origen del usuario del teléfono móvil. Si esta búsqueda no tiene éxito, entonces o bien se busca en las otras bases de datos de léxicos de pronunciación, o se emplea uno de los otros mecanismos de trascripción disponibles, a saber, la red neuronal NN para la generación de la trascripción fonética.
En un tiempo muy corto, el servicio proporciona entonces una transcripción fonética del nombre introducido como resultado y la transmite de nuevo al teléfono móvil MS. Allí se dividen los fonemas individuales en otras subunidades y se introducen como estados HMM en un espacio de búsqueda de reconocimiento (no representado). El nuevo nombre está disponible para el usuario entonces con alta calidad para futuras entradas de voz.
De una manera similar se puede realizar la entrada de nuevos nombres o de otras palabras en principio también en el teléfono de red fija T. El nombre introducido por teclado alfanumérico es transmitido en cada caso a través de la línea de datos B de la red-ISDN ISDN, y ésta es utilizada para el "reconocimiento" de la trascripción fonética, de manera que la línea de voz no está implicada en estos procesos. En lugar de un espacio de búsqueda de reconocimiento ejecutado en el teléfono T, se pueden utilizar también instalaciones de reconocimiento de voz asociadas externamente al teléfono para la parte, que se encuentra en el terminal, de la inicialización y utilización del sistema de reconocimiento de voz. La realización de la invención no está limitada a este ejemplo, sino que en el marco de las reivindicaciones son posibles también una pluralidad de variaciones, que están en el marco de los conocimientos técnicos.

Claims (9)

1. Procedimiento para el reconocimiento de voz independiente del locutor para un terminal de telecomunicaciones o terminal de datos (MS, T) en una red de telecomunicaciones y red de datos (GSM, TN), respectivamente, donde el terminal recibe palabras pronunciadas y las emite como palabras escritas y/o las utiliza internamente para fines de control así como se pueden introducir en el terminal palabras nuevas para la ampliación del vocabulario como palabras escritas con la finalidad de la creación de una trascripción fonética, donde las palabras nuevas escritas son transmitidas por el terminal a través de un trayecto de transmisión de datos (B) de la red de telecomunicaciones y de la red de datos, respectivamente, hacia un servidor central (TS), siendo realizada en el servidor central una reproducción de las palabras en una trascripción fonética, la trascripción fonética es retransmitida a través de un trayecto de transmisión de datos de la red de telecomunicaciones y de la red de datos, respectivamente, hacia el terminal y la trascripción fonética es recibida por éste y es memorizada en éste, caracterizado porque la reproducción en la trascripción fonética se realiza en función de una identificación del terminal utilizando una de una pluralidad de redes neuronales.
2. Procedimiento según la reivindicación 1, caracterizado porque la reproducción en la trascripción fonética se realiza utilizando una red neuronal (NN) ejecutada en el servidor.
3. Procedimiento según una de las reivindicaciones anteriores, caracterizado porque la reproducción en la trascripción fonética está organizada como servicio autónomo en la red de telecomunicaciones y en la red de datos (GSM, TN), respectivamente.
4. Procedimiento según una de las reivindicaciones anteriores, caracterizado porque la transmisión desde y hacia un terminal de radio móvil (MS) se realiza como mensaje corto o por medio de WAP a través de una red de radio móvil (GSM), especialmente incluyendo una comunicación con una red IP.
5. Procedimiento según una de las reivindicaciones 1 a 4, caracterizado porque la transmisión desde y hacia un teléfono de red fija (T) se realiza a través de un canal de datos ISDN (B) de una red fija ISDN (TN).
6. Disposición, adaptada para la realización de cada etapa individual de un procedimiento según una de las reivindicaciones anteriores, con una pluralidad de terminales (MS, T) conectados en la red de telecomunicaciones y en la red de datos, respectivamente, y con un servidor (TS) conectado en una central de servicio (PRO) de la red de telecomunicaciones y de la red de datos (GSM, TN), que puede acceder a una base de datos de léxicos de conversación (PDB1 a PDB3) con una pluralidad de léxicos de conversación accesibles en función de identificaciones de los terminales y/o presenta una pluralidad de redes neuronales (NH), accesibles igualmente en función de identificaciones de los terminales (PDB1 a PDB3, NN, HMM) para la reproducción de las palabras nuevas introducidas en uno de los terminales en una trascripción fonética.
7. Disposición según la reivindicación 6, caracterizada por una instalación de facturación (BM) asociada al servidor para la facturación de la reproducción en la trascripción fonética como servicio.
8. Disposición según la reivindicación 6 ó 7, caracterizada porque al menos una parte de los terminales conectados están configurados como terminales de radio móvil (MS) con medios para la emisión de un mensaje de texto corto por SMS o de un mensaje de texto a través de un protocolo de Internet, especialmente el WAP.
9. Disposición según una de las reivindicaciones 6 a 8, caracterizada porque al menos una parte de los terminales conectados están configurados como teléfono de red fija (T) con medios para la entrada y transmisión de texto, especialmente de una instalación de interfaz ISDN (IF).
ES00127747T 2000-12-18 2000-12-18 Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos. Expired - Lifetime ES2208212T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP20000127747 EP1220200B1 (de) 2000-12-18 2000-12-18 Verfahren und Anordnung zur sprecherunabhängigen Spracherkennung für ein Telekommunikations- bzw. Datenendgerät

Publications (1)

Publication Number Publication Date
ES2208212T3 true ES2208212T3 (es) 2004-06-16

Family

ID=8170713

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00127747T Expired - Lifetime ES2208212T3 (es) 2000-12-18 2000-12-18 Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos.

Country Status (3)

Country Link
EP (1) EP1220200B1 (es)
DE (1) DE50003855D1 (es)
ES (1) ES2208212T3 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE449401T1 (de) * 2004-05-21 2009-12-15 Harman Becker Automotive Sys Automatische erzeugung einer wortaussprache für die spracherkennung
US7596370B2 (en) * 2004-12-16 2009-09-29 General Motors Corporation Management of nametags in a vehicle communications system
US7711358B2 (en) 2004-12-16 2010-05-04 General Motors Llc Method and system for modifying nametag files for transfer between vehicles
EP1859608A1 (fr) * 2005-03-16 2007-11-28 France Telecom S.A. Procédé de création automatique d'étiquettes vocales dans un carnet d'adresses
DE102006056286B4 (de) * 2006-11-29 2014-09-11 Audi Ag Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug
DE102013213337A1 (de) 2013-07-08 2015-01-08 Continental Automotive Gmbh Verfahren und Einrichtung zur Identifizierung und Ausgabe des Inhalts eines Hinweistextes

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131045A (en) * 1990-05-10 1992-07-14 Roth Richard G Audio-augmented data keying
EP0891589B1 (de) * 1996-04-02 1999-10-06 Siemens Aktiengesellschaft Anordnung zur erstellung eines digitalen wörterbuchs und verfahren zum aufbau eines digitalen wörterbuchs mit hilfe eines rechners
DE19751123C1 (de) * 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
US6314165B1 (en) * 1998-04-30 2001-11-06 Matsushita Electric Industrial Co., Ltd. Automated hotel attendant using speech recognition
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices

Also Published As

Publication number Publication date
EP1220200B1 (de) 2003-09-24
DE50003855D1 (de) 2003-10-30
EP1220200A1 (de) 2002-07-03

Similar Documents

Publication Publication Date Title
US8577681B2 (en) Pronunciation discovery for spoken words
EP1291848B1 (en) Multilingual pronunciations for speech recognition
ES2330758T3 (es) Procedimiento para personalizar un servicio.
ES2233954T3 (es) Metodo para reconocimiento de voz automatico de palabras habladas arbitrarias.
JP3323519B2 (ja) テキスト−音声変換装置
ES2228739T3 (es) Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi.
AU2018201474A1 (en) Systems and methods for name pronunciation
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
US8204748B2 (en) System and method for providing a textual representation of an audio message to a mobile device
US20050197837A1 (en) Enhanced multilingual speech recognition system
WO2006074345A1 (en) Hands-free system and method for retrieving and processing phonebook information from a wireless phone in a vehicle
EP1251492A1 (en) Arrangement of speaker-independent speech recognition based on a client-server system
ES2208212T3 (es) Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos.
ES2268564T3 (es) Sistema y metodo de recuperacion de numeros de telefono.
US7664639B2 (en) Apparatus and methods for speech recognition
US20050131685A1 (en) Installing language modules in a mobile communication device
WO2016106552A1 (en) Voice recognition-based dialing
US20050125230A1 (en) Method and apparatus for entering alphabetic characters
JP5510069B2 (ja) 翻訳装置
ES2208210T3 (es) Procedimiento y disposicion para el reconocimiento de voz para un aparato pequeño.
KR100414064B1 (ko) 음성인식에 의한 이동통신 단말기 제어시스템 및 방법
US20040049386A1 (en) Speech recognition method and system for a small device
EP1524870B1 (en) Method for communicating information in a preferred language from a server via a mobile communication device
WO2009020272A1 (en) Method and apparatus for distributed speech recognition using phonemic symbol
EP1617635A2 (en) Speech recognition by a portable terminal for voice dialing