ES2208212T3 - Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos. - Google Patents
Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos.Info
- Publication number
- ES2208212T3 ES2208212T3 ES00127747T ES00127747T ES2208212T3 ES 2208212 T3 ES2208212 T3 ES 2208212T3 ES 00127747 T ES00127747 T ES 00127747T ES 00127747 T ES00127747 T ES 00127747T ES 2208212 T3 ES2208212 T3 ES 2208212T3
- Authority
- ES
- Spain
- Prior art keywords
- network
- terminal
- phonetic transcription
- data
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013518 transcription Methods 0.000 claims abstract description 27
- 230000035897 transcription Effects 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000005540 biological transmission Effects 0.000 claims abstract description 11
- 101000644537 Homo sapiens Sequestosome-1 Proteins 0.000 claims description 6
- 102100020814 Sequestosome-1 Human genes 0.000 claims description 6
- 101150008465 pdb1 gene Proteins 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 238000009434 installation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008844 regulatory mechanism Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
Procedimiento para el reconocimiento de voz independiente del locutor para un terminal de telecomunicaciones o terminal de datos (MS,T) en una red de telecomunicaciones y red de datos (GSM,TN), respectivamente, donde el terminal recibe palabras pronunciadas y las emite como palabras escritas y/o las utiliza internamente para fines de control así como se pueden introducir en el terminal palabras nuevas para la ampliación del vocabulario como palabras escritas con la finalidad de la creación de una trascripción fonética, donde las palabras nuevas escritas son transmitidas por el terminal a través de un trayecto de transmisión de datos (B) de la red de telecomunicaciones y de la red de datos, respectivamente, hacia un servidor central (TS), siendo realizada en el servidor central una reproducción de las palabras en una trascripción fonética, la trascripción fonética es retransmitida a través de un trayecto de transmisión de datos de la red de telecomunicaciones y de la red de datos, respectivamente, hacia el terminal y la trascripción fonética es recibida por éste y es memorizada en éste, caracterizado porque la reproducción en la trascripción fonética se realiza en función de una identificación del terminal utilizando una de una pluralidad de redes neuronales.
Description
Procedimiento y disposición para el
reconocimiento de voz independiente del locutor para un terminal de
telecomunicaciones o terminal de datos.
La invención se refiere a un procedimiento para
el reconocimiento de voz independiente del locutor para un terminal
de telecomunicación o terminal de datos según el preámbulo de la
reivindicación 1 así como a una disposición para la realización de
este procedimiento.
Después de que ha dado buen resultado en PCs
desde hace años la entrada de programas de texto por voz así como
el control por voz de funciones de aparatos y después de que se ha
alcanzado un alto grado de exactitud en el reconocimiento, se
emplea desde hace poco tiempo cada vez con mayor intensidad también
en terminales más sencillos de redes de telecomunicaciones o bien de
redes de datos, especialmente de teléfonos móviles y de PCs
portátiles y de PDAs (Personal Digital Assistants). Ya se pueden
adquirir en el mercado aparatos correspondientes. El control por
voz ofrece aquí una comodidad de manejo elevada durante la
activación de funciones que se requieren con frecuencia o bien en el
caso de selección de números de llamada utilizados con
frecuencia.
El reconocimiento de voz en tales terminales se
basa, en general, en algoritmos de la identificación de voz en
función del locutor. En estos procedimientos, el vocabulario debe
ser entrenado a través de la pronunciación de todas las palabras
por parte del usuario.
En oposición a ello, los procedimientos de
conocimiento de voz independientes del locutor permiten el empleo
inmediato sin inicialización, el llamado proceso de inscripción.
Los terminales más sencillos, relativamente económicos (aparatos de
bajo coste) disponen ya de microcontroladores o microprocesadores
relativamente potentes con alta capacidad de cálculo, de manera que
durante los próximos años es previsible una resolución del
reconocimiento de voz más incómoda dependiente del locutor en tales
aparatos a través del reconocimiento de voz independiente del
locutor más cotoso con respecto a la capacidad de procesamiento
necesaria. Por otra parte, esto tiene la ventaja de que no tiene
que conocerse el vocabulario a priori - lo que sólo
posibilita, en general, determinadas aplicaciones.
Una ampliación del vocabulario en procedimientos
de reconocimiento de voz independiente del locutor se realiza a
través de la generación de una transcripción fonética desde una
representación ortográfica de cada palabra nueva. Por lo tanto, las
palabras nuevas son introducidas como texto a través del usuario
(por ejemplo por medio de un teclado alfanumérico o de una pantalla
de contacto (Touch-Screen), y el texto es
reproducido a continuación en una transcripción fonética
normalizada de los fonemas en el idioma respectivo. Esta
representación forma entonces la base para otras etapas de
procesamiento, en las que los fonemas son divididos en segmentos
más pequeños y son procesados adicionalmente según algoritmos
establecidos del reconocimiento de voz, por ejemplo son registrados
como estados de Hidden-Markov en un espacio de
búsqueda de un modelo de Hidden-Markov.
En idiomas como italiano o español, la conversión
de la ortografía a una trascripción fonética es esencialmente
trivial, porque en estos idiomas se escribe esencialmente como se
habla. En cambio, esta reproducción en otros idiomas, como inglés o
francés, es un proceso costoso, que se desarrolla añadiendo léxicos
de referencia grandes o un mecanismo de regulación complejo o una
red neuronas.
La ejecución de estos mecanismos de reproducción
no es crítica en los PCs modernos con sus memorias grandes y sus
procesadores de capacidad máxima, pero representa todavía
actualmente un problema práctico serio para terminales de
telecomunicaciones o terminales de datos del tipo de bajo coste. Por
lo tanto, los terminales pequeños están equipados hasta hoy con un
reconocimiento de voz dependiente del locutor. En todo caso,
actualmente se pueden realizar sistemas, en los que se lleva a cabo
una ampliación del vocabulario a través de la pronunciación de las
palabras nuevas y, por lo tanto, no se realiza ya realmente de una
manera independiente del locutor.
Para la solución de los problemas explicados
anteriormente, el documento EP 1 047 046 A2 prepara un
procedimiento según el preámbulo de la reivindicación 1. El empleo
de léxicos de pronunciación en el reconocimiento de voz es conocido,
por ejemplo, a partir del documento US 6.078.885 A1.
La invención tiene el cometido de indicar un
procedimiento mejorado de este tipo, en el que se realiza de una
manera más eficiente y más rápida así como de una manera más
sencilla para el usuario una variante de reconocimiento de voz
adecuada para él. Además, debe indicarse una disposición adecuada
para la realización de este procedimiento.
Este cometido se soluciona en lo que se refiere a
su aspecto de procedimiento a través de un procedimiento con las
características de la reivindicación 1 y en lo que se refiere a su
aspecto del dispositivo a través de una disposición con las
características de la reivindicación 6.
La invención parte de la idea esencial de
desplazar la reproducción de un texto en una trascripción fonética
para un terminal sencillo conectado a una red de telecomunicaciones
o bien a una red de datos al menos en sus partes esenciales sobre
un servidor en la red.
Esto posibilita de una manera ventajosa una
descarga del terminal de gasto de procesamiento y la puesta a
disposición de medios de procesamiento de alta calidad, costosos de
espacio de memoria, por ejemplo de léxicos de referencia grandes,
de una red neuronal de alto desarrollo, etc.- independientemente de
la dotación de memoria del terminal. Por lo tanto, se pueden
utilizar léxicos de referencia muy grandes y de una manera más
ventajosas se pueden cuidar y ampliar también de una manera
centralizada, en los que se pueden anotar una pluralidad de
variantes de la pronunciación. Para las palabras, que no están
depositadas en un léxico de referencia, se pueden aplicar para la
reproducción sobre un servidor correspondientemente potente
mecanismos de regulación complejos y, por lo tanto, costosos de
procesamiento o bien redes neuronales. También con respecto a tales
procedimientos, la ejecución en un servidor central posibilita una
ampliación y actualización sencillas y directamente accesibles de
una manera ventajosa para todos los usuarios en la red. La
disponibilidad constante de los mejores recursos de reproducción
posibles en el servidor proporciona para el usuario siempre los
mejores resultados de trascripción posible en el estado respectivo
de la técnica.
Según la invención, la trascripción fonética se
lleva a cabo accediendo a una base de datos de léxicos de
pronunciación asociada al servidor, en otras formas de realización
utilizando una red neuronal ejecutada en el servidor u otro
mecanismo de regulación de procesamiento complejo. También es
conveniente una combinación de estas formas de realización.
Además, la trascripción fonética se realiza en
función de una identificación del terminal o de una identificación
del usuario transmitida a través del terminal de una manera
específica, por ejemplo típica del dialecto o de la pronunciación.
A tal fin se accede especialmente a variantes de pronunciación
depositadas en un léxico de pronunciación grande y/o a uno de una
pluralidad de léxicos de pronunciación diferentes o bien se
utiliza una pluralidad de redes neuronales, formadas para dialectos
o variantes sistemáticas de pronunciación, etc.
En una variante especialmente interesante desde
el punto de vista económico, el procedimiento propuesto se realiza
como servicio de una sociedad de telecomunicaciones o bien de un
proveedor de servicios y se ofrece como tal a los usuarios,
especialmente contra pago, pero en determinados casos también como
servicio gratuito.
Según la forma de realización concreta de la red
de telecomunicaciones o bien de datos y del terminal respectivo se
utilizan con preferencia en cada caso los recursos disponibles más
altamente desarrollados para la transmisión de las nuevas palabras
introducidas hacia el servidor. En el caso de un teléfono móvil
convencional conectado en una red de radio móvil según la Norma GSM,
la transmisión se realiza con preferencia como mensaje corto de
texto por SMS. En el caso de un teléfono móvil con capacidad WAP,
se transmite con preferencia como mensaje de texto según la Norma
WAP. Para las futuras normas de radio móvil, sus protocolos ofrecen
posibilidades correspondientes -especialmente para una red UMTS
será posible la transmisión por medio de un protocolo estándar de
Internet (http).
En el caso de un teléfono de red fija conectada
en una red ISDN, la transmisión se realiza a través de un canal de
datos de la red ISDN. La entrada se realiza aquí con preferencia
(como en el teléfono móvil) a través de un teclado alfanumérico o
por MFV.
Las ventajas y las conveniencias de la invención
se deducen, además, a partir de las reivindicaciones dependientes
así como de la descripción siguiente de un ejemplo de realización
preferido con la ayuda de la figura.
Ésta muestra -en una representación sinóptica,
pero que se puede realizar técnicamente también cuando existen los
supuestos económicos- formas de realización preferidas de la
invención en un teléfono de red fija ISDN T y en un teléfono móvil
GSM MS, que están conectados en una red telefónica por cable TN o
bien en una red de radio móvil GSM, en colaboración con un servidor
de adaptación AS, que está asociado en común a las dos redes de
comunicación TN y GSM. El teléfono de red fija T y el teléfono
móvil MS están en comunicación a través de una línea
telefónica-ISDN ISDN o bien de un interfaz de aire
(no designado especialmente) así como de una estación de base
BTS/BSC, respectivamente, con un centro de conmutación SC o bien
MSC de su red. A través de éste se establece directamente (en la
red fija) o bien indirectamente a través de un servidor adicional
de tránsito GS una comunicación con un centro común de
administración y de servicio PRO de un proveedor de servicios, que
ofrece tanto en la red fija TN como también en la red de radio
móvil GSM un servicio de adaptación como servicio sujeto a
tarifas.
Al servidor de la trascripción TS están asociadas
varias bases de datos de léxicos de pronunciación PDB1 a PDB3 (se
representa en forma de dos bloques funcionales) así como una red
neuronal NN para el procesamiento de palabras nuevas no contenidas
en las bases de datos de léxicos de pronunciación PDB1 a PDB3.
Además, al servidor de la trascripción TS está asociada una
instalación de facturación BM para la facturación de una
utilización del servicio de trascripción.
Las bases de datos de los léxicos de
pronunciación -bases de datos PDB1 a PDB3 contienen léxicos de
referencia relacionados con la lengua del país o bien con el
dialecto, que están adaptados a determinados países o regiones de
origen de los usuarios de la red fija TN o bien de la red de radio
móvil GSM. Los lugares de origen respectivos son identificados en
la red fija con la ayuda de un número d identificación del lugar
del teléfono conectado T y en la red de radio móvil con la ayuda de
las inscripciones den una tarjeta-SIM SIM (en
colaboración con un Registro de Lugares Nacionales -no mostrado
aquí-).
Como medios para la entrada de texto, los dos
terminales T y MS presentan un teclado alfanumérico de una manera
habitual al menos en los teléfonos móviles. Se entiende que en su
lugar puede entrad una pantalla de contacto u otra instalación de
entrada para caracteres alfabéticos. En el teléfono de red fija T
está montada una instalación de interfaz ISDN IF, que está mostrada
sólo de manera simbólica como bloque especial en la figura. La
línea ISDN entre el teléfono de red fija T y el centro de
conmutación SC correspondiente tiene de manera conocida un canal de
voz A y un canal de datos B independiente.
Para la explicación del modo de funcionamiento de
esta disposición se supone que el teléfono móvil está equipado con
un software de base para la identificación de voz independiente del
locutor, pero contiene como vocabulario correspondiente en el
suministro en primer lugar sólo las cifras para la selección y las
instrucciones de control habituales. Con objeto de la utilización
del reconocimiento de voz para la selección de interlocutores, el
usuario introduce su nombre en un listín telefónico de su teléfono
móvil. En virtud de esta entrada, se puede realizar posteriormente
a través de la pronunciación del nombre correspondiente una
selección del interlocutor deseado sin pulsaciones de tecla. No
obstante, en primer lugar, el sistema de reconocimiento de voz debe
recibir transcripciones fonéticas de los nombres seleccionados.
A tal fin, se introduce el nombre respectivo en
el teclado del teléfono móvil y se transmite a través de los
bloques funcionales intercalados al centro de administración y de
servicio PRO del proveedor y, por lo tanto, al servidor de la
trascripción TS conectado allí. Este servidor busca en primer lugar
el nombre correspondiente en la base de datos de léxicos de
pronunciación PDB1 a PDB3, que está asociada al lugar de origen del
usuario del teléfono móvil. Si esta búsqueda no tiene éxito,
entonces o bien se busca en las otras bases de datos de léxicos de
pronunciación, o se emplea uno de los otros mecanismos de
trascripción disponibles, a saber, la red neuronal NN para la
generación de la trascripción fonética.
En un tiempo muy corto, el servicio proporciona
entonces una transcripción fonética del nombre introducido como
resultado y la transmite de nuevo al teléfono móvil MS. Allí se
dividen los fonemas individuales en otras subunidades y se
introducen como estados HMM en un espacio de búsqueda de
reconocimiento (no representado). El nuevo nombre está disponible
para el usuario entonces con alta calidad para futuras entradas de
voz.
De una manera similar se puede realizar la
entrada de nuevos nombres o de otras palabras en principio también
en el teléfono de red fija T. El nombre introducido por teclado
alfanumérico es transmitido en cada caso a través de la línea de
datos B de la red-ISDN ISDN, y ésta es utilizada
para el "reconocimiento" de la trascripción fonética, de
manera que la línea de voz no está implicada en estos procesos. En
lugar de un espacio de búsqueda de reconocimiento ejecutado en el
teléfono T, se pueden utilizar también instalaciones de
reconocimiento de voz asociadas externamente al teléfono para la
parte, que se encuentra en el terminal, de la inicialización y
utilización del sistema de reconocimiento de voz. La realización de
la invención no está limitada a este ejemplo, sino que en el marco
de las reivindicaciones son posibles también una pluralidad de
variaciones, que están en el marco de los conocimientos
técnicos.
Claims (9)
1. Procedimiento para el reconocimiento de voz
independiente del locutor para un terminal de telecomunicaciones o
terminal de datos (MS, T) en una red de telecomunicaciones y red de
datos (GSM, TN), respectivamente, donde el terminal recibe palabras
pronunciadas y las emite como palabras escritas y/o las utiliza
internamente para fines de control así como se pueden introducir en
el terminal palabras nuevas para la ampliación del vocabulario como
palabras escritas con la finalidad de la creación de una
trascripción fonética, donde las palabras nuevas escritas son
transmitidas por el terminal a través de un trayecto de transmisión
de datos (B) de la red de telecomunicaciones y de la red de datos,
respectivamente, hacia un servidor central (TS), siendo realizada en
el servidor central una reproducción de las palabras en una
trascripción fonética, la trascripción fonética es retransmitida a
través de un trayecto de transmisión de datos de la red de
telecomunicaciones y de la red de datos, respectivamente, hacia el
terminal y la trascripción fonética es recibida por éste y es
memorizada en éste, caracterizado porque la reproducción en
la trascripción fonética se realiza en función de una identificación
del terminal utilizando una de una pluralidad de redes
neuronales.
2. Procedimiento según la reivindicación 1,
caracterizado porque la reproducción en la trascripción
fonética se realiza utilizando una red neuronal (NN) ejecutada en
el servidor.
3. Procedimiento según una de las
reivindicaciones anteriores, caracterizado porque la
reproducción en la trascripción fonética está organizada como
servicio autónomo en la red de telecomunicaciones y en la red de
datos (GSM, TN), respectivamente.
4. Procedimiento según una de las
reivindicaciones anteriores, caracterizado porque la
transmisión desde y hacia un terminal de radio móvil (MS) se realiza
como mensaje corto o por medio de WAP a través de una red de radio
móvil (GSM), especialmente incluyendo una comunicación con una red
IP.
5. Procedimiento según una de las
reivindicaciones 1 a 4, caracterizado porque la transmisión
desde y hacia un teléfono de red fija (T) se realiza a través de un
canal de datos ISDN (B) de una red fija ISDN (TN).
6. Disposición, adaptada para la realización de
cada etapa individual de un procedimiento según una de las
reivindicaciones anteriores, con una pluralidad de terminales (MS,
T) conectados en la red de telecomunicaciones y en la red de datos,
respectivamente, y con un servidor (TS) conectado en una central de
servicio (PRO) de la red de telecomunicaciones y de la red de datos
(GSM, TN), que puede acceder a una base de datos de léxicos de
conversación (PDB1 a PDB3) con una pluralidad de léxicos de
conversación accesibles en función de identificaciones de los
terminales y/o presenta una pluralidad de redes neuronales (NH),
accesibles igualmente en función de identificaciones de los
terminales (PDB1 a PDB3, NN, HMM) para la reproducción de las
palabras nuevas introducidas en uno de los terminales en una
trascripción fonética.
7. Disposición según la reivindicación 6,
caracterizada por una instalación de facturación (BM)
asociada al servidor para la facturación de la reproducción en la
trascripción fonética como servicio.
8. Disposición según la reivindicación 6 ó 7,
caracterizada porque al menos una parte de los terminales
conectados están configurados como terminales de radio móvil (MS)
con medios para la emisión de un mensaje de texto corto por SMS o
de un mensaje de texto a través de un protocolo de Internet,
especialmente el WAP.
9. Disposición según una de las reivindicaciones
6 a 8, caracterizada porque al menos una parte de los
terminales conectados están configurados como teléfono de red fija
(T) con medios para la entrada y transmisión de texto, especialmente
de una instalación de interfaz ISDN (IF).
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20000127747 EP1220200B1 (de) | 2000-12-18 | 2000-12-18 | Verfahren und Anordnung zur sprecherunabhängigen Spracherkennung für ein Telekommunikations- bzw. Datenendgerät |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2208212T3 true ES2208212T3 (es) | 2004-06-16 |
Family
ID=8170713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00127747T Expired - Lifetime ES2208212T3 (es) | 2000-12-18 | 2000-12-18 | Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos. |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1220200B1 (es) |
DE (1) | DE50003855D1 (es) |
ES (1) | ES2208212T3 (es) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE449401T1 (de) * | 2004-05-21 | 2009-12-15 | Harman Becker Automotive Sys | Automatische erzeugung einer wortaussprache für die spracherkennung |
US7596370B2 (en) * | 2004-12-16 | 2009-09-29 | General Motors Corporation | Management of nametags in a vehicle communications system |
US7711358B2 (en) | 2004-12-16 | 2010-05-04 | General Motors Llc | Method and system for modifying nametag files for transfer between vehicles |
EP1859608A1 (fr) * | 2005-03-16 | 2007-11-28 | France Telecom S.A. | Procédé de création automatique d'étiquettes vocales dans un carnet d'adresses |
DE102006056286B4 (de) * | 2006-11-29 | 2014-09-11 | Audi Ag | Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug |
DE102013213337A1 (de) | 2013-07-08 | 2015-01-08 | Continental Automotive Gmbh | Verfahren und Einrichtung zur Identifizierung und Ausgabe des Inhalts eines Hinweistextes |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5131045A (en) * | 1990-05-10 | 1992-07-14 | Roth Richard G | Audio-augmented data keying |
EP0891589B1 (de) * | 1996-04-02 | 1999-10-06 | Siemens Aktiengesellschaft | Anordnung zur erstellung eines digitalen wörterbuchs und verfahren zum aufbau eines digitalen wörterbuchs mit hilfe eines rechners |
DE19751123C1 (de) * | 1997-11-19 | 1999-06-17 | Deutsche Telekom Ag | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen |
US6314165B1 (en) * | 1998-04-30 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Automated hotel attendant using speech recognition |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US6463413B1 (en) * | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
-
2000
- 2000-12-18 DE DE50003855T patent/DE50003855D1/de not_active Expired - Lifetime
- 2000-12-18 ES ES00127747T patent/ES2208212T3/es not_active Expired - Lifetime
- 2000-12-18 EP EP20000127747 patent/EP1220200B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1220200B1 (de) | 2003-09-24 |
DE50003855D1 (de) | 2003-10-30 |
EP1220200A1 (de) | 2002-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8577681B2 (en) | Pronunciation discovery for spoken words | |
EP1291848B1 (en) | Multilingual pronunciations for speech recognition | |
ES2330758T3 (es) | Procedimiento para personalizar un servicio. | |
ES2233954T3 (es) | Metodo para reconocimiento de voz automatico de palabras habladas arbitrarias. | |
JP3323519B2 (ja) | テキスト−音声変換装置 | |
ES2228739T3 (es) | Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi. | |
AU2018201474A1 (en) | Systems and methods for name pronunciation | |
KR100769029B1 (ko) | 다언어의 이름들의 음성 인식을 위한 방법 및 시스템 | |
US8204748B2 (en) | System and method for providing a textual representation of an audio message to a mobile device | |
US20050197837A1 (en) | Enhanced multilingual speech recognition system | |
WO2006074345A1 (en) | Hands-free system and method for retrieving and processing phonebook information from a wireless phone in a vehicle | |
EP1251492A1 (en) | Arrangement of speaker-independent speech recognition based on a client-server system | |
ES2208212T3 (es) | Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos. | |
ES2268564T3 (es) | Sistema y metodo de recuperacion de numeros de telefono. | |
US7664639B2 (en) | Apparatus and methods for speech recognition | |
US20050131685A1 (en) | Installing language modules in a mobile communication device | |
WO2016106552A1 (en) | Voice recognition-based dialing | |
US20050125230A1 (en) | Method and apparatus for entering alphabetic characters | |
JP5510069B2 (ja) | 翻訳装置 | |
ES2208210T3 (es) | Procedimiento y disposicion para el reconocimiento de voz para un aparato pequeño. | |
KR100414064B1 (ko) | 음성인식에 의한 이동통신 단말기 제어시스템 및 방법 | |
US20040049386A1 (en) | Speech recognition method and system for a small device | |
EP1524870B1 (en) | Method for communicating information in a preferred language from a server via a mobile communication device | |
WO2009020272A1 (en) | Method and apparatus for distributed speech recognition using phonemic symbol | |
EP1617635A2 (en) | Speech recognition by a portable terminal for voice dialing |