ES2238054T3 - Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño. - Google Patents
Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño.Info
- Publication number
- ES2238054T3 ES2238054T3 ES01991834T ES01991834T ES2238054T3 ES 2238054 T3 ES2238054 T3 ES 2238054T3 ES 01991834 T ES01991834 T ES 01991834T ES 01991834 T ES01991834 T ES 01991834T ES 2238054 T3 ES2238054 T3 ES 2238054T3
- Authority
- ES
- Spain
- Prior art keywords
- characters
- letters
- server
- network
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004891 communication Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 230000009466 transformation Effects 0.000 claims abstract 6
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000008901 benefit Effects 0.000 description 4
- 101000644537 Homo sapiens Sequestosome-1 Proteins 0.000 description 2
- 102100020814 Sequestosome-1 Human genes 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 101150008465 pdb1 gene Proteins 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
Procedimiento para el reconocimiento de voz para un aparato pequeño (MS, T) unido con una red de telecomunicaciones o bien una red de datos (GSM, TN), donde el procedimiento incluye un reconocimiento de cadenas de letras o bien caracteres como palabras, que se emiten como palabra escrita y/o se utiliza para fines de mando, y el reconocimiento de las cadenas de letras o bien caracteres se realiza al menos parcialmente en un servidor central (PRO) unido a través de la red de comunicaciones o bien de datos con el aparato pequeño, caracterizado porque las cadenas de letras o bien caracteres a reconocer se forman a partir de letras o bien caracteres individuales pronunciados, y en el aparato pequeño (MST) se realiza en una primera etapa de transformación una conversión voz-texto de la cadena de letras o bien caracteres pronunciada en una cadena provisional escrita de letras o bien caracteres, se transmite la cadena de letras o bien caracteres provisional escrita al servidor central (PRO), se comprueba y dado el caso se corrige en el servidor en una segunda etapa de transformación la cadena provisional de letras o bien caracteres, en base a una matriz de confusión de letras (CMA) y/o un modelo de letras-voz (SMO) y se confecciona la palabra y, la palabra se transmite de retorno al aparato pequeño y es recibida por éste y es procesada y/o memorizada en éste.
Description
Procedimiento y sistema para el reconocimiento de
voz para un aparato pequeño
La invención se refiere a un procedimiento para
el reconocimiento de voz para un aparato pequeño unido con una red
de telecomunicaciones o bien de datos, según el concepto general de
las reivindicaciones 1 y 2, así como un sistema correspondiente o
bien o un aparato correspondiente.
Los pequeños aparatos electrónicos, cuya marcha
triunfal en la electrónica de consumo comenzó con los aparatos
radiotransistores portátiles o de bolsillo y que ha continuado de
manera impresionante con el walkman y posteriormente el discman, en
la gama de los aparatos de audio, así como con las calculadoras de
bolsillo y traductoras de bolsillo, así como bases de datos en la
gama de los aparatos de tratamiento de datos y memorización de
datos, son cada vez más potentes y complejos y formulan en parte
exigencias bastante elevadas a la destreza de manejo del usuario.
También los sistemas inteligentes de diálogo, tal como los que se
utilizan hoy en día en pequeños aparatos complejos como teléfonos
móviles o PCs portátiles, formulan en cuanto a su manejo exigencias
todavía relativamente elevadas a la destreza y paciencia de sus
usuarios. Por lo tanto, la introducción del reconocimiento de voz
para el control de tales aparatos es interesante en particular para
los usuarios muy ocupados con el centro de gravedad en su
utilización profesional por un lado y personas mayores así como
niños por otro lado.
Los aparatos pequeños con control por voz son -
en particular como teléfonos móviles - ya conocidos y pueden
obtenerse en el mercado. Los sistemas allí implementados para el
reconocimiento de la voz, no pueden no obstante, debido a la
necesariamente limitada capacidad de procesamiento y memoria de los
aparatos pequeños, a pesar de todos los progresos en la técnica de
los procesadores y de la memoria, lograr las prestaciones de los
sistemas de reconocimiento de voz, tales como los que se utilizan en
PCs por ejemplo para la introducción de textos. Actualmente pueden
realizarse a menudo sólo vocabularios de varios cientos de palabras.
Aquí tiene una repercusión especialmente grave el problema general
de los reconocimientos erróneos al pronunciar palabras desconocidas,
que existe en todos los sistemas de reconocimiento de voz.
En este contexto Gilloire y otros dan a conocer
en "Procesamiento innovador de la voz para terminales móviles:
una bibliografía comentada", Signal Processing (procesamiento de
señales) 80 (2000), págs. 1149-1166, principios para
un procedimiento para el reconocimiento de la voz para un sistema
móvil unido a una red de telefonía móvil, en el que están
implementados los algoritmos necesarios para el proceso de
reconocimiento totalmente (pág. 1150, columna derecha) o bien
parcialmente (pág. 1160, columna izquierda) en la red o bien en un
servidor unido con la red. El reconocimiento de voz se trata desde
luego en la publicación sólo bajo el aspecto del reconocimiento de
un flujo de habla continuo. Tampoco se discute cómo se realizarían
técnicamente estos principios.
En la comunicación humana, para el reconocimiento
de palabras o formas de escrituras desconocidas, se recurre desde
hace siglos al deletreado. No obstante, cuando se pronuncia
sencillamente una secuencia de letras, la tasa de errores en la
comunicación humana es ya relativamente elevada, y los sistemas de
reconocimiento de voz actuales aportan todavía resultados poco
satisfactorios. En particular, grupos de letras como los grupos c,
b, d, e, g, p, t, t, w o bien m, n o bien a, h, k, implican un gran
peligro de confusión, ya que suenan muy similares.
En una secuencia de letras, por supuesto puede
utilizar el ser humano positivamente su sentido del lenguaje y su
conocimiento del contexto y eliminar claramente o probablemente
combinaciones de letras que no tienen sentido y que resultan de un
reconocimiento incorrecto de letras individuales de una secuencia, e
"imaginar" en su lugar combinaciones razonables. Además del
mencionado conocimiento del contexto, le son también de gran ayuda
el conocimiento de las secuencias de letras probables y de
redundancia en las palabras. De esta forma se reduce de manera
importante en la comunicación humana la tasa de errores al
deletrear.
También se conoce la práctica de utilizar en
sistemas de reconocimiento de voz la probabilidad de determinadas
secuencias de letras para el reconocimiento de palabras pronunciadas
mediante deletreo. Por lo demás, los correspondientes sistemas se
utilizan ya desde hace mucho tiempo en teléfonos móviles para la
introducción de mensajes cortos (SMS) mediante el teclado, y se han
acreditado allí. Básicamente, es posible también la utilización del
conocimiento del contexto en sistemas de reconocimiento de voz, pero
ésta exige, no obstante, capacidades de memoria muy grandes y por lo
tanto prácticamente es irrealizable actualmente en aparatos
pequeños.
La invención tiene por tanto como tarea básica la
puesta a disposición de un procedimiento de este tipo, así como el
correspondiente sistema, con los cuales pueda mejorarse
sensiblemente con un coste razonable el reconocimiento de cadenas de
letras o de caracteres hablados.
Esta tarea se resuelve en cuanto a su aspecto de
procedimiento mediante un procedimiento con las particularidades de
la reivindicación 1 ó 2 y en cuanto a su aspecto de dispositivo
mediante un sistema y un aparato pequeño con las particularidades de
la reivindicación 10.
La invención incluye la idea fundamental de
desplazar al exterior del aparato pequeño al menos las etapas
costosas en cuanto a lugares de memoria del reconocimiento de una
secuencia de letras hablada en el aparato pequeño. Además, incluye
la idea de utilizar para estas etapas del procedimiento un servidor
central dispuesto en la red de telecomunicaciones o de datos, el
cual dispone para ello prácticamente de una capacidad ilimitada. En
el aparato pequeño permanece, ventajosamente, sólo un sencillo
reconocimiento de cadenas de letras, para el que se necesita poca
potencia de cálculo y espacio de memoria y que por lo tanto también
es posible mediante microcontroladores y DSPs (Digital Signal
Processors) de los pequeños aparatos mencionados.
Mediante la utilización del conocimiento del
fondo y del contexto en el servidor, pueden lograrse también
entonces en su conjunto prestaciones de reconocimiento muy buenas a
nivel de palabra, cuando en el precedente reconocimiento de cadenas
de letras inicial se presentaba una tasa de errores muy elevada. La
invención prevé en el sentido de la mencionada división del trabajo
entre el aparato pequeño como cliente y el servidor central una
conversión voz - texto de las cadenas de letras o signos habladas en
una cadena de letras o signos provisional escrita en el aparato
pequeño, a continuación la transmisión de la misma al servidor, a
continuación una comprobación y dado el caso corrección de estas
cadenas de letras o signos en el servidor y la transmisión de
retorno de la cadena de signos y letras comprobada al aparato
pequeño, a continuación de lo cual puede realizarse en el aparato
pequeño otro procesamiento sencillo en el sentido de una
confirmación de la palabra recibida.
En una ejecución alternativa de la invención se
prevé que el reconocimiento se cierre ya en el servidor y se
transmita de retorno la palabra definitiva al aparato pequeño, sea
recibida por éste y allí memorizada. Se entiende que una
memorización en el aparato pequeño, de manera razonable, tiene lugar
también cuando la fijación definitiva de la palabra reconocida tiene
lugar allí.
El componente esencial del procedimiento que
reside en el servidor corre en particular en base a una o varias
matrices de confusión de letras o bien un modelo de lenguaje de
letras, pudiendo éste utilizar, debido a los recursos prácticamente
ilimitados del servidor, algoritmos complejos y extensas bases de
datos de contexto.
En una ejecución preferente de la invención, se
introduce en el aparato pequeño, en relación con la cadena de letras
y caracteres, un clasificador de palabras por parte del usuario y se
transmite juntamente con la cadena provisional escrita de letras y
signos al servidor, donde el mismo la utiliza como información
adicional para el proceso de reconocimiento que allí corre
(comprobación y dado el caso corrección). En el aparato pequeño se
forma en particular a partir de la búsqueda de cadenas de letras un
llamado gráfico de hipótesis de palabras y se transmite al servidor
y en el servidor se realiza sobre este gráfico de hipótesis de
palabras una búsqueda en una base de datos de vocabulario con varias
zonas de memoria o en varias bases de datos de vocabularios.
Las clases de palabras especificadas mediante el
clasificador de palabras pueden ser por ejemplo nombres de personas,
nombres de calles o de lugares o direcciones de internet, o también
términos especializados de un determinado sector o similares, para
los cuales se lleva en cada caso en el servidor un índice o bien
vocabulario. El procesamiento centralizado ofrece aquí también la
ventaja especial de una actualización y conservación económica de
las existencias de datos, lo cual dado el rápidamente creciente
número de nombres de dominio, es en particular muy importante para
direcciones de internet.
En una variante especialmente interesante desde
el punto de vista económico, se realiza el procedimiento propuesto
como servicio de una empresa de telecomunicaciones o bien de un
ofertante de servicios y se ofrece como tal a los usuarios, en
particular frente a tarifa, pero también ocasionalmente como
servicio gratuito.
En función de la ejecución concreta de la red de
telecomunicaciones o de datos y del correspondiente aparato
terminal, se utilizan en cada caso preferentemente los recursos más
evolucionados disponibles para la transmisión al servidor de las
nuevas palabras introducidas. Para un teléfono móvil conectado a una
red de telefonía móvil según el estándar GSM, tiene lugar la
transmisión preferentemente como mensaje breve de texto por SMS, y
en un teléfono móvil con posibilidad de WAP preferentemente como
mensaje breve según el estándar WAP. Para futuros estándares de
telefonía móvil, sus protocolos ofrecerán las correspondientes
posibilidades; en particular, para una red UMTS será posible la
transmisión mediante un protocolo estándar de internet (HTTP). Para
un teléfono de red fija conectado a una red ISDN, se realiza la
transmisión mediante un canal de datos de la red ISDN. La entrada se
realiza aquí preferentemente (como en el caso del teléfono móvil)
mediante un teclado alfanumérico o por MFV.
Además de las ejecuciones antes mencionadas, el
aparato pequeño puede estar realizado en particular también como PC
portátil o PDA para su conexión a una red de telecomunicaciones y/o
de datos, o bien también como unidad móvil de entrada de un sistema
de control con manejo a distancia.
El mismo presenta en particular un equipo de
visualización configurado para la visualización de varias cadenas de
letras o de caracteres y un equipo de confirmación para la
confirmación de una palabra reconocida por el servidor. Esta puede
estar realizada en particular como softkey relacionada con un
control por menú o sobre una pantalla táctil
(Touch-Screen).
Las ventajas y aspectos convenientes de la
invención resultan por lo demás de las reivindicaciones secundarias,
así como de la siguiente descripción de un ejemplo de ejecución
preferente en base a la figura.
Esta muestra - en una representación sinóptica,
que no obstante también es realizable técnicamente si existen las
premisas económicas - ejecuciones preferentes de la invención sobre
un teléfono T para una red fija ISDN y un teléfono móvil GSM MS, que
están conectados a una red de telefonía ligada a línea TN y una red
de telefonía móvil GSM respectivamente, interactuando con un
reconocedor de secuencias de letras CSR, que está asociado
conjuntamente a ambas redes de comunicaciones TN y GSM. El teléfono
de red fija T y el teléfono móvil MS están enlazados respectivamente
mediante una red telefónica ISDN y mediante una interfaz de aire (no
dibujada separadamente), así como una estación de base BTS/BSC en
cada caso con una central de conmutación SC y MSC respectivamente de
su red. Mediante la misma se genera directamente (en la red fija) e
indirectamente a través de un servidor de puerta de entrada
(Gateway-Server) adicional GS un enlace con un
centro común de gestión y servicios PRO de un ofertante de
servicios, que tanto en la red fija TN como también en la red móvil
GSM ofrece un servicio de transcripción como servicio ligado a
tarifas.
En la figura se han dibujado a modo de boceto
componentes de procesamiento de señal internos para el teléfono
móvil MS, los cuales participan en el proceso completo del
reconocimiento de la cadena de caracteres; naturalmente el teléfono
de red fija T puede disponer también de componentes analógicos. Al
respecto, se trata de un convertidor voz-texto STC
para la conversión de las cadenas de letras pronunciadas en cadenas
de letras forma de textos, un gráfico de hipótesis de palabras WHG
unido con el anterior, así como un clasificador de palabras WCL
unido con el teclado de entrada y, finalmente, una etapa emisora de
cadenas de letras CCT, que es alimentada por los componentes citados
al principio.
El reconocedor de secuencias de letras CSR lleva
asociadas varias bases de datos de vocabulario de texto PDB1 a PDB3,
así como (representada esquemáticamente en forma de dos bloques
funcionales) una matriz de confusión de letras CMA, así como un
modelo de letras-voz SMO para la elaboración.
Además, el reconocedor de secuencias de letras lleva asociado un
equipo de tarificación BM para la tarificación de una utilización de
servicio de transcripción.
En el teléfono de red fija T está alojado un
equipo de interfaz ISDN IF, que en la figura simplemente se ha
mostrado simbólicamente como bloque separado. La línea ISDN entre el
teléfono de red fija T y la correspondiente central de conmutación
SC tiene, de la manera conocida, un canal de voz A y un canal de
datos B independiente.
Tal como se mencionó antes, tiene lugar en el
teléfono móvil tras la conversión de la voz en texto en el
convertidor voz-texto STC e involucrando el gráfico
de hipótesis de palabras WHG, un reconocimiento provisional de
cadenas de letras para palabras deletreadas por el usuario. El
resultado del reconocimiento se transmite mediante la etapa emisora
de cadenas de letras CCT juntamente con el clasificador de palabras
introducido por el usuario por teclado al centro de gestión y
servicios PRO del proveedor, así como el reconocedor de secuencia de
letras CSR allí conectado. Este ejecuta, accediendo a las bases de
datos del vocabulario de referencia PDB1 a PDB3, la matriz de
confusión de letras CMA y el modelo de letras-voz
SMO, una comprobación de la cadena de letras emitida por el teléfono
móvil en base a un extenso conocimiento idiomático de la base y del
contexto del correspondiente idioma del usuario.
La elección del idioma tiene lugar entonces en
base a los datos del usuario memorizados en la tarjeta SIM y/o en
base a una elección realizada por el usuario al comienzo del
correspondiente menú. Se comprende que la pronunciación típica del
país de caracteres, costumbres de deletreo, etc., son tenidas
en
cuenta al respecto.
cuenta al respecto.
Si en base a la comprobación resulta que para
otras cadenas de letras diferentes a la cadena de letras provisional
emitida por el teléfono móvil, es decir, otras palabras deletreadas,
existen probabilidades significativas, entonces todas estas palabras
son transmitidas de retorno al teléfono móvil y mostradas en su
display juntamente con una solicitud de selección dirigida al
usuario. Una vez que el usuario ha realizado su selección actuando
sobre una softkey, queda fijada la palabra correspondiente y se
incluye en la memoria de vocabulario interna. (Es también posible
que se transmita de retorno al teléfono móvil exclusivamente la
cadena de letras o bien la palabra con la máxima probabilidad
calculada por el reconocedor de cadenas de letras, y allí se procese
como resultado definitivo del proceso de reconocimiento y (a
elección) se memorice.
Análogamente funciona el distintivo de cadenas de
letras comprobado para cadenas de letras pronunciadas en el teléfono
de red fija T. La transmisión de retorno de la cadena de letras o
cadenas de letras comprobada(s) y dado el caso
corregida(s), se realiza aquí en particular mediante el canal
B de la red ISDN. Aquí puede tener lugar también una preselección o
confirmación de las fuentes de conocimiento a utilizar en la
comprobación central en el reconocedor de cadenas de letras CSR por
parte del usuario, o las mismas son elegidas en función del
distintivo de la red local o nacional del usuario del teléfono de
red fija.
La ejecución de la invención no queda limitada a
este ejemplo, sino que es posible en el marco de las
reivindicaciones también en el marco de múltiples modificaciones que
se encuentran en el ámbito del trato especializado.
Claims (18)
1. Procedimiento para el reconocimiento de voz
para un aparato pequeño (MS, T) unido con una red de
telecomunicaciones o bien una red de datos (GSM, TN),
donde el procedimiento incluye un reconocimiento
de cadenas de letras o bien caracteres como palabras, que se emiten
como palabra escrita y/o se utiliza para fines de mando, y el
reconocimiento de las cadenas de letras o bien caracteres se realiza
al menos parcialmente en un servidor central (PRO) unido a través de
la red de comunicaciones o bien de datos con el aparato pequeño,
caracterizado porque las cadenas de letras
o bien caracteres a reconocer se forman a partir de letras o bien
caracteres individuales pronunciados, y en el aparato pequeño (MST)
se realiza en una primera etapa de transformación una conversión
voz-texto de la cadena de letras o bien caracteres
pronunciada en una cadena provisional escrita de letras o bien
caracteres,
se transmite la cadena de letras o bien
caracteres provisional escrita al servidor central (PRO),
se comprueba y dado el caso se corrige en el
servidor en una segunda etapa de transformación la cadena
provisional de letras o bien caracteres, en base a una matriz de
confusión de letras (CMA) y/o un modelo de
letras-voz (SMO) y se confecciona la palabra y,
la palabra se transmite de retorno al aparato
pequeño y es recibida por éste y es procesada y/o memorizada en
éste.
2. Procedimiento para el reconocimiento de la voz
para un aparato pequeño (MS, T) unido con una red de
telecomunicaciones o bien de datos (GSM, TN),
en el que el procedimiento incluye un
reconocimiento de cadenas de letras o bien caracteres como palabras,
que se emiten como palabra escrita y/o se utilizan para fines de
mando y ejecutándose el reconocimiento de las cadenas de letras o
bien caracteres al menos en parte en un servidor central (PRO) unido
a través de la red de comunicaciones o bien de datos con el aparato
pequeño, caracterizado porque
las cadenas de letras o bien caracteres a
reconocer se forman a partir de las letras o bien caracteres
individuales pronunciados y en el aparato pequeño (MS, T) se ejecuta
en una primera etapa de transformación una conversión provisional
voz-texto de la cadena de letras o bien caracteres
pronunciada en una cadena de letras o bien caracteres provisional
escrita,
se transmite la cadena de letras o bien
caracteres provisional escrita al servidor central (PRO),
se comprueba y dado el caso se corrige en el
servidor en una segunda etapa de transformación la cadena
provisional de letras o bien caracteres, en base a una matriz de
confusión de letras y/o un modelo de letras-voz y
se genera al menos una cadena de letras o bien caracteres comprobada
y corregida,
la cadena de letras o bien caracteres comprobada
o bien las cadenas de letras y caracteres comprobadas se
transmite(n) de retorno al aparato pequeño y es/son
recibida(s) por éste y
en el aparato pequeño, en una tercera etapa de
transformación a partir de la cadena de letras o bien caracteres
comprobada o de las cadenas de letras o bien caracteres comprobadas,
se forma la palabra y se memoriza y/o procesa.
3. Procedimiento según una de las
reivindicaciones precedentes, caracterizado porque en el
aparato pequeño (MS, T) se introduce en relación con la cadena de
letras o bien caracteres un clasificador de palabras,
el clasificador de palabras se transmite
juntamente con la cadena provisional de letras o bien caracteres al
servidor (PRO) y se evalúa como información adicional para el
reconocimiento.
4. Procedimiento según la reivindicación 5,
caracterizado porque en el aparato pequeño (MS, T), a partir
del reconocimiento de las cadenas de caracteres se forma un gráfico
de hipótesis de palabras y se transmite al servidor (PRO) y en el
servidor se ejecuta sobre el gráfico de hipótesis de palabras una
búsqueda en una base de datos de vocabulario de texto con varias
zonas de memoria asociadas en cada caso a una clase de palabras.
5. Procedimiento según una de las
reivindicaciones 2 a 4, caracterizado porque la cadena de
letras o bien caracteres comprobada o las cadenas de letras o bien
caracteres comprobadas, se visualiza o visualizan sobre el aparato
pequeño (MS, T), para la determinación final por parte del
usuario.
6. Procedimiento según la reivindicación 5,
caracterizado porque la visualización de las cadenas de
palabras o bien caracteres se realiza en la secuencia según su
probabilidad determinada por el servidor.
7. Procedimiento según una de las
reivindicaciones precedentes, caracterizado porque la parte
del reconocimiento que corre en el servidor (PRO) se organiza como
servicio de la red de telecomunicaciones o bien de datos.
8. Procedimiento según una de las
reivindicaciones precedentes, caracterizado porque la
transmisión desde y hacia un aparato terminal de telefonía móvil
(MS) se realiza como mensaje corto o bien a través de la WAP
mediante una red de telefonía móvil (GSM), en particular incluyendo
un enlace con una red IP.
9. Procedimiento según una de las
reivindicaciones 1 a 7, caracterizado porque la transmisión
desde y hacia un teléfono de la red fija (T) se realiza a través de
un canal de datos ISDN (B) de una red fija ISDN (ISDN).
10. Sistema que dispone de medios para la
realización de cada etapa individual del procedimiento según una de
las reivindicaciones precedentes,
con múltiples aparatos terminales (MS, T)
conectados a la red de telecomunicaciones o bien de datos (GSM,
ISDN) y un servidor (PRO) conectado a una central de servicios de
telecomunicaciones o bien de datos,
caracterizado porque el servidor (PRO)
dispone de medios (CSR) para el reconocimiento de la cadena de
letras o bien caracteres.
11. Sistema según la reivindicación 10,
caracterizado porque los elementos (CSR) para el
reconocimiento de la cadena de letras o bien caracteres presentan al
menos una matriz de confusión de letras (CMA) y/o al menos un modelo
letras-voz (SMO).
12. Sistema según una de las reivindicaciones 10
u 11, caracterizado por un equipo de tarificación (BM)
asociado al servidor (PRO), para la tarificación de la parte
aportada por el servidor del reconocimiento de la cadena de letras o
bien caracteres como servicio.
13. Sistema según una de las reivindicaciones 10
a 12, caracterizado porque el aparato pequeño está
configurado como aparato terminal de telefonía móvil (MS) que está
unido mediante una red de telefonía móvil (GSM), en particular
incluyendo un enlace con una red IP con el servidor.
14. Sistema según una de las reivindicaciones 10
a 13, caracterizado porque el aparato pequeño está
configurado como teléfono de red fija (T), que está unido mediante
un canal de datos ISDN (B) de una red fija ISDN (ISDN) con el
servidor.
15. Sistema según una de las reivindicaciones 10
a 14, caracterizado porque el aparato pequeño está
configurado como un aparato de procesamiento de datos o de
operación, unido con el servidor mediante una red telefónica fija,
en particular una red fija ISDN, una red de telefonía móvil o una
red de datos, estando configurado en particular como un PC portátil
o unidad de entrada móvil de un sistema de telecontrol.
16. Sistema según una de las reivindicaciones 10
a 15, caracterizado porque el aparato pequeño presenta un
equipo de visualización configurado para visualizar varias cadenas
de letras o bien caracteres y un equipo de confirmación para la
determinación definitiva de la palabra.
17. Sistema según la reivindicación 16,
caracterizado porque el dispositivo de visualización para
visualizar las cadenas de letras o caracteres está configurado según
su probabilidad determinada por el servidor.
18. Sistema según la reivindicación 16 ó 17,
caracterizado porque equipo de confirmación presenta una
pantalla táctil (touch-screen) o un control por menú
unido por una tecla de entrada, en particular una softkey.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00127457 | 2000-12-14 | ||
EP00127457 | 2000-12-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2238054T3 true ES2238054T3 (es) | 2005-08-16 |
Family
ID=8170671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01991834T Expired - Lifetime ES2238054T3 (es) | 2000-12-14 | 2001-12-12 | Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño. |
Country Status (5)
Country | Link |
---|---|
US (1) | US20040049386A1 (es) |
EP (1) | EP1352388B1 (es) |
DE (1) | DE50106056D1 (es) |
ES (1) | ES2238054T3 (es) |
WO (1) | WO2002049004A2 (es) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7418381B2 (en) * | 2001-09-07 | 2008-08-26 | Hewlett-Packard Development Company, L.P. | Device for automatically translating and presenting voice messages as text messages |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US20070016420A1 (en) * | 2005-07-07 | 2007-01-18 | International Business Machines Corporation | Dictionary lookup for mobile devices using spelling recognition |
US10540957B2 (en) * | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
US10049198B2 (en) * | 2015-03-18 | 2018-08-14 | International Business Machines Corporation | Securing a device using graphical analysis |
US10049199B2 (en) * | 2015-03-18 | 2018-08-14 | International Business Machines Corporation | Securing a device using graphical analysis |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5303299A (en) * | 1990-05-15 | 1994-04-12 | Vcs Industries, Inc. | Method for continuous recognition of alphanumeric strings spoken over a telephone network |
FR2696067B1 (fr) * | 1992-09-21 | 1994-11-25 | France Telecom | Installation de télécommunication à téléchargement sécurisé de moyens de pré-paiement et procédé de téléchargement correspondant. |
AU5803394A (en) * | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
US5812639A (en) * | 1994-12-05 | 1998-09-22 | Bell Atlantic Network Services, Inc. | Message communication via common signaling channel |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
US5995928A (en) * | 1996-10-02 | 1999-11-30 | Speechworks International, Inc. | Method and apparatus for continuous spelling speech recognition with early identification |
US6137863A (en) * | 1996-12-13 | 2000-10-24 | At&T Corp. | Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition |
CA2219008C (en) * | 1997-10-21 | 2002-11-19 | Bell Canada | A method and apparatus for improving the utility of speech recognition |
US6161082A (en) * | 1997-11-18 | 2000-12-12 | At&T Corp | Network based language translation system |
US20020055351A1 (en) * | 1999-11-12 | 2002-05-09 | Elsey Nicholas J. | Technique for providing personalized information and communications services |
-
2001
- 2001-12-12 ES ES01991834T patent/ES2238054T3/es not_active Expired - Lifetime
- 2001-12-12 EP EP01991834A patent/EP1352388B1/de not_active Expired - Lifetime
- 2001-12-12 US US10/450,580 patent/US20040049386A1/en not_active Abandoned
- 2001-12-12 WO PCT/EP2001/014616 patent/WO2002049004A2/de active IP Right Grant
- 2001-12-12 DE DE50106056T patent/DE50106056D1/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1352388B1 (de) | 2005-04-27 |
US20040049386A1 (en) | 2004-03-11 |
WO2002049004A2 (de) | 2002-06-20 |
WO2002049004A3 (de) | 2002-09-19 |
DE50106056D1 (de) | 2005-06-02 |
EP1352388A2 (de) | 2003-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2233002T3 (es) | Sistema de reconocimiento de habla con lexico actualizable mediante introduccion de palabras deletreadas. | |
CA2929018C (en) | Natural expression processing method, processing and response method, device and system | |
KR101670150B1 (ko) | 이름 발음을 위한 시스템 및 방법 | |
KR101703214B1 (ko) | 문자 데이터의 내용을 문자 데이터 송신자의 음성으로 출력하는 방법 | |
ES2208908T3 (es) | Sistema y procedimiento para la codificacion y la difusion de informaciones vocales. | |
CN101105894B (zh) | 多功能语言学习机 | |
KR20090085376A (ko) | 문자 메시지의 음성 합성을 이용한 서비스 방법 및 장치 | |
KR20080032640A (ko) | 숫자의 텍스트 및 스피치 변환 | |
CN1731510B (zh) | 混合语言文语转换 | |
CN107993646A (zh) | 一种实现实时语音互译的方法 | |
ES2238054T3 (es) | Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño. | |
KR101277313B1 (ko) | 의사소통 보조 장치 및 방법 | |
KR20000072073A (ko) | 음성 인식 및 음성 합성 기술을 이용한 자동동시통역서비스 방법 및 그 시스템 | |
KR102416041B1 (ko) | 다국어 동시 학습 시스템 | |
US20090306978A1 (en) | Method and system for encoding languages | |
KR101746180B1 (ko) | 피아노 교습 서비스 제공 방법 및 이를 기록한 기록매체 | |
KR101873379B1 (ko) | 대화를 이용한 언어 학습 시스템 | |
ES2208212T3 (es) | Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos. | |
CN113160804A (zh) | 混合语音的识别方法及装置、存储介质、电子装置 | |
CN102067575A (zh) | 拉丁字符输入设备和使用该设备的便携式终端单元 | |
CN104517485A (zh) | 一种在虚拟社区学习英语的方法 | |
KR20200085433A (ko) | 탈부착형 스피커를 포함한 음성합성 시스템 및 방법 | |
KR20140104605A (ko) | 쓰기 말하기 원리를 적용한 영어 기반 문자 소통 시스템 및 그 방법 | |
KR20020043468A (ko) | 휴대형 정보통신기기에서의 외국어 학습 컨텐츠 제공 방법 | |
KR20170022137A (ko) | 심상화된 이미지를 이용한 두뇌기억 개발을 제공하는 영어 단어 학습 방법, 단어 학습 장치, 영어 단어 학습 카드 및 단말기를 이용한 영어 단어 학습 서비스 제공 방법 |