ES2238054T3

ES2238054T3 - Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño.

Info

Publication number: ES2238054T3
Application number: ES01991834T
Authority: ES
Inventors: Meinrad Niemoller
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-12-14
Filing date: 2001-12-12
Publication date: 2005-08-16
Anticipated expiration: 2021-12-12
Also published as: EP1352388B1; US20040049386A1; WO2002049004A2; WO2002049004A3; DE50106056D1; EP1352388A2

Abstract

Procedimiento para el reconocimiento de voz para un aparato pequeño (MS, T) unido con una red de telecomunicaciones o bien una red de datos (GSM, TN), donde el procedimiento incluye un reconocimiento de cadenas de letras o bien caracteres como palabras, que se emiten como palabra escrita y/o se utiliza para fines de mando, y el reconocimiento de las cadenas de letras o bien caracteres se realiza al menos parcialmente en un servidor central (PRO) unido a través de la red de comunicaciones o bien de datos con el aparato pequeño, caracterizado porque las cadenas de letras o bien caracteres a reconocer se forman a partir de letras o bien caracteres individuales pronunciados, y en el aparato pequeño (MST) se realiza en una primera etapa de transformación una conversión voz-texto de la cadena de letras o bien caracteres pronunciada en una cadena provisional escrita de letras o bien caracteres, se transmite la cadena de letras o bien caracteres provisional escrita al servidor central (PRO), se comprueba y dado el caso se corrige en el servidor en una segunda etapa de transformación la cadena provisional de letras o bien caracteres, en base a una matriz de confusión de letras (CMA) y/o un modelo de letras-voz (SMO) y se confecciona la palabra y, la palabra se transmite de retorno al aparato pequeño y es recibida por éste y es procesada y/o memorizada en éste.

Description

Procedimiento y sistema para el reconocimiento de voz para un aparato pequeño

La invención se refiere a un procedimiento para el reconocimiento de voz para un aparato pequeño unido con una red de telecomunicaciones o bien de datos, según el concepto general de las reivindicaciones 1 y 2, así como un sistema correspondiente o bien o un aparato correspondiente.

Los pequeños aparatos electrónicos, cuya marcha triunfal en la electrónica de consumo comenzó con los aparatos radiotransistores portátiles o de bolsillo y que ha continuado de manera impresionante con el walkman y posteriormente el discman, en la gama de los aparatos de audio, así como con las calculadoras de bolsillo y traductoras de bolsillo, así como bases de datos en la gama de los aparatos de tratamiento de datos y memorización de datos, son cada vez más potentes y complejos y formulan en parte exigencias bastante elevadas a la destreza de manejo del usuario. También los sistemas inteligentes de diálogo, tal como los que se utilizan hoy en día en pequeños aparatos complejos como teléfonos móviles o PCs portátiles, formulan en cuanto a su manejo exigencias todavía relativamente elevadas a la destreza y paciencia de sus usuarios. Por lo tanto, la introducción del reconocimiento de voz para el control de tales aparatos es interesante en particular para los usuarios muy ocupados con el centro de gravedad en su utilización profesional por un lado y personas mayores así como niños por otro lado.

Los aparatos pequeños con control por voz son - en particular como teléfonos móviles - ya conocidos y pueden obtenerse en el mercado. Los sistemas allí implementados para el reconocimiento de la voz, no pueden no obstante, debido a la necesariamente limitada capacidad de procesamiento y memoria de los aparatos pequeños, a pesar de todos los progresos en la técnica de los procesadores y de la memoria, lograr las prestaciones de los sistemas de reconocimiento de voz, tales como los que se utilizan en PCs por ejemplo para la introducción de textos. Actualmente pueden realizarse a menudo sólo vocabularios de varios cientos de palabras. Aquí tiene una repercusión especialmente grave el problema general de los reconocimientos erróneos al pronunciar palabras desconocidas, que existe en todos los sistemas de reconocimiento de voz.

En este contexto Gilloire y otros dan a conocer en "Procesamiento innovador de la voz para terminales móviles: una bibliografía comentada", Signal Processing (procesamiento de señales) 80 (2000), págs. 1149-1166, principios para un procedimiento para el reconocimiento de la voz para un sistema móvil unido a una red de telefonía móvil, en el que están implementados los algoritmos necesarios para el proceso de reconocimiento totalmente (pág. 1150, columna derecha) o bien parcialmente (pág. 1160, columna izquierda) en la red o bien en un servidor unido con la red. El reconocimiento de voz se trata desde luego en la publicación sólo bajo el aspecto del reconocimiento de un flujo de habla continuo. Tampoco se discute cómo se realizarían técnicamente estos principios.

En la comunicación humana, para el reconocimiento de palabras o formas de escrituras desconocidas, se recurre desde hace siglos al deletreado. No obstante, cuando se pronuncia sencillamente una secuencia de letras, la tasa de errores en la comunicación humana es ya relativamente elevada, y los sistemas de reconocimiento de voz actuales aportan todavía resultados poco satisfactorios. En particular, grupos de letras como los grupos c, b, d, e, g, p, t, t, w o bien m, n o bien a, h, k, implican un gran peligro de confusión, ya que suenan muy similares.

En una secuencia de letras, por supuesto puede utilizar el ser humano positivamente su sentido del lenguaje y su conocimiento del contexto y eliminar claramente o probablemente combinaciones de letras que no tienen sentido y que resultan de un reconocimiento incorrecto de letras individuales de una secuencia, e "imaginar" en su lugar combinaciones razonables. Además del mencionado conocimiento del contexto, le son también de gran ayuda el conocimiento de las secuencias de letras probables y de redundancia en las palabras. De esta forma se reduce de manera importante en la comunicación humana la tasa de errores al deletrear.

También se conoce la práctica de utilizar en sistemas de reconocimiento de voz la probabilidad de determinadas secuencias de letras para el reconocimiento de palabras pronunciadas mediante deletreo. Por lo demás, los correspondientes sistemas se utilizan ya desde hace mucho tiempo en teléfonos móviles para la introducción de mensajes cortos (SMS) mediante el teclado, y se han acreditado allí. Básicamente, es posible también la utilización del conocimiento del contexto en sistemas de reconocimiento de voz, pero ésta exige, no obstante, capacidades de memoria muy grandes y por lo tanto prácticamente es irrealizable actualmente en aparatos pequeños.

La invención tiene por tanto como tarea básica la puesta a disposición de un procedimiento de este tipo, así como el correspondiente sistema, con los cuales pueda mejorarse sensiblemente con un coste razonable el reconocimiento de cadenas de letras o de caracteres hablados.

Esta tarea se resuelve en cuanto a su aspecto de procedimiento mediante un procedimiento con las particularidades de la reivindicación 1 ó 2 y en cuanto a su aspecto de dispositivo mediante un sistema y un aparato pequeño con las particularidades de la reivindicación 10.

La invención incluye la idea fundamental de desplazar al exterior del aparato pequeño al menos las etapas costosas en cuanto a lugares de memoria del reconocimiento de una secuencia de letras hablada en el aparato pequeño. Además, incluye la idea de utilizar para estas etapas del procedimiento un servidor central dispuesto en la red de telecomunicaciones o de datos, el cual dispone para ello prácticamente de una capacidad ilimitada. En el aparato pequeño permanece, ventajosamente, sólo un sencillo reconocimiento de cadenas de letras, para el que se necesita poca potencia de cálculo y espacio de memoria y que por lo tanto también es posible mediante microcontroladores y DSPs (Digital Signal Processors) de los pequeños aparatos mencionados.

Mediante la utilización del conocimiento del fondo y del contexto en el servidor, pueden lograrse también entonces en su conjunto prestaciones de reconocimiento muy buenas a nivel de palabra, cuando en el precedente reconocimiento de cadenas de letras inicial se presentaba una tasa de errores muy elevada. La invención prevé en el sentido de la mencionada división del trabajo entre el aparato pequeño como cliente y el servidor central una conversión voz - texto de las cadenas de letras o signos habladas en una cadena de letras o signos provisional escrita en el aparato pequeño, a continuación la transmisión de la misma al servidor, a continuación una comprobación y dado el caso corrección de estas cadenas de letras o signos en el servidor y la transmisión de retorno de la cadena de signos y letras comprobada al aparato pequeño, a continuación de lo cual puede realizarse en el aparato pequeño otro procesamiento sencillo en el sentido de una confirmación de la palabra recibida.

En una ejecución alternativa de la invención se prevé que el reconocimiento se cierre ya en el servidor y se transmita de retorno la palabra definitiva al aparato pequeño, sea recibida por éste y allí memorizada. Se entiende que una memorización en el aparato pequeño, de manera razonable, tiene lugar también cuando la fijación definitiva de la palabra reconocida tiene lugar allí.

El componente esencial del procedimiento que reside en el servidor corre en particular en base a una o varias matrices de confusión de letras o bien un modelo de lenguaje de letras, pudiendo éste utilizar, debido a los recursos prácticamente ilimitados del servidor, algoritmos complejos y extensas bases de datos de contexto.

En una ejecución preferente de la invención, se introduce en el aparato pequeño, en relación con la cadena de letras y caracteres, un clasificador de palabras por parte del usuario y se transmite juntamente con la cadena provisional escrita de letras y signos al servidor, donde el mismo la utiliza como información adicional para el proceso de reconocimiento que allí corre (comprobación y dado el caso corrección). En el aparato pequeño se forma en particular a partir de la búsqueda de cadenas de letras un llamado gráfico de hipótesis de palabras y se transmite al servidor y en el servidor se realiza sobre este gráfico de hipótesis de palabras una búsqueda en una base de datos de vocabulario con varias zonas de memoria o en varias bases de datos de vocabularios.

Las clases de palabras especificadas mediante el clasificador de palabras pueden ser por ejemplo nombres de personas, nombres de calles o de lugares o direcciones de internet, o también términos especializados de un determinado sector o similares, para los cuales se lleva en cada caso en el servidor un índice o bien vocabulario. El procesamiento centralizado ofrece aquí también la ventaja especial de una actualización y conservación económica de las existencias de datos, lo cual dado el rápidamente creciente número de nombres de dominio, es en particular muy importante para direcciones de internet.

En una variante especialmente interesante desde el punto de vista económico, se realiza el procedimiento propuesto como servicio de una empresa de telecomunicaciones o bien de un ofertante de servicios y se ofrece como tal a los usuarios, en particular frente a tarifa, pero también ocasionalmente como servicio gratuito.

En función de la ejecución concreta de la red de telecomunicaciones o de datos y del correspondiente aparato terminal, se utilizan en cada caso preferentemente los recursos más evolucionados disponibles para la transmisión al servidor de las nuevas palabras introducidas. Para un teléfono móvil conectado a una red de telefonía móvil según el estándar GSM, tiene lugar la transmisión preferentemente como mensaje breve de texto por SMS, y en un teléfono móvil con posibilidad de WAP preferentemente como mensaje breve según el estándar WAP. Para futuros estándares de telefonía móvil, sus protocolos ofrecerán las correspondientes posibilidades; en particular, para una red UMTS será posible la transmisión mediante un protocolo estándar de internet (HTTP). Para un teléfono de red fija conectado a una red ISDN, se realiza la transmisión mediante un canal de datos de la red ISDN. La entrada se realiza aquí preferentemente (como en el caso del teléfono móvil) mediante un teclado alfanumérico o por MFV.

Además de las ejecuciones antes mencionadas, el aparato pequeño puede estar realizado en particular también como PC portátil o PDA para su conexión a una red de telecomunicaciones y/o de datos, o bien también como unidad móvil de entrada de un sistema de control con manejo a distancia.

El mismo presenta en particular un equipo de visualización configurado para la visualización de varias cadenas de letras o de caracteres y un equipo de confirmación para la confirmación de una palabra reconocida por el servidor. Esta puede estar realizada en particular como softkey relacionada con un control por menú o sobre una pantalla táctil (Touch-Screen).

Las ventajas y aspectos convenientes de la invención resultan por lo demás de las reivindicaciones secundarias, así como de la siguiente descripción de un ejemplo de ejecución preferente en base a la figura.

Esta muestra - en una representación sinóptica, que no obstante también es realizable técnicamente si existen las premisas económicas - ejecuciones preferentes de la invención sobre un teléfono T para una red fija ISDN y un teléfono móvil GSM MS, que están conectados a una red de telefonía ligada a línea TN y una red de telefonía móvil GSM respectivamente, interactuando con un reconocedor de secuencias de letras CSR, que está asociado conjuntamente a ambas redes de comunicaciones TN y GSM. El teléfono de red fija T y el teléfono móvil MS están enlazados respectivamente mediante una red telefónica ISDN y mediante una interfaz de aire (no dibujada separadamente), así como una estación de base BTS/BSC en cada caso con una central de conmutación SC y MSC respectivamente de su red. Mediante la misma se genera directamente (en la red fija) e indirectamente a través de un servidor de puerta de entrada (Gateway-Server) adicional GS un enlace con un centro común de gestión y servicios PRO de un ofertante de servicios, que tanto en la red fija TN como también en la red móvil GSM ofrece un servicio de transcripción como servicio ligado a tarifas.

En la figura se han dibujado a modo de boceto componentes de procesamiento de señal internos para el teléfono móvil MS, los cuales participan en el proceso completo del reconocimiento de la cadena de caracteres; naturalmente el teléfono de red fija T puede disponer también de componentes analógicos. Al respecto, se trata de un convertidor voz-texto STC para la conversión de las cadenas de letras pronunciadas en cadenas de letras forma de textos, un gráfico de hipótesis de palabras WHG unido con el anterior, así como un clasificador de palabras WCL unido con el teclado de entrada y, finalmente, una etapa emisora de cadenas de letras CCT, que es alimentada por los componentes citados al principio.

El reconocedor de secuencias de letras CSR lleva asociadas varias bases de datos de vocabulario de texto PDB1 a PDB3, así como (representada esquemáticamente en forma de dos bloques funcionales) una matriz de confusión de letras CMA, así como un modelo de letras-voz SMO para la elaboración. Además, el reconocedor de secuencias de letras lleva asociado un equipo de tarificación BM para la tarificación de una utilización de servicio de transcripción.

En el teléfono de red fija T está alojado un equipo de interfaz ISDN IF, que en la figura simplemente se ha mostrado simbólicamente como bloque separado. La línea ISDN entre el teléfono de red fija T y la correspondiente central de conmutación SC tiene, de la manera conocida, un canal de voz A y un canal de datos B independiente.

Tal como se mencionó antes, tiene lugar en el teléfono móvil tras la conversión de la voz en texto en el convertidor voz-texto STC e involucrando el gráfico de hipótesis de palabras WHG, un reconocimiento provisional de cadenas de letras para palabras deletreadas por el usuario. El resultado del reconocimiento se transmite mediante la etapa emisora de cadenas de letras CCT juntamente con el clasificador de palabras introducido por el usuario por teclado al centro de gestión y servicios PRO del proveedor, así como el reconocedor de secuencia de letras CSR allí conectado. Este ejecuta, accediendo a las bases de datos del vocabulario de referencia PDB1 a PDB3, la matriz de confusión de letras CMA y el modelo de letras-voz SMO, una comprobación de la cadena de letras emitida por el teléfono móvil en base a un extenso conocimiento idiomático de la base y del contexto del correspondiente idioma del usuario.

La elección del idioma tiene lugar entonces en base a los datos del usuario memorizados en la tarjeta SIM y/o en base a una elección realizada por el usuario al comienzo del correspondiente menú. Se comprende que la pronunciación típica del país de caracteres, costumbres de deletreo, etc., son tenidas en
cuenta al respecto.

Si en base a la comprobación resulta que para otras cadenas de letras diferentes a la cadena de letras provisional emitida por el teléfono móvil, es decir, otras palabras deletreadas, existen probabilidades significativas, entonces todas estas palabras son transmitidas de retorno al teléfono móvil y mostradas en su display juntamente con una solicitud de selección dirigida al usuario. Una vez que el usuario ha realizado su selección actuando sobre una softkey, queda fijada la palabra correspondiente y se incluye en la memoria de vocabulario interna. (Es también posible que se transmita de retorno al teléfono móvil exclusivamente la cadena de letras o bien la palabra con la máxima probabilidad calculada por el reconocedor de cadenas de letras, y allí se procese como resultado definitivo del proceso de reconocimiento y (a elección) se memorice.

Análogamente funciona el distintivo de cadenas de letras comprobado para cadenas de letras pronunciadas en el teléfono de red fija T. La transmisión de retorno de la cadena de letras o cadenas de letras comprobada(s) y dado el caso corregida(s), se realiza aquí en particular mediante el canal B de la red ISDN. Aquí puede tener lugar también una preselección o confirmación de las fuentes de conocimiento a utilizar en la comprobación central en el reconocedor de cadenas de letras CSR por parte del usuario, o las mismas son elegidas en función del distintivo de la red local o nacional del usuario del teléfono de red fija.

La ejecución de la invención no queda limitada a este ejemplo, sino que es posible en el marco de las reivindicaciones también en el marco de múltiples modificaciones que se encuentran en el ámbito del trato especializado.

Claims

1. Procedimiento para el reconocimiento de voz para un aparato pequeño (MS, T) unido con una red de telecomunicaciones o bien una red de datos (GSM, TN),

donde el procedimiento incluye un reconocimiento de cadenas de letras o bien caracteres como palabras, que se emiten como palabra escrita y/o se utiliza para fines de mando, y el reconocimiento de las cadenas de letras o bien caracteres se realiza al menos parcialmente en un servidor central (PRO) unido a través de la red de comunicaciones o bien de datos con el aparato pequeño,

caracterizado porque las cadenas de letras o bien caracteres a reconocer se forman a partir de letras o bien caracteres individuales pronunciados, y en el aparato pequeño (MST) se realiza en una primera etapa de transformación una conversión voz-texto de la cadena de letras o bien caracteres pronunciada en una cadena provisional escrita de letras o bien caracteres,

se transmite la cadena de letras o bien caracteres provisional escrita al servidor central (PRO),

se comprueba y dado el caso se corrige en el servidor en una segunda etapa de transformación la cadena provisional de letras o bien caracteres, en base a una matriz de confusión de letras (CMA) y/o un modelo de letras-voz (SMO) y se confecciona la palabra y,

la palabra se transmite de retorno al aparato pequeño y es recibida por éste y es procesada y/o memorizada en éste.

2. Procedimiento para el reconocimiento de la voz para un aparato pequeño (MS, T) unido con una red de telecomunicaciones o bien de datos (GSM, TN),

en el que el procedimiento incluye un reconocimiento de cadenas de letras o bien caracteres como palabras, que se emiten como palabra escrita y/o se utilizan para fines de mando y ejecutándose el reconocimiento de las cadenas de letras o bien caracteres al menos en parte en un servidor central (PRO) unido a través de la red de comunicaciones o bien de datos con el aparato pequeño, caracterizado porque

las cadenas de letras o bien caracteres a reconocer se forman a partir de las letras o bien caracteres individuales pronunciados y en el aparato pequeño (MS, T) se ejecuta en una primera etapa de transformación una conversión provisional voz-texto de la cadena de letras o bien caracteres pronunciada en una cadena de letras o bien caracteres provisional escrita,

se comprueba y dado el caso se corrige en el servidor en una segunda etapa de transformación la cadena provisional de letras o bien caracteres, en base a una matriz de confusión de letras y/o un modelo de letras-voz y se genera al menos una cadena de letras o bien caracteres comprobada y corregida,

la cadena de letras o bien caracteres comprobada o bien las cadenas de letras y caracteres comprobadas se transmite(n) de retorno al aparato pequeño y es/son recibida(s) por éste y

en el aparato pequeño, en una tercera etapa de transformación a partir de la cadena de letras o bien caracteres comprobada o de las cadenas de letras o bien caracteres comprobadas, se forma la palabra y se memoriza y/o procesa.

3. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque en el aparato pequeño (MS, T) se introduce en relación con la cadena de letras o bien caracteres un clasificador de palabras,

el clasificador de palabras se transmite juntamente con la cadena provisional de letras o bien caracteres al servidor (PRO) y se evalúa como información adicional para el reconocimiento.

4. Procedimiento según la reivindicación 5, caracterizado porque en el aparato pequeño (MS, T), a partir del reconocimiento de las cadenas de caracteres se forma un gráfico de hipótesis de palabras y se transmite al servidor (PRO) y en el servidor se ejecuta sobre el gráfico de hipótesis de palabras una búsqueda en una base de datos de vocabulario de texto con varias zonas de memoria asociadas en cada caso a una clase de palabras.

5. Procedimiento según una de las reivindicaciones 2 a 4, caracterizado porque la cadena de letras o bien caracteres comprobada o las cadenas de letras o bien caracteres comprobadas, se visualiza o visualizan sobre el aparato pequeño (MS, T), para la determinación final por parte del usuario.

6. Procedimiento según la reivindicación 5, caracterizado porque la visualización de las cadenas de palabras o bien caracteres se realiza en la secuencia según su probabilidad determinada por el servidor.

7. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque la parte del reconocimiento que corre en el servidor (PRO) se organiza como servicio de la red de telecomunicaciones o bien de datos.

8. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque la transmisión desde y hacia un aparato terminal de telefonía móvil (MS) se realiza como mensaje corto o bien a través de la WAP mediante una red de telefonía móvil (GSM), en particular incluyendo un enlace con una red IP.

9. Procedimiento según una de las reivindicaciones 1 a 7, caracterizado porque la transmisión desde y hacia un teléfono de la red fija (T) se realiza a través de un canal de datos ISDN (B) de una red fija ISDN (ISDN).

10. Sistema que dispone de medios para la realización de cada etapa individual del procedimiento según una de las reivindicaciones precedentes,

con múltiples aparatos terminales (MS, T) conectados a la red de telecomunicaciones o bien de datos (GSM, ISDN) y un servidor (PRO) conectado a una central de servicios de telecomunicaciones o bien de datos,

caracterizado porque el servidor (PRO) dispone de medios (CSR) para el reconocimiento de la cadena de letras o bien caracteres.

11. Sistema según la reivindicación 10, caracterizado porque los elementos (CSR) para el reconocimiento de la cadena de letras o bien caracteres presentan al menos una matriz de confusión de letras (CMA) y/o al menos un modelo letras-voz (SMO).

12. Sistema según una de las reivindicaciones 10 u 11, caracterizado por un equipo de tarificación (BM) asociado al servidor (PRO), para la tarificación de la parte aportada por el servidor del reconocimiento de la cadena de letras o bien caracteres como servicio.

13. Sistema según una de las reivindicaciones 10 a 12, caracterizado porque el aparato pequeño está configurado como aparato terminal de telefonía móvil (MS) que está unido mediante una red de telefonía móvil (GSM), en particular incluyendo un enlace con una red IP con el servidor.

14. Sistema según una de las reivindicaciones 10 a 13, caracterizado porque el aparato pequeño está configurado como teléfono de red fija (T), que está unido mediante un canal de datos ISDN (B) de una red fija ISDN (ISDN) con el servidor.

15. Sistema según una de las reivindicaciones 10 a 14, caracterizado porque el aparato pequeño está configurado como un aparato de procesamiento de datos o de operación, unido con el servidor mediante una red telefónica fija, en particular una red fija ISDN, una red de telefonía móvil o una red de datos, estando configurado en particular como un PC portátil o unidad de entrada móvil de un sistema de telecontrol.

16. Sistema según una de las reivindicaciones 10 a 15, caracterizado porque el aparato pequeño presenta un equipo de visualización configurado para visualizar varias cadenas de letras o bien caracteres y un equipo de confirmación para la determinación definitiva de la palabra.

17. Sistema según la reivindicación 16, caracterizado porque el dispositivo de visualización para visualizar las cadenas de letras o caracteres está configurado según su probabilidad determinada por el servidor.

18. Sistema según la reivindicación 16 ó 17, caracterizado porque equipo de confirmación presenta una pantalla táctil (touch-screen) o un control por menú unido por una tecla de entrada, en particular una softkey.