ES2244499T3

ES2244499T3 - Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz.

Info

Publication number: ES2244499T3
Application number: ES00993850T
Authority: ES
Inventors: Gerhard Niedermair
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-03-15
Filing date: 2000-12-22
Publication date: 2005-12-16
Anticipated expiration: 2020-12-22
Also published as: US20040098259A1; WO2001069591A1; EP1264301B1; EP1264301A1; DE50010937D1; EP1134726A1

Abstract

Dispositivo de reconocimiento de voz (1) para reconocer y procesar manifestaciones verbales de un usuario en un primer idioma con un primer modelo de lenguaje basado en fonemas (2a) para reconocer manifestaciones verbales en un primer idioma y un segundo modelo de lenguaje basado en fonemas (2b) para reconocer manifestaciones verbales en un segundo idioma y un dispositivo de selección (3), que en base a una manifestación verbal del usuario automáticamente elige el primer o el segundo modelo de lenguaje (2a, 2b) para el reconocimiento de voz, eligiéndose aquel modelo de lenguaje (2a, 2b) que aporta un mejor resultado de reconocimiento de los fonemas hablados de este usuario, caracterizado por un dispositivo de transmisión (4) que, cuando se ha elegido el segundo modelo de lenguaje para el reconocimiento de voz (2b), transmite secuencias de fonemas, que son expresadas con las características del segundo idioma y que son reconocidas mediante el segundo modelo de lenguaje (2b), en base al primer modelo de lenguaje (2a), a palabras en el primer idioma, para reconocer palabras en el primer idioma que son expresadas con el acento del segundo idioma.

Description

Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz.

La presente invención se refiere a un sistema de reconocimiento de voz para reconocer y procesar manifestaciones verbales de un usuario en un idioma, tal como se describe en el concepto general de la reivindicación adjunta 1, y a un procedimiento utilizado en un dispositivo como el indicado para reconocer y procesar manifestaciones verbales de un usuario en un idioma, tal como se describe en el concepto general en la reivindicación adjunta 4.

Bajo sistemas de reconocimiento de voz independientes del orador se entienden sistemas de reconocimiento de voz cuyos únicos usuarios no tienen entrenamiento explicito con este sistema, es decir, cuyos únicos usuarios no han realizado pruebas de voz para el reconocimiento de la voz. Tales sistemas encuentran por ejemplo aplicación en informaciones telefónicas, en bancos y para sistemas de reserva. El usuario toma contacto entonces por lo general por teléfono con la aplicación deseada (p.e. con su banco), para consultar p.e. el estado de su cuenta o realizar una transferencia.

Tales sistemas de reconocimiento de voz independientes del orador funcionan la mayoría de las veces con modelos de voz basados en el fonema (= basados en el acento), en base a los cuales se realiza el reconocimiento de voz. Estos modelos acústicos tienen como base el material de entrenamiento, es decir, las pruebas de voz con las características de fonema y voz de por ejemplo varios miles de oradores representativos.

El material de voz así reunido cubre entonces por lo general de manera más o menos buena las variantes de expresión, es decir, las variantes acústicas de realización del fonema, de los usuarios del sistema de reconocimiento de voz, en particular cuando los usuarios son oradores cuyo propio idioma es el idioma de la aplicación (usuarios del propio idioma).

Entonces se presenta desde luego el problema de que los usuarios cuyo propio idioma no es el idioma de la aplicación, son reconocidos bastante menos bien, debido a la diferente formación y particularidades del acento.

La causa de ello reside en que, según el estado de la técnica, pocas o incluso ninguna muestra de voz de oradores que no hablan su propio idioma están incluidas en el material de entrenamiento. Un aumento de la proporción de los oradores que no hablan su propio idioma en el material de entrenamiento trae no obstante como consecuencia que aumenta la varianza del modelo de voz generado, es decir, la anchura de banda con la que se reconoce un acento. Esto da lugar también no obstante a una mayor cantidad de reconocimientos erróneos.

Además, deberían archivarse entonces para cada grupo de usuarios (p.e para franceses, italianos, españoles, etc.) las muestras verbales de en cada caso muchos oradores representativos de estas naciones en el idioma de la aplicación (p. e. alemán), lo cual a su vez implica un gasto elevado.

"Improving speech accuracy with multiple phonetic models" (mejorando la precisión del lenguaje con múltiples modelos fonéticos)'', IBM technical disclosure bulletin, vol. 38, nº 12, Diciembre 1995, pág. 73, da a conocer un sistema automático de selección de un modelo de lenguaje para el reconocimiento de la voz.

La tarea de la presente invención es así poner a disposición un dispositivo para el reconocimiento de voz según el concepto general de la adjunta reivindicación 1 y un procedimiento según el concepto general de la adjunta reivindicación 4, en los que sea posible un mejor reconocimiento de oradores que no hablen su propio idioma en un sistema de reconocimiento de voz. Esta tarea se resuelve mediante un dispositivo de reconocimiento de voz según la adjunta reivindicación 1 y un procedimiento para el reconocimiento de voz según la adjunta reivindicación 4.

Ventajosos perfeccionamientos de la presente invención se indican en las reivindicaciones secundarias 2, 3, 5 y 6.

Según la presente invención, se utilizan para el reconocimiento de voz de las manifestaciones verbales de un orador dos o más modelos de lenguaje. El idioma de la aplicación es entonces el primer idioma (p.e. alemán).

Si el diálogo es conducido con el dispositivo de reconocimiento de voz por parte de un orador cuyo propio idioma es el primer idioma, entonces se utiliza para el reconocimiento de voz el primer modelo de lenguaje, que es el básico para el material de entrenamiento como primer idioma (p.e. alemán).

Pero si el diálogo con el dispositivo del reconocimiento de voz es conducido por un usuario cuya expresión está marcada en el primer idioma por un acento del segundo idioma (p.e. acento francés), entonces se utiliza para el reconocimiento de voz el segundo modelo de lenguaje (en el ejemplo citado francés) que es el básico para el material de entrenamiento como segundo idioma. Los fonemas que se expresan con la característica, es decir, con el acento del segundo idioma, son transmitidos entonces por el dispositivo de transmisión correspondiente a la invención para el reconocimiento del lenguaje a palabras en el primer idioma en base al primer modelo de lenguaje, en el que están reunidas las palabras del primer idioma.

La ventaja de la presente invención reside en que para el reconocimiento de voz de usuarios que hablan el primer idioma con un acento del segundo idioma, no ha de ser creado ni entrenado un modelo de lenguaje propio. Para el reconocimiento de voz pueden utilizarse en este caso modelos de lenguaje existentes en el idioma de aplicación del segundo y otros idiomas.

Para el reconocimiento de voz según la presente invención pueden utilizarse además los llamados modelos de lenguaje multilinguales, que sirven para el reconocimiento de voz de varios idiomas utilizados. El reconocimiento de voz en el primer idioma se realiza entonces igualmente como se describió antes.

La presente invención se describe más en detalle a continuación en base a un ejemplo de ejecución preferente con referencia a la adjunta figura 1.

La figura 1 muestra al respecto la estructura esquemática del sistema de reconocimiento de voz con el dispositivo de reconocimiento de voz correspondiente a la invención.

Tal como se ve en la fig. 1, está compuesto el sistema de reconocimiento de voz correspondiente a la invención por el dispositivo de reconocimiento de voz 1, un dispositivo de memoria con los distintos modelos de lenguaje 2a ... 2n, que también puede ser en cada caso una parte del modelo de lenguaje 2 multilingual, el dispositivo de selección para elegir el modelo de lenguaje y el dispositivo de transmisión 4 para transmitir fonemas que se hablan con las características del segundo idioma, a palabras del primer idioma.

Además, un dispositivo de entrada 5 para introducir manifestaciones verbales de un usuario es parte integrante del sistema de reconocimiento de voz. El dispositivo de entrada 5 está representado esquemáticamente como micrófono y puede por ejemplo ser el micrófono de un teléfono a través del cual el usuario comunica con el dispositivo de reconocimiento de voz.

El objetivo de la presente invención es mejorar el reconocimiento de voz de usuarios que no hablan su propio idioma en otro determinado idioma (p.e. alemán hablado por un francés). Esto se logra utilizando un modelo de lenguaje multilingual 2, que en el ejemplo citado contiene el material de entrenamiento para el reconocimiento de voz alemán y francés, para el reconocimiento de oradores que no hablan su propio idioma en el idioma determinado.

El sistema de reconocimiento de voz utiliza entonces tanto el modelo de lenguaje 2a que había sido generado con oradores que hablaban su propio idioma del idioma de aplicación, como también los modelos de lenguaje 2b ... 2n que han sido generados con oradores que hablan su propio idioma en uno o varios de los otros idiomas, (los modelos multilinguales, que se componen preferentemente de los idiomas cuyos usuarios han de ser reconocidos como oradores de idiomas ajenos del idioma de aplicación).

La presente invención se basa en que los distintos modelos de lenguaje 2a ... 2n contienen las particularidades de articulación o bien las características del acento y estas características también son transmitidas por los usuarios al hablar un idioma ajeno de forma más o menos acusada al idioma ajeno (p. e. el acento típico francés). Puesto que los modelos de lenguaje multilinguales contienen las particularidades de articulación del idioma ajeno, son más adecuados para reconocer a un usuario de un idioma que no es su propio idioma. En el reconocimiento de voz se utiliza entonces, en dependencia de con qué perfección el usuario domina el idioma de aplicación, el correspondiente modelo de lenguaje para el reconocimiento.

Entonces, se elige al comienzo del diálogo para el reconocimiento de voz con un usuario mediante el dispositivo de selección, para el siguiente reconocimiento, el modelo del lenguaje que aporta los mejores resultados de reconocimiento. Si por ejemplo el diálogo es conducido por un usuario que en el idioma de aplicación (p.e. idioma alemán) habla con un fuerte acento extranjero (p.e. acento francés), entonces es reconocido el acento (fonemas) mediante el correspondiente modelo de lenguaje. El dispositivo de transmisión correspondiente a la invención transmite entonces, en base al primer modelo de lenguaje, en el que el material de entrenamiento está memorizado para el primer idioma o bien el lenguaje de aplicación, los fonemas reconocidos a palabras del idioma de aplicación.

La ventaja del procedimiento correspondiente a la invención reside en que no ha de ser generado en cada caso ningún modelo propio típico del idioma para oradores que no hablan su propio idioma (p.e. alemán hablado por franceses o españoles), sino que en la aplicación (dado el caso multilingual) pueden utilizarse simultáneamente modelos de lenguaje de en cada caso modelos de lenguaje ajeno, así como el correspondiente modelo típico del idioma para oradores que hablan su propio idioma.

Claims

1. Dispositivo de reconocimiento de voz (1) para reconocer y procesar manifestaciones verbales de un usuario en un primer idioma con

un primer modelo de lenguaje basado en fonemas (2a) para reconocer manifestaciones verbales en un primer idioma y

un segundo modelo de lenguaje basado en fonemas (2b) para reconocer manifestaciones verbales en un segundo idioma y

un dispositivo de selección (3), que en base a una manifestación verbal del usuario automáticamente elige el primer o el segundo modelo de lenguaje (2a, 2b) para el reconocimiento de voz, eligiéndose aquel modelo de lenguaje (2a, 2b) que aporta un mejor resultado de reconocimiento de los fonemas hablados de este usuario,

caracterizado por

un dispositivo de transmisión (4) que, cuando se ha elegido el segundo modelo de lenguaje para el reconocimiento de voz (2b), transmite secuencias de fonemas, que son expresadas con las características del segundo idioma y que son reconocidas mediante el segundo modelo de lenguaje (2b), en base al primer modelo de lenguaje (2a), a palabras en el primer idioma, para reconocer palabras en el primer idioma que son expresadas con el acento del segundo idio-
ma.

2. Dispositivo de reconocimiento de voz (1) según la reivindicación 1,

caracterizado por

más de dos modelos de lenguaje basados en fonemas (2a ... 2n) para el reconocimiento de manifestaciones verbales en más de dos idiomas, en base a los cuales se realiza el reconocimiento de secuencias de fonemas que son expresados con las características de los otros idiomas.

3. Dispositivo de reconocimiento de voz (1) según la reivindicación 1 ó 2,

caracterizado porque

los distintos modelos de lenguaje (2a ... 2n) son en cada caso parte integrante de un modelo completo de lenguaje (2) multilingual.

4. Procedimiento para reconocer y procesar manifestaciones verbales de un usuario en un primer idioma, con las etapas

elección automática de un primer o un segundo modelo de lenguaje (2a, 2b) para el reconocimiento de voz en base a una manifestación verbal del usuario, eligiéndose aquel modelo de lenguaje (2a, 2b) que aporta un mejor resultado de reconocimiento de fonemas hablados de este usuario,

caracterizado porque

cuando se ha elegido el segundo modelo de lenguaje (2b) para reconocimiento de voz,

se transmite la secuencia de fonemas, que son hablados con las características del segundo idioma y son reconocidos por el segundo modelo de lenguaje (2b), en base al primer modelo de lenguaje (2a), a palabras del primer idioma, para reconocer palabras en el primer idioma que son habladas con un acento correspondiente al segundo idioma.

5. Procedimiento según la reivindicación 4,

caracterizado porque

se utilizan más de dos modelos de lenguaje basados en fonemas (2a ... 2n) para el reconocimiento de manifestaciones verbales en más de dos idiomas, en base a los cuales se realiza el reconocimiento de secuencias de fonemas que son hablados con las características de los otros idiomas.

6. Procedimiento según la reivindicación 4 ó 5,

caracterizado porque

los distintos modelos de lenguaje (2a ... 2n) son en cada caso una parte integrante de un modelo completo de lenguaje multilingual (2).