ES2201695T3

ES2201695T3 - Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables.

Info

Publication number: ES2201695T3
Application number: ES99914401T
Authority: ES
Inventors: Ralf Kern; Karl-Heinz Pflaum
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens AG; Siemens Corp
Priority date: 1998-03-18
Filing date: 1999-02-03
Publication date: 2004-03-16
Anticipated expiration: 2019-02-03
Also published as: EP1062487B1; WO1999048086A1; DE59905927D1; ATE242873T1; EP1062487A1; DE19811879C1; US7043427B1

Abstract

Instalación para el reconocimiento de voz, en la que la voz es convertida opcionalmente por medio de un micrófono (14) próximo al locutor en señales eléctricas y es alimentada a un sistema de reconocimiento (17) a través de un primer canal de transmisión (12) o es convertida en señales eléctricas por medio de un micrófono (20) alejado del locutor y es alimentada al sistema de reconocimiento (17) a través de un segundo canal de transmisión (19), y en la que el sistema de reconocimiento (17) compara los elementos de voz recibidos por medio del micrófono (14, 20) respectivo con elementos de voz aprendidos previamente en una fase de entrenamiento y en caso de coincidencia genera una señal de reconocimiento, caracterizada porque en el primer canal de transmisión (12) está conectada una unidad de corrección (15), que modifica la señal eléctrica de tal forma que tiene propiedades de transmisión espacial, como aparecen durante la recepción con un micrófono alejado del locutor.

Description

Disposición de micrófono para el reconocimiento de voz en condiciones espaciales variables.

La invención se refiere a una instalación para el reconocimiento de voz, en la que la voz es convertida opcionalmente por medio de un micrófono próximo al locutor en señales eléctricas y es alimentada a un sistema de reconocimiento a través de un primer canal de transmisión o es convertida en señales eléctricas por medio de un micrófono alejado del locutor y es alimentada al sistema de reconocimiento a través de un segundo canal de transmisión, y en la que el sistema de reconocimiento compara los elementos de voz recibidos por medio del micrófono respectivo con elementos de voz aprendidos previamente en una fase de entrenamiento y en caso de coincidencia genera una señal de reconocimiento. Además, la invención se refiere a un procedimiento para el reconocimiento de voz.

Durante el reconocimiento de voz o de elementos de voz (Ver Q. Lin y col.: Robust distant-talking speech recognition, 1996 IEEE International Conference on accoustics, páginas 21-214, Vol. 1 y US-A-5 267 323) existe con frecuencia la dificultad de que los elementos de voz introducidos a través de un micrófono están superpuestos por magnitudes acústicas espaciales variables. El comportamiento de transmisión del espacio puede influir, por lo tanto, en una medida considerable sobre el porcentaje de reconocimiento del sistema de reconocimiento. Las instalaciones y los procedimientos realizados hasta ahora para el reconocimiento de voz no tienen en cuenta la modificación de la función de transmisión del espacio. En general, en las instalaciones y procedimientos empleados hasta ahora se parte de que la función de transmisión permanece igual durante la transmisión de voz de una persona hasta el registro digital tanto en la fase de entrenamiento como también durante la utilización posterior para el reconocimiento de la voz, especialmente en el caso de reconocimiento de la voz en función del locutor. Sin embargo, durante el reconocimiento de voz, especialmente a través de un teléfono, tal hipótesis está lejos de la realidad, puesto que los sistemas telefónicos actuales tienen la posibilidad de la conmutación entre un teléfono próximo al locutor, en el que el micrófono del auricular se mantiene cerca de la boca del locutor, y un micrófono alejado del locutor, en el que en un estado manos libres se recibe la voz a una distancia incrementada. La distancia típica para un micrófono próximo al locutor está en el intervalo de 0 a 30 cm, es decir, que se convierte predominantemente el sonido directo en señales eléctricas. En el caso del micrófono alejado del locutor, la distancia es mayor y se mezclan elementos sonoros debido a efectos de eco, reflexiones de la pared y sonido directo. Cuando ahora durante la fase de entrenamiento se utiliza el micrófono próximo al locutor y en el uso posterior se utiliza el micrófono alejado del locutor, entonces se reduce el porcentaje de reconocimiento ya en virtud de las diferentes funciones de transmisión espacial debido a los diferentes trayectos de transmisión.

El cometido de la invención es indicar una instalación y un procedimiento para el reconocimiento de voz, que trabaja con alta fiabilidad independientemente de la distancia del locutor con respecto al micrófono.

Este cometido se soluciona para una instalación a través de las características de la reivindicación 1 y para un procedimiento a través de las características de la reivindicación 9. Los desarrollos ventajosos se indica en las reivindicaciones dependientes.

Según la invención, en el primer canal de transmisión está conectada una unidad de corrección, que modifica la señal eléctrica de tal forma que tiene propiedades de transmisión espacial. Por lo tanto, la voz, que es introducida a través de un micrófono próximo al locutor, es modificada en la señal eléctrica de tal forma que tiene las propiedades como la voz que ha sido introducida a través del micrófono alejado del locutor. A través de la unidad de correlación se simulan, por lo tanto, las influencias acústicas espaciales para un trayecto de transmisión de la voz relativamente grande. Por ejemplo, a través de la unidad de corrección se simulan reflexiones sonoras en objetos próximos y/o reverberaciones en espacios.

A continuación se explica un ejemplo de realización de la invención con la ayuda del dibujo. En éste:

La figura 1 muestra una instalación para el reconocimiento de voz, donde la voz es introducida a través de un teléfono, y

La figura 2 muestra una instalación según la figura 1 con filtros adaptables.

La figura 1 muestra una instalación para el reconocimiento de voz, en la que la voz es introducida a través de una persona 10 por medio de un teléfono. En el primer canal de transmisión superior 12 se introduce la voz a través de un micrófono 14 próximo al locutor, por ejemplo con el microteléfono. La voz es transformada a través del microteléfono 14 en una señal eléctrica y es preamplificada a través de un amplificador 16. Una unidad de corrección 15 modifica la señal eléctrica de tal forma que simula propiedades de transmisión de un espacio con un trayecto de transmisión mayor que la región próxima. Por ejemplo, esta unidad de corrección 15 simula reverberaciones en espacios y/o las reflexiones sonoras en objetos próximos dentro del trayecto de transmisión de la voz. Tales reflexiones sonoras pueden proceder, por ejemplo, de un tablero de una mesa, de una pantalla o de otros objetos. Las reverberaciones en espacio proceden, sin embargo, de reflexiones en objetos relativamente muy alejados, como por ejemplo de las paredes del espacio. La señal eléctrica modificada a través de la unidad de corrección 15 pasa a través de un filtro de compensación 18, que sirve para la compensación de respuestas de frecuencia variables del micrófono y del amplificador. La señal eléctrica es alimentada entonces a un sistema de procesamiento de datos 17, que lleva a cabo el procesamiento digital posterior para el reconocimiento de voz.

En la parte inferior de la imagen de la figura 1 se representa la entrada de elementos de voz a través de una instalación de manos libres. La voz de la persona 10 es modificada a través de una función de transmisión especial el espacio RÜF, es decir, que los elementos de voz que llegan desde el locutor 10 al micrófono 20 están superpuestos, por ejemplo, por reflexiones sonoras en objetos próximos y por reverberaciones en espacios y, dado el caso, por ruidos extraños. La señal eléctrica del micrófono 20 alejado del locutor es preamplificada por medio de un preamplificador 22 y llega a un filtro de compensación 24 para la compensación de respuestas de frecuencia variables del micrófono y del amplificador. La señal eléctrica filtrada de esta manera es alimentada a la instalación de procesamiento de datos 17 para el reconocimiento de voz.

Durante el funcionamiento de la instalación mostrada en la figura 1, se memorizan durante una fase de entrenamiento muestras de voz en la instalación de procesamiento de datos 17. Por ejemplo, con la ayuda de tales muestras de voz se puede formar una guía telefónica personal. A tal fin se pronuncia durante la fase de entrenamiento el nombre del abonado al menos dos veces y se deposita con el número de teléfono que pertenece al nombre en una guía telefónica personal. Después de la expiración de la fase de entrenamiento se introduce de nuevo el nombre en la fase de utilización, donde la instalación de procesamiento de datos 17 trata de reconocer de nuevo este nombre, con la ayuda de métodos de reconocimientos, especialmente del análisis espectral o del análisis ceptral LPC, en virtud de los nombres memorizados anteriormente y, en el caso de resultado positivo, trata de indicar el número de teléfono memorizado bajo este nombre y de establecer la comunicación telefónica. Después de que en el canal de transmisión 12 la unidad de corrección 14 ha generado una señal de voz eléctrica, que tiene las mismas propiedades espectrales que la señal de voz del segundo canal de transmisión 18, no tiene ninguna importancia si se utiliza el mismo teléfono 14 y 20, respectivamente, durante la fase de entrenamiento o durante la fase de reconocimiento de nuevo. Por lo tanto, a través de la unidad de corrección 15 es posible utilizar el teléfono tanto con el microteléfono como también en el estado de manos libres.

La figura 2 muestra una variante de la instalación según la figura 1. A diferencia de la instalación según la figura 1, la unidad de corrección 15 está configurada como filtro adaptable, es decir, que los parámetros del filtro son variados en función de las señales de audio recibidas. De esta manera, se puede elevar el porcentaje de reconocimiento. También los filtros de compensación 18 y 24, respectivamente, en los dos canales de transmisión 12 y 19, respectivamente, están configurados como filtro adaptable; sus parámetros de filtro son ajustados en función de las señales de audio recibidas.

Claims

1. Instalación para el reconocimiento de voz, en la que la voz es convertida opcionalmente por medio de un micrófono (14) próximo al locutor en señales eléctricas y es alimentada a un sistema de reconocimiento (17) a través de un primer canal de transmisión (12) o es convertida en señales eléctricas por medio de un micrófono (20) alejado del locutor y es alimentada al sistema de reconocimiento (17) a través de un segundo canal de transmisión (19), y en la que el sistema de reconocimiento (17) compara los elementos de voz recibidos por medio del micrófono (14, 20) respectivo con elementos de voz aprendidos previamente en una fase de entrenamiento y en caso de coincidencia genera una señal de reconocimiento, caracterizada porque en el primer canal de transmisión (12) está conectada una unidad de corrección (15), que modifica la señal eléctrica de tal forma que tiene propiedades de transmisión espacial, como aparecen durante la recepción con un micrófono alejado del locutor.

2. Instalación según la reivindicación 1, caracterizada porque la unidad de corrección (15) simula reflexiones sonoras en objetos próximos

3. Instalación según la reivindicación 1 ó 2, caracterizada porque la unidad de corrección (15) simula reverberaciones en espacios.

4. Instalación según una de las reivindicaciones anteriores, caracterizada porque la unidad de corrección (15) está configurada como filtro estacionario o como filtro adaptable.

5. Instalación según la reivindicación 4, caracterizada porque en el filtro adaptable (15) se ajustan los parámetros del filtro en función de las señales de audio recibidas.

6. Instalación según una de las reivindicaciones anteriores, caracterizada porque el primer canal de transmisión (12) y el segundo canal de transmisión (19) contienen, respectivamente, un preamplificador (16, 22) para el micrófono (14, 20).

7. Instalación según una de las reivindicaciones anteriores, caracterizada porque cada canal de transmisión (12, 19) contiene un filtro de compensación (18, 24) para la compensación de respuestas de frecuencia variables del micrófono y del amplificador.

8. Instalación según una de las reivindicaciones anteriores, caracterizada porque el sistema de reconocimiento (17) aplica como procedimiento de reconocimiento de voz el análisis espectral o el análisis ceptral LPC.

9. Procedimiento para el reconocimiento de voz, en el que la voz es convertida opcionalmente en señales eléctricas por medio de un micrófono (14) próximo al locutor y es alimentada a un sistema de reconocimiento (17) a través de un primer canal de transmisión (12) o es convertida en señales eléctricas por medio de un micrófono (20) alejado del locutor y es alimentada al sistema de reconocimiento (17) a través de un segundo canal de transmisión (19), y en el que en el sistema de reconocimiento (17) se comparan los elementos de voz recibidos por medio del micrófono (14, 20) respectivo con elementos de voz aprendidos previamente en una fase de entrenamiento y en caso de coincidencia genera una señal de reconocimiento, caracterizado porque en el primer canal de transmisión (12) se conecta una unidad de corrección (15), donde la señal eléctrica es modificada de tal forma que tiene propiedades de transmisión espacial, como aparecen durante la recepción con un micrófono alejado del locutor.

10. Procedimiento según la reivindicación 9, caracterizado porque a través de la unidad de corrección (15) son simuladas reflexiones sonoras en objetos próximos.

11. Procedimiento según la reivindicación 9 ó 10, caracterizado porque a través de la unidad de corrección (15) se simula la reverberación en espacios.