ES2201695T3 - Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables. - Google Patents

Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables.

Info

Publication number
ES2201695T3
ES2201695T3 ES99914401T ES99914401T ES2201695T3 ES 2201695 T3 ES2201695 T3 ES 2201695T3 ES 99914401 T ES99914401 T ES 99914401T ES 99914401 T ES99914401 T ES 99914401T ES 2201695 T3 ES2201695 T3 ES 2201695T3
Authority
ES
Spain
Prior art keywords
microphone
voice
recognition
transmission channel
correction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99914401T
Other languages
English (en)
Inventor
Ralf Kern
Karl-Heinz Pflaum
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Siemens Corp
Original Assignee
Siemens AG
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG, Siemens Corp filed Critical Siemens AG
Application granted granted Critical
Publication of ES2201695T3 publication Critical patent/ES2201695T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Instalación para el reconocimiento de voz, en la que la voz es convertida opcionalmente por medio de un micrófono (14) próximo al locutor en señales eléctricas y es alimentada a un sistema de reconocimiento (17) a través de un primer canal de transmisión (12) o es convertida en señales eléctricas por medio de un micrófono (20) alejado del locutor y es alimentada al sistema de reconocimiento (17) a través de un segundo canal de transmisión (19), y en la que el sistema de reconocimiento (17) compara los elementos de voz recibidos por medio del micrófono (14, 20) respectivo con elementos de voz aprendidos previamente en una fase de entrenamiento y en caso de coincidencia genera una señal de reconocimiento, caracterizada porque en el primer canal de transmisión (12) está conectada una unidad de corrección (15), que modifica la señal eléctrica de tal forma que tiene propiedades de transmisión espacial, como aparecen durante la recepción con un micrófono alejado del locutor.

Description

Disposición de micrófono para el reconocimiento de voz en condiciones espaciales variables.
La invención se refiere a una instalación para el reconocimiento de voz, en la que la voz es convertida opcionalmente por medio de un micrófono próximo al locutor en señales eléctricas y es alimentada a un sistema de reconocimiento a través de un primer canal de transmisión o es convertida en señales eléctricas por medio de un micrófono alejado del locutor y es alimentada al sistema de reconocimiento a través de un segundo canal de transmisión, y en la que el sistema de reconocimiento compara los elementos de voz recibidos por medio del micrófono respectivo con elementos de voz aprendidos previamente en una fase de entrenamiento y en caso de coincidencia genera una señal de reconocimiento. Además, la invención se refiere a un procedimiento para el reconocimiento de voz.
Durante el reconocimiento de voz o de elementos de voz (Ver Q. Lin y col.: Robust distant-talking speech recognition, 1996 IEEE International Conference on accoustics, páginas 21-214, Vol. 1 y US-A-5 267 323) existe con frecuencia la dificultad de que los elementos de voz introducidos a través de un micrófono están superpuestos por magnitudes acústicas espaciales variables. El comportamiento de transmisión del espacio puede influir, por lo tanto, en una medida considerable sobre el porcentaje de reconocimiento del sistema de reconocimiento. Las instalaciones y los procedimientos realizados hasta ahora para el reconocimiento de voz no tienen en cuenta la modificación de la función de transmisión del espacio. En general, en las instalaciones y procedimientos empleados hasta ahora se parte de que la función de transmisión permanece igual durante la transmisión de voz de una persona hasta el registro digital tanto en la fase de entrenamiento como también durante la utilización posterior para el reconocimiento de la voz, especialmente en el caso de reconocimiento de la voz en función del locutor. Sin embargo, durante el reconocimiento de voz, especialmente a través de un teléfono, tal hipótesis está lejos de la realidad, puesto que los sistemas telefónicos actuales tienen la posibilidad de la conmutación entre un teléfono próximo al locutor, en el que el micrófono del auricular se mantiene cerca de la boca del locutor, y un micrófono alejado del locutor, en el que en un estado manos libres se recibe la voz a una distancia incrementada. La distancia típica para un micrófono próximo al locutor está en el intervalo de 0 a 30 cm, es decir, que se convierte predominantemente el sonido directo en señales eléctricas. En el caso del micrófono alejado del locutor, la distancia es mayor y se mezclan elementos sonoros debido a efectos de eco, reflexiones de la pared y sonido directo. Cuando ahora durante la fase de entrenamiento se utiliza el micrófono próximo al locutor y en el uso posterior se utiliza el micrófono alejado del locutor, entonces se reduce el porcentaje de reconocimiento ya en virtud de las diferentes funciones de transmisión espacial debido a los diferentes trayectos de transmisión.
El cometido de la invención es indicar una instalación y un procedimiento para el reconocimiento de voz, que trabaja con alta fiabilidad independientemente de la distancia del locutor con respecto al micrófono.
Este cometido se soluciona para una instalación a través de las características de la reivindicación 1 y para un procedimiento a través de las características de la reivindicación 9. Los desarrollos ventajosos se indica en las reivindicaciones dependientes.
Según la invención, en el primer canal de transmisión está conectada una unidad de corrección, que modifica la señal eléctrica de tal forma que tiene propiedades de transmisión espacial. Por lo tanto, la voz, que es introducida a través de un micrófono próximo al locutor, es modificada en la señal eléctrica de tal forma que tiene las propiedades como la voz que ha sido introducida a través del micrófono alejado del locutor. A través de la unidad de correlación se simulan, por lo tanto, las influencias acústicas espaciales para un trayecto de transmisión de la voz relativamente grande. Por ejemplo, a través de la unidad de corrección se simulan reflexiones sonoras en objetos próximos y/o reverberaciones en espacios.
A continuación se explica un ejemplo de realización de la invención con la ayuda del dibujo. En éste:
La figura 1 muestra una instalación para el reconocimiento de voz, donde la voz es introducida a través de un teléfono, y
La figura 2 muestra una instalación según la figura 1 con filtros adaptables.
La figura 1 muestra una instalación para el reconocimiento de voz, en la que la voz es introducida a través de una persona 10 por medio de un teléfono. En el primer canal de transmisión superior 12 se introduce la voz a través de un micrófono 14 próximo al locutor, por ejemplo con el microteléfono. La voz es transformada a través del microteléfono 14 en una señal eléctrica y es preamplificada a través de un amplificador 16. Una unidad de corrección 15 modifica la señal eléctrica de tal forma que simula propiedades de transmisión de un espacio con un trayecto de transmisión mayor que la región próxima. Por ejemplo, esta unidad de corrección 15 simula reverberaciones en espacios y/o las reflexiones sonoras en objetos próximos dentro del trayecto de transmisión de la voz. Tales reflexiones sonoras pueden proceder, por ejemplo, de un tablero de una mesa, de una pantalla o de otros objetos. Las reverberaciones en espacio proceden, sin embargo, de reflexiones en objetos relativamente muy alejados, como por ejemplo de las paredes del espacio. La señal eléctrica modificada a través de la unidad de corrección 15 pasa a través de un filtro de compensación 18, que sirve para la compensación de respuestas de frecuencia variables del micrófono y del amplificador. La señal eléctrica es alimentada entonces a un sistema de procesamiento de datos 17, que lleva a cabo el procesamiento digital posterior para el reconocimiento de voz.
En la parte inferior de la imagen de la figura 1 se representa la entrada de elementos de voz a través de una instalación de manos libres. La voz de la persona 10 es modificada a través de una función de transmisión especial el espacio RÜF, es decir, que los elementos de voz que llegan desde el locutor 10 al micrófono 20 están superpuestos, por ejemplo, por reflexiones sonoras en objetos próximos y por reverberaciones en espacios y, dado el caso, por ruidos extraños. La señal eléctrica del micrófono 20 alejado del locutor es preamplificada por medio de un preamplificador 22 y llega a un filtro de compensación 24 para la compensación de respuestas de frecuencia variables del micrófono y del amplificador. La señal eléctrica filtrada de esta manera es alimentada a la instalación de procesamiento de datos 17 para el reconocimiento de voz.
Durante el funcionamiento de la instalación mostrada en la figura 1, se memorizan durante una fase de entrenamiento muestras de voz en la instalación de procesamiento de datos 17. Por ejemplo, con la ayuda de tales muestras de voz se puede formar una guía telefónica personal. A tal fin se pronuncia durante la fase de entrenamiento el nombre del abonado al menos dos veces y se deposita con el número de teléfono que pertenece al nombre en una guía telefónica personal. Después de la expiración de la fase de entrenamiento se introduce de nuevo el nombre en la fase de utilización, donde la instalación de procesamiento de datos 17 trata de reconocer de nuevo este nombre, con la ayuda de métodos de reconocimientos, especialmente del análisis espectral o del análisis ceptral LPC, en virtud de los nombres memorizados anteriormente y, en el caso de resultado positivo, trata de indicar el número de teléfono memorizado bajo este nombre y de establecer la comunicación telefónica. Después de que en el canal de transmisión 12 la unidad de corrección 14 ha generado una señal de voz eléctrica, que tiene las mismas propiedades espectrales que la señal de voz del segundo canal de transmisión 18, no tiene ninguna importancia si se utiliza el mismo teléfono 14 y 20, respectivamente, durante la fase de entrenamiento o durante la fase de reconocimiento de nuevo. Por lo tanto, a través de la unidad de corrección 15 es posible utilizar el teléfono tanto con el microteléfono como también en el estado de manos libres.
La figura 2 muestra una variante de la instalación según la figura 1. A diferencia de la instalación según la figura 1, la unidad de corrección 15 está configurada como filtro adaptable, es decir, que los parámetros del filtro son variados en función de las señales de audio recibidas. De esta manera, se puede elevar el porcentaje de reconocimiento. También los filtros de compensación 18 y 24, respectivamente, en los dos canales de transmisión 12 y 19, respectivamente, están configurados como filtro adaptable; sus parámetros de filtro son ajustados en función de las señales de audio recibidas.

Claims (11)

1. Instalación para el reconocimiento de voz, en la que la voz es convertida opcionalmente por medio de un micrófono (14) próximo al locutor en señales eléctricas y es alimentada a un sistema de reconocimiento (17) a través de un primer canal de transmisión (12) o es convertida en señales eléctricas por medio de un micrófono (20) alejado del locutor y es alimentada al sistema de reconocimiento (17) a través de un segundo canal de transmisión (19), y en la que el sistema de reconocimiento (17) compara los elementos de voz recibidos por medio del micrófono (14, 20) respectivo con elementos de voz aprendidos previamente en una fase de entrenamiento y en caso de coincidencia genera una señal de reconocimiento, caracterizada porque en el primer canal de transmisión (12) está conectada una unidad de corrección (15), que modifica la señal eléctrica de tal forma que tiene propiedades de transmisión espacial, como aparecen durante la recepción con un micrófono alejado del locutor.
2. Instalación según la reivindicación 1, caracterizada porque la unidad de corrección (15) simula reflexiones sonoras en objetos próximos
3. Instalación según la reivindicación 1 ó 2, caracterizada porque la unidad de corrección (15) simula reverberaciones en espacios.
4. Instalación según una de las reivindicaciones anteriores, caracterizada porque la unidad de corrección (15) está configurada como filtro estacionario o como filtro adaptable.
5. Instalación según la reivindicación 4, caracterizada porque en el filtro adaptable (15) se ajustan los parámetros del filtro en función de las señales de audio recibidas.
6. Instalación según una de las reivindicaciones anteriores, caracterizada porque el primer canal de transmisión (12) y el segundo canal de transmisión (19) contienen, respectivamente, un preamplificador (16, 22) para el micrófono (14, 20).
7. Instalación según una de las reivindicaciones anteriores, caracterizada porque cada canal de transmisión (12, 19) contiene un filtro de compensación (18, 24) para la compensación de respuestas de frecuencia variables del micrófono y del amplificador.
8. Instalación según una de las reivindicaciones anteriores, caracterizada porque el sistema de reconocimiento (17) aplica como procedimiento de reconocimiento de voz el análisis espectral o el análisis ceptral LPC.
9. Procedimiento para el reconocimiento de voz, en el que la voz es convertida opcionalmente en señales eléctricas por medio de un micrófono (14) próximo al locutor y es alimentada a un sistema de reconocimiento (17) a través de un primer canal de transmisión (12) o es convertida en señales eléctricas por medio de un micrófono (20) alejado del locutor y es alimentada al sistema de reconocimiento (17) a través de un segundo canal de transmisión (19), y en el que en el sistema de reconocimiento (17) se comparan los elementos de voz recibidos por medio del micrófono (14, 20) respectivo con elementos de voz aprendidos previamente en una fase de entrenamiento y en caso de coincidencia genera una señal de reconocimiento, caracterizado porque en el primer canal de transmisión (12) se conecta una unidad de corrección (15), donde la señal eléctrica es modificada de tal forma que tiene propiedades de transmisión espacial, como aparecen durante la recepción con un micrófono alejado del locutor.
10. Procedimiento según la reivindicación 9, caracterizado porque a través de la unidad de corrección (15) son simuladas reflexiones sonoras en objetos próximos.
11. Procedimiento según la reivindicación 9 ó 10, caracterizado porque a través de la unidad de corrección (15) se simula la reverberación en espacios.
ES99914401T 1998-03-18 1999-02-03 Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables. Expired - Lifetime ES2201695T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19811879 1998-03-18
DE19811879A DE19811879C1 (de) 1998-03-18 1998-03-18 Einrichtung und Verfahren zum Erkennen von Sprache

Publications (1)

Publication Number Publication Date
ES2201695T3 true ES2201695T3 (es) 2004-03-16

Family

ID=7861400

Family Applications (1)

Application Number Title Priority Date Filing Date
ES99914401T Expired - Lifetime ES2201695T3 (es) 1998-03-18 1999-02-03 Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables.

Country Status (6)

Country Link
US (1) US7043427B1 (es)
EP (1) EP1062487B1 (es)
AT (1) ATE242873T1 (es)
DE (2) DE19811879C1 (es)
ES (1) ES2201695T3 (es)
WO (1) WO1999048086A1 (es)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19963142A1 (de) * 1999-12-24 2001-06-28 Christoph Bueltemann Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems
DE10052991A1 (de) * 2000-10-19 2002-05-02 Deutsche Telekom Ag Verfahren zur Ermittlung raumakustischer und elektroakustischer Parameter
US20070239441A1 (en) * 2006-03-29 2007-10-11 Jiri Navratil System and method for addressing channel mismatch through class specific transforms
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8696458B2 (en) * 2008-02-15 2014-04-15 Thales Visionix, Inc. Motion tracking system and method using camera and non-camera sensors
US7974841B2 (en) * 2008-02-27 2011-07-05 Sony Ericsson Mobile Communications Ab Electronic devices and methods that adapt filtering of a microphone signal responsive to recognition of a targeted speaker's voice
US11012732B2 (en) * 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
WO2014064324A1 (en) * 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267323A (en) 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
DE4312155A1 (de) * 1993-04-14 1994-10-20 Friedrich Dipl Ing Hiller Verfahren und Vorrichtung zur Verbesserung der Erkennungsleistung und Erhöhung der Zuverlässigkeit bei der automatischen Spracherkennung in geräuschvoller Umgebung
US5528731A (en) * 1993-11-19 1996-06-18 At&T Corp. Method of accommodating for carbon/electret telephone set variability in automatic speaker verification
US5515445A (en) * 1994-06-30 1996-05-07 At&T Corp. Long-time balancing of omni microphones
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
US5765124A (en) * 1995-12-29 1998-06-09 Lucent Technologies Inc. Time-varying feature space preprocessing procedure for telephone based speech recognition
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones

Also Published As

Publication number Publication date
EP1062487B1 (de) 2003-06-11
WO1999048086A1 (de) 1999-09-23
DE59905927D1 (de) 2003-07-17
ATE242873T1 (de) 2003-06-15
EP1062487A1 (de) 2000-12-27
DE19811879C1 (de) 1999-05-12
US7043427B1 (en) 2006-05-09

Similar Documents

Publication Publication Date Title
ES2328032T3 (es) Cancelador de eco con requerimientos reducidos de potencia de procesamiento.
ES2585406T3 (es) Aparato y método para calcular coeficientes de filtro para supresión de eco
US9343056B1 (en) Wind noise detection and suppression
US8189766B1 (en) System and method for blind subband acoustic echo cancellation postfiltering
US8300861B2 (en) Hearing aid algorithms
CN101163354B (zh) 用于运行助听器的方法以及助听器
ES2267457T3 (es) Medicion de la calidad de la voz de un enlace telefonico en una red de telecomunicaciones.
US20120282976A1 (en) Cellphone managed Hearing Eyeglasses
JP2003520469A (ja) 雑音低減装置及び方法
WO2004045244A8 (en) Adaptative noise canceling microphone system
CN112019967B (zh) 一种耳机降噪方法、装置、耳机设备及存储介质
JPH09503889A (ja) 音声相殺式送話システム
CN101277331A (zh) 声音再现设备和声音再现方法
KR20080092404A (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
US20170374476A9 (en) Hearing Eyeglass System and Method
ES2201695T3 (es) Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables.
US7761292B2 (en) Method and apparatus for disturbing the radiated voice signal by attenuation and masking
KR101961998B1 (ko) 즉각적인 바람 잡음을 감소시키는 것
CN114724565A (zh) 基于声纹识别的通话降噪方法、通话降噪装置及耳机
CN112037825B (zh) 音频信号的处理方法及装置、存储介质
US8768406B2 (en) Background sound removal for privacy and personalization use
CN103402038A (zh) 手机免提状态下消除对方听筒回音的方法及装置
ES2375758T3 (es) Circuito de reducción del eco acústico para un dispositivo "manos libres" utilizable con un teléfono móvil.
ES2351773T3 (es) Dispositivo telefónico para cancelar el ruido de fondo en el altavoz.
EP1467547A3 (en) Echo cancelling circuit, IP telephone and curl cord