ES2201695T3 - Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables. - Google Patents
Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables.Info
- Publication number
- ES2201695T3 ES2201695T3 ES99914401T ES99914401T ES2201695T3 ES 2201695 T3 ES2201695 T3 ES 2201695T3 ES 99914401 T ES99914401 T ES 99914401T ES 99914401 T ES99914401 T ES 99914401T ES 2201695 T3 ES2201695 T3 ES 2201695T3
- Authority
- ES
- Spain
- Prior art keywords
- microphone
- voice
- recognition
- transmission channel
- correction unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005540 biological transmission Effects 0.000 claims abstract description 34
- 238000009434 installation Methods 0.000 claims abstract description 19
- 238000012937 correction Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000010183 spectrum analysis Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/08—Arrangements for producing a reverberation or echo sound
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Instalación para el reconocimiento de voz, en la que la voz es convertida opcionalmente por medio de un micrófono (14) próximo al locutor en señales eléctricas y es alimentada a un sistema de reconocimiento (17) a través de un primer canal de transmisión (12) o es convertida en señales eléctricas por medio de un micrófono (20) alejado del locutor y es alimentada al sistema de reconocimiento (17) a través de un segundo canal de transmisión (19), y en la que el sistema de reconocimiento (17) compara los elementos de voz recibidos por medio del micrófono (14, 20) respectivo con elementos de voz aprendidos previamente en una fase de entrenamiento y en caso de coincidencia genera una señal de reconocimiento, caracterizada porque en el primer canal de transmisión (12) está conectada una unidad de corrección (15), que modifica la señal eléctrica de tal forma que tiene propiedades de transmisión espacial, como aparecen durante la recepción con un micrófono alejado del locutor.
Description
Disposición de micrófono para el reconocimiento
de voz en condiciones espaciales variables.
La invención se refiere a una instalación para el
reconocimiento de voz, en la que la voz es convertida opcionalmente
por medio de un micrófono próximo al locutor en señales eléctricas
y es alimentada a un sistema de reconocimiento a través de un primer
canal de transmisión o es convertida en señales eléctricas por
medio de un micrófono alejado del locutor y es alimentada al
sistema de reconocimiento a través de un segundo canal de
transmisión, y en la que el sistema de reconocimiento compara los
elementos de voz recibidos por medio del micrófono respectivo con
elementos de voz aprendidos previamente en una fase de
entrenamiento y en caso de coincidencia genera una señal de
reconocimiento. Además, la invención se refiere a un procedimiento
para el reconocimiento de voz.
Durante el reconocimiento de voz o de elementos
de voz (Ver Q. Lin y col.: Robust distant-talking
speech recognition, 1996 IEEE International Conference on
accoustics, páginas 21-214, Vol. 1 y
US-A-5 267 323) existe con
frecuencia la dificultad de que los elementos de voz introducidos a
través de un micrófono están superpuestos por magnitudes acústicas
espaciales variables. El comportamiento de transmisión del espacio
puede influir, por lo tanto, en una medida considerable sobre el
porcentaje de reconocimiento del sistema de reconocimiento. Las
instalaciones y los procedimientos realizados hasta ahora para el
reconocimiento de voz no tienen en cuenta la modificación de la
función de transmisión del espacio. En general, en las
instalaciones y procedimientos empleados hasta ahora se parte de
que la función de transmisión permanece igual durante la transmisión
de voz de una persona hasta el registro digital tanto en la fase de
entrenamiento como también durante la utilización posterior para el
reconocimiento de la voz, especialmente en el caso de reconocimiento
de la voz en función del locutor. Sin embargo, durante el
reconocimiento de voz, especialmente a través de un teléfono, tal
hipótesis está lejos de la realidad, puesto que los sistemas
telefónicos actuales tienen la posibilidad de la conmutación entre
un teléfono próximo al locutor, en el que el micrófono del auricular
se mantiene cerca de la boca del locutor, y un micrófono alejado
del locutor, en el que en un estado manos libres se recibe la voz a
una distancia incrementada. La distancia típica para un micrófono
próximo al locutor está en el intervalo de 0 a 30 cm, es decir, que
se convierte predominantemente el sonido directo en señales
eléctricas. En el caso del micrófono alejado del locutor, la
distancia es mayor y se mezclan elementos sonoros debido a efectos
de eco, reflexiones de la pared y sonido directo. Cuando ahora
durante la fase de entrenamiento se utiliza el micrófono próximo al
locutor y en el uso posterior se utiliza el micrófono alejado del
locutor, entonces se reduce el porcentaje de reconocimiento ya en
virtud de las diferentes funciones de transmisión espacial debido a
los diferentes trayectos de transmisión.
El cometido de la invención es indicar una
instalación y un procedimiento para el reconocimiento de voz, que
trabaja con alta fiabilidad independientemente de la distancia del
locutor con respecto al micrófono.
Este cometido se soluciona para una instalación a
través de las características de la reivindicación 1 y para un
procedimiento a través de las características de la reivindicación
9. Los desarrollos ventajosos se indica en las reivindicaciones
dependientes.
Según la invención, en el primer canal de
transmisión está conectada una unidad de corrección, que modifica
la señal eléctrica de tal forma que tiene propiedades de transmisión
espacial. Por lo tanto, la voz, que es introducida a través de un
micrófono próximo al locutor, es modificada en la señal eléctrica
de tal forma que tiene las propiedades como la voz que ha sido
introducida a través del micrófono alejado del locutor. A través de
la unidad de correlación se simulan, por lo tanto, las influencias
acústicas espaciales para un trayecto de transmisión de la voz
relativamente grande. Por ejemplo, a través de la unidad de
corrección se simulan reflexiones sonoras en objetos próximos y/o
reverberaciones en espacios.
A continuación se explica un ejemplo de
realización de la invención con la ayuda del dibujo. En éste:
La figura 1 muestra una instalación para el
reconocimiento de voz, donde la voz es introducida a través de un
teléfono, y
La figura 2 muestra una instalación según la
figura 1 con filtros adaptables.
La figura 1 muestra una instalación para el
reconocimiento de voz, en la que la voz es introducida a través de
una persona 10 por medio de un teléfono. En el primer canal de
transmisión superior 12 se introduce la voz a través de un micrófono
14 próximo al locutor, por ejemplo con el microteléfono. La voz es
transformada a través del microteléfono 14 en una señal eléctrica y
es preamplificada a través de un amplificador 16. Una unidad de
corrección 15 modifica la señal eléctrica de tal forma que simula
propiedades de transmisión de un espacio con un trayecto de
transmisión mayor que la región próxima. Por ejemplo, esta unidad
de corrección 15 simula reverberaciones en espacios y/o las
reflexiones sonoras en objetos próximos dentro del trayecto de
transmisión de la voz. Tales reflexiones sonoras pueden proceder,
por ejemplo, de un tablero de una mesa, de una pantalla o de otros
objetos. Las reverberaciones en espacio proceden, sin embargo, de
reflexiones en objetos relativamente muy alejados, como por ejemplo
de las paredes del espacio. La señal eléctrica modificada a través
de la unidad de corrección 15 pasa a través de un filtro de
compensación 18, que sirve para la compensación de respuestas de
frecuencia variables del micrófono y del amplificador. La señal
eléctrica es alimentada entonces a un sistema de procesamiento de
datos 17, que lleva a cabo el procesamiento digital posterior para
el reconocimiento de voz.
En la parte inferior de la imagen de la figura 1
se representa la entrada de elementos de voz a través de una
instalación de manos libres. La voz de la persona 10 es modificada a
través de una función de transmisión especial el espacio RÜF, es
decir, que los elementos de voz que llegan desde el locutor 10 al
micrófono 20 están superpuestos, por ejemplo, por reflexiones
sonoras en objetos próximos y por reverberaciones en espacios y,
dado el caso, por ruidos extraños. La señal eléctrica del micrófono
20 alejado del locutor es preamplificada por medio de un
preamplificador 22 y llega a un filtro de compensación 24 para la
compensación de respuestas de frecuencia variables del micrófono y
del amplificador. La señal eléctrica filtrada de esta manera es
alimentada a la instalación de procesamiento de datos 17 para el
reconocimiento de voz.
Durante el funcionamiento de la instalación
mostrada en la figura 1, se memorizan durante una fase de
entrenamiento muestras de voz en la instalación de procesamiento de
datos 17. Por ejemplo, con la ayuda de tales muestras de voz se
puede formar una guía telefónica personal. A tal fin se pronuncia
durante la fase de entrenamiento el nombre del abonado al menos dos
veces y se deposita con el número de teléfono que pertenece al
nombre en una guía telefónica personal. Después de la expiración de
la fase de entrenamiento se introduce de nuevo el nombre en la fase
de utilización, donde la instalación de procesamiento de datos 17
trata de reconocer de nuevo este nombre, con la ayuda de métodos de
reconocimientos, especialmente del análisis espectral o del análisis
ceptral LPC, en virtud de los nombres memorizados anteriormente y,
en el caso de resultado positivo, trata de indicar el número de
teléfono memorizado bajo este nombre y de establecer la
comunicación telefónica. Después de que en el canal de transmisión
12 la unidad de corrección 14 ha generado una señal de voz
eléctrica, que tiene las mismas propiedades espectrales que la
señal de voz del segundo canal de transmisión 18, no tiene ninguna
importancia si se utiliza el mismo teléfono 14 y 20,
respectivamente, durante la fase de entrenamiento o durante la fase
de reconocimiento de nuevo. Por lo tanto, a través de la unidad de
corrección 15 es posible utilizar el teléfono tanto con el
microteléfono como también en el estado de manos libres.
La figura 2 muestra una variante de la
instalación según la figura 1. A diferencia de la instalación según
la figura 1, la unidad de corrección 15 está configurada como filtro
adaptable, es decir, que los parámetros del filtro son variados en
función de las señales de audio recibidas. De esta manera, se puede
elevar el porcentaje de reconocimiento. También los filtros de
compensación 18 y 24, respectivamente, en los dos canales de
transmisión 12 y 19, respectivamente, están configurados como
filtro adaptable; sus parámetros de filtro son ajustados en función
de las señales de audio recibidas.
Claims (11)
1. Instalación para el reconocimiento de voz, en
la que la voz es convertida opcionalmente por medio de un micrófono
(14) próximo al locutor en señales eléctricas y es alimentada a un
sistema de reconocimiento (17) a través de un primer canal de
transmisión (12) o es convertida en señales eléctricas por medio de
un micrófono (20) alejado del locutor y es alimentada al sistema de
reconocimiento (17) a través de un segundo canal de transmisión
(19), y en la que el sistema de reconocimiento (17) compara los
elementos de voz recibidos por medio del micrófono (14, 20)
respectivo con elementos de voz aprendidos previamente en una fase
de entrenamiento y en caso de coincidencia genera una señal de
reconocimiento, caracterizada porque en el primer canal de
transmisión (12) está conectada una unidad de corrección (15), que
modifica la señal eléctrica de tal forma que tiene propiedades de
transmisión espacial, como aparecen durante la recepción con un
micrófono alejado del locutor.
2. Instalación según la reivindicación 1,
caracterizada porque la unidad de corrección (15) simula
reflexiones sonoras en objetos próximos
3. Instalación según la reivindicación 1 ó 2,
caracterizada porque la unidad de corrección (15) simula
reverberaciones en espacios.
4. Instalación según una de las reivindicaciones
anteriores, caracterizada porque la unidad de corrección
(15) está configurada como filtro estacionario o como filtro
adaptable.
5. Instalación según la reivindicación 4,
caracterizada porque en el filtro adaptable (15) se ajustan
los parámetros del filtro en función de las señales de audio
recibidas.
6. Instalación según una de las reivindicaciones
anteriores, caracterizada porque el primer canal de
transmisión (12) y el segundo canal de transmisión (19) contienen,
respectivamente, un preamplificador (16, 22) para el micrófono (14,
20).
7. Instalación según una de las reivindicaciones
anteriores, caracterizada porque cada canal de transmisión
(12, 19) contiene un filtro de compensación (18, 24) para la
compensación de respuestas de frecuencia variables del micrófono y
del amplificador.
8. Instalación según una de las reivindicaciones
anteriores, caracterizada porque el sistema de
reconocimiento (17) aplica como procedimiento de reconocimiento de
voz el análisis espectral o el análisis ceptral LPC.
9. Procedimiento para el reconocimiento de voz,
en el que la voz es convertida opcionalmente en señales eléctricas
por medio de un micrófono (14) próximo al locutor y es alimentada a
un sistema de reconocimiento (17) a través de un primer canal de
transmisión (12) o es convertida en señales eléctricas por medio de
un micrófono (20) alejado del locutor y es alimentada al sistema de
reconocimiento (17) a través de un segundo canal de transmisión
(19), y en el que en el sistema de reconocimiento (17) se comparan
los elementos de voz recibidos por medio del micrófono (14, 20)
respectivo con elementos de voz aprendidos previamente en una fase
de entrenamiento y en caso de coincidencia genera una señal de
reconocimiento, caracterizado porque en el primer canal de
transmisión (12) se conecta una unidad de corrección (15), donde la
señal eléctrica es modificada de tal forma que tiene propiedades de
transmisión espacial, como aparecen durante la recepción con un
micrófono alejado del locutor.
10. Procedimiento según la reivindicación 9,
caracterizado porque a través de la unidad de corrección
(15) son simuladas reflexiones sonoras en objetos próximos.
11. Procedimiento según la reivindicación 9 ó 10,
caracterizado porque a través de la unidad de corrección
(15) se simula la reverberación en espacios.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19811879 | 1998-03-18 | ||
| DE19811879A DE19811879C1 (de) | 1998-03-18 | 1998-03-18 | Einrichtung und Verfahren zum Erkennen von Sprache |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2201695T3 true ES2201695T3 (es) | 2004-03-16 |
Family
ID=7861400
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES99914401T Expired - Lifetime ES2201695T3 (es) | 1998-03-18 | 1999-02-03 | Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables. |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US7043427B1 (es) |
| EP (1) | EP1062487B1 (es) |
| AT (1) | ATE242873T1 (es) |
| DE (2) | DE19811879C1 (es) |
| ES (1) | ES2201695T3 (es) |
| WO (1) | WO1999048086A1 (es) |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19963142A1 (de) * | 1999-12-24 | 2001-06-28 | Christoph Bueltemann | Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems |
| DE10052991A1 (de) * | 2000-10-19 | 2002-05-02 | Deutsche Telekom Ag | Verfahren zur Ermittlung raumakustischer und elektroakustischer Parameter |
| US20070239441A1 (en) * | 2006-03-29 | 2007-10-11 | Jiri Navratil | System and method for addressing channel mismatch through class specific transforms |
| US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
| US8696458B2 (en) * | 2008-02-15 | 2014-04-15 | Thales Visionix, Inc. | Motion tracking system and method using camera and non-camera sensors |
| US7974841B2 (en) * | 2008-02-27 | 2011-07-05 | Sony Ericsson Mobile Communications Ab | Electronic devices and methods that adapt filtering of a microphone signal responsive to recognition of a targeted speaker's voice |
| US11012732B2 (en) * | 2009-06-25 | 2021-05-18 | DISH Technologies L.L.C. | Voice enabled media presentation systems and methods |
| WO2014064324A1 (en) * | 2012-10-26 | 2014-05-01 | Nokia Corporation | Multi-device speech recognition |
| US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5267323A (en) | 1989-12-29 | 1993-11-30 | Pioneer Electronic Corporation | Voice-operated remote control system |
| DE4312155A1 (de) * | 1993-04-14 | 1994-10-20 | Friedrich Dipl Ing Hiller | Verfahren und Vorrichtung zur Verbesserung der Erkennungsleistung und Erhöhung der Zuverlässigkeit bei der automatischen Spracherkennung in geräuschvoller Umgebung |
| US5528731A (en) * | 1993-11-19 | 1996-06-18 | At&T Corp. | Method of accommodating for carbon/electret telephone set variability in automatic speaker verification |
| US5515445A (en) * | 1994-06-30 | 1996-05-07 | At&T Corp. | Long-time balancing of omni microphones |
| US5737485A (en) * | 1995-03-07 | 1998-04-07 | Rutgers The State University Of New Jersey | Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems |
| US5765124A (en) * | 1995-12-29 | 1998-06-09 | Lucent Technologies Inc. | Time-varying feature space preprocessing procedure for telephone based speech recognition |
| US6275800B1 (en) * | 1999-02-23 | 2001-08-14 | Motorola, Inc. | Voice recognition system and method |
| US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
-
1998
- 1998-03-18 DE DE19811879A patent/DE19811879C1/de not_active Expired - Fee Related
-
1999
- 1999-02-03 EP EP99914401A patent/EP1062487B1/de not_active Expired - Lifetime
- 1999-02-03 US US09/646,315 patent/US7043427B1/en not_active Expired - Fee Related
- 1999-02-03 DE DE59905927T patent/DE59905927D1/de not_active Expired - Lifetime
- 1999-02-03 ES ES99914401T patent/ES2201695T3/es not_active Expired - Lifetime
- 1999-02-03 AT AT99914401T patent/ATE242873T1/de not_active IP Right Cessation
- 1999-02-03 WO PCT/DE1999/000289 patent/WO1999048086A1/de not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| EP1062487B1 (de) | 2003-06-11 |
| WO1999048086A1 (de) | 1999-09-23 |
| DE59905927D1 (de) | 2003-07-17 |
| ATE242873T1 (de) | 2003-06-15 |
| EP1062487A1 (de) | 2000-12-27 |
| DE19811879C1 (de) | 1999-05-12 |
| US7043427B1 (en) | 2006-05-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2328032T3 (es) | Cancelador de eco con requerimientos reducidos de potencia de procesamiento. | |
| ES2585406T3 (es) | Aparato y método para calcular coeficientes de filtro para supresión de eco | |
| US9343056B1 (en) | Wind noise detection and suppression | |
| US8189766B1 (en) | System and method for blind subband acoustic echo cancellation postfiltering | |
| US8300861B2 (en) | Hearing aid algorithms | |
| CN101163354B (zh) | 用于运行助听器的方法以及助听器 | |
| ES2267457T3 (es) | Medicion de la calidad de la voz de un enlace telefonico en una red de telecomunicaciones. | |
| US20120282976A1 (en) | Cellphone managed Hearing Eyeglasses | |
| JP2003520469A (ja) | 雑音低減装置及び方法 | |
| WO2004045244A8 (en) | Adaptative noise canceling microphone system | |
| CN112019967B (zh) | 一种耳机降噪方法、装置、耳机设备及存储介质 | |
| JPH09503889A (ja) | 音声相殺式送話システム | |
| CN101277331A (zh) | 声音再现设备和声音再现方法 | |
| KR20080092404A (ko) | 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법 | |
| US20170374476A9 (en) | Hearing Eyeglass System and Method | |
| ES2201695T3 (es) | Disposicion de microfono para el reconocimiento de voz en condiciones espaciales variables. | |
| US7761292B2 (en) | Method and apparatus for disturbing the radiated voice signal by attenuation and masking | |
| KR101961998B1 (ko) | 즉각적인 바람 잡음을 감소시키는 것 | |
| CN114724565A (zh) | 基于声纹识别的通话降噪方法、通话降噪装置及耳机 | |
| CN112037825B (zh) | 音频信号的处理方法及装置、存储介质 | |
| US8768406B2 (en) | Background sound removal for privacy and personalization use | |
| CN103402038A (zh) | 手机免提状态下消除对方听筒回音的方法及装置 | |
| ES2375758T3 (es) | Circuito de reducción del eco acústico para un dispositivo "manos libres" utilizable con un teléfono móvil. | |
| ES2351773T3 (es) | Dispositivo telefónico para cancelar el ruido de fondo en el altavoz. | |
| EP1467547A3 (en) | Echo cancelling circuit, IP telephone and curl cord |