ES2775799T3 - Método y aparato para la mejora multisensorial del habla en un dispositivo móvil - Google Patents
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil Download PDFInfo
- Publication number
- ES2775799T3 ES2775799T3 ES05101071T ES05101071T ES2775799T3 ES 2775799 T3 ES2775799 T3 ES 2775799T3 ES 05101071 T ES05101071 T ES 05101071T ES 05101071 T ES05101071 T ES 05101071T ES 2775799 T3 ES2775799 T3 ES 2775799T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- sensor
- mobile device
- alternate
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 37
- 210000003625 skull Anatomy 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 description 77
- 238000012937 correction Methods 0.000 description 26
- 230000009467 reduction Effects 0.000 description 20
- 238000001228 spectrum Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000015654 memory Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 229920001971 elastomer Polymers 0.000 description 3
- 239000000806 elastomer Substances 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 239000012530 fluid Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000004020 conductor Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000003811 finger Anatomy 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000003054 facial bone Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A23—FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
- A23N—MACHINES OR APPARATUS FOR TREATING HARVESTED FRUIT, VEGETABLES OR FLOWER BULBS IN BULK, NOT OTHERWISE PROVIDED FOR; PEELING VEGETABLES OR FRUIT IN BULK; APPARATUS FOR PREPARING ANIMAL FEEDING- STUFFS
- A23N12/00—Machines for cleaning, blanching, drying or roasting fruits or vegetables, e.g. coffee, cocoa, nuts
- A23N12/02—Machines for cleaning, blanching, drying or roasting fruits or vegetables, e.g. coffee, cocoa, nuts for washing or blanching
- A23N12/023—Machines for cleaning, blanching, drying or roasting fruits or vegetables, e.g. coffee, cocoa, nuts for washing or blanching for washing potatoes, apples or similarly shaped vegetables or fruit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- A—HUMAN NECESSITIES
- A47—FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
- A47L—DOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
- A47L15/00—Washing or rinsing machines for crockery or tableware
- A47L15/0002—Washing processes, i.e. machine working principles characterised by phases or operational steps
- A47L15/0015—Washing processes, i.e. machine working principles characterised by phases or operational steps other treatment phases, e.g. steam or sterilizing phase
-
- A—HUMAN NECESSITIES
- A47—FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
- A47L—DOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
- A47L15/00—Washing or rinsing machines for crockery or tableware
- A47L15/02—Washing or rinsing machines for crockery or tableware with circulation and agitation of the cleaning liquid in the cleaning chamber containing a stationary basket
- A47L15/13—Washing or rinsing machines for crockery or tableware with circulation and agitation of the cleaning liquid in the cleaning chamber containing a stationary basket using sonic or ultrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6008—Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6033—Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
- H04M1/6041—Portable telephones adapted for handsfree use
- H04M1/605—Portable telephones adapted for handsfree use involving control of the receiver volume to provide a dual operational mode at close or far distance from the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6016—Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/12—Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Food Science & Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Polymers & Plastics (AREA)
- Chemical & Material Sciences (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
Abstract
Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire (108) que está configurado para convertir ondas acústicas en una señal de micrófono eléctrica, al menos uno de entre un primer sensor alternativo y un segundo sensor alternativo, dicho primer sensor alternativo distinto del micrófono de conducción de aire que está configurado para proporcionar una primera señal eléctrica del sensor alternativo indicativa del habla, dicho segundo sensor alternativo distinto del micrófono de conducción de aire que está configurado para proporcionar una segunda señal del sensor alternativo, y un procesador que está configurado para usar la señal del micrófono y la primera y segunda señal de sensor alternativo para estimar un valor del habla limpia, en el que el primer sensor alternativo y el segundo sensor alternativo comprenden sensores de conducción ósea, el dispositivo móvil de mano incluye un altavoz que está configurado para colocarse cerca del oído izquierdo o derecho del usuario, el altavoz y el primer y el segundo sensor alternativo miran hacia la misma dirección, y cuando el dispositivo está colocado cerca del oído izquierdo o derecho del usuario y el altavoz mira hacia el oído respectivo, el primer o el segundo sensor de conducción ósea está configurado para entrar en contacto con el cráneo o el oído del usuario y producir la señal del sensor alternativo.
Description
DESCRIPCIÓN
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil
Antecedentes de la invención
La presente invención se refiere a la reducción del ruido. En particular, la presente invención se refiere a eliminar el ruido de las señales del habla recibidas por dispositivos móviles de mano.
Los dispositivos móviles de mano, como los teléfonos móviles y los asistentes personales digitales que proporcionan funciones telefónicas o aceptan la entrada del habla, a menudo se usan en entornos con ruido adverso, como calles concurridas, restaurantes, aeropuertos y automóviles. El fuerte ruido ambiental en estos entornos puede tapar el habla del usuario y dificultar el entendimiento de lo que la persona dice.
Si bien se han desarrollado sistemas de filtrado de ruido que intentan eliminar el ruido en base a un modelo del ruido, estos sistemas no han podido eliminar todo el ruido. En particular, a muchos de estos sistemas les ha resultado difícil eliminar el ruido que consiste en que otras personas hablen en segundo plano. Una razón para esto es que es extremadamente difícil, si no imposible, que estos sistemas determinen que una señal del habla recibida por un micrófono proviene de alguien que no sea la persona que usa el dispositivo móvil.
En cuanto a los auriculares para teléfonos, que se mantienen en posición en la cabeza del usuario al colocar el auricular sobre la cabeza o en el oído del usuario, se han desarrollado sistemas que proporcionan un filtro de ruido más robusto que dependen de tipos de sensores adicionales en el auricular. En un ejemplo, se coloca un sensor de conducción ósea en un extremo del auricular y se presiona y se pone en contacto con la piel que cubre el cráneo, el oído o la mandíbula del usuario mediante la resistencia del auricular. El sensor de conducción ósea detecta vibraciones en el cráneo, el oído o la mandíbula que se crean cuando el usuario habla. Mediante la señal del sensor de conducción ósea, este sistema puede identificar mejor cuando el usuario está hablando y, como resultado, puede filtrar mejor el ruido en la señal del habla.
Aunque estos sistemas funcionan bien para auriculares, donde el contacto entre el sensor de conducción ósea y el usuario se mantiene mediante el diseño mecánico de los auriculares, estos sistemas no pueden usarse directamente en dispositivos móviles de mano porque es difícil para los usuarios mantener el sensor de conducción ósea en la posición correcta y estos sistemas no tienen en cuenta que el sensor de conducción ósea puede no mantenerse en la posición correcta.
El documento WO 2004/012477 A2 describe una interfaz de audio ponible que incluye un soporte para colocar la pluralidad de altavoces yuxtapuestos con y separados de los oídos del usuario.
El documento US 2003/0125081 A1 describe un dispositivo electrónico personal de mano con un primer cuerpo y un segundo cuerpo. El primer cuerpo tiene una pantalla y el segundo cuerpo tiene una pluralidad de entradas manuales.
YANLI ZHENG Y COL.: "Air- and bone-conductive integrated microphones for robust speech detection and enhancement" AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING, 2003. ASRU '03. 2003 IEEE WORKSHOP ON ST. THOMAS, VI, USA NOV. 30-DIC. 3, 2003, PISCATAWAY, NJ, EE. UU. IEEE, 30 de noviembre de 2003 (2003-11-30), páginas 249-254, en el documento XP010713318 describe un dispositivo de hardware que combina un micrófono normal con un micrófono conductor óseo.
El documento JP 2000250577 A describe un dispositivo de reconocimiento de voz, un método de aprendizaje y un dispositivo de aprendizaje que se utilizará en el mismo dispositivo.
El documento JPH 09284877 A describe un sistema de micrófono para obtener un sonido de alta calidad sin verse afectado por el ruido ambiental.
Compendio de la invención
Se proporciona un dispositivo móvil que incluye una entrada de dígitos que puede manipularse con los dedos o el pulgar de un usuario, un micrófono de conducción de aire y un sensor alternativo que proporciona una señal de sensor alternativo indicativa del habla. En algunas realizaciones, el dispositivo móvil también incluye un sensor de proximidad que proporciona una señal de proximidad indicativa de la distancia desde el dispositivo móvil a un objeto. En algunas realizaciones, la señal del micrófono de conducción de aire, la señal del sensor alternativo y la señal de proximidad se usan para formar una estimación de un valor del habla limpia. En realizaciones adicionales, se produce un sonido a través de un altavoz en el dispositivo móvil basado en la cantidad de ruido en el valor del habla limpia. En otras realizaciones, el sonido producido a través del altavoz se basa en la señal del sensor de proximidad.
Breve descripción de los dibujos
La FIG. 1 es una vista en perspectiva de una realización de la presente invención.
La FIG. 2 muestra el teléfono de la FIG. 1 en posición en el lado izquierdo de la cabeza de un usuario.
La FIG. 3 muestra el teléfono de la FIG. 1 en posición en el lado derecho de la cabeza de un usuario.
La FIG. 4 es un diagrama de bloques de un micrófono de conducción ósea.
La FIG. 5 es una vista en perspectiva de una realización alternativa de la presente invención.
La FIG. 6 es un corte transversal de un micrófono de conducción ósea alternativo en una realización de la presente invención.
La FIG. 7 es un diagrama de bloques de un dispositivo móvil en una realización de la presente invención.
La FIG. 8 es un diagrama de bloques de un sistema de procesamiento del habla general de la presente invención. La FIG. 9 es un diagrama de bloques de un sistema para entrenar parámetros de reducción del ruido en una realización de la presente invención.
La FIG. 10 es un diagrama de flujo para entrenar parámetros de reducción del ruido con el sistema de la FIG. 9. La FIG. 11 es un diagrama de bloques de un sistema para identificar una estimación de una señal del habla limpia a partir de una señal del habla de prueba de ruido en una realización de la presente invención.
La FIG. 12 es un diagrama de flujo de un método para identificar una estimación de una señal del habla limpia con el sistema de la FIG. 11.
La FIG. 13 es un diagrama de bloques de un sistema alternativo para identificar una estimación de una señal del habla limpia.
La FIG. 14 es un diagrama de bloques de un segundo sistema alternativo para identificar una estimación de una señal del habla limpia.
La FIG. 15 es un diagrama de flujo de un método para identificar una estimación de una señal del habla limpia con el sistema de la FIG. 14.
La FIG. 16 es una vista en perspectiva de una realización adicional de un dispositivo móvil de la presente invención.
Descripción detallada de realizaciones ilustrativas
Las realizaciones de la presente invención proporcionan dispositivos móviles de mano que contienen tanto un micrófono de conducción de aire como un sensor alternativo que puede usarse en la detección del habla y el filtrado de ruido. La FIG. 1 proporciona una realización de ejemplo en la que el dispositivo móvil de mano es un teléfono móvil 100. El teléfono móvil 100 incluye un teclado 102, una pantalla 104, un control del cursor 106, un micrófono de conducción de aire 108, un altavoz 110, dos micrófonos de conducción ósea 112 y 114 y, opcionalmente, un sensor de proximidad 116.
El panel táctil 102 permite que el usuario introduzca números y letras en el teléfono móvil. En otras realizaciones, el panel táctil 102 se combina con la pantalla 104 en forma de una pantalla táctil. El control del cursor 106 permite al usuario resaltar y seleccionar información en la pantalla 104 y desplazarse a través de imágenes y páginas que son más grandes que la pantalla 104.
Como se muestra en las FIGS. 2 y 3, cuando el teléfono móvil 100 se coloca en la posición estándar para conversar por teléfono, el altavoz 110 se coloca cerca del oído izquierdo 200 o el oído derecho 300 del usuario, y el micrófono de conducción de aire 108 se coloca cerca de la boca 202 del usuario. Cuando el teléfono se coloca cerca del oído izquierdo del usuario, como en la FIG. 2, el micrófono de conducción ósea 114 entra en contacto con el cráneo o el oído del usuario y produce una señal de sensor alternativo que puede usarse para eliminar el ruido de la señal del habla recibida por el micrófono de conducción de aire 108. Cuando el teléfono se coloca cerca del oído derecho del usuario, como en la FIG. 3, el micrófono de conducción ósea 112 entra en contacto con el cráneo o el oído del usuario y produce una señal de sensor alternativo que puede usarse para eliminar el ruido de la señal del habla. El sensor de proximidad opcional 116 indica qué tan cerca está el teléfono del usuario. Como se analiza más adelante, esta información se utiliza para ponderar la contribución de los micrófonos de conducción ósea en la producción del valor del habla limpia. En general, si el detector de proximidad detecta que el teléfono está al lado del usuario, las señales del micrófono de conducción ósea se ponderan más que si el teléfono está a cierta distancia del usuario. Este ajuste refleja el hecho de que la señal del micrófono de conducción ósea es más indicativa de que el usuario habla cuando está en contacto con el usuario. Cuando está apartado del usuario, es más susceptible al ruido ambiental. El sensor de proximidad se usa en realizaciones de la presente invención porque los usuarios no siempre sostienen el teléfono presionado contra sus cabezas.
La FIG. 4 muestra una realización de un sensor de conducción ósea 400 de la presente invención. En el sensor 400,
un puente de elastómero blando 402 está adherido a un diafragma 404 de un micrófono de conducción de aire normal 406. Este puente blando 402 conduce vibraciones desde el contacto con la piel 408 del usuario directamente al diafragma 404 del micrófono 406. El movimiento del diafragma 404 se convierte en una señal eléctrica mediante un transductor 410 en el micrófono 406.
La FIG. 5 proporciona una realización alternativa de teléfono móvil 500 del dispositivo móvil de mano de la presente invención. El teléfono móvil 500 incluye un teclado 502, una pantalla 504, un control del cursor 506, un micrófono de conducción de aire 508, un altavoz 510 y una combinación del micrófono de conducción ósea y sensor de proximidad 512.
Como se muestra en el corte transversal de la FIG. 6, la combinación del micrófono de conducción ósea y el sensor de proximidad 512 consiste en una almohadilla suave, de relleno de medio (con fluido o elastómero) 600 que tiene una superficie exterior 602 diseñada para entrar en contacto con al usuario cuando el usuario coloca el teléfono contra su oído. La almohadilla 600 forma un anillo alrededor de una abertura que proporciona una vía de paso para el sonido del altavoz 510, que se encuentra en la abertura o directamente debajo de la abertura dentro del teléfono 500. La almohadilla 600 no está limitada a esta forma y se puede usar cualquier forma para la almohadilla. En general, sin embargo, se prefiere si la almohadilla 600 incluye porciones a la izquierda y derecha del altavoz 510, de modo que al menos una parte de la almohadilla 600 esté en contacto con el usuario, independientemente del oído en el que el usuario coloque el teléfono. Las porciones de la almohadilla pueden ser externamente continuas o pueden estar externamente separadas pero conectadas de manera fluida entre sí dentro del teléfono.
Un transductor electrónico de presión 604 está conectado hidráulicamente al fluido o elastómero en la almohadilla 600 y convierte la presión del fluido en la almohadilla 600 en una señal eléctrica en el conductor 606. Los ejemplos de transductor electrónico de presión 604 incluyen transductores basados en tecnología MEMS. En general, el transductor de presión 604 debería tener una respuesta de alta frecuencia.
La señal eléctrica en el conductor 606 incluye dos componentes, un componente de CC y un componente de CA. El componente de CC proporciona una señal del sensor de proximidad porque la presión estática dentro de la almohadilla 600 será mayor cuando el teléfono se presiona contra el oído del usuario que cuando el teléfono está a cierta distancia del oído del usuario. El componente de CA de la señal eléctrica proporciona una señal de micrófono de conducción ósea porque las vibraciones en los huesos del cráneo, la mandíbula o el oído del usuario crean fluctuaciones de presión en la almohadilla 600 que se convierten en una señal eléctrica de CA mediante el transductor de presión 604. En una realización, se aplica un filtro a la señal eléctrica para permitir que pase el componente de CC de la señal y los componentes de CA por encima de una frecuencia mínima.
Aunque se han descrito anteriormente dos ejemplos de sensores de conducción ósea, otras formas para el sensor de conducción ósea se encuentran dentro del alcance de la presente invención.
La FIG. 7 es un diagrama de bloques de un dispositivo móvil 700, en una realización de la presente invención. El dispositivo móvil 700 incluye un microprocesador 702, memoria 704, interfaz de entrada/salida (E/S) 706 y una interfaz de comunicación 708 para comunicarse con ordenadores remotos, redes de comunicación u otros dispositivos móviles. En una realización, los componentes mencionados anteriormente se acoplan para comunicarse entre sí a través de un bus 710 adecuado.
La memoria 704 puede implementarse como memoria electrónica no volátil, tal como memoria de acceso aleatorio (RAM) con un módulo de reserva de batería (no se muestra) de manera que la información almacenada en la memoria 704 no se pierda cuando la alimentación general del dispositivo móvil 700 se desconecte. De forma alternativa, toda o porciones de la memoria 704 pueden ser memorias extraíbles volátiles o no volátiles. Una porción de memoria 704 se asigna preferiblemente como memoria direccionable para la ejecución del programa, mientras que otra porción de memoria 704 se usa preferiblemente para almacenamiento, por ejemplo, simular almacenamiento en una unidad de disco.
La memoria 704 incluye un sistema operativo 712, programas de aplicación 714, así como un almacén de objetos 716. En funcionamiento, el sistema operativo 712 es ejecutado preferiblemente por el procesador 702 desde la memoria 704. El sistema operativo 712, en una realización preferida, es un sistema operativo de la marca WINDOWS® CE disponible comercialmente de Microsoft Corporation. El sistema operativo 712 está diseñado preferiblemente para dispositivos móviles e implementa características de base de datos que pueden ser utilizadas por las aplicaciones 714 a través de un conjunto de interfaces y métodos de programación de aplicaciones expuestos. Los objetos en el almacén de objetos 716 son mantenidos por las aplicaciones 714 y el sistema operativo 712, al menos parcialmente en respuesta a las llamadas a las interfaces y métodos de programación de aplicaciones expuestos.
La interfaz de comunicación 708 representa numerosos dispositivos y tecnologías que permiten que el dispositivo móvil 700 envíe y reciba información. En realizaciones de teléfonos móviles, la interfaz de comunicación 708 representa una interfaz de red de teléfono celular que interactúa con una red de teléfono celular para permitir que se realicen y se reciban llamadas. Otros dispositivos posiblemente representados por la interfaz de comunicación 708 incluyen módems cableados e inalámbricos, receptores de satélite y sintonizadores de radiodifusión, por nombrar
algunos. El dispositivo móvil 700 también se puede conectar directamente a un ordenador para intercambiar datos con el mismo. En dichos casos, la interfaz de comunicación 708 puede ser un transceptor de infrarrojos o una conexión de comunicación en serie o en paralelo, todos los cuales son capaces de transmitir información de emisión en continuo.
Las instrucciones ejecutables por ordenador que son ejecutadas por el procesador 702 para implementar la presente invención pueden almacenarse en la memoria 704 o recibirse a través de la interfaz de comunicación 708. Estas instrucciones se encuentran en un medio legible por ordenador, que, sin limitación, puede incluir medios de almacenamiento informático y medios de comunicación.
Los medios de almacenamiento informáticos incluyen medios volátiles y no volátiles, extraíbles y no extraíbles implementados en cualquier método o tecnología para el almacenamiento de información, tales como instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento informático incluyen, entre otros, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento en disco óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda usarse para almacenar la información deseada y al que se pueda acceder.
Los medios de comunicación típicamente incorporan instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada, tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características establecida o cambiada de manera que codifique información en la señal. A modo de ejemplo, y sin limitación, los medios de comunicación incluyen medios cableados como una red cableada o conexión cableada directa, y medios inalámbricos como medios acústicos, RF, infrarrojos y otros medios inalámbricos. Las combinaciones de cualquiera de lo anterior deberían estar incluidos también dentro del alcance de los medios legibles por ordenador.
La interfaz de entrada/salida 706 representa interfaces para una colección de dispositivos de entrada y salida, incluido el altavoz 730, la entrada de dígitos 732 (como uno o un conjunto de botones, una pantalla táctil, una bola de seguimiento, una alfombrilla de ratón, un rodillo o una combinación de estos componentes que pueden manipularse con el pulgar o el dedo del usuario), pantalla 734, micrófono de conducción de aire 736, sensor alternativo 738, sensor alternativo 740 y sensor de proximidad 742. En una realización, los sensores alternativos 738 y 740 son micrófonos de conducción ósea. Los dispositivos enumerados anteriormente son a modo de ejemplo y no todos necesitan estar presentes en el dispositivo móvil 700. Además, en al menos una realización, el sensor alternativo y el sensor de proximidad se combinan como un único sensor que proporciona una señal del sensor de proximidad y una señal de sensor alternativo. Estas señales pueden colocarse en líneas de conducción separadas o pueden ser componentes de una señal en una única línea. Además, otros dispositivos de entrada/salida se pueden conectar a, o encontrar con, el dispositivo móvil 700 dentro del alcance de la presente invención.
La FIG. 8 proporciona un diagrama de bloques básico de un sistema de procesamiento del habla de realizaciones de la presente invención. En la FIG. 8, un altavoz 800 genera una señal del habla 802 que es detectada por un micrófono de conducción de aire 804 y uno o ambos de un sensor alternativo 806 y un sensor alternativo 807. Un ejemplo de un sensor alternativo es un sensor de conducción ósea que se encuentra en, o adyacente, a un hueso facial o del cráneo del usuario (como el hueso de la mandíbula) o en el oído del usuario y que detecta las vibraciones del oído, el cráneo o la mandíbula que corresponden al habla generado por el usuario. Otro ejemplo de un sensor alternativo es un sensor infrarrojo que apunta hacia y detecta el movimiento de la boca del usuario. Obsérvese que, en algunas realizaciones, solamente estará presente un sensor alternativo. El micrófono de conducción de aire 804 es el tipo de micrófono que se utiliza comúnmente para convertir ondas de radio de audio en señales eléctricas.
El micrófono de conducción de aire 804 también recibe ruido 808 generado por una o más fuentes de ruido 810. Dependiendo del tipo de sensor alternativo y el nivel del ruido, el ruido 808 también puede ser detectado por sensores alternativos 806 y 807. Sin embargo, según las realizaciones de la presente invención, los sensores alternativos 806 y 807 son típicamente menos sensibles al ruido ambiental que el micrófono de conducción de aire 804. Por lo tanto, las señales de sensor alternativo 812 y 813 generadas por los sensores alternativos 806 y 807, respectivamente, en general incluyen menos ruido que la señal del micrófono de conducción de aire 814 generada por el micrófono de conducción de aire 804.
Si hay dos sensores alternativos, como dos sensores de conducción ósea, las señales del sensor 812 y 813 se pueden proporcionar opcionalmente a una unidad de comparación/selección 815. La unidad de comparación/selección 815 compara la intensidad de las dos señales y selecciona la señal más fuerte como su salida 817. La señal más débil no se transmite para su procesamiento posterior. En cuanto a realizaciones de teléfonos móviles, tales como el teléfono móvil de las FIGS. 1-3, la unidad de comparación/selección 815 normalmente seleccionará la señal generada por el sensor de conducción ósea que está en contacto con la piel del usuario. Así, en la FIG. 2, se seleccionará la señal del sensor de conducción ósea 114 y en la FIG. 3, se seleccionará la señal del sensor de conducción ósea 112.
La señal de sensor alternativo 817 y la señal del micrófono de conducción de aire 814 se proporcionan a un estimador de la señal limpia 816, que estima una señal del habla limpia 818 a través de un proceso que se comenta a continuación en detalle. Opcionalmente, el estimador de la señal limpia 816 también recibe una señal de proximidad 830 desde un sensor de proximidad 832 que se utiliza para estimar la señal limpia 818. Como se ha indicado anteriormente, el sensor de proximidad puede combinarse con una señal de sensor alternativo en algunas realizaciones. Se proporciona una estimación de la señal limpia 818 a un proceso del habla 820. La señal del habla limpia 818 puede ser una señal en un dominio del tiempo filtrada o un vector en un dominio de características. Si la estimación de la señal limpia 818 es una señal en el dominio del tiempo, el proceso del habla 820 puede adoptar la forma de un oyente, un transmisor de teléfono celular, un sistema de codificación del habla o un sistema de reconocimiento del habla. Si la señal del habla limpia 818 es un vector en un dominio de características, el proceso del habla 820 será típicamente un sistema de reconocimiento del habla.
El estimador de la señal limpia 816 también produce una estimación del ruido 819, que indica el ruido estimado que está en la señal del habla limpia 818. La estimación del ruido 819 se proporciona a un generador de tono lateral 821, que genera un tono a través de los altavoces del dispositivo móvil en base a la estimación del ruido 819. En particular, el generador de tono lateral 821 aumenta el volumen del tono lateral a medida que aumenta la estimación del ruido 819.
El tono lateral proporciona realimentación al usuario que indica si el usuario está sosteniendo el dispositivo móvil en la mejor posición para aprovechar el sensor alternativo. Por ejemplo, si el usuario no está presionando el sensor de conducción ósea contra su cabeza, el estimador de la señal limpia recibirá una señal de sensor alternativo pobre y producirá una señal limpia ruidosa 818 debido a la señal del sensor alternativo pobre. Esto dará como resultado un tono lateral más fuerte. A medida que el usuario pone el sensor de conducción ósea en contacto con su cabeza, la señal del sensor alternativo mejorará, reduciendo así el ruido en la señal limpia 818 y el volumen del tono lateral. Por lo tanto, un usuario puede aprender rápidamente cómo sostener el teléfono para reducir mejor el ruido en la señal limpia en base a la realimentación en el tono lateral.
En realizaciones alternativas, el tono lateral se genera en base a la señal del sensor de proximidad 830 del sensor de proximidad 832. Cuando el sensor de proximidad indica que el teléfono está en contacto o extremadamente cerca de la cabeza del usuario, el volumen del tono lateral será bajo. Cuando el sensor de proximidad indica que el teléfono está lejos de la cabeza del usuario, el tono lateral será más fuerte.
La presente invención utiliza varios métodos y sistemas para estimar el habla limpia utilizando la señal del micrófono de conducción de aire 814, la señal del sensor alternativo 817 y, opcionalmente, la señal del sensor de proximidad 830. Un sistema utiliza datos de entrenamiento estéreo para entrenar vectores de corrección para la señal del sensor alternativo. Cuando estos vectores de corrección se añaden más tarde a un vector de sensor alternativo de prueba, proporcionan una estimación de un vector de señal limpia. Una extensión adicional de este sistema es realizar un seguimiento primero de las distorsiones variables en el tiempo y luego incorporar esta información en el cálculo de los vectores de corrección y en la estimación del habla limpia.
Un segundo sistema proporciona una interpolación entre la estimación de la señal limpia generada por los vectores de corrección y una estimación formada restando una estimación del ruido actual en la señal de prueba de conducción de aire de la señal de conducción de aire. Un tercer sistema utiliza la señal del sensor alternativo para estimar el tono de la señal del habla y luego utiliza el tono estimado para identificar una estimación de la señal del habla limpia. Cada uno de estos sistemas se analiza por separado a continuación.
Entrenamiento de vectores de corrección estéreo
Las FIGS. 9 y 10 proporcionan un diagrama de bloques y un diagrama de flujo para entrenar vectores de corrección estéreo para las dos realizaciones de la presente invención que se basan en vectores de corrección que generan una estimación del habla limpia.
El método de identificación de vectores de corrección comienza en la etapa 1000 de la FIG. 10, donde una señal de micrófono de conducción de aire "limpia" se convierte en una secuencia de vectores de características. Para hacer esto, un altavoz 900 de la FIG. 9, habla en un micrófono de conducción de aire 910, que convierte las ondas de audio en señales eléctricas. Las señales eléctricas son luego muestreadas por un convertidor analógico-digital 914 que genera una secuencia de valores digitales, que son agrupados en tramas de valores por un constructor de tramas 916. En una realización, el convertidor A-D 914 muestrea la señal analógica a 16 kHz y 16 bits por muestra, creando así 32 kilobytes de datos del habla por segundo y el constructor de tramas 916 crea una nueva trama cada 10 milisegundos que incluye 25 milisegundos de datos de valor.
Cada trama de datos proporcionada por el constructor de tramas 916 se convierte en un vector de características mediante un extractor de características 918. En una realización, el extractor de características 918 forma características cepstrales. Ejemplos de dichas características incluyen cepstrum derivado de LPC y coeficientes de cepstrum de la frecuencia de Mel. Los ejemplos de otros posibles módulos de extracción de características que pueden usarse con la presente invención incluyen módulos para realizar la codificación predictiva lineal (LPC), la predicción lineal perceptiva (PLP) y la extracción de características del modelo auditivo. Obsérvese que la invención
no se limita a estos módulos de extracción de características y que se pueden usar otros módulos dentro del contexto de la presente invención.
En la etapa 1002 de la FIG. 10, una señal de sensor alternativo se convierte en vectores de características. Aunque se muestra que la conversión de la etapa 1002 se produce después de la conversión de la etapa 1000, cualquier parte de la conversión puede realizarse antes, durante o después de la etapa 1000 según la presente invención. La conversión de la etapa 1002 se realiza a través de un proceso similar al descrito anteriormente para la etapa 1000.
En la realización de la FIG. 9, este proceso comienza cuando los sensores alternativos 902 y 903 detectan un evento físico asociado con la producción del habla en el altavoz 900, tal como una vibración ósea o un movimiento facial. Debido a que los sensores alternativos 902 y 903 están separados en el dispositivo móvil, no detectarán los mismos valores en relación con la producción del habla. Los sensores alternativos 902 y 903 convierten el evento físico en señales eléctricas analógicas. Estas señales eléctricas se proporcionan a una unidad de comparación/selección 904, que identifica la más fuerte de las dos señales y proporciona la señal más fuerte en su salida. Obsérvese que, en algunas realizaciones, solamente se usa un sensor alternativo. En dichos casos, la unidad de comparación/selección 904 no está presente.
La señal analógica seleccionada es muestreada por un convertidor analógico-digital 905. Las características de muestreo para el convertidor A/D 905 son las mismas que las descritas anteriormente para el convertidor A/D 914. Las muestras proporcionadas por el convertidor A/D 905 son recogidas en tramas por un constructor de tramas 906, que actúa de manera similar al constructor de tramas 916. Las tramas de muestras se convierten luego en vectores de características mediante un extractor de características 908, que utiliza el mismo método de extracción de características que el extractor de características 918.
Los vectores de características para la señal del sensor alternativo y la señal conductora de aire se proporcionan a un entrenador de reducción del ruido 920 en la FIG. 9. En la etapa 1004 de la FIG. 10, el entrenador de reducción del ruido 920 agrupa los vectores de características para la señal del sensor alternativo en componentes de la mezcla. Esta agrupación se puede hacer agrupando vectores de características similares mediante una técnica de entrenamiento de máxima verosimilitud o agrupando vectores de características que representan una sección temporal de la señal del habla. Los expertos en la técnica reconocerán que pueden usarse otras técnicas para agrupar los vectores de características y que las dos técnicas enumeradas anteriormente solamente se proporcionan como ejemplos.
El entrenador de reducción del ruido 920 luego determina un vector de corrección, rs, para cada componente de la mezcla, s, en la etapa 1008 de la FIG. 10. En una realización, el vector de corrección para cada componente de la mezcla se determina con el criterio de máxima verosimilitud. Mediante esta técnica, el vector de corrección se calcula como:
donde xt es el valor del vector de conducción de aire para la trama t y bt es el valor del vector de sensor alternativo para la trama t. En la ecuación 1:
donde p(s) es simplemente uno sobre el número de componentes de la mezcla y p(bt|s) se modela como una distribución gaussiana:
con la media |ib y la varianza n> entrenada mediante un algoritmo de maximización de expectativas (EM) donde cada iteración consiste en las siguientes etapas:
y, (0 = p(s I bt) ec. 4
r. =
'Z jA Q jb , -
~ P ,)r
EC.6
1 > , ( 0
EC.4 es la etapa E en el algoritmo de EM, que utiliza los parámetros estimados previamente. EC.5 y EC.6 son la etapa M, que actualiza los parámetros utilizando los resultados de la etapa E.
Las etapas E y M del algoritmo iteran hasta que se determinan valores estables para los parámetros del modelo. Estos parámetros se utilizan para evaluar la ecuación 1 y formar los vectores de corrección. Los vectores de corrección y los parámetros del modelo se almacenan luego en un almacén de parámetros de reducción del ruido 922.
Después de que se haya determinado un vector de corrección para cada componente de la mezcla en la etapa 1008, se completa el proceso de entrenamiento del sistema de reducción del ruido de la presente invención. Una vez que se ha determinado un vector de corrección para cada mezcla, los vectores pueden usarse en una técnica de reducción del ruido de la presente invención. A continuación se comentan dos técnicas de reducción del ruido separadas que usan los vectores de corrección.
Reducción de ruido mediante el vector de corrección y la estimación del ruido
Un sistema y método que reduce el ruido en una señal del habla ruidosa en base a vectores de corrección y una estimación del ruido se muestra en el diagrama de bloques de la FIG. 11 y el diagrama de flujo de la FIG. 12, respectivamente.
En la etapa 1200, una señal de prueba de audio detectada por un micrófono de conducción de aire 1104 se convierte en vectores de características. La señal de prueba de audio recibida por el micrófono 1104 incluye el habla de un altavoz 1100 y el ruido añadido procedente de una o más fuentes de ruido 1102. La señal de prueba de audio detectada por el micrófono 1104 se convierte en una señal eléctrica que se proporciona al convertidor analógicodigital 1106.
El convertidor A-D 1106 convierte la señal analógica del micrófono 1104 en una serie de valores digitales. En varias realizaciones, el convertidor A-D 1106 muestrea la señal analógica a 16 kHz y 16 bits por muestra, creando así 32 kilobytes de datos del habla por segundo. Estos valores digitales se proporcionan a un constructor de tramas 1108, que, en una realización, agrupa los valores en tramas de 25 milisegundos que comienzan con una separación de 10 milisegundos.
Las tramas de datos creadas por el constructor de tramas 1108 se proporcionan al extractor de características 1110, que extrae una característica de cada trama. En una realización, este extractor de características es diferente de los extractores de características 908 y 918 que se usaron para entrenar los vectores de corrección. En particular, en esta realización, el extractor de características 1110 produce valores del espectro de potencia en lugar de valores cepstrales. Las características extraídas se proporcionan a un estimador de la señal limpia 1122, una unidad de detección del habla 1126 y un entrenador del modelo de ruido 1124.
En la etapa 1202, un evento físico, tal como una vibración ósea o un movimiento facial, asociado con la producción del habla en el altavoz 1100 se convierte en un vector de características. Aunque se muestra como una etapa separada en la FIG. 12, los expertos en la técnica reconocerán que porciones de esta etapa pueden realizarse al mismo tiempo que la etapa 1200. Durante la etapa 1202, el evento físico es detectado por uno o ambos sensores alternativos 1112 y 1114. Los sensores alternativos 1112 y 1114 generan señales eléctricas analógicas basadas en el evento físico. Las señales analógicas se proporcionan a una unidad de comparación y selección 1115, que selecciona la señal de mayor magnitud como su salida. Obsérvese que, en algunas realizaciones, solamente se proporciona un sensor alternativo. En dichas realizaciones, no se necesita una unidad de comparación y selección 1115.
La señal analógica seleccionada se convierte en una señal digital mediante el convertidor analógico-digital 1116 y las muestras digitales resultantes se agrupan en tramas con el constructor de tramas 1118. En una realización, el convertidor analógico-digital 1116 y el constructor de tramas 1118 funcionan de manera similar al convertidor analógico-digital 1106 y al constructor de tramas 1108.
Las tramas de valores digitales se proporcionan a un extractor de características 1120, que utiliza la misma técnica de extracción de características que se ha utilizado para entrenar los vectores de corrección. Como se ha mencionado anteriormente, los ejemplos de dichos módulos de extracción de características incluyen módulos para realizar la codificación predictiva lineal (LPC), cepstrum derivado de LPC, la predicción lineal perceptiva (PLP), la extracción de características del modelo auditivo y la extracción de características de coeficientes de cepstrum de la frecuencia de Mel (MFCC). Sin embargo, en muchas realizaciones, se utilizan técnicas de extracción de características que producen características cepstrales.
El módulo de extracción de características produce un flujo de vectores de características que están asociados con una trama separada de la señal del habla. Este flujo de vectores de características se proporciona al estimador de la señal limpia 1122.
Las tramas de valores del constructor de tramas 1118 también se proporcionan a un extractor de características 1121, que en una realización extrae la energía de cada trama. El valor de energía para cada trama se proporciona a
una unidad de detección del habla 1126.
En la etapa 1204, la unidad de detección del habla 1126 usa la característica de energía de la señal del sensor alternativo para determinar cuándo es probable que haya habla. Esta información se pasa al entrenador del modelo de ruido 1124, que intenta modelar el ruido durante los períodos en que no hay habla en la etapa 1206.
En una realización, la unidad de detección del habla 1126 primero busca la secuencia de valores de energía de trama para encontrar un pico en la energía. Luego busca un valle después del pico. La energía de este valle se denomina un separador de energía, d. Para determinar si una trama contiene habla, la relación, k, de la energía de la trama, e, sobre el separador de energía, d, entonces se determina como: k=e/d. Una confianza del habla, q, para la trama se determina entonces como:
t -1 : k > a
donde a define la transición entre dos estados y en una implementación se establece en 2. Finalmente, el valor de confianza promedio de sus 5 tramas vecinas (incluida la propia) se usa como el valor de confianza final para esta trama.
En una realización, se usa un valor umbral fijo para determinar si el habla está presente de manera que, si el valor de confianza sobrepasa el umbral, se considera que la trama contiene habla y si el valor de confianza no sobrepasa el umbral, se considera que la trama no contiene habla En una realización, se usa un valor umbral de 0,1.
Para cada trama sin habla detectada por la unidad de detección del habla 1126, el entrenador del modelo de ruido 1124 actualiza un modelo de ruido 1125 en la etapa 1206. En una realización, el modelo de ruido 1125 es un modelo gaussiano que tiene una media mn y una varianza J_n. Este modelo se basa en una ventana móvil de las tramas más recientes sin habla. Las técnicas para determinar la media y la varianza a partir de las tramas sin habla en la ventana son bien conocidas en la técnica.
Los vectores de corrección y los parámetros del modelo en el almacenamiento de parámetros 922 y el modelo de ruido 1125 se proporcionan al estimador de la señal limpia 1122 con los vectores de características, b, para el sensor alternativo y los vectores de características, Sy, para la señal ruidosa del micrófono de conducción de aire. En la etapa 1208, el estimador de la señal limpia 1122 estima un valor inicial para la señal del habla limpia basándose en el vector de características del sensor alternativo, los vectores de corrección y los parámetros del modelo para el sensor alternativo. En particular, la estimación del sensor alternativo de la señal limpia se calcula como:
i = 6 £ p ( s í ¿ ) r , g j j .g
i
donde x es la estimación de la señal limpia en el dominio cepstral, b es el vector de características del sensor alternativo, p(s|b) se determina mediante la ecuación 2 anterior, y rs es el vector de corrección para el componente de la mezcla s. Por lo tanto, la estimación de la señal limpia en la ecuación 8 se forma añadiendo el vector de características del sensor alternativo a una suma ponderada de vectores de corrección donde los pesos se basan en la probabilidad de un componente de la mezcla dado el vector de características del sensor alternativo.
En la etapa 1210, la estimación inicial del habla limpia del sensor alternativo se perfecciona combinándola con una estimación del habla limpia que se forma a partir del vector ruidoso del micrófono de conducción de aire y el modelo de ruido. Esto da como resultado una estimación perfeccionada del habla limpia 1128. A fin de combinar el valor cepstral de la estimación inicial de la señal limpia con el vector de características del espectro de potencia del micrófono de conducción de aire ruidoso, el valor cepstral se convierte al dominio del espectro de potencia utilizando:
donde C'1 es una transformada discreta del coseno inversa y SX|b es la estimación del espectro de potencia de la señal limpia basada en el sensor alternativo.
Una vez que la estimación inicial de la señal limpia del sensor alternativo se ha colocado en el dominio del espectro de potencia, se puede combinar con el vector ruidoso del micrófono de conducción de aire y el modelo de ruido como:
donde Sx es la estimación perfeccionada de la señal limpia en el dominio del espectro de potencia, Sy es el vector de características ruidoso del micrófono de conducción de aire, (^ n,J_n) son la media y la covarianza del modelo de ruido anterior (véase 1124), Sxb es la estimación inicial de la señal limpia basada en el sensor alternativo, y Xx|b es la matriz de covarianza de la distribución de probabilidad condicional para el habla limpia dada la medición del sensor alternativo. Xx|b se puede calcular de la siguiente manera. Sea J el jacobiano de la función en el lado derecho de la ecuación 9. Sea X la matriz de covarianza de x. Entonces la covarianza de Sx|b es
EC.11
En una realización simplificada, EC.10 se reescribe como la ecuación siguiente:
St =a(f)(S} - Mr) ( l -a(f ) )S
4*
EC. 12
donde a(f) es una función tanto del tiempo como de la banda de frecuencia. Por ejemplo, si el sensor alternativo tiene un ancho de banda de hasta 3KHz, a(f) se elige para que sea 0 en la banda de frecuencia por debajo de 3KHz. Básicamente, se confía en la estimación inicial de la señal limpia del sensor alternativo para las bandas de frecuencia baja.
En las bandas de alta frecuencia, la estimación inicial de la señal limpia del sensor alternativo no es tan fiable. Intuitivamente, cuando el ruido es pequeño para una banda de frecuencia en la trama actual, se elige un gran a(f) de modo que se coge más información del micrófono de conducción de aire para esta banda de frecuencia. De lo contrario, se utiliza más información del sensor alternativo al elegir un a(f) pequeño. En una realización, la energía de la estimación inicial de la señal limpia del sensor alternativo se usa para determinar el nivel de ruido para cada banda de frecuencia. Sea E(f) la energía para la banda de frecuencia f. Sea M=MaxfE(f). a(f), como una función de f, que se define de la siguiente manera:
donde se usa una interpolación lineal para la transición de 3K a 4K para asegurar la suavidad de a(f).
En una realización, la proximidad del dispositivo móvil a la cabeza del usuario se incorpora en la determinación de a(f). Específicamente, si el sensor de proximidad 832 produce un valor de distancia máxima D y un valor de distancia actual d, la ecuación 13 se puede modificar como:
f > 4 K
3K < f < 4K
EC.14
donde p está entre cero y uno y se selecciona en base a qué factor, energía o proximidad, se cree que proporciona la mejor indicación de si el modelo de ruido para el micrófono de conducción de aire o el vector de corrección para el sensor alternativo proporcionará la mejor estimación de la señal limpia.
Si p se establece a cero a(f) ya no depende de la frecuencia y simplemente se convierte en:
d
EC.15
D
La estimación de la señal limpia perfeccionada en el dominio del espectro de potencia se puede usar para construir un filtro de Wiener y filtrar la señal ruidosa del micrófono de conducción de aire. En particular, el filtro de Wiener, H, se establece de manera que:
Este filtro se puede aplicar luego contra la señal ruidosa del micrófono de conducción de aire en el dominio del tiempo para producir una señal en el dominio del tiempo limpia o con reducción del ruido. La señal con reducción del ruido se puede proporcionar a un oyente o aplicarse a un reconocedor del habla.
Obsérvese que la ecuación 12 proporciona una estimación de la señal limpia perfeccionada que es la suma ponderada de dos factores, uno de los cuales es una estimación de la señal limpia de un sensor alternativo. Esta suma ponderada se puede ampliar para incluir factores adicionales para sensores alternativos adicionales. Por lo tanto, se puede usar más de un sensor alternativo para generar estimaciones independientes de la señal limpia. Estas estimaciones múltiples se pueden combinar usando la ecuación 12.
En una realización, también se estima el ruido en la estimación de la señal limpia perfeccionada. En una realización, este ruido se trata como una gaussiana de media cero con una covarianza que se determina como:
donde es la variación del ruido en el micrófono de conducción de aire y es la varianza del ruido en la estimación del sensor alternativo. En particular, X*|b es más grande si el sensor alternativo no hace buen contacto con la superficie de la piel. La calidad del contacto se puede medir con un sensor de proximidad adicional o analizando el sensor alternativo. Para este último, observando que el sensor alternativo produce poca respuesta de alta frecuencia (mayor que 4KHz) si está en buen contacto, medimos la calidad del contacto con la relación entre la energía de baja frecuencia (menos de 3KHz) y la energía de alta frecuencia. Cuanto mayor sea la relación, mejor será el contacto.
En algunas realizaciones, el ruido en la estimación de la señal limpia se usa para generar un tono lateral como se ha comentado anteriormente en relación con la FIG. 6. A medida que aumenta el ruido en la estimación de la señal limpia perfeccionada, el volumen del tono lateral aumenta para motivar al usuario a colocar el sensor alternativo en una mejor posición de modo que aumente el proceso de mejora. Por ejemplo, el tono lateral motiva a los usuarios a presionar el sensor de conducción ósea contra su cabeza de modo que aumenta el proceso de mejora.
Reducción de ruido mediante el vector de corrección sin la estimación del ruido
La FIG. 13 proporciona un diagrama de bloques de un sistema alternativo para estimar un valor del habla limpia según la presente invención. El sistema de la FIG. 13 es similar al sistema de la FIG. 11 excepto que la estimación del valor del habla limpia se forma sin la necesidad de un micrófono de conducción de aire o un modelo de ruido.
En la FIG. 13, un evento físico asociado con un altavoz 1300 que produce habla se convierte en un vector de características mediante el sensor alternativo 1302, el convertidor analógico-digital 1304, el constructor de tramas 1306 y el extractor de características 1308, de manera similar a la que se comenta anteriormente para el sensor alternativo 1114, convertidor analógico-digital 1116, constructor de tramas 1117 y extractor de características 1118 de la FIG. 11. Obsérvese que, aunque solamente se muestra un sensor alternativo en la FIG. 13, se pueden usar sensores alternativos adicionales como en la FIG. 11 con la incorporación de una unidad de comparación y selección como se ha comentado anteriormente para la FIG. 11.
Los vectores de características del extractor de características 1308 y los parámetros de reducción del ruido 922 se proporcionan a un estimador de la señal limpia 1310, que determina una estimación de un valor de la señal limpia 1312, Sxb, usando las ecuaciones 8 y 9 anteriores.
La estimación de la señal limpia, Sxb, en el dominio del espectro de potencia puede usarse para construir un filtro de Wiener para filtrar una señal ruidosa del micrófono de conducción de aire. En particular, el filtro de Wiener, H, se establece de manera que:
Este filtro se puede aplicar luego contra la señal ruidosa del micrófono de conducción de aire en el dominio del tiempo para producir una señal limpia o con reducción del ruido. La señal con reducción del ruido se puede proporcionar a un oyente o aplicarse a un reconocedor del habla.
De forma alternativa, la estimación de la señal limpia en el dominio cepstral, x, que se calcula en la ecuación 8, puede aplicarse directamente a un sistema de reconocimiento del habla.
Reducción del ruido mediante seguimiento del tono
Una técnica alternativa para generar estimaciones de una señal del habla limpia se muestra en el diagrama de bloques de la FIG. 14 y el diagrama de flujo de la FIG. 15. En particular, la realización de las FIGS. 14 y 15 determina una estimación del habla limpia identificando un tono para la señal del habla usando un sensor alternativo
y luego usando el tono para descomponer una señal ruidosa del micrófono de conducción de aire en un componente armónico y un componente aleatorio. Por lo tanto, la señal ruidosa se representa como:
y = y * y r e c l -ib
donde y es la señal ruidosa yh es el componente armónico, e yr es el componente aleatorio. Una suma ponderada del componente armónico y el componente aleatorio se utilizan para formar un vector de características con reducción del ruido que representa una señal del habla con reducción del ruido.
En una realización, el componente armónico se modela como una suma de sinusoides relacionados armónicamente de manera que:
«r
yk = ak cos(Á:ft)00 + l\*in(kco0t) EC.19
k=\
donde W0 es la frecuencia de tono o fundamental y K es el número total de armónicos en la señal.
Por lo tanto, para identificar el componente armónico, se debe determinar una estimación de la frecuencia de tono y los parámetros de amplitud {a1a2...akb1b2...bk}.
En la etapa 1500, se recoge una señal del habla ruidosa y se convierte en muestras digitales. Para hacer esto, un micrófono de conducción de aire 1404 convierte las ondas de audio de un altavoz 1400 y una o más fuentes de ruido añadido 1402 en señales eléctricas. Las señales eléctricas son luego muestreadas por un convertidor analógicodigital 1406 para generar una secuencia de valores digitales. En una realización, el convertidor A-D 1406 muestrea la señal analógica a 16 kHz y 16 bits por muestra, creando así 32 kilobytes de datos del habla por segundo. En la etapa 1502, las muestras digitales se agrupan en tramas mediante un constructor de tramas 1408. En una realización, el constructor de tramas 1408 crea una nueva trama cada 10 milisegundos que incluye 25 milisegundos de datos de valor.
En la etapa 1504, un sensor físico 1444 detecta un evento físico asociado con la producción del habla. En esta realización, un sensor alternativo que puede detectar componentes armónicos, como un sensor de conducción ósea, es el más adecuado para ser utilizado como sensor alternativo 1444. Obsérvese que, aunque la etapa 1504 se muestra como separada de la etapa 1500, los expertos en la técnica reconocerán que estas etapas pueden realizarse al mismo tiempo. Además, aunque solamente se muestra un sensor alternativo en la FIG. 14, se pueden usar sensores alternativos adicionales como en la FIG. 11 con la incorporación de una unidad de comparación y selección como se ha comentado anteriormente para la FIG. 11.
La señal analógica generada por el sensor alternativo 1444 se convierte en muestras digitales mediante un convertidor analógico-digital 1446. Las muestras digitales se agrupan en tramas mediante un constructor de tramas 1448 en la etapa 1506.
En la etapa 1508, las tramas de la señal del sensor alternativo son utilizadas por un seguidor de tonos 1450 para identificar el tono o la frecuencia fundamental del habla.
Se puede determinar una estimación de la frecuencia de tono utilizando un número cualquiera de sistemas de seguimiento de tono disponibles. En muchos de estos sistemas, los tonos candidatos se utilizan para identificar posibles espacios entre los centros de segmentos de la señal del sensor alternativo. Para cada tono candidato, se determina una correlación entre segmentos sucesivos del habla. En general, el tono candidato que proporciona la mejor correlación será la frecuencia de tono de la trama. En algunos sistemas, se utiliza información adicional para perfeccionar la selección del tono, como la energía de la señal y/o un seguimiento del tono esperado.
Dada una estimación del tono del seguidor de tonos 1450, el vector de la señal de conducción de aire puede descomponerse en un componente armónico y un componente aleatorio en la etapa 1510. Para hacerlo, la ecuación 19 se reescribe como:
y• = Ab EC. 20
donde y es un vector de N muestras de la señal del habla ruidosa, A es una matriz Nx2K dada por:
^ ( A m A J EC. 21
con elementos
A tu. ( * ,0 = cos(*(i>0í) A « ( * .0 = " n (*< V ) EC.22
y b es un vector 2Kx1 dado por:
br =[a,ít
1...atbib2...b¡]
EC.23
Entonces, la solución de mínimos cuadrados para los coeficientes de amplitud es:
Utilizando b, una estimación del componente armónico de la señal del habla ruidosa se puede determinar como:
ECL25
Una estimación del componente aleatorio se calcula como:
y r = y ~ y* e x »
Por lo tanto, utilizando las ecuaciones 20-26 anteriores, la unidad de descomposición armónica 1410 puede producir un vector de muestras de componentes armónicos 1412, yh, y un vector de muestras de componentes aleatorios 1414, yr.
Después de que las muestras de la trama se hayan descompuesto en muestras armónicas y aleatorias, se determina un parámetro de escalado o peso para el componente armónico en la etapa 1512. Este parámetro de escalado se utiliza como parte de un cálculo de una señal del habla con reducción del ruido como se describe más adelante. En una realización, el parámetro de escalado se calcula como:
donde ah es el parámetro de escalado, yh(i) es la i-ésima muestra en el vector de muestras de componentes armónicos yh e y(i) es la i-ésima muestra de la señal del habla ruidosa para esta trama. En la ecuación 27, el numerador es la suma de la energía de cada muestra del componente armónico y el denominador es la suma de la energía de cada muestra de la señal del habla ruidosa. Por lo tanto, el parámetro de escalado es la relación entre la energía armónica de la trama y la energía total de la trama.
En realizaciones alternativas, el parámetro de escalado se establece usando una unidad de detección probabilística sonora-sorda. Dichas unidades brindan la probabilidad de que se exprese una trama particular del habla, lo que significa que las cuerdas vocales resuenan durante la trama, en lugar de ser sordas. La probabilidad de que la trama sea de una región del habla sonora se puede usar directamente como parámetro de escalado.
Después de que se haya determinado el parámetro de escalado o mientras se está determinando, los espectros de Mel para el vector de muestras de componentes armónicos y el vector de muestras de componentes aleatorios se determinan en la etapa 1514. Esto implica pasar cada vector de muestras a través de una transformada discreta de Fourier (DFT) 1418 para producir un vector de valores de frecuencia de componentes armónicos 1422 y un vector de valores de frecuencia de componentes aleatorios 1420. Los espectros de potencia representados por los vectores de valores de frecuencia son luego suavizados por una unidad de ponderación de Mel 1424 usando una serie de funciones de ponderación triangular aplicadas a lo largo de la escala de Mel. Esto da como resultado un vector espectral de componentes armónicos de Mel 1428, Yh, y un vector espectral de componentes aleatorios de Mel 1426, Yr.
En la etapa 1516, los espectros de Mel para el componente armónico y el componente aleatorio se combinan como una suma ponderada para formar una estimación de un espectro de Mel con reducción del ruido. Esta etapa se realiza mediante la calculadora de la suma ponderada 1430 utilizando el factor de escalado determinado anteriormente en la siguiente ecuación:
donde X(t) es la estimación del espectro de Mel con reducción del ruido, Yh(t) es el componente armónico del espectro de Mel, Yr(t) es el componente aleatorio del espectro de Mel, ah(t) es el factor de escalado determinado anteriormente, ar es un factor de escalado fijo para el componente aleatorio que en una realización se establece igual a 0,1, y el índice de tiempo t se usa para enfatizar que el factor de escalado para el componente armónico se determina para cada trama mientras que el factor de escalado para el componente aleatorio permanece fijo. Obsérvese que, en otras realizaciones, el factor de escalado para el componente aleatorio se puede determinar para cada trama.
Después de calcular el espectro de Mel con reducción del ruido en la etapa 1516, se determina el logaritmo 1432 del espectro de Mel y luego se aplica a una transformada discreta del coseno 1434 en la etapa 1518. Esto produce un
vector de características de coeficientes cepstrales de frecuencia de Mel (MFCC) 1436 que representa una señal del habla con reducción del ruido.
Se produce un vector de características MFCC con reducción del ruido separado para cada trama de la señal ruidosa. Estos vectores de características pueden usarse para cualquier propósito deseado, incluyendo mejora del habla y reconocimiento del habla. Para mejorar el habla, los vectores de características de MFCC se pueden convertir en el dominio del espectro de potencia y se pueden usar con la señal de conducción de aire ruidosa para formar un filtro de Weiner.
Aunque la presente invención se ha analizado anteriormente con referencia específica al uso de sensores de conducción ósea como sensores alternativos, se pueden usar otros sensores alternativos. Por ejemplo, en la FIG.
16, un dispositivo móvil de la presente invención utiliza un sensor infrarrojo 1600 que en general está dirigido a la cara del usuario, especialmente la región de la boca, y genera una señal indicativa de un cambio en el movimiento facial del usuario que corresponde al habla. La señal generada por el sensor infrarrojo 1600 se puede usar como la señal del sensor alternativo en las técnicas descritas anteriormente.
Claims (20)
1. Un dispositivo móvil de mano, que comprende:
un micrófono de conducción de aire (108) que está configurado para convertir ondas acústicas en una señal de micrófono eléctrica,
al menos uno de entre un primer sensor alternativo y un segundo sensor alternativo, dicho primer sensor alternativo distinto del micrófono de conducción de aire que está configurado para proporcionar una primera señal eléctrica del sensor alternativo indicativa del habla,
dicho segundo sensor alternativo distinto del micrófono de conducción de aire que está configurado para proporcionar una segunda señal del sensor alternativo, y
un procesador que está configurado para usar la señal del micrófono y la primera y segunda señal de sensor alternativo para estimar un valor del habla limpia,
en el que el primer sensor alternativo y el segundo sensor alternativo comprenden sensores de conducción ósea, el dispositivo móvil de mano incluye un altavoz que está configurado para colocarse cerca del oído izquierdo o derecho del usuario, el altavoz y el primer y el segundo sensor alternativo miran hacia la misma dirección, y cuando el dispositivo está colocado cerca del oído izquierdo o derecho del usuario y el altavoz mira hacia el oído respectivo, el primer o el segundo sensor de conducción ósea está configurado para entrar en contacto con el cráneo o el oído del usuario y producir la señal del sensor alternativo.
2. El dispositivo móvil de mano de la reivindicación 1, en el que el dispositivo móvil de mano incluye una pantalla ubicada debajo del altavoz, y cuando el altavoz mira hacia el usuario, el dispositivo móvil de mano tiene un lado izquierdo y un lado derecho opuesto al lado izquierdo y en el que el primer sensor alternativo está ubicado cerca del lado izquierdo y el segundo sensor alternativo está ubicado cerca del lado derecho.
3. El dispositivo móvil de mano de la reivindicación 1, que comprende además una unidad de selección que selecciona una de la primera señal de sensor alternativo y la segunda señal de sensor alternativo.
4. El dispositivo móvil de mano de la reivindicación 3, en el que la unidad de selección está configurada para seleccionar una de la primera señal de sensor alternativo y la segunda señal de sensor alternativo en base a las magnitudes de la primera señal de sensor alternativo y la segunda señal de sensor alternativo.
5. El dispositivo móvil de mano de la reivindicación 1, en el que el altavoz (110) está configurado para generar un sonido basado en la cantidad de ruido en el valor del habla limpia.
6. El dispositivo móvil de mano de la reivindicación 1, que comprende además un sensor de proximidad que está configurado para producir una señal de proximidad indicativa de la distancia entre el dispositivo móvil de mano y un objeto.
7. El dispositivo móvil de mano de la reivindicación 6, en el que el procesador está configurado para determinar el valor del habla limpia basándose en la señal del micrófono, la primera y/o segunda señal de sensor alternativo y la señal de proximidad.
8. El dispositivo móvil de mano de la reivindicación 7, en el que el procesador está configurado para determinar el valor del habla limpia a través de un proceso que comprende:
determinar una contribución del micrófono al valor del habla limpia en base a la señal del micrófono; determinar una contribución de sensor alternativo al valor del habla limpia en base a la primera y/o segunda señal de sensor alternativo; y
ponderar la contribución del micrófono y la contribución del sensor alternativo en base a la señal de proximidad.
9. El dispositivo móvil de mano de la reivindicación 6, en el que el altavoz (110) está configurado para generar un sonido basado en la señal de proximidad.
10. Un dispositivo móvil, que comprende:
un micrófono de conducción de aire (508) que está configurado para convertir ondas acústicas en una señal de micrófono eléctrica;
un sensor alternativo (512) distinto del micrófono de conducción de aire que está configurado para proporcionar una señal eléctrica de sensor alternativo indicativa del habla;
un sensor de proximidad que está configurado para proporcionar una señal de proximidad eléctrica que es indicativa de la distancia desde el dispositivo móvil a un objeto; y
un estimador de la señal limpia que está configurado para usar la señal del micrófono, la señal del sensor alternativo y la señal de proximidad para eliminar el ruido de la señal del micrófono y, por lo tanto, producir una señal del habla limpia mejorada,
en el que el dispositivo móvil produce la señal del habla limpia mejorada utilizando la señal de proximidad para ponderar una contribución a la señal del habla limpia mejorada que está formada a partir de la señal del sensor alternativo.
11. El dispositivo móvil de la reivindicación 10, que comprende además un altavoz (510) que está configurado para producir un sonido basado en una estimación del nivel de ruido en la señal del habla limpia mejorada.
12. El dispositivo móvil de la reivindicación 10, en el que ponderar la contribución comprende dar menos peso a la contribución cuando la señal de proximidad indica que el dispositivo móvil está lejos del objeto.
13. El dispositivo móvil de la reivindicación 10, que comprende además un altavoz (510) que está configurado para producir un sonido basado en la señal de proximidad.
14. El dispositivo móvil de la reivindicación 13, en el que el volumen del sonido está configurado para aumentar a medida que la señal de proximidad indica que la distancia entre el dispositivo móvil y el objeto aumenta.
15. El dispositivo móvil de la reivindicación 10, en el que la señal del sensor alternativo y la señal del sensor de proximidad son producidas por un único sensor.
16. El dispositivo móvil de la reivindicación 15, en el que el sensor único comprende un transductor de presión (604) que proporciona una señal eléctrica, la señal eléctrica que tiene un componente de CC que representa la señal de proximidad y un componente de CA que representa la señal del sensor alternativo.
17. Un método en un dispositivo móvil, el método que comprende:
recibir una señal del micrófono de conducción de aire;
recibir una señal del sensor alternativo que es indicativa del habla desde un sensor alternativo distinto del micrófono de conducción de aire;
estimar un valor del habla limpia mejorada basándose en la señal del micrófono de conducción de aire y la señal del sensor alternativo;
estimar el ruido en el valor del habla limpia mejorada; y
usar la estimación del ruido para generar un sonido a través de un altavoz en el dispositivo móvil; y
que comprende además recibir una señal del sensor de proximidad que indica la distancia entre el dispositivo móvil y un objeto y usar la señal del sensor de proximidad cuando se estima el valor del habla limpia mejorada, en el que el uso de la señal del sensor de proximidad comprende ponderar una contribución al valor del habla limpia mejorada que se deriva de la señal del sensor alternativo basándose en la señal del sensor de proximidad.
18. El método de la reivindicación 17, en el que el volumen del sonido está configurado para aumentar a medida que aumenta la estimación del ruido.
19. El método de la reivindicación 17, en el que ponderar una contribución comprende aplicar un mayor peso a la contribución derivada de la señal del sensor alternativo cuando la señal del sensor de proximidad indica que el dispositivo móvil está cerca de un objeto.
20. El método de la reivindicación 19, en el que el objeto es la cabeza de un usuario.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/785,768 US7499686B2 (en) | 2004-02-24 | 2004-02-24 | Method and apparatus for multi-sensory speech enhancement on a mobile device |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2775799T3 true ES2775799T3 (es) | 2020-07-28 |
Family
ID=34750476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05101071T Active ES2775799T3 (es) | 2004-02-24 | 2005-02-14 | Método y aparato para la mejora multisensorial del habla en un dispositivo móvil |
Country Status (18)
Country | Link |
---|---|
US (1) | US7499686B2 (es) |
EP (1) | EP1569422B1 (es) |
JP (1) | JP4796309B2 (es) |
KR (1) | KR101137181B1 (es) |
CN (2) | CN101510905B (es) |
AU (1) | AU2005200249A1 (es) |
BR (1) | BRPI0500587A (es) |
CA (1) | CA2494637C (es) |
EG (1) | EG23701A (es) |
ES (1) | ES2775799T3 (es) |
IL (1) | IL166473A (es) |
MX (1) | MXPA05002133A (es) |
NO (1) | NO332636B1 (es) |
NZ (1) | NZ537900A (es) |
RU (1) | RU2376722C2 (es) |
SG (1) | SG114686A1 (es) |
TW (1) | TW200601798A (es) |
ZA (1) | ZA200500691B (es) |
Families Citing this family (127)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US7383181B2 (en) | 2003-07-29 | 2008-06-03 | Microsoft Corporation | Multi-sensory speech detection system |
US7447630B2 (en) | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US8095073B2 (en) * | 2004-06-22 | 2012-01-10 | Sony Ericsson Mobile Communications Ab | Method and apparatus for improved mobile station and hearing aid compatibility |
US20060020454A1 (en) * | 2004-07-21 | 2006-01-26 | Phonak Ag | Method and system for noise suppression in inductive receivers |
US7574008B2 (en) | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
WO2006033104A1 (en) * | 2004-09-22 | 2006-03-30 | Shalon Ventures Research, Llc | Systems and methods for monitoring and modifying behavior |
US7283850B2 (en) * | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US20060133621A1 (en) * | 2004-12-22 | 2006-06-22 | Broadcom Corporation | Wireless telephone having multiple microphones |
US7983720B2 (en) * | 2004-12-22 | 2011-07-19 | Broadcom Corporation | Wireless telephone with adaptive microphone array |
US20060135085A1 (en) * | 2004-12-22 | 2006-06-22 | Broadcom Corporation | Wireless telephone with uni-directional and omni-directional microphones |
US20070116300A1 (en) * | 2004-12-22 | 2007-05-24 | Broadcom Corporation | Channel decoding for wireless telephones with multiple microphones and multiple description transmission |
US8509703B2 (en) * | 2004-12-22 | 2013-08-13 | Broadcom Corporation | Wireless telephone with multiple microphones and multiple description transmission |
US7483727B2 (en) * | 2005-04-04 | 2009-01-27 | Research In Motion Limited | Mobile wireless communications device having improved antenna impedance match and antenna gain from RF energy |
US7346504B2 (en) | 2005-06-20 | 2008-03-18 | Microsoft Corporation | Multi-sensory speech enhancement using a clean speech prior |
US7680656B2 (en) * | 2005-06-28 | 2010-03-16 | Microsoft Corporation | Multi-sensory speech enhancement using a speech-state model |
US7406303B2 (en) | 2005-07-05 | 2008-07-29 | Microsoft Corporation | Multi-sensory speech enhancement using synthesized sensor signal |
PL211141B1 (pl) * | 2005-08-03 | 2012-04-30 | Piotr Kleczkowski | Sposób miksowania sygnałów dźwiękowych |
US8139787B2 (en) * | 2005-09-09 | 2012-03-20 | Simon Haykin | Method and device for binaural signal enhancement |
US7930178B2 (en) * | 2005-12-23 | 2011-04-19 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
US8194880B2 (en) * | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
US8744844B2 (en) | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
US9185487B2 (en) | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
US8204252B1 (en) | 2006-10-10 | 2012-06-19 | Audience, Inc. | System and method for providing close microphone adaptive array processing |
FR2899372B1 (fr) * | 2006-04-03 | 2008-07-18 | Adeunis Rf Sa | Systeme de communication audio sans fil |
US8934641B2 (en) | 2006-05-25 | 2015-01-13 | Audience, Inc. | Systems and methods for reconstructing decomposed audio signals |
US8204253B1 (en) | 2008-06-30 | 2012-06-19 | Audience, Inc. | Self calibration of audio device |
US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8849231B1 (en) | 2007-08-08 | 2014-09-30 | Audience, Inc. | System and method for adaptive power control |
CN101449320B (zh) * | 2006-05-31 | 2012-02-22 | 艾格瑞系统有限公司 | 移动通信设备和在至少两种模式中工作的无线收发信机 |
US8364492B2 (en) * | 2006-07-13 | 2013-01-29 | Nec Corporation | Apparatus, method and program for giving warning in connection with inputting of unvoiced speech |
US20080175408A1 (en) * | 2007-01-20 | 2008-07-24 | Shridhar Mukund | Proximity filter |
US7734247B2 (en) * | 2007-01-25 | 2010-06-08 | Sony Ericsson Mobile Communications Ab | Configurable serial memory interface |
US8259926B1 (en) | 2007-02-23 | 2012-09-04 | Audience, Inc. | System and method for 2-channel and 3-channel acoustic echo cancellation |
US8068620B2 (en) * | 2007-03-01 | 2011-11-29 | Canon Kabushiki Kaisha | Audio processing apparatus |
US7925502B2 (en) * | 2007-03-01 | 2011-04-12 | Microsoft Corporation | Pitch model for noise estimation |
US8189766B1 (en) | 2007-07-26 | 2012-05-29 | Audience, Inc. | System and method for blind subband acoustic echo cancellation postfiltering |
US8631358B2 (en) | 2007-10-10 | 2014-01-14 | Apple Inc. | Variable device graphical user interface |
US8428661B2 (en) * | 2007-10-30 | 2013-04-23 | Broadcom Corporation | Speech intelligibility in telephones with multiple microphones |
US8180064B1 (en) | 2007-12-21 | 2012-05-15 | Audience, Inc. | System and method for providing voice equalization |
US8143620B1 (en) | 2007-12-21 | 2012-03-27 | Audience, Inc. | System and method for adaptive classification of audio sources |
US8676224B2 (en) * | 2008-02-19 | 2014-03-18 | Apple Inc. | Speakerphone control for mobile device |
US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US8355511B2 (en) | 2008-03-18 | 2013-01-15 | Audience, Inc. | System and method for envelope-based acoustic echo cancellation |
US8280732B2 (en) * | 2008-03-27 | 2012-10-02 | Wolfgang Richter | System and method for multidimensional gesture analysis |
WO2009135532A1 (en) * | 2008-05-09 | 2009-11-12 | Nokia Corporation | An apparatus |
US8774423B1 (en) | 2008-06-30 | 2014-07-08 | Audience, Inc. | System and method for controlling adaptivity of signal modification using a phantom coefficient |
US8521530B1 (en) | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
US8218397B2 (en) | 2008-10-24 | 2012-07-10 | Qualcomm Incorporated | Audio source proximity estimation using sensor array for noise reduction |
JP5299030B2 (ja) * | 2009-03-31 | 2013-09-25 | ソニー株式会社 | ヘッドホン装置 |
US9009039B2 (en) * | 2009-06-12 | 2015-04-14 | Microsoft Technology Licensing, Llc | Noise adaptive training for speech recognition |
US9873852B2 (en) | 2009-10-16 | 2018-01-23 | University Of Virginia Patent Foundation | Gas-expanded lubricants for increased energy efficiency and related method and system |
US8213664B2 (en) | 2009-10-30 | 2012-07-03 | Research In Motion Limited | Shape-adaptable surface for an audio port |
ATE531205T1 (de) * | 2009-10-30 | 2011-11-15 | Research In Motion Ltd | In der form anpassungsfähige oberfläche für einen audioanschluss |
EP3550853A1 (en) * | 2009-11-24 | 2019-10-09 | Nokia Technologies Oy | An apparatus |
US9008329B1 (en) | 2010-01-26 | 2015-04-14 | Audience, Inc. | Noise reduction using multi-feature cluster tracker |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9123323B2 (en) * | 2010-06-04 | 2015-09-01 | John P. Keady | Method and structure for inducing acoustic signals and attenuating acoustic signals |
WO2011159349A1 (en) | 2010-06-14 | 2011-12-22 | Audiotoniq, Inc. | Hearing aid system |
US8761421B2 (en) | 2011-01-14 | 2014-06-24 | Audiotoniq, Inc. | Portable electronic device and computer-readable medium for remote hearing aid profile storage |
US9167339B2 (en) | 2010-07-07 | 2015-10-20 | Iii Holdings 4, Llc | Hearing damage limiting headphones |
US8731923B2 (en) * | 2010-08-20 | 2014-05-20 | Adacel Systems, Inc. | System and method for merging audio data streams for use in speech recognition applications |
TWI486068B (zh) * | 2010-09-13 | 2015-05-21 | Htc Corp | 行動電子裝置與其聲音播放方法 |
US8515110B2 (en) | 2010-09-30 | 2013-08-20 | Audiotoniq, Inc. | Hearing aid with automatic mode change capabilities |
US10687150B2 (en) | 2010-11-23 | 2020-06-16 | Audiotoniq, Inc. | Battery life monitor system and method |
EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
WO2012069973A1 (en) * | 2010-11-24 | 2012-05-31 | Koninklijke Philips Electronics N.V. | A device comprising a plurality of audio sensors and a method of operating the same |
KR101500823B1 (ko) * | 2010-11-25 | 2015-03-09 | 고어텍 인크 | 음성 향상 방법, 장치 및 노이즈 감소 통신 헤드셋 |
JP5911248B2 (ja) * | 2011-09-22 | 2016-04-27 | 株式会社ファインウェル | 携帯電話 |
US8918149B2 (en) | 2010-12-27 | 2014-12-23 | Rohm Co., Ltd. | Mobile telephone |
JP5902416B2 (ja) * | 2011-08-19 | 2016-04-13 | 株式会社ファインウェル | 携帯電話 |
US9313306B2 (en) | 2010-12-27 | 2016-04-12 | Rohm Co., Ltd. | Mobile telephone cartilage conduction unit for making contact with the ear cartilage |
CN103053147B (zh) | 2010-12-27 | 2017-03-22 | 罗姆股份有限公司 | 呼入/呼出通话单元以及呼入通话单元 |
JP5783352B2 (ja) | 2011-02-25 | 2015-09-24 | 株式会社ファインウェル | 会話システム、会話システム用指輪、携帯電話用指輪、指輪型携帯電話、及び、音声聴取方法 |
EP2509337B1 (en) * | 2011-04-06 | 2014-09-24 | Sony Ericsson Mobile Communications AB | Accelerometer vector controlled noise cancelling method |
US8909524B2 (en) * | 2011-06-07 | 2014-12-09 | Analog Devices, Inc. | Adaptive active noise canceling for handset |
JP5731362B2 (ja) * | 2011-11-28 | 2015-06-10 | 京セラ株式会社 | 電子機器 |
EP2806654B1 (en) | 2012-01-20 | 2019-09-04 | FINEWELL Co., Ltd. | Portable telephone having cartilage conduction section |
JP2015513854A (ja) * | 2012-03-01 | 2015-05-14 | ボーン トーン コミュニケイションズ(イスラエル)リミテッドBone Tone Communications(Israel)Ltd. | モバイル通信機器での音声通信エクスペリエンスを向上させるための方法およびシステム |
US9998836B2 (en) * | 2012-05-01 | 2018-06-12 | Kyocera Corporation | Electronic device, control method, and control program |
EP2869591B1 (en) | 2012-06-29 | 2020-12-09 | FINEWELL Co., Ltd. | Stereo earphone |
US9094749B2 (en) | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
US9438985B2 (en) | 2012-09-28 | 2016-09-06 | Apple Inc. | System and method of detecting a user's voice activity using an accelerometer |
US9313572B2 (en) | 2012-09-28 | 2016-04-12 | Apple Inc. | System and method of detecting a user's voice activity using an accelerometer |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9363596B2 (en) | 2013-03-15 | 2016-06-07 | Apple Inc. | System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device |
KR102282366B1 (ko) | 2013-06-03 | 2021-07-27 | 삼성전자주식회사 | 음성 향상 방법 및 그 장치 |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
WO2015025829A1 (ja) | 2013-08-23 | 2015-02-26 | ローム株式会社 | 携帯電話 |
EP3062491B1 (en) | 2013-10-24 | 2019-02-20 | FINEWELL Co., Ltd. | Bracelet-type transmission/reception device and bracelet-type notification device |
CN103778909B (zh) * | 2014-01-10 | 2017-03-01 | 瑞声科技(南京)有限公司 | 屏幕发声系统及其控制方法 |
US9547175B2 (en) | 2014-03-18 | 2017-01-17 | Google Inc. | Adaptive piezoelectric array for bone conduction receiver in wearable computers |
JP6551919B2 (ja) | 2014-08-20 | 2019-07-31 | 株式会社ファインウェル | 見守りシステム、見守り検知装置および見守り通報装置 |
JP6446913B2 (ja) * | 2014-08-27 | 2019-01-09 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
DE112015003945T5 (de) | 2014-08-28 | 2017-05-11 | Knowles Electronics, Llc | Mehrquellen-Rauschunterdrückung |
TWI559784B (zh) * | 2014-09-19 | 2016-11-21 | 和碩聯合科技股份有限公司 | 音訊裝置及音訊調校方法 |
JP5951738B2 (ja) * | 2014-12-01 | 2016-07-13 | 株式会社ファインウェル | 振動素子およびこれを用いた携帯電話 |
EP3236669A4 (en) | 2014-12-18 | 2018-10-03 | Rohm Co., Ltd. | Cartilage conduction hearing device using electromagnetic-type vibration unit, and electromagnetic-type vibration unit |
TWI566742B (zh) | 2015-02-26 | 2017-01-21 | 華邦電子股份有限公司 | 分析處理裝置 |
TWI552004B (zh) | 2015-03-12 | 2016-10-01 | 國立交通大學 | 信號分解方法及其電子裝置 |
GB2538853B (en) | 2015-04-09 | 2018-09-19 | Dolby Laboratories Licensing Corp | Switching to a second audio interface between a computer apparatus and an audio apparatus |
KR102372188B1 (ko) * | 2015-05-28 | 2022-03-08 | 삼성전자주식회사 | 오디오 신호의 잡음을 제거하기 위한 방법 및 그 전자 장치 |
US9847093B2 (en) * | 2015-06-19 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for processing speech signal |
CN107848125B (zh) | 2015-07-15 | 2021-04-27 | 株式会社精好 | 机器人和机器人系统 |
JP6551929B2 (ja) | 2015-09-16 | 2019-07-31 | 株式会社ファインウェル | 受話機能を有する腕時計 |
US10165362B2 (en) * | 2015-12-24 | 2018-12-25 | Intel Corporation | Automated equalization |
KR102108668B1 (ko) | 2016-01-19 | 2020-05-07 | 파인웰 씨오., 엘티디 | 펜형 송수화 장치 |
JP6178884B2 (ja) * | 2016-01-27 | 2017-08-09 | 株式会社ファインウェル | 携帯電話 |
US10319377B2 (en) * | 2016-03-15 | 2019-06-11 | Tata Consultancy Services Limited | Method and system of estimating clean speech parameters from noisy speech parameters |
JP6096962B2 (ja) * | 2016-03-29 | 2017-03-15 | 株式会社ファインウェル | 携帯電話 |
CN107071652B (zh) * | 2016-12-27 | 2023-08-04 | 深圳市优必选科技有限公司 | 一种服务机器人 |
CN106792354A (zh) * | 2016-12-27 | 2017-05-31 | 广东小天才科技有限公司 | 一种可穿戴设备的播放模式控制方法及可穿戴设备 |
CN106686494A (zh) * | 2016-12-27 | 2017-05-17 | 广东小天才科技有限公司 | 一种可穿戴设备的语音输入控制方法及可穿戴设备 |
CN106850963A (zh) * | 2016-12-27 | 2017-06-13 | 广东小天才科技有限公司 | 一种可穿戴设备的通话控制方法及可穿戴设备 |
US10614788B2 (en) | 2017-03-15 | 2020-04-07 | Synaptics Incorporated | Two channel headset-based own voice enhancement |
US10135822B2 (en) | 2017-03-21 | 2018-11-20 | YouaretheID, LLC | Biometric authentication of individuals utilizing characteristics of bone and blood vessel structures |
CN107910011B (zh) * | 2017-12-28 | 2021-05-04 | 科大讯飞股份有限公司 | 一种语音降噪方法、装置、服务器及存储介质 |
US11600273B2 (en) | 2018-02-14 | 2023-03-07 | Nec Corporation | Speech processing apparatus, method, and program |
JP2020053948A (ja) | 2018-09-28 | 2020-04-02 | 株式会社ファインウェル | 聴取装置 |
CN110058689A (zh) * | 2019-04-08 | 2019-07-26 | 深圳大学 | 一种基于脸部振动的智能设备输入方法 |
WO2021046796A1 (en) | 2019-09-12 | 2021-03-18 | Shenzhen Voxtech Co., Ltd. | Systems and methods for audio signal generation |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
CN111327985A (zh) * | 2020-03-06 | 2020-06-23 | 华勤通讯技术有限公司 | 一种耳机降噪方法和装置 |
CN113205824B (zh) * | 2021-04-30 | 2022-11-11 | 紫光展锐(重庆)科技有限公司 | 声音信号处理方法、装置、存储介质、芯片及相关设备 |
Family Cites Families (108)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2761800A (en) * | 1955-05-02 | 1956-09-04 | Rca Corp | Method of forming p-n junctions in n-type germanium |
US3383466A (en) * | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
US3746789A (en) * | 1971-10-20 | 1973-07-17 | E Alcivar | Tissue conduction microphone utilized to activate a voice operated switch |
US3787641A (en) * | 1972-06-05 | 1974-01-22 | Setcom Corp | Bone conduction microphone assembly |
JPS5756624Y2 (es) * | 1979-04-20 | 1982-12-06 | ||
US4382164A (en) * | 1980-01-25 | 1983-05-03 | Bell Telephone Laboratories, Incorporated | Signal stretcher for envelope generator |
JPS62239231A (ja) * | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
JPH0755167B2 (ja) * | 1988-09-21 | 1995-06-14 | 松下電器産業株式会社 | 移動体 |
JPH03108997A (ja) | 1989-09-22 | 1991-05-09 | Temuko Japan:Kk | 骨伝導マイク |
JPH03160851A (ja) * | 1989-11-20 | 1991-07-10 | Fujitsu Ltd | 携帯電話機 |
US5054079A (en) * | 1990-01-25 | 1991-10-01 | Stanton Magnetics, Inc. | Bone conduction microphone with mounting means |
US5404577A (en) * | 1990-07-13 | 1995-04-04 | Cairns & Brother Inc. | Combination head-protective helmet & communications system |
US5295193A (en) * | 1992-01-22 | 1994-03-15 | Hiroshi Ono | Device for picking up bone-conducted sound in external auditory meatus and communication device using the same |
US5590241A (en) * | 1993-04-30 | 1996-12-31 | Motorola Inc. | Speech processing system and method for enhancing a speech signal in a noisy environment |
US5446789A (en) * | 1993-11-10 | 1995-08-29 | International Business Machines Corporation | Electronic device having antenna for receiving soundwaves |
JPH0739150U (ja) * | 1993-12-14 | 1995-07-14 | アツデン株式会社 | 携帯用電話機 |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5828768A (en) * | 1994-05-11 | 1998-10-27 | Noise Cancellation Technologies, Inc. | Multimedia personal computer with active noise reduction and piezo speakers |
DE69527731T2 (de) * | 1994-05-18 | 2003-04-03 | Nippon Telegraph & Telephone | Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ |
JPH08186654A (ja) | 1994-12-22 | 1996-07-16 | Internatl Business Mach Corp <Ibm> | 携帯端末装置 |
JP3453898B2 (ja) * | 1995-02-17 | 2003-10-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
US5692059A (en) * | 1995-02-24 | 1997-11-25 | Kruger; Frederick M. | Two active element in-the-ear microphone system |
US5555449A (en) * | 1995-03-07 | 1996-09-10 | Ericsson Inc. | Extendible antenna and microphone for portable communication unit |
JP3264822B2 (ja) * | 1995-04-05 | 2002-03-11 | 三菱電機株式会社 | 移動体通信機器 |
US5651074A (en) | 1995-05-11 | 1997-07-22 | Lucent Technologies Inc. | Noise canceling gradient microphone assembly |
KR960042590A (ko) * | 1995-05-23 | 1996-12-21 | 김광호 | 테이프 재생용 음량기기에서의 발음비교방법 |
US5647834A (en) * | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JPH09172479A (ja) * | 1995-12-20 | 1997-06-30 | Yokoi Kikaku:Kk | 送受話器およびそれを用いた通話装置 |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US6243596B1 (en) * | 1996-04-10 | 2001-06-05 | Lextron Systems, Inc. | Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet |
JPH09284877A (ja) * | 1996-04-19 | 1997-10-31 | Toyo Commun Equip Co Ltd | マイクシステム |
US5943627A (en) * | 1996-09-12 | 1999-08-24 | Kim; Seong-Soo | Mobile cellular phone |
JPH10261910A (ja) * | 1997-01-16 | 1998-09-29 | Sony Corp | 携帯無線装置およびアンテナ装置 |
JP2874679B2 (ja) * | 1997-01-29 | 1999-03-24 | 日本電気株式会社 | 雑音消去方法及びその装置 |
JPH10224253A (ja) * | 1997-02-10 | 1998-08-21 | Sony Corp | 携帯通信機 |
US6308062B1 (en) * | 1997-03-06 | 2001-10-23 | Ericsson Business Networks Ab | Wireless telephony system enabling access to PC based functionalities |
FR2761800A1 (fr) | 1997-04-02 | 1998-10-09 | Scanera Sc | Dispositif de transmission de voix et telephone le mettant en oeuvre |
US5983073A (en) * | 1997-04-04 | 1999-11-09 | Ditzik; Richard J. | Modular notebook and PDA computer systems for personal computing and wireless communications |
US6175633B1 (en) * | 1997-04-09 | 2001-01-16 | Cavcom, Inc. | Radio communications apparatus with attenuating ear pieces for high noise environments |
US6151397A (en) * | 1997-05-16 | 2000-11-21 | Motorola, Inc. | Method and system for reducing undesired signals in a communication environment |
JP3548380B2 (ja) * | 1997-05-30 | 2004-07-28 | アイホン株式会社 | ドアホン子機 |
US5924065A (en) * | 1997-06-16 | 1999-07-13 | Digital Equipment Corporation | Environmently compensated speech processing |
US6434239B1 (en) * | 1997-10-03 | 2002-08-13 | Deluca Michael Joseph | Anti-sound beam method and apparatus |
JPH11249692A (ja) | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
EP0951883B1 (en) | 1998-03-18 | 2005-07-27 | Nippon Telegraph and Telephone Corporation | Wearable communication device with bone conduction transducer |
EP1080361A4 (en) * | 1998-05-19 | 2005-08-10 | Spectrx Inc | APPARATUS AND METHOD FOR DETERMINING THE CHARACTERISTICS OF FABRICS |
US6717991B1 (en) * | 1998-05-27 | 2004-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for dual microphone signal noise reduction using spectral subtraction |
US6052464A (en) * | 1998-05-29 | 2000-04-18 | Motorola, Inc. | Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad |
US6137883A (en) * | 1998-05-30 | 2000-10-24 | Motorola, Inc. | Telephone set having a microphone for receiving an acoustic signal via keypad |
JP3160714B2 (ja) * | 1998-07-08 | 2001-04-25 | 株式会社シコー技研 | 携帯無線通信機 |
US6292674B1 (en) * | 1998-08-05 | 2001-09-18 | Ericsson, Inc. | One-handed control for wireless telephone |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
US6760600B2 (en) * | 1999-01-27 | 2004-07-06 | Gateway, Inc. | Portable communication apparatus |
JP2000250577A (ja) * | 1999-02-24 | 2000-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体 |
DE19917169A1 (de) | 1999-04-16 | 2000-11-02 | Kamecke Keller Orla | Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten |
US6542721B2 (en) * | 1999-10-11 | 2003-04-01 | Peter V. Boesen | Cellular telephone, personal digital assistant and pager unit |
US6952483B2 (en) * | 1999-05-10 | 2005-10-04 | Genisus Systems, Inc. | Voice transmission apparatus with UWB |
US20020057810A1 (en) * | 1999-05-10 | 2002-05-16 | Boesen Peter V. | Computer and voice communication unit with handsfree device |
US6094492A (en) * | 1999-05-10 | 2000-07-25 | Boesen; Peter V. | Bone conduction voice transmission apparatus and system |
US6560468B1 (en) * | 1999-05-10 | 2003-05-06 | Peter V. Boesen | Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions |
US6738485B1 (en) * | 1999-05-10 | 2004-05-18 | Peter V. Boesen | Apparatus, method and system for ultra short range communication |
JP2001016057A (ja) * | 1999-07-01 | 2001-01-19 | Matsushita Electric Ind Co Ltd | 音響装置 |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6603823B1 (en) * | 1999-11-12 | 2003-08-05 | Intel Corporation | Channel estimator |
US6339706B1 (en) * | 1999-11-12 | 2002-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Wireless voice-activated remote control device |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
US6411933B1 (en) * | 1999-11-22 | 2002-06-25 | International Business Machines Corporation | Methods and apparatus for correlating biometric attributes and biometric attribute production features |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
GB2357400A (en) * | 1999-12-17 | 2001-06-20 | Nokia Mobile Phones Ltd | Controlling a terminal of a communication system |
JP4472823B2 (ja) * | 2000-02-04 | 2010-06-02 | パナソニック株式会社 | クロマトグラフィー試験片、及びその製造方法 |
US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
JP3339579B2 (ja) * | 2000-10-04 | 2002-10-28 | 株式会社鷹山 | 電話装置 |
KR100394840B1 (ko) * | 2000-11-30 | 2003-08-19 | 한국과학기술원 | 독립 성분 분석을 이용한 능동 잡음 제거방법 |
US6853850B2 (en) * | 2000-12-04 | 2005-02-08 | Mobigence, Inc. | Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors |
US20020075306A1 (en) * | 2000-12-18 | 2002-06-20 | Christopher Thompson | Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers |
US6985858B2 (en) * | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
GB2375276B (en) | 2001-05-03 | 2003-05-28 | Motorola Inc | Method and system of sound processing |
US6987986B2 (en) * | 2001-06-21 | 2006-01-17 | Boesen Peter V | Cellular telephone, personal digital assistant with dual lines for simultaneous uses |
JP3699018B2 (ja) * | 2001-07-25 | 2005-09-28 | 埼玉日本電気株式会社 | 電話機の自動音量調整装置 |
US7054423B2 (en) * | 2001-09-24 | 2006-05-30 | Nebiker Robert M | Multi-media communication downloading |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US6952482B2 (en) * | 2001-10-02 | 2005-10-04 | Siemens Corporation Research, Inc. | Method and apparatus for noise filtering |
JP3532544B2 (ja) * | 2001-10-30 | 2004-05-31 | 株式会社テムコジャパン | 面体又は帽体のストラップ装着用送受話装置 |
JP3678694B2 (ja) * | 2001-11-02 | 2005-08-03 | Necビューテクノロジー株式会社 | 対話型端末装置、その通話制御方法、およびそのプログラム |
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6707921B2 (en) * | 2001-11-26 | 2004-03-16 | Hewlett-Packard Development Company, Lp. | Use of mouth position and mouth movement to filter noise from speech in a hearing aid |
DE10158583A1 (de) * | 2001-11-29 | 2003-06-12 | Philips Intellectual Property | Verfahren zum Betrieb eines Barge-In-Dialogsystems |
US6664713B2 (en) * | 2001-12-04 | 2003-12-16 | Peter V. Boesen | Single chip device for voice communications |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US9374451B2 (en) | 2002-02-04 | 2016-06-21 | Nokia Technologies Oy | System and method for multimodal short-cuts to digital services |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7190797B1 (en) * | 2002-06-18 | 2007-03-13 | Plantronics, Inc. | Headset with foldable noise canceling and omnidirectional dual-mode boom |
GB2390264B (en) | 2002-06-24 | 2006-07-12 | Samsung Electronics Co Ltd | Usage position detection |
MXPA05001079A (es) * | 2002-07-26 | 2005-06-03 | Oakley Inc | Audifonos interactivos inalambricos. |
US7092529B2 (en) * | 2002-11-01 | 2006-08-15 | Nanyang Technological University | Adaptive control system for noise cancellation |
TW200425763A (en) * | 2003-01-30 | 2004-11-16 | Aliphcom Inc | Acoustic vibration sensor |
US7593851B2 (en) * | 2003-03-21 | 2009-09-22 | Intel Corporation | Precision piecewise polynomial approximation for Ephraim-Malah filter |
US20060008256A1 (en) * | 2003-10-01 | 2006-01-12 | Khedouri Robert K | Audio visual player apparatus and system and method of content distribution using the same |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7133825B2 (en) * | 2003-11-28 | 2006-11-07 | Skyworks Solutions, Inc. | Computationally efficient background noise suppressor for speech coding and speech recognition |
US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US8095073B2 (en) * | 2004-06-22 | 2012-01-10 | Sony Ericsson Mobile Communications Ab | Method and apparatus for improved mobile station and hearing aid compatibility |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7283850B2 (en) * | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
-
2004
- 2004-02-24 US US10/785,768 patent/US7499686B2/en active Active
-
2005
- 2005-01-18 SG SG200500289A patent/SG114686A1/en unknown
- 2005-01-20 CA CA2494637A patent/CA2494637C/en not_active Expired - Fee Related
- 2005-01-21 TW TW094101919A patent/TW200601798A/zh unknown
- 2005-01-21 AU AU2005200249A patent/AU2005200249A1/en not_active Abandoned
- 2005-01-24 ZA ZA200500691A patent/ZA200500691B/xx unknown
- 2005-01-25 IL IL166473A patent/IL166473A/en not_active IP Right Cessation
- 2005-01-26 NZ NZ537900A patent/NZ537900A/en not_active IP Right Cessation
- 2005-02-02 KR KR1020050009604A patent/KR101137181B1/ko active IP Right Grant
- 2005-02-14 EP EP05101071.8A patent/EP1569422B1/en active Active
- 2005-02-14 ES ES05101071T patent/ES2775799T3/es active Active
- 2005-02-16 JP JP2005039755A patent/JP4796309B2/ja active Active
- 2005-02-21 BR BR0500587-6A patent/BRPI0500587A/pt not_active IP Right Cessation
- 2005-02-22 RU RU2005104970/02A patent/RU2376722C2/ru not_active IP Right Cessation
- 2005-02-23 MX MXPA05002133A patent/MXPA05002133A/es not_active Application Discontinuation
- 2005-02-23 EG EG2005020095A patent/EG23701A/xx active
- 2005-02-23 NO NO20050986A patent/NO332636B1/no not_active IP Right Cessation
- 2005-02-24 CN CN2009100084006A patent/CN101510905B/zh active Active
- 2005-02-24 CN CN200510052873A patent/CN100583909C/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20050185813A1 (en) | 2005-08-25 |
JP4796309B2 (ja) | 2011-10-19 |
NO20050986L (no) | 2005-08-25 |
IL166473A (en) | 2010-12-30 |
CN101510905A (zh) | 2009-08-19 |
RU2376722C2 (ru) | 2009-12-20 |
TW200601798A (en) | 2006-01-01 |
BRPI0500587A (pt) | 2005-10-18 |
RU2005104970A (ru) | 2006-08-10 |
IL166473A0 (en) | 2006-01-15 |
NZ537900A (en) | 2006-08-31 |
AU2005200249A1 (en) | 2005-09-08 |
KR101137181B1 (ko) | 2012-04-19 |
CN100583909C (zh) | 2010-01-20 |
EP1569422A2 (en) | 2005-08-31 |
CA2494637A1 (en) | 2005-08-24 |
NO20050986D0 (no) | 2005-02-23 |
NO332636B1 (no) | 2012-11-26 |
SG114686A1 (en) | 2005-09-28 |
CN1662018A (zh) | 2005-08-31 |
EP1569422B1 (en) | 2019-11-13 |
EG23701A (en) | 2007-05-22 |
JP2005244968A (ja) | 2005-09-08 |
KR20050086378A (ko) | 2005-08-30 |
CA2494637C (en) | 2013-09-03 |
US7499686B2 (en) | 2009-03-03 |
CN101510905B (zh) | 2011-03-09 |
MXPA05002133A (es) | 2005-12-05 |
EP1569422A3 (en) | 2007-08-29 |
ZA200500691B (en) | 2007-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2775799T3 (es) | Método y aparato para la mejora multisensorial del habla en un dispositivo móvil | |
US8831936B2 (en) | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement | |
EP2643834B1 (en) | Device and method for producing an audio signal | |
TWI281354B (en) | Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression | |
JP5862349B2 (ja) | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 | |
US8606572B2 (en) | Noise cancellation device for communications in high noise environments | |
US9538301B2 (en) | Device comprising a plurality of audio sensors and a method of operating the same | |
US20060224382A1 (en) | Noise reduction and audio-visual speech activity detection | |
US20110264447A1 (en) | Systems, methods, and apparatus for speech feature detection | |
KR101402551B1 (ko) | 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법 | |
CN111833896A (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
US20120284022A1 (en) | Noise reduction system using a sensor based speech detector | |
US8423357B2 (en) | System and method for biometric acoustic noise reduction | |
Dupont et al. | Combined use of close-talk and throat microphones for improved speech recognition under non-stationary background noise | |
JP6197367B2 (ja) | 通話装置及びマスキング音生成プログラム | |
CN117014761B (zh) | 交互式脑控耳机控制方法及装置、脑控耳机、存储介质 | |
JP2006267664A (ja) | 音声認識方法および音声認識装置 |