ES2775799T3 - Método y aparato para la mejora multisensorial del habla en un dispositivo móvil - Google Patents

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil Download PDF

Info

Publication number
ES2775799T3
ES2775799T3 ES05101071T ES05101071T ES2775799T3 ES 2775799 T3 ES2775799 T3 ES 2775799T3 ES 05101071 T ES05101071 T ES 05101071T ES 05101071 T ES05101071 T ES 05101071T ES 2775799 T3 ES2775799 T3 ES 2775799T3
Authority
ES
Spain
Prior art keywords
signal
sensor
mobile device
alternate
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05101071T
Other languages
English (en)
Inventor
Michael J Sinclair
Xuedong David Huang
Zhengyou Zhang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhigu Holdings Ltd
Original Assignee
Zhigu Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhigu Holdings Ltd filed Critical Zhigu Holdings Ltd
Application granted granted Critical
Publication of ES2775799T3 publication Critical patent/ES2775799T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23NMACHINES OR APPARATUS FOR TREATING HARVESTED FRUIT, VEGETABLES OR FLOWER BULBS IN BULK, NOT OTHERWISE PROVIDED FOR; PEELING VEGETABLES OR FRUIT IN BULK; APPARATUS FOR PREPARING ANIMAL FEEDING- STUFFS
    • A23N12/00Machines for cleaning, blanching, drying or roasting fruits or vegetables, e.g. coffee, cocoa, nuts
    • A23N12/02Machines for cleaning, blanching, drying or roasting fruits or vegetables, e.g. coffee, cocoa, nuts for washing or blanching
    • A23N12/023Machines for cleaning, blanching, drying or roasting fruits or vegetables, e.g. coffee, cocoa, nuts for washing or blanching for washing potatoes, apples or similarly shaped vegetables or fruit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L15/00Washing or rinsing machines for crockery or tableware
    • A47L15/0002Washing processes, i.e. machine working principles characterised by phases or operational steps
    • A47L15/0015Washing processes, i.e. machine working principles characterised by phases or operational steps other treatment phases, e.g. steam or sterilizing phase
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L15/00Washing or rinsing machines for crockery or tableware
    • A47L15/02Washing or rinsing machines for crockery or tableware with circulation and agitation of the cleaning liquid in the cleaning chamber containing a stationary basket
    • A47L15/13Washing or rinsing machines for crockery or tableware with circulation and agitation of the cleaning liquid in the cleaning chamber containing a stationary basket using sonic or ultrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/605Portable telephones adapted for handsfree use involving control of the receiver volume to provide a dual operational mode at close or far distance from the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/12Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Food Science & Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Polymers & Plastics (AREA)
  • Chemical & Material Sciences (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire (108) que está configurado para convertir ondas acústicas en una señal de micrófono eléctrica, al menos uno de entre un primer sensor alternativo y un segundo sensor alternativo, dicho primer sensor alternativo distinto del micrófono de conducción de aire que está configurado para proporcionar una primera señal eléctrica del sensor alternativo indicativa del habla, dicho segundo sensor alternativo distinto del micrófono de conducción de aire que está configurado para proporcionar una segunda señal del sensor alternativo, y un procesador que está configurado para usar la señal del micrófono y la primera y segunda señal de sensor alternativo para estimar un valor del habla limpia, en el que el primer sensor alternativo y el segundo sensor alternativo comprenden sensores de conducción ósea, el dispositivo móvil de mano incluye un altavoz que está configurado para colocarse cerca del oído izquierdo o derecho del usuario, el altavoz y el primer y el segundo sensor alternativo miran hacia la misma dirección, y cuando el dispositivo está colocado cerca del oído izquierdo o derecho del usuario y el altavoz mira hacia el oído respectivo, el primer o el segundo sensor de conducción ósea está configurado para entrar en contacto con el cráneo o el oído del usuario y producir la señal del sensor alternativo.

Description

DESCRIPCIÓN
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil
Antecedentes de la invención
La presente invención se refiere a la reducción del ruido. En particular, la presente invención se refiere a eliminar el ruido de las señales del habla recibidas por dispositivos móviles de mano.
Los dispositivos móviles de mano, como los teléfonos móviles y los asistentes personales digitales que proporcionan funciones telefónicas o aceptan la entrada del habla, a menudo se usan en entornos con ruido adverso, como calles concurridas, restaurantes, aeropuertos y automóviles. El fuerte ruido ambiental en estos entornos puede tapar el habla del usuario y dificultar el entendimiento de lo que la persona dice.
Si bien se han desarrollado sistemas de filtrado de ruido que intentan eliminar el ruido en base a un modelo del ruido, estos sistemas no han podido eliminar todo el ruido. En particular, a muchos de estos sistemas les ha resultado difícil eliminar el ruido que consiste en que otras personas hablen en segundo plano. Una razón para esto es que es extremadamente difícil, si no imposible, que estos sistemas determinen que una señal del habla recibida por un micrófono proviene de alguien que no sea la persona que usa el dispositivo móvil.
En cuanto a los auriculares para teléfonos, que se mantienen en posición en la cabeza del usuario al colocar el auricular sobre la cabeza o en el oído del usuario, se han desarrollado sistemas que proporcionan un filtro de ruido más robusto que dependen de tipos de sensores adicionales en el auricular. En un ejemplo, se coloca un sensor de conducción ósea en un extremo del auricular y se presiona y se pone en contacto con la piel que cubre el cráneo, el oído o la mandíbula del usuario mediante la resistencia del auricular. El sensor de conducción ósea detecta vibraciones en el cráneo, el oído o la mandíbula que se crean cuando el usuario habla. Mediante la señal del sensor de conducción ósea, este sistema puede identificar mejor cuando el usuario está hablando y, como resultado, puede filtrar mejor el ruido en la señal del habla.
Aunque estos sistemas funcionan bien para auriculares, donde el contacto entre el sensor de conducción ósea y el usuario se mantiene mediante el diseño mecánico de los auriculares, estos sistemas no pueden usarse directamente en dispositivos móviles de mano porque es difícil para los usuarios mantener el sensor de conducción ósea en la posición correcta y estos sistemas no tienen en cuenta que el sensor de conducción ósea puede no mantenerse en la posición correcta.
El documento WO 2004/012477 A2 describe una interfaz de audio ponible que incluye un soporte para colocar la pluralidad de altavoces yuxtapuestos con y separados de los oídos del usuario.
El documento US 2003/0125081 A1 describe un dispositivo electrónico personal de mano con un primer cuerpo y un segundo cuerpo. El primer cuerpo tiene una pantalla y el segundo cuerpo tiene una pluralidad de entradas manuales.
YANLI ZHENG Y COL.: "Air- and bone-conductive integrated microphones for robust speech detection and enhancement" AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING, 2003. ASRU '03. 2003 IEEE WORKSHOP ON ST. THOMAS, VI, USA NOV. 30-DIC. 3, 2003, PISCATAWAY, NJ, EE. UU. IEEE, 30 de noviembre de 2003 (2003-11-30), páginas 249-254, en el documento XP010713318 describe un dispositivo de hardware que combina un micrófono normal con un micrófono conductor óseo.
El documento JP 2000250577 A describe un dispositivo de reconocimiento de voz, un método de aprendizaje y un dispositivo de aprendizaje que se utilizará en el mismo dispositivo.
El documento JPH 09284877 A describe un sistema de micrófono para obtener un sonido de alta calidad sin verse afectado por el ruido ambiental.
Compendio de la invención
Se proporciona un dispositivo móvil que incluye una entrada de dígitos que puede manipularse con los dedos o el pulgar de un usuario, un micrófono de conducción de aire y un sensor alternativo que proporciona una señal de sensor alternativo indicativa del habla. En algunas realizaciones, el dispositivo móvil también incluye un sensor de proximidad que proporciona una señal de proximidad indicativa de la distancia desde el dispositivo móvil a un objeto. En algunas realizaciones, la señal del micrófono de conducción de aire, la señal del sensor alternativo y la señal de proximidad se usan para formar una estimación de un valor del habla limpia. En realizaciones adicionales, se produce un sonido a través de un altavoz en el dispositivo móvil basado en la cantidad de ruido en el valor del habla limpia. En otras realizaciones, el sonido producido a través del altavoz se basa en la señal del sensor de proximidad.
Breve descripción de los dibujos
La FIG. 1 es una vista en perspectiva de una realización de la presente invención.
La FIG. 2 muestra el teléfono de la FIG. 1 en posición en el lado izquierdo de la cabeza de un usuario.
La FIG. 3 muestra el teléfono de la FIG. 1 en posición en el lado derecho de la cabeza de un usuario.
La FIG. 4 es un diagrama de bloques de un micrófono de conducción ósea.
La FIG. 5 es una vista en perspectiva de una realización alternativa de la presente invención.
La FIG. 6 es un corte transversal de un micrófono de conducción ósea alternativo en una realización de la presente invención.
La FIG. 7 es un diagrama de bloques de un dispositivo móvil en una realización de la presente invención.
La FIG. 8 es un diagrama de bloques de un sistema de procesamiento del habla general de la presente invención. La FIG. 9 es un diagrama de bloques de un sistema para entrenar parámetros de reducción del ruido en una realización de la presente invención.
La FIG. 10 es un diagrama de flujo para entrenar parámetros de reducción del ruido con el sistema de la FIG. 9. La FIG. 11 es un diagrama de bloques de un sistema para identificar una estimación de una señal del habla limpia a partir de una señal del habla de prueba de ruido en una realización de la presente invención.
La FIG. 12 es un diagrama de flujo de un método para identificar una estimación de una señal del habla limpia con el sistema de la FIG. 11.
La FIG. 13 es un diagrama de bloques de un sistema alternativo para identificar una estimación de una señal del habla limpia.
La FIG. 14 es un diagrama de bloques de un segundo sistema alternativo para identificar una estimación de una señal del habla limpia.
La FIG. 15 es un diagrama de flujo de un método para identificar una estimación de una señal del habla limpia con el sistema de la FIG. 14.
La FIG. 16 es una vista en perspectiva de una realización adicional de un dispositivo móvil de la presente invención.
Descripción detallada de realizaciones ilustrativas
Las realizaciones de la presente invención proporcionan dispositivos móviles de mano que contienen tanto un micrófono de conducción de aire como un sensor alternativo que puede usarse en la detección del habla y el filtrado de ruido. La FIG. 1 proporciona una realización de ejemplo en la que el dispositivo móvil de mano es un teléfono móvil 100. El teléfono móvil 100 incluye un teclado 102, una pantalla 104, un control del cursor 106, un micrófono de conducción de aire 108, un altavoz 110, dos micrófonos de conducción ósea 112 y 114 y, opcionalmente, un sensor de proximidad 116.
El panel táctil 102 permite que el usuario introduzca números y letras en el teléfono móvil. En otras realizaciones, el panel táctil 102 se combina con la pantalla 104 en forma de una pantalla táctil. El control del cursor 106 permite al usuario resaltar y seleccionar información en la pantalla 104 y desplazarse a través de imágenes y páginas que son más grandes que la pantalla 104.
Como se muestra en las FIGS. 2 y 3, cuando el teléfono móvil 100 se coloca en la posición estándar para conversar por teléfono, el altavoz 110 se coloca cerca del oído izquierdo 200 o el oído derecho 300 del usuario, y el micrófono de conducción de aire 108 se coloca cerca de la boca 202 del usuario. Cuando el teléfono se coloca cerca del oído izquierdo del usuario, como en la FIG. 2, el micrófono de conducción ósea 114 entra en contacto con el cráneo o el oído del usuario y produce una señal de sensor alternativo que puede usarse para eliminar el ruido de la señal del habla recibida por el micrófono de conducción de aire 108. Cuando el teléfono se coloca cerca del oído derecho del usuario, como en la FIG. 3, el micrófono de conducción ósea 112 entra en contacto con el cráneo o el oído del usuario y produce una señal de sensor alternativo que puede usarse para eliminar el ruido de la señal del habla. El sensor de proximidad opcional 116 indica qué tan cerca está el teléfono del usuario. Como se analiza más adelante, esta información se utiliza para ponderar la contribución de los micrófonos de conducción ósea en la producción del valor del habla limpia. En general, si el detector de proximidad detecta que el teléfono está al lado del usuario, las señales del micrófono de conducción ósea se ponderan más que si el teléfono está a cierta distancia del usuario. Este ajuste refleja el hecho de que la señal del micrófono de conducción ósea es más indicativa de que el usuario habla cuando está en contacto con el usuario. Cuando está apartado del usuario, es más susceptible al ruido ambiental. El sensor de proximidad se usa en realizaciones de la presente invención porque los usuarios no siempre sostienen el teléfono presionado contra sus cabezas.
La FIG. 4 muestra una realización de un sensor de conducción ósea 400 de la presente invención. En el sensor 400, un puente de elastómero blando 402 está adherido a un diafragma 404 de un micrófono de conducción de aire normal 406. Este puente blando 402 conduce vibraciones desde el contacto con la piel 408 del usuario directamente al diafragma 404 del micrófono 406. El movimiento del diafragma 404 se convierte en una señal eléctrica mediante un transductor 410 en el micrófono 406.
La FIG. 5 proporciona una realización alternativa de teléfono móvil 500 del dispositivo móvil de mano de la presente invención. El teléfono móvil 500 incluye un teclado 502, una pantalla 504, un control del cursor 506, un micrófono de conducción de aire 508, un altavoz 510 y una combinación del micrófono de conducción ósea y sensor de proximidad 512.
Como se muestra en el corte transversal de la FIG. 6, la combinación del micrófono de conducción ósea y el sensor de proximidad 512 consiste en una almohadilla suave, de relleno de medio (con fluido o elastómero) 600 que tiene una superficie exterior 602 diseñada para entrar en contacto con al usuario cuando el usuario coloca el teléfono contra su oído. La almohadilla 600 forma un anillo alrededor de una abertura que proporciona una vía de paso para el sonido del altavoz 510, que se encuentra en la abertura o directamente debajo de la abertura dentro del teléfono 500. La almohadilla 600 no está limitada a esta forma y se puede usar cualquier forma para la almohadilla. En general, sin embargo, se prefiere si la almohadilla 600 incluye porciones a la izquierda y derecha del altavoz 510, de modo que al menos una parte de la almohadilla 600 esté en contacto con el usuario, independientemente del oído en el que el usuario coloque el teléfono. Las porciones de la almohadilla pueden ser externamente continuas o pueden estar externamente separadas pero conectadas de manera fluida entre sí dentro del teléfono.
Un transductor electrónico de presión 604 está conectado hidráulicamente al fluido o elastómero en la almohadilla 600 y convierte la presión del fluido en la almohadilla 600 en una señal eléctrica en el conductor 606. Los ejemplos de transductor electrónico de presión 604 incluyen transductores basados en tecnología MEMS. En general, el transductor de presión 604 debería tener una respuesta de alta frecuencia.
La señal eléctrica en el conductor 606 incluye dos componentes, un componente de CC y un componente de CA. El componente de CC proporciona una señal del sensor de proximidad porque la presión estática dentro de la almohadilla 600 será mayor cuando el teléfono se presiona contra el oído del usuario que cuando el teléfono está a cierta distancia del oído del usuario. El componente de CA de la señal eléctrica proporciona una señal de micrófono de conducción ósea porque las vibraciones en los huesos del cráneo, la mandíbula o el oído del usuario crean fluctuaciones de presión en la almohadilla 600 que se convierten en una señal eléctrica de CA mediante el transductor de presión 604. En una realización, se aplica un filtro a la señal eléctrica para permitir que pase el componente de CC de la señal y los componentes de CA por encima de una frecuencia mínima.
Aunque se han descrito anteriormente dos ejemplos de sensores de conducción ósea, otras formas para el sensor de conducción ósea se encuentran dentro del alcance de la presente invención.
La FIG. 7 es un diagrama de bloques de un dispositivo móvil 700, en una realización de la presente invención. El dispositivo móvil 700 incluye un microprocesador 702, memoria 704, interfaz de entrada/salida (E/S) 706 y una interfaz de comunicación 708 para comunicarse con ordenadores remotos, redes de comunicación u otros dispositivos móviles. En una realización, los componentes mencionados anteriormente se acoplan para comunicarse entre sí a través de un bus 710 adecuado.
La memoria 704 puede implementarse como memoria electrónica no volátil, tal como memoria de acceso aleatorio (RAM) con un módulo de reserva de batería (no se muestra) de manera que la información almacenada en la memoria 704 no se pierda cuando la alimentación general del dispositivo móvil 700 se desconecte. De forma alternativa, toda o porciones de la memoria 704 pueden ser memorias extraíbles volátiles o no volátiles. Una porción de memoria 704 se asigna preferiblemente como memoria direccionable para la ejecución del programa, mientras que otra porción de memoria 704 se usa preferiblemente para almacenamiento, por ejemplo, simular almacenamiento en una unidad de disco.
La memoria 704 incluye un sistema operativo 712, programas de aplicación 714, así como un almacén de objetos 716. En funcionamiento, el sistema operativo 712 es ejecutado preferiblemente por el procesador 702 desde la memoria 704. El sistema operativo 712, en una realización preferida, es un sistema operativo de la marca WINDOWS® CE disponible comercialmente de Microsoft Corporation. El sistema operativo 712 está diseñado preferiblemente para dispositivos móviles e implementa características de base de datos que pueden ser utilizadas por las aplicaciones 714 a través de un conjunto de interfaces y métodos de programación de aplicaciones expuestos. Los objetos en el almacén de objetos 716 son mantenidos por las aplicaciones 714 y el sistema operativo 712, al menos parcialmente en respuesta a las llamadas a las interfaces y métodos de programación de aplicaciones expuestos.
La interfaz de comunicación 708 representa numerosos dispositivos y tecnologías que permiten que el dispositivo móvil 700 envíe y reciba información. En realizaciones de teléfonos móviles, la interfaz de comunicación 708 representa una interfaz de red de teléfono celular que interactúa con una red de teléfono celular para permitir que se realicen y se reciban llamadas. Otros dispositivos posiblemente representados por la interfaz de comunicación 708 incluyen módems cableados e inalámbricos, receptores de satélite y sintonizadores de radiodifusión, por nombrar algunos. El dispositivo móvil 700 también se puede conectar directamente a un ordenador para intercambiar datos con el mismo. En dichos casos, la interfaz de comunicación 708 puede ser un transceptor de infrarrojos o una conexión de comunicación en serie o en paralelo, todos los cuales son capaces de transmitir información de emisión en continuo.
Las instrucciones ejecutables por ordenador que son ejecutadas por el procesador 702 para implementar la presente invención pueden almacenarse en la memoria 704 o recibirse a través de la interfaz de comunicación 708. Estas instrucciones se encuentran en un medio legible por ordenador, que, sin limitación, puede incluir medios de almacenamiento informático y medios de comunicación.
Los medios de almacenamiento informáticos incluyen medios volátiles y no volátiles, extraíbles y no extraíbles implementados en cualquier método o tecnología para el almacenamiento de información, tales como instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento informático incluyen, entre otros, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento en disco óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda usarse para almacenar la información deseada y al que se pueda acceder.
Los medios de comunicación típicamente incorporan instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada, tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características establecida o cambiada de manera que codifique información en la señal. A modo de ejemplo, y sin limitación, los medios de comunicación incluyen medios cableados como una red cableada o conexión cableada directa, y medios inalámbricos como medios acústicos, RF, infrarrojos y otros medios inalámbricos. Las combinaciones de cualquiera de lo anterior deberían estar incluidos también dentro del alcance de los medios legibles por ordenador.
La interfaz de entrada/salida 706 representa interfaces para una colección de dispositivos de entrada y salida, incluido el altavoz 730, la entrada de dígitos 732 (como uno o un conjunto de botones, una pantalla táctil, una bola de seguimiento, una alfombrilla de ratón, un rodillo o una combinación de estos componentes que pueden manipularse con el pulgar o el dedo del usuario), pantalla 734, micrófono de conducción de aire 736, sensor alternativo 738, sensor alternativo 740 y sensor de proximidad 742. En una realización, los sensores alternativos 738 y 740 son micrófonos de conducción ósea. Los dispositivos enumerados anteriormente son a modo de ejemplo y no todos necesitan estar presentes en el dispositivo móvil 700. Además, en al menos una realización, el sensor alternativo y el sensor de proximidad se combinan como un único sensor que proporciona una señal del sensor de proximidad y una señal de sensor alternativo. Estas señales pueden colocarse en líneas de conducción separadas o pueden ser componentes de una señal en una única línea. Además, otros dispositivos de entrada/salida se pueden conectar a, o encontrar con, el dispositivo móvil 700 dentro del alcance de la presente invención.
La FIG. 8 proporciona un diagrama de bloques básico de un sistema de procesamiento del habla de realizaciones de la presente invención. En la FIG. 8, un altavoz 800 genera una señal del habla 802 que es detectada por un micrófono de conducción de aire 804 y uno o ambos de un sensor alternativo 806 y un sensor alternativo 807. Un ejemplo de un sensor alternativo es un sensor de conducción ósea que se encuentra en, o adyacente, a un hueso facial o del cráneo del usuario (como el hueso de la mandíbula) o en el oído del usuario y que detecta las vibraciones del oído, el cráneo o la mandíbula que corresponden al habla generado por el usuario. Otro ejemplo de un sensor alternativo es un sensor infrarrojo que apunta hacia y detecta el movimiento de la boca del usuario. Obsérvese que, en algunas realizaciones, solamente estará presente un sensor alternativo. El micrófono de conducción de aire 804 es el tipo de micrófono que se utiliza comúnmente para convertir ondas de radio de audio en señales eléctricas.
El micrófono de conducción de aire 804 también recibe ruido 808 generado por una o más fuentes de ruido 810. Dependiendo del tipo de sensor alternativo y el nivel del ruido, el ruido 808 también puede ser detectado por sensores alternativos 806 y 807. Sin embargo, según las realizaciones de la presente invención, los sensores alternativos 806 y 807 son típicamente menos sensibles al ruido ambiental que el micrófono de conducción de aire 804. Por lo tanto, las señales de sensor alternativo 812 y 813 generadas por los sensores alternativos 806 y 807, respectivamente, en general incluyen menos ruido que la señal del micrófono de conducción de aire 814 generada por el micrófono de conducción de aire 804.
Si hay dos sensores alternativos, como dos sensores de conducción ósea, las señales del sensor 812 y 813 se pueden proporcionar opcionalmente a una unidad de comparación/selección 815. La unidad de comparación/selección 815 compara la intensidad de las dos señales y selecciona la señal más fuerte como su salida 817. La señal más débil no se transmite para su procesamiento posterior. En cuanto a realizaciones de teléfonos móviles, tales como el teléfono móvil de las FIGS. 1-3, la unidad de comparación/selección 815 normalmente seleccionará la señal generada por el sensor de conducción ósea que está en contacto con la piel del usuario. Así, en la FIG. 2, se seleccionará la señal del sensor de conducción ósea 114 y en la FIG. 3, se seleccionará la señal del sensor de conducción ósea 112.
La señal de sensor alternativo 817 y la señal del micrófono de conducción de aire 814 se proporcionan a un estimador de la señal limpia 816, que estima una señal del habla limpia 818 a través de un proceso que se comenta a continuación en detalle. Opcionalmente, el estimador de la señal limpia 816 también recibe una señal de proximidad 830 desde un sensor de proximidad 832 que se utiliza para estimar la señal limpia 818. Como se ha indicado anteriormente, el sensor de proximidad puede combinarse con una señal de sensor alternativo en algunas realizaciones. Se proporciona una estimación de la señal limpia 818 a un proceso del habla 820. La señal del habla limpia 818 puede ser una señal en un dominio del tiempo filtrada o un vector en un dominio de características. Si la estimación de la señal limpia 818 es una señal en el dominio del tiempo, el proceso del habla 820 puede adoptar la forma de un oyente, un transmisor de teléfono celular, un sistema de codificación del habla o un sistema de reconocimiento del habla. Si la señal del habla limpia 818 es un vector en un dominio de características, el proceso del habla 820 será típicamente un sistema de reconocimiento del habla.
El estimador de la señal limpia 816 también produce una estimación del ruido 819, que indica el ruido estimado que está en la señal del habla limpia 818. La estimación del ruido 819 se proporciona a un generador de tono lateral 821, que genera un tono a través de los altavoces del dispositivo móvil en base a la estimación del ruido 819. En particular, el generador de tono lateral 821 aumenta el volumen del tono lateral a medida que aumenta la estimación del ruido 819.
El tono lateral proporciona realimentación al usuario que indica si el usuario está sosteniendo el dispositivo móvil en la mejor posición para aprovechar el sensor alternativo. Por ejemplo, si el usuario no está presionando el sensor de conducción ósea contra su cabeza, el estimador de la señal limpia recibirá una señal de sensor alternativo pobre y producirá una señal limpia ruidosa 818 debido a la señal del sensor alternativo pobre. Esto dará como resultado un tono lateral más fuerte. A medida que el usuario pone el sensor de conducción ósea en contacto con su cabeza, la señal del sensor alternativo mejorará, reduciendo así el ruido en la señal limpia 818 y el volumen del tono lateral. Por lo tanto, un usuario puede aprender rápidamente cómo sostener el teléfono para reducir mejor el ruido en la señal limpia en base a la realimentación en el tono lateral.
En realizaciones alternativas, el tono lateral se genera en base a la señal del sensor de proximidad 830 del sensor de proximidad 832. Cuando el sensor de proximidad indica que el teléfono está en contacto o extremadamente cerca de la cabeza del usuario, el volumen del tono lateral será bajo. Cuando el sensor de proximidad indica que el teléfono está lejos de la cabeza del usuario, el tono lateral será más fuerte.
La presente invención utiliza varios métodos y sistemas para estimar el habla limpia utilizando la señal del micrófono de conducción de aire 814, la señal del sensor alternativo 817 y, opcionalmente, la señal del sensor de proximidad 830. Un sistema utiliza datos de entrenamiento estéreo para entrenar vectores de corrección para la señal del sensor alternativo. Cuando estos vectores de corrección se añaden más tarde a un vector de sensor alternativo de prueba, proporcionan una estimación de un vector de señal limpia. Una extensión adicional de este sistema es realizar un seguimiento primero de las distorsiones variables en el tiempo y luego incorporar esta información en el cálculo de los vectores de corrección y en la estimación del habla limpia.
Un segundo sistema proporciona una interpolación entre la estimación de la señal limpia generada por los vectores de corrección y una estimación formada restando una estimación del ruido actual en la señal de prueba de conducción de aire de la señal de conducción de aire. Un tercer sistema utiliza la señal del sensor alternativo para estimar el tono de la señal del habla y luego utiliza el tono estimado para identificar una estimación de la señal del habla limpia. Cada uno de estos sistemas se analiza por separado a continuación.
Entrenamiento de vectores de corrección estéreo
Las FIGS. 9 y 10 proporcionan un diagrama de bloques y un diagrama de flujo para entrenar vectores de corrección estéreo para las dos realizaciones de la presente invención que se basan en vectores de corrección que generan una estimación del habla limpia.
El método de identificación de vectores de corrección comienza en la etapa 1000 de la FIG. 10, donde una señal de micrófono de conducción de aire "limpia" se convierte en una secuencia de vectores de características. Para hacer esto, un altavoz 900 de la FIG. 9, habla en un micrófono de conducción de aire 910, que convierte las ondas de audio en señales eléctricas. Las señales eléctricas son luego muestreadas por un convertidor analógico-digital 914 que genera una secuencia de valores digitales, que son agrupados en tramas de valores por un constructor de tramas 916. En una realización, el convertidor A-D 914 muestrea la señal analógica a 16 kHz y 16 bits por muestra, creando así 32 kilobytes de datos del habla por segundo y el constructor de tramas 916 crea una nueva trama cada 10 milisegundos que incluye 25 milisegundos de datos de valor.
Cada trama de datos proporcionada por el constructor de tramas 916 se convierte en un vector de características mediante un extractor de características 918. En una realización, el extractor de características 918 forma características cepstrales. Ejemplos de dichas características incluyen cepstrum derivado de LPC y coeficientes de cepstrum de la frecuencia de Mel. Los ejemplos de otros posibles módulos de extracción de características que pueden usarse con la presente invención incluyen módulos para realizar la codificación predictiva lineal (LPC), la predicción lineal perceptiva (PLP) y la extracción de características del modelo auditivo. Obsérvese que la invención no se limita a estos módulos de extracción de características y que se pueden usar otros módulos dentro del contexto de la presente invención.
En la etapa 1002 de la FIG. 10, una señal de sensor alternativo se convierte en vectores de características. Aunque se muestra que la conversión de la etapa 1002 se produce después de la conversión de la etapa 1000, cualquier parte de la conversión puede realizarse antes, durante o después de la etapa 1000 según la presente invención. La conversión de la etapa 1002 se realiza a través de un proceso similar al descrito anteriormente para la etapa 1000.
En la realización de la FIG. 9, este proceso comienza cuando los sensores alternativos 902 y 903 detectan un evento físico asociado con la producción del habla en el altavoz 900, tal como una vibración ósea o un movimiento facial. Debido a que los sensores alternativos 902 y 903 están separados en el dispositivo móvil, no detectarán los mismos valores en relación con la producción del habla. Los sensores alternativos 902 y 903 convierten el evento físico en señales eléctricas analógicas. Estas señales eléctricas se proporcionan a una unidad de comparación/selección 904, que identifica la más fuerte de las dos señales y proporciona la señal más fuerte en su salida. Obsérvese que, en algunas realizaciones, solamente se usa un sensor alternativo. En dichos casos, la unidad de comparación/selección 904 no está presente.
La señal analógica seleccionada es muestreada por un convertidor analógico-digital 905. Las características de muestreo para el convertidor A/D 905 son las mismas que las descritas anteriormente para el convertidor A/D 914. Las muestras proporcionadas por el convertidor A/D 905 son recogidas en tramas por un constructor de tramas 906, que actúa de manera similar al constructor de tramas 916. Las tramas de muestras se convierten luego en vectores de características mediante un extractor de características 908, que utiliza el mismo método de extracción de características que el extractor de características 918.
Los vectores de características para la señal del sensor alternativo y la señal conductora de aire se proporcionan a un entrenador de reducción del ruido 920 en la FIG. 9. En la etapa 1004 de la FIG. 10, el entrenador de reducción del ruido 920 agrupa los vectores de características para la señal del sensor alternativo en componentes de la mezcla. Esta agrupación se puede hacer agrupando vectores de características similares mediante una técnica de entrenamiento de máxima verosimilitud o agrupando vectores de características que representan una sección temporal de la señal del habla. Los expertos en la técnica reconocerán que pueden usarse otras técnicas para agrupar los vectores de características y que las dos técnicas enumeradas anteriormente solamente se proporcionan como ejemplos.
El entrenador de reducción del ruido 920 luego determina un vector de corrección, rs, para cada componente de la mezcla, s, en la etapa 1008 de la FIG. 10. En una realización, el vector de corrección para cada componente de la mezcla se determina con el criterio de máxima verosimilitud. Mediante esta técnica, el vector de corrección se calcula como:
Figure imgf000007_0001
donde xt es el valor del vector de conducción de aire para la trama t y bt es el valor del vector de sensor alternativo para la trama t. En la ecuación 1:
Figure imgf000007_0002
EC.2
donde p(s) es simplemente uno sobre el número de componentes de la mezcla y p(bt|s) se modela como una distribución gaussiana:
con la media |ib y la varianza n> entrenada mediante un algoritmo de maximización de expectativas (EM) donde cada iteración consiste en las siguientes etapas:
y, (0 = p(s I bt) ec. 4
Figure imgf000007_0003
r. = 'Z jA Q jb , - ~ P ,)r EC.6
1 > , ( 0
EC.4 es la etapa E en el algoritmo de EM, que utiliza los parámetros estimados previamente. EC.5 y EC.6 son la etapa M, que actualiza los parámetros utilizando los resultados de la etapa E.
Las etapas E y M del algoritmo iteran hasta que se determinan valores estables para los parámetros del modelo. Estos parámetros se utilizan para evaluar la ecuación 1 y formar los vectores de corrección. Los vectores de corrección y los parámetros del modelo se almacenan luego en un almacén de parámetros de reducción del ruido 922.
Después de que se haya determinado un vector de corrección para cada componente de la mezcla en la etapa 1008, se completa el proceso de entrenamiento del sistema de reducción del ruido de la presente invención. Una vez que se ha determinado un vector de corrección para cada mezcla, los vectores pueden usarse en una técnica de reducción del ruido de la presente invención. A continuación se comentan dos técnicas de reducción del ruido separadas que usan los vectores de corrección.
Reducción de ruido mediante el vector de corrección y la estimación del ruido
Un sistema y método que reduce el ruido en una señal del habla ruidosa en base a vectores de corrección y una estimación del ruido se muestra en el diagrama de bloques de la FIG. 11 y el diagrama de flujo de la FIG. 12, respectivamente.
En la etapa 1200, una señal de prueba de audio detectada por un micrófono de conducción de aire 1104 se convierte en vectores de características. La señal de prueba de audio recibida por el micrófono 1104 incluye el habla de un altavoz 1100 y el ruido añadido procedente de una o más fuentes de ruido 1102. La señal de prueba de audio detectada por el micrófono 1104 se convierte en una señal eléctrica que se proporciona al convertidor analógicodigital 1106.
El convertidor A-D 1106 convierte la señal analógica del micrófono 1104 en una serie de valores digitales. En varias realizaciones, el convertidor A-D 1106 muestrea la señal analógica a 16 kHz y 16 bits por muestra, creando así 32 kilobytes de datos del habla por segundo. Estos valores digitales se proporcionan a un constructor de tramas 1108, que, en una realización, agrupa los valores en tramas de 25 milisegundos que comienzan con una separación de 10 milisegundos.
Las tramas de datos creadas por el constructor de tramas 1108 se proporcionan al extractor de características 1110, que extrae una característica de cada trama. En una realización, este extractor de características es diferente de los extractores de características 908 y 918 que se usaron para entrenar los vectores de corrección. En particular, en esta realización, el extractor de características 1110 produce valores del espectro de potencia en lugar de valores cepstrales. Las características extraídas se proporcionan a un estimador de la señal limpia 1122, una unidad de detección del habla 1126 y un entrenador del modelo de ruido 1124.
En la etapa 1202, un evento físico, tal como una vibración ósea o un movimiento facial, asociado con la producción del habla en el altavoz 1100 se convierte en un vector de características. Aunque se muestra como una etapa separada en la FIG. 12, los expertos en la técnica reconocerán que porciones de esta etapa pueden realizarse al mismo tiempo que la etapa 1200. Durante la etapa 1202, el evento físico es detectado por uno o ambos sensores alternativos 1112 y 1114. Los sensores alternativos 1112 y 1114 generan señales eléctricas analógicas basadas en el evento físico. Las señales analógicas se proporcionan a una unidad de comparación y selección 1115, que selecciona la señal de mayor magnitud como su salida. Obsérvese que, en algunas realizaciones, solamente se proporciona un sensor alternativo. En dichas realizaciones, no se necesita una unidad de comparación y selección 1115.
La señal analógica seleccionada se convierte en una señal digital mediante el convertidor analógico-digital 1116 y las muestras digitales resultantes se agrupan en tramas con el constructor de tramas 1118. En una realización, el convertidor analógico-digital 1116 y el constructor de tramas 1118 funcionan de manera similar al convertidor analógico-digital 1106 y al constructor de tramas 1108.
Las tramas de valores digitales se proporcionan a un extractor de características 1120, que utiliza la misma técnica de extracción de características que se ha utilizado para entrenar los vectores de corrección. Como se ha mencionado anteriormente, los ejemplos de dichos módulos de extracción de características incluyen módulos para realizar la codificación predictiva lineal (LPC), cepstrum derivado de LPC, la predicción lineal perceptiva (PLP), la extracción de características del modelo auditivo y la extracción de características de coeficientes de cepstrum de la frecuencia de Mel (MFCC). Sin embargo, en muchas realizaciones, se utilizan técnicas de extracción de características que producen características cepstrales.
El módulo de extracción de características produce un flujo de vectores de características que están asociados con una trama separada de la señal del habla. Este flujo de vectores de características se proporciona al estimador de la señal limpia 1122.
Las tramas de valores del constructor de tramas 1118 también se proporcionan a un extractor de características 1121, que en una realización extrae la energía de cada trama. El valor de energía para cada trama se proporciona a una unidad de detección del habla 1126.
En la etapa 1204, la unidad de detección del habla 1126 usa la característica de energía de la señal del sensor alternativo para determinar cuándo es probable que haya habla. Esta información se pasa al entrenador del modelo de ruido 1124, que intenta modelar el ruido durante los períodos en que no hay habla en la etapa 1206.
En una realización, la unidad de detección del habla 1126 primero busca la secuencia de valores de energía de trama para encontrar un pico en la energía. Luego busca un valle después del pico. La energía de este valle se denomina un separador de energía, d. Para determinar si una trama contiene habla, la relación, k, de la energía de la trama, e, sobre el separador de energía, d, entonces se determina como: k=e/d. Una confianza del habla, q, para la trama se determina entonces como:
Figure imgf000009_0001
t -1 : k > a
donde a define la transición entre dos estados y en una implementación se establece en 2. Finalmente, el valor de confianza promedio de sus 5 tramas vecinas (incluida la propia) se usa como el valor de confianza final para esta trama.
En una realización, se usa un valor umbral fijo para determinar si el habla está presente de manera que, si el valor de confianza sobrepasa el umbral, se considera que la trama contiene habla y si el valor de confianza no sobrepasa el umbral, se considera que la trama no contiene habla En una realización, se usa un valor umbral de 0,1.
Para cada trama sin habla detectada por la unidad de detección del habla 1126, el entrenador del modelo de ruido 1124 actualiza un modelo de ruido 1125 en la etapa 1206. En una realización, el modelo de ruido 1125 es un modelo gaussiano que tiene una media mn y una varianza J_n. Este modelo se basa en una ventana móvil de las tramas más recientes sin habla. Las técnicas para determinar la media y la varianza a partir de las tramas sin habla en la ventana son bien conocidas en la técnica.
Los vectores de corrección y los parámetros del modelo en el almacenamiento de parámetros 922 y el modelo de ruido 1125 se proporcionan al estimador de la señal limpia 1122 con los vectores de características, b, para el sensor alternativo y los vectores de características, Sy, para la señal ruidosa del micrófono de conducción de aire. En la etapa 1208, el estimador de la señal limpia 1122 estima un valor inicial para la señal del habla limpia basándose en el vector de características del sensor alternativo, los vectores de corrección y los parámetros del modelo para el sensor alternativo. En particular, la estimación del sensor alternativo de la señal limpia se calcula como:
i = 6 £ p ( s í ¿ ) r , g j j .g
i
donde x es la estimación de la señal limpia en el dominio cepstral, b es el vector de características del sensor alternativo, p(s|b) se determina mediante la ecuación 2 anterior, y rs es el vector de corrección para el componente de la mezcla s. Por lo tanto, la estimación de la señal limpia en la ecuación 8 se forma añadiendo el vector de características del sensor alternativo a una suma ponderada de vectores de corrección donde los pesos se basan en la probabilidad de un componente de la mezcla dado el vector de características del sensor alternativo.
En la etapa 1210, la estimación inicial del habla limpia del sensor alternativo se perfecciona combinándola con una estimación del habla limpia que se forma a partir del vector ruidoso del micrófono de conducción de aire y el modelo de ruido. Esto da como resultado una estimación perfeccionada del habla limpia 1128. A fin de combinar el valor cepstral de la estimación inicial de la señal limpia con el vector de características del espectro de potencia del micrófono de conducción de aire ruidoso, el valor cepstral se convierte al dominio del espectro de potencia utilizando:
donde C'1 es una transformada discreta del coseno inversa y SX|b es la estimación del espectro de potencia de la señal limpia basada en el sensor alternativo.
Una vez que la estimación inicial de la señal limpia del sensor alternativo se ha colocado en el dominio del espectro de potencia, se puede combinar con el vector ruidoso del micrófono de conducción de aire y el modelo de ruido como:
donde Sx es la estimación perfeccionada de la señal limpia en el dominio del espectro de potencia, Sy es el vector de características ruidoso del micrófono de conducción de aire, (^ n,J_n) son la media y la covarianza del modelo de ruido anterior (véase 1124), Sxb es la estimación inicial de la señal limpia basada en el sensor alternativo, y Xx|b es la matriz de covarianza de la distribución de probabilidad condicional para el habla limpia dada la medición del sensor alternativo. Xx|b se puede calcular de la siguiente manera. Sea J el jacobiano de la función en el lado derecho de la ecuación 9. Sea X la matriz de covarianza de x. Entonces la covarianza de Sx|b es
EC.11
En una realización simplificada, EC.10 se reescribe como la ecuación siguiente:
St =a(f)(S} - Mr) ( l -a(f ) )S 4* EC. 12
donde a(f) es una función tanto del tiempo como de la banda de frecuencia. Por ejemplo, si el sensor alternativo tiene un ancho de banda de hasta 3KHz, a(f) se elige para que sea 0 en la banda de frecuencia por debajo de 3KHz. Básicamente, se confía en la estimación inicial de la señal limpia del sensor alternativo para las bandas de frecuencia baja.
En las bandas de alta frecuencia, la estimación inicial de la señal limpia del sensor alternativo no es tan fiable. Intuitivamente, cuando el ruido es pequeño para una banda de frecuencia en la trama actual, se elige un gran a(f) de modo que se coge más información del micrófono de conducción de aire para esta banda de frecuencia. De lo contrario, se utiliza más información del sensor alternativo al elegir un a(f) pequeño. En una realización, la energía de la estimación inicial de la señal limpia del sensor alternativo se usa para determinar el nivel de ruido para cada banda de frecuencia. Sea E(f) la energía para la banda de frecuencia f. Sea M=MaxfE(f). a(f), como una función de f, que se define de la siguiente manera:
Figure imgf000010_0001
donde se usa una interpolación lineal para la transición de 3K a 4K para asegurar la suavidad de a(f).
En una realización, la proximidad del dispositivo móvil a la cabeza del usuario se incorpora en la determinación de a(f). Específicamente, si el sensor de proximidad 832 produce un valor de distancia máxima D y un valor de distancia actual d, la ecuación 13 se puede modificar como:
f > 4 K
3K < f < 4K EC.14
Figure imgf000010_0002
f < 3 K
donde p está entre cero y uno y se selecciona en base a qué factor, energía o proximidad, se cree que proporciona la mejor indicación de si el modelo de ruido para el micrófono de conducción de aire o el vector de corrección para el sensor alternativo proporcionará la mejor estimación de la señal limpia.
Si p se establece a cero a(f) ya no depende de la frecuencia y simplemente se convierte en:
d
EC.15
D
La estimación de la señal limpia perfeccionada en el dominio del espectro de potencia se puede usar para construir un filtro de Wiener y filtrar la señal ruidosa del micrófono de conducción de aire. En particular, el filtro de Wiener, H, se establece de manera que:
Figure imgf000010_0003
Este filtro se puede aplicar luego contra la señal ruidosa del micrófono de conducción de aire en el dominio del tiempo para producir una señal en el dominio del tiempo limpia o con reducción del ruido. La señal con reducción del ruido se puede proporcionar a un oyente o aplicarse a un reconocedor del habla.
Obsérvese que la ecuación 12 proporciona una estimación de la señal limpia perfeccionada que es la suma ponderada de dos factores, uno de los cuales es una estimación de la señal limpia de un sensor alternativo. Esta suma ponderada se puede ampliar para incluir factores adicionales para sensores alternativos adicionales. Por lo tanto, se puede usar más de un sensor alternativo para generar estimaciones independientes de la señal limpia. Estas estimaciones múltiples se pueden combinar usando la ecuación 12.
En una realización, también se estima el ruido en la estimación de la señal limpia perfeccionada. En una realización, este ruido se trata como una gaussiana de media cero con una covarianza que se determina como:
donde es la variación del ruido en el micrófono de conducción de aire y es la varianza del ruido en la estimación del sensor alternativo. En particular, X*|b es más grande si el sensor alternativo no hace buen contacto con la superficie de la piel. La calidad del contacto se puede medir con un sensor de proximidad adicional o analizando el sensor alternativo. Para este último, observando que el sensor alternativo produce poca respuesta de alta frecuencia (mayor que 4KHz) si está en buen contacto, medimos la calidad del contacto con la relación entre la energía de baja frecuencia (menos de 3KHz) y la energía de alta frecuencia. Cuanto mayor sea la relación, mejor será el contacto.
En algunas realizaciones, el ruido en la estimación de la señal limpia se usa para generar un tono lateral como se ha comentado anteriormente en relación con la FIG. 6. A medida que aumenta el ruido en la estimación de la señal limpia perfeccionada, el volumen del tono lateral aumenta para motivar al usuario a colocar el sensor alternativo en una mejor posición de modo que aumente el proceso de mejora. Por ejemplo, el tono lateral motiva a los usuarios a presionar el sensor de conducción ósea contra su cabeza de modo que aumenta el proceso de mejora.
Reducción de ruido mediante el vector de corrección sin la estimación del ruido
La FIG. 13 proporciona un diagrama de bloques de un sistema alternativo para estimar un valor del habla limpia según la presente invención. El sistema de la FIG. 13 es similar al sistema de la FIG. 11 excepto que la estimación del valor del habla limpia se forma sin la necesidad de un micrófono de conducción de aire o un modelo de ruido.
En la FIG. 13, un evento físico asociado con un altavoz 1300 que produce habla se convierte en un vector de características mediante el sensor alternativo 1302, el convertidor analógico-digital 1304, el constructor de tramas 1306 y el extractor de características 1308, de manera similar a la que se comenta anteriormente para el sensor alternativo 1114, convertidor analógico-digital 1116, constructor de tramas 1117 y extractor de características 1118 de la FIG. 11. Obsérvese que, aunque solamente se muestra un sensor alternativo en la FIG. 13, se pueden usar sensores alternativos adicionales como en la FIG. 11 con la incorporación de una unidad de comparación y selección como se ha comentado anteriormente para la FIG. 11.
Los vectores de características del extractor de características 1308 y los parámetros de reducción del ruido 922 se proporcionan a un estimador de la señal limpia 1310, que determina una estimación de un valor de la señal limpia 1312, Sxb, usando las ecuaciones 8 y 9 anteriores.
La estimación de la señal limpia, Sxb, en el dominio del espectro de potencia puede usarse para construir un filtro de Wiener para filtrar una señal ruidosa del micrófono de conducción de aire. En particular, el filtro de Wiener, H, se establece de manera que:
Figure imgf000011_0001
SC. 17
Este filtro se puede aplicar luego contra la señal ruidosa del micrófono de conducción de aire en el dominio del tiempo para producir una señal limpia o con reducción del ruido. La señal con reducción del ruido se puede proporcionar a un oyente o aplicarse a un reconocedor del habla.
De forma alternativa, la estimación de la señal limpia en el dominio cepstral, x, que se calcula en la ecuación 8, puede aplicarse directamente a un sistema de reconocimiento del habla.
Reducción del ruido mediante seguimiento del tono
Una técnica alternativa para generar estimaciones de una señal del habla limpia se muestra en el diagrama de bloques de la FIG. 14 y el diagrama de flujo de la FIG. 15. En particular, la realización de las FIGS. 14 y 15 determina una estimación del habla limpia identificando un tono para la señal del habla usando un sensor alternativo y luego usando el tono para descomponer una señal ruidosa del micrófono de conducción de aire en un componente armónico y un componente aleatorio. Por lo tanto, la señal ruidosa se representa como:
y = y * y r e c l -ib
donde y es la señal ruidosa yh es el componente armónico, e yr es el componente aleatorio. Una suma ponderada del componente armónico y el componente aleatorio se utilizan para formar un vector de características con reducción del ruido que representa una señal del habla con reducción del ruido.
En una realización, el componente armónico se modela como una suma de sinusoides relacionados armónicamente de manera que:
«r
yk = ak cos(Á:ft)00 + l\*in(kco0t) EC.19
k=\
donde W0 es la frecuencia de tono o fundamental y K es el número total de armónicos en la señal.
Por lo tanto, para identificar el componente armónico, se debe determinar una estimación de la frecuencia de tono y los parámetros de amplitud {a1a2...akb1b2...bk}.
En la etapa 1500, se recoge una señal del habla ruidosa y se convierte en muestras digitales. Para hacer esto, un micrófono de conducción de aire 1404 convierte las ondas de audio de un altavoz 1400 y una o más fuentes de ruido añadido 1402 en señales eléctricas. Las señales eléctricas son luego muestreadas por un convertidor analógicodigital 1406 para generar una secuencia de valores digitales. En una realización, el convertidor A-D 1406 muestrea la señal analógica a 16 kHz y 16 bits por muestra, creando así 32 kilobytes de datos del habla por segundo. En la etapa 1502, las muestras digitales se agrupan en tramas mediante un constructor de tramas 1408. En una realización, el constructor de tramas 1408 crea una nueva trama cada 10 milisegundos que incluye 25 milisegundos de datos de valor.
En la etapa 1504, un sensor físico 1444 detecta un evento físico asociado con la producción del habla. En esta realización, un sensor alternativo que puede detectar componentes armónicos, como un sensor de conducción ósea, es el más adecuado para ser utilizado como sensor alternativo 1444. Obsérvese que, aunque la etapa 1504 se muestra como separada de la etapa 1500, los expertos en la técnica reconocerán que estas etapas pueden realizarse al mismo tiempo. Además, aunque solamente se muestra un sensor alternativo en la FIG. 14, se pueden usar sensores alternativos adicionales como en la FIG. 11 con la incorporación de una unidad de comparación y selección como se ha comentado anteriormente para la FIG. 11.
La señal analógica generada por el sensor alternativo 1444 se convierte en muestras digitales mediante un convertidor analógico-digital 1446. Las muestras digitales se agrupan en tramas mediante un constructor de tramas 1448 en la etapa 1506.
En la etapa 1508, las tramas de la señal del sensor alternativo son utilizadas por un seguidor de tonos 1450 para identificar el tono o la frecuencia fundamental del habla.
Se puede determinar una estimación de la frecuencia de tono utilizando un número cualquiera de sistemas de seguimiento de tono disponibles. En muchos de estos sistemas, los tonos candidatos se utilizan para identificar posibles espacios entre los centros de segmentos de la señal del sensor alternativo. Para cada tono candidato, se determina una correlación entre segmentos sucesivos del habla. En general, el tono candidato que proporciona la mejor correlación será la frecuencia de tono de la trama. En algunos sistemas, se utiliza información adicional para perfeccionar la selección del tono, como la energía de la señal y/o un seguimiento del tono esperado.
Dada una estimación del tono del seguidor de tonos 1450, el vector de la señal de conducción de aire puede descomponerse en un componente armónico y un componente aleatorio en la etapa 1510. Para hacerlo, la ecuación 19 se reescribe como:
y• = Ab EC. 20
donde y es un vector de N muestras de la señal del habla ruidosa, A es una matriz Nx2K dada por:
^ ( A m A J EC. 21
con elementos
A tu. ( * ,0 = cos(*(i>0í) A « ( * .0 = " n (*< V ) EC.22
y b es un vector 2Kx1 dado por:
br =[a,ít 1...atbib2...b¡] EC.23
Entonces, la solución de mínimos cuadrados para los coeficientes de amplitud es:
Utilizando b, una estimación del componente armónico de la señal del habla ruidosa se puede determinar como:
ECL25
Una estimación del componente aleatorio se calcula como:
y r = y ~ y* e x »
Por lo tanto, utilizando las ecuaciones 20-26 anteriores, la unidad de descomposición armónica 1410 puede producir un vector de muestras de componentes armónicos 1412, yh, y un vector de muestras de componentes aleatorios 1414, yr.
Después de que las muestras de la trama se hayan descompuesto en muestras armónicas y aleatorias, se determina un parámetro de escalado o peso para el componente armónico en la etapa 1512. Este parámetro de escalado se utiliza como parte de un cálculo de una señal del habla con reducción del ruido como se describe más adelante. En una realización, el parámetro de escalado se calcula como:
Figure imgf000013_0001
donde ah es el parámetro de escalado, yh(i) es la i-ésima muestra en el vector de muestras de componentes armónicos yh e y(i) es la i-ésima muestra de la señal del habla ruidosa para esta trama. En la ecuación 27, el numerador es la suma de la energía de cada muestra del componente armónico y el denominador es la suma de la energía de cada muestra de la señal del habla ruidosa. Por lo tanto, el parámetro de escalado es la relación entre la energía armónica de la trama y la energía total de la trama.
En realizaciones alternativas, el parámetro de escalado se establece usando una unidad de detección probabilística sonora-sorda. Dichas unidades brindan la probabilidad de que se exprese una trama particular del habla, lo que significa que las cuerdas vocales resuenan durante la trama, en lugar de ser sordas. La probabilidad de que la trama sea de una región del habla sonora se puede usar directamente como parámetro de escalado.
Después de que se haya determinado el parámetro de escalado o mientras se está determinando, los espectros de Mel para el vector de muestras de componentes armónicos y el vector de muestras de componentes aleatorios se determinan en la etapa 1514. Esto implica pasar cada vector de muestras a través de una transformada discreta de Fourier (DFT) 1418 para producir un vector de valores de frecuencia de componentes armónicos 1422 y un vector de valores de frecuencia de componentes aleatorios 1420. Los espectros de potencia representados por los vectores de valores de frecuencia son luego suavizados por una unidad de ponderación de Mel 1424 usando una serie de funciones de ponderación triangular aplicadas a lo largo de la escala de Mel. Esto da como resultado un vector espectral de componentes armónicos de Mel 1428, Yh, y un vector espectral de componentes aleatorios de Mel 1426, Yr.
En la etapa 1516, los espectros de Mel para el componente armónico y el componente aleatorio se combinan como una suma ponderada para formar una estimación de un espectro de Mel con reducción del ruido. Esta etapa se realiza mediante la calculadora de la suma ponderada 1430 utilizando el factor de escalado determinado anteriormente en la siguiente ecuación:
donde X(t) es la estimación del espectro de Mel con reducción del ruido, Yh(t) es el componente armónico del espectro de Mel, Yr(t) es el componente aleatorio del espectro de Mel, ah(t) es el factor de escalado determinado anteriormente, ar es un factor de escalado fijo para el componente aleatorio que en una realización se establece igual a 0,1, y el índice de tiempo t se usa para enfatizar que el factor de escalado para el componente armónico se determina para cada trama mientras que el factor de escalado para el componente aleatorio permanece fijo. Obsérvese que, en otras realizaciones, el factor de escalado para el componente aleatorio se puede determinar para cada trama.
Después de calcular el espectro de Mel con reducción del ruido en la etapa 1516, se determina el logaritmo 1432 del espectro de Mel y luego se aplica a una transformada discreta del coseno 1434 en la etapa 1518. Esto produce un vector de características de coeficientes cepstrales de frecuencia de Mel (MFCC) 1436 que representa una señal del habla con reducción del ruido.
Se produce un vector de características MFCC con reducción del ruido separado para cada trama de la señal ruidosa. Estos vectores de características pueden usarse para cualquier propósito deseado, incluyendo mejora del habla y reconocimiento del habla. Para mejorar el habla, los vectores de características de MFCC se pueden convertir en el dominio del espectro de potencia y se pueden usar con la señal de conducción de aire ruidosa para formar un filtro de Weiner.
Aunque la presente invención se ha analizado anteriormente con referencia específica al uso de sensores de conducción ósea como sensores alternativos, se pueden usar otros sensores alternativos. Por ejemplo, en la FIG.
16, un dispositivo móvil de la presente invención utiliza un sensor infrarrojo 1600 que en general está dirigido a la cara del usuario, especialmente la región de la boca, y genera una señal indicativa de un cambio en el movimiento facial del usuario que corresponde al habla. La señal generada por el sensor infrarrojo 1600 se puede usar como la señal del sensor alternativo en las técnicas descritas anteriormente.

Claims (20)

REIVINDICACIONES
1. Un dispositivo móvil de mano, que comprende:
un micrófono de conducción de aire (108) que está configurado para convertir ondas acústicas en una señal de micrófono eléctrica,
al menos uno de entre un primer sensor alternativo y un segundo sensor alternativo, dicho primer sensor alternativo distinto del micrófono de conducción de aire que está configurado para proporcionar una primera señal eléctrica del sensor alternativo indicativa del habla,
dicho segundo sensor alternativo distinto del micrófono de conducción de aire que está configurado para proporcionar una segunda señal del sensor alternativo, y
un procesador que está configurado para usar la señal del micrófono y la primera y segunda señal de sensor alternativo para estimar un valor del habla limpia,
en el que el primer sensor alternativo y el segundo sensor alternativo comprenden sensores de conducción ósea, el dispositivo móvil de mano incluye un altavoz que está configurado para colocarse cerca del oído izquierdo o derecho del usuario, el altavoz y el primer y el segundo sensor alternativo miran hacia la misma dirección, y cuando el dispositivo está colocado cerca del oído izquierdo o derecho del usuario y el altavoz mira hacia el oído respectivo, el primer o el segundo sensor de conducción ósea está configurado para entrar en contacto con el cráneo o el oído del usuario y producir la señal del sensor alternativo.
2. El dispositivo móvil de mano de la reivindicación 1, en el que el dispositivo móvil de mano incluye una pantalla ubicada debajo del altavoz, y cuando el altavoz mira hacia el usuario, el dispositivo móvil de mano tiene un lado izquierdo y un lado derecho opuesto al lado izquierdo y en el que el primer sensor alternativo está ubicado cerca del lado izquierdo y el segundo sensor alternativo está ubicado cerca del lado derecho.
3. El dispositivo móvil de mano de la reivindicación 1, que comprende además una unidad de selección que selecciona una de la primera señal de sensor alternativo y la segunda señal de sensor alternativo.
4. El dispositivo móvil de mano de la reivindicación 3, en el que la unidad de selección está configurada para seleccionar una de la primera señal de sensor alternativo y la segunda señal de sensor alternativo en base a las magnitudes de la primera señal de sensor alternativo y la segunda señal de sensor alternativo.
5. El dispositivo móvil de mano de la reivindicación 1, en el que el altavoz (110) está configurado para generar un sonido basado en la cantidad de ruido en el valor del habla limpia.
6. El dispositivo móvil de mano de la reivindicación 1, que comprende además un sensor de proximidad que está configurado para producir una señal de proximidad indicativa de la distancia entre el dispositivo móvil de mano y un objeto.
7. El dispositivo móvil de mano de la reivindicación 6, en el que el procesador está configurado para determinar el valor del habla limpia basándose en la señal del micrófono, la primera y/o segunda señal de sensor alternativo y la señal de proximidad.
8. El dispositivo móvil de mano de la reivindicación 7, en el que el procesador está configurado para determinar el valor del habla limpia a través de un proceso que comprende:
determinar una contribución del micrófono al valor del habla limpia en base a la señal del micrófono; determinar una contribución de sensor alternativo al valor del habla limpia en base a la primera y/o segunda señal de sensor alternativo; y
ponderar la contribución del micrófono y la contribución del sensor alternativo en base a la señal de proximidad.
9. El dispositivo móvil de mano de la reivindicación 6, en el que el altavoz (110) está configurado para generar un sonido basado en la señal de proximidad.
10. Un dispositivo móvil, que comprende:
un micrófono de conducción de aire (508) que está configurado para convertir ondas acústicas en una señal de micrófono eléctrica;
un sensor alternativo (512) distinto del micrófono de conducción de aire que está configurado para proporcionar una señal eléctrica de sensor alternativo indicativa del habla;
un sensor de proximidad que está configurado para proporcionar una señal de proximidad eléctrica que es indicativa de la distancia desde el dispositivo móvil a un objeto; y
un estimador de la señal limpia que está configurado para usar la señal del micrófono, la señal del sensor alternativo y la señal de proximidad para eliminar el ruido de la señal del micrófono y, por lo tanto, producir una señal del habla limpia mejorada,
en el que el dispositivo móvil produce la señal del habla limpia mejorada utilizando la señal de proximidad para ponderar una contribución a la señal del habla limpia mejorada que está formada a partir de la señal del sensor alternativo.
11. El dispositivo móvil de la reivindicación 10, que comprende además un altavoz (510) que está configurado para producir un sonido basado en una estimación del nivel de ruido en la señal del habla limpia mejorada.
12. El dispositivo móvil de la reivindicación 10, en el que ponderar la contribución comprende dar menos peso a la contribución cuando la señal de proximidad indica que el dispositivo móvil está lejos del objeto.
13. El dispositivo móvil de la reivindicación 10, que comprende además un altavoz (510) que está configurado para producir un sonido basado en la señal de proximidad.
14. El dispositivo móvil de la reivindicación 13, en el que el volumen del sonido está configurado para aumentar a medida que la señal de proximidad indica que la distancia entre el dispositivo móvil y el objeto aumenta.
15. El dispositivo móvil de la reivindicación 10, en el que la señal del sensor alternativo y la señal del sensor de proximidad son producidas por un único sensor.
16. El dispositivo móvil de la reivindicación 15, en el que el sensor único comprende un transductor de presión (604) que proporciona una señal eléctrica, la señal eléctrica que tiene un componente de CC que representa la señal de proximidad y un componente de CA que representa la señal del sensor alternativo.
17. Un método en un dispositivo móvil, el método que comprende:
recibir una señal del micrófono de conducción de aire;
recibir una señal del sensor alternativo que es indicativa del habla desde un sensor alternativo distinto del micrófono de conducción de aire;
estimar un valor del habla limpia mejorada basándose en la señal del micrófono de conducción de aire y la señal del sensor alternativo;
estimar el ruido en el valor del habla limpia mejorada; y
usar la estimación del ruido para generar un sonido a través de un altavoz en el dispositivo móvil; y
que comprende además recibir una señal del sensor de proximidad que indica la distancia entre el dispositivo móvil y un objeto y usar la señal del sensor de proximidad cuando se estima el valor del habla limpia mejorada, en el que el uso de la señal del sensor de proximidad comprende ponderar una contribución al valor del habla limpia mejorada que se deriva de la señal del sensor alternativo basándose en la señal del sensor de proximidad.
18. El método de la reivindicación 17, en el que el volumen del sonido está configurado para aumentar a medida que aumenta la estimación del ruido.
19. El método de la reivindicación 17, en el que ponderar una contribución comprende aplicar un mayor peso a la contribución derivada de la señal del sensor alternativo cuando la señal del sensor de proximidad indica que el dispositivo móvil está cerca de un objeto.
20. El método de la reivindicación 19, en el que el objeto es la cabeza de un usuario.
ES05101071T 2004-02-24 2005-02-14 Método y aparato para la mejora multisensorial del habla en un dispositivo móvil Active ES2775799T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/785,768 US7499686B2 (en) 2004-02-24 2004-02-24 Method and apparatus for multi-sensory speech enhancement on a mobile device

Publications (1)

Publication Number Publication Date
ES2775799T3 true ES2775799T3 (es) 2020-07-28

Family

ID=34750476

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05101071T Active ES2775799T3 (es) 2004-02-24 2005-02-14 Método y aparato para la mejora multisensorial del habla en un dispositivo móvil

Country Status (18)

Country Link
US (1) US7499686B2 (es)
EP (1) EP1569422B1 (es)
JP (1) JP4796309B2 (es)
KR (1) KR101137181B1 (es)
CN (2) CN101510905B (es)
AU (1) AU2005200249A1 (es)
BR (1) BRPI0500587A (es)
CA (1) CA2494637C (es)
EG (1) EG23701A (es)
ES (1) ES2775799T3 (es)
IL (1) IL166473A (es)
MX (1) MXPA05002133A (es)
NO (1) NO332636B1 (es)
NZ (1) NZ537900A (es)
RU (1) RU2376722C2 (es)
SG (1) SG114686A1 (es)
TW (1) TW200601798A (es)
ZA (1) ZA200500691B (es)

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US7383181B2 (en) 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US7447630B2 (en) 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) * 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US20060020454A1 (en) * 2004-07-21 2006-01-26 Phonak Ag Method and system for noise suppression in inductive receivers
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
WO2006033104A1 (en) * 2004-09-22 2006-03-30 Shalon Ventures Research, Llc Systems and methods for monitoring and modifying behavior
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
US7983720B2 (en) * 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
US20060135085A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone with uni-directional and omni-directional microphones
US20070116300A1 (en) * 2004-12-22 2007-05-24 Broadcom Corporation Channel decoding for wireless telephones with multiple microphones and multiple description transmission
US8509703B2 (en) * 2004-12-22 2013-08-13 Broadcom Corporation Wireless telephone with multiple microphones and multiple description transmission
US7483727B2 (en) * 2005-04-04 2009-01-27 Research In Motion Limited Mobile wireless communications device having improved antenna impedance match and antenna gain from RF energy
US7346504B2 (en) 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
US7406303B2 (en) 2005-07-05 2008-07-29 Microsoft Corporation Multi-sensory speech enhancement using synthesized sensor signal
PL211141B1 (pl) * 2005-08-03 2012-04-30 Piotr Kleczkowski Sposób miksowania sygnałów dźwiękowych
US8139787B2 (en) * 2005-09-09 2012-03-20 Simon Haykin Method and device for binaural signal enhancement
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) * 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
FR2899372B1 (fr) * 2006-04-03 2008-07-18 Adeunis Rf Sa Systeme de communication audio sans fil
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
CN101449320B (zh) * 2006-05-31 2012-02-22 艾格瑞系统有限公司 移动通信设备和在至少两种模式中工作的无线收发信机
US8364492B2 (en) * 2006-07-13 2013-01-29 Nec Corporation Apparatus, method and program for giving warning in connection with inputting of unvoiced speech
US20080175408A1 (en) * 2007-01-20 2008-07-24 Shridhar Mukund Proximity filter
US7734247B2 (en) * 2007-01-25 2010-06-08 Sony Ericsson Mobile Communications Ab Configurable serial memory interface
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8068620B2 (en) * 2007-03-01 2011-11-29 Canon Kabushiki Kaisha Audio processing apparatus
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8631358B2 (en) 2007-10-10 2014-01-14 Apple Inc. Variable device graphical user interface
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8676224B2 (en) * 2008-02-19 2014-03-18 Apple Inc. Speakerphone control for mobile device
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8280732B2 (en) * 2008-03-27 2012-10-02 Wolfgang Richter System and method for multidimensional gesture analysis
WO2009135532A1 (en) * 2008-05-09 2009-11-12 Nokia Corporation An apparatus
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8218397B2 (en) 2008-10-24 2012-07-10 Qualcomm Incorporated Audio source proximity estimation using sensor array for noise reduction
JP5299030B2 (ja) * 2009-03-31 2013-09-25 ソニー株式会社 ヘッドホン装置
US9009039B2 (en) * 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US9873852B2 (en) 2009-10-16 2018-01-23 University Of Virginia Patent Foundation Gas-expanded lubricants for increased energy efficiency and related method and system
US8213664B2 (en) 2009-10-30 2012-07-03 Research In Motion Limited Shape-adaptable surface for an audio port
ATE531205T1 (de) * 2009-10-30 2011-11-15 Research In Motion Ltd In der form anpassungsfähige oberfläche für einen audioanschluss
EP3550853A1 (en) * 2009-11-24 2019-10-09 Nokia Technologies Oy An apparatus
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9123323B2 (en) * 2010-06-04 2015-09-01 John P. Keady Method and structure for inducing acoustic signals and attenuating acoustic signals
WO2011159349A1 (en) 2010-06-14 2011-12-22 Audiotoniq, Inc. Hearing aid system
US8761421B2 (en) 2011-01-14 2014-06-24 Audiotoniq, Inc. Portable electronic device and computer-readable medium for remote hearing aid profile storage
US9167339B2 (en) 2010-07-07 2015-10-20 Iii Holdings 4, Llc Hearing damage limiting headphones
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications
TWI486068B (zh) * 2010-09-13 2015-05-21 Htc Corp 行動電子裝置與其聲音播放方法
US8515110B2 (en) 2010-09-30 2013-08-20 Audiotoniq, Inc. Hearing aid with automatic mode change capabilities
US10687150B2 (en) 2010-11-23 2020-06-16 Audiotoniq, Inc. Battery life monitor system and method
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
WO2012069973A1 (en) * 2010-11-24 2012-05-31 Koninklijke Philips Electronics N.V. A device comprising a plurality of audio sensors and a method of operating the same
KR101500823B1 (ko) * 2010-11-25 2015-03-09 고어텍 인크 음성 향상 방법, 장치 및 노이즈 감소 통신 헤드셋
JP5911248B2 (ja) * 2011-09-22 2016-04-27 株式会社ファインウェル 携帯電話
US8918149B2 (en) 2010-12-27 2014-12-23 Rohm Co., Ltd. Mobile telephone
JP5902416B2 (ja) * 2011-08-19 2016-04-13 株式会社ファインウェル 携帯電話
US9313306B2 (en) 2010-12-27 2016-04-12 Rohm Co., Ltd. Mobile telephone cartilage conduction unit for making contact with the ear cartilage
CN103053147B (zh) 2010-12-27 2017-03-22 罗姆股份有限公司 呼入/呼出通话单元以及呼入通话单元
JP5783352B2 (ja) 2011-02-25 2015-09-24 株式会社ファインウェル 会話システム、会話システム用指輪、携帯電話用指輪、指輪型携帯電話、及び、音声聴取方法
EP2509337B1 (en) * 2011-04-06 2014-09-24 Sony Ericsson Mobile Communications AB Accelerometer vector controlled noise cancelling method
US8909524B2 (en) * 2011-06-07 2014-12-09 Analog Devices, Inc. Adaptive active noise canceling for handset
JP5731362B2 (ja) * 2011-11-28 2015-06-10 京セラ株式会社 電子機器
EP2806654B1 (en) 2012-01-20 2019-09-04 FINEWELL Co., Ltd. Portable telephone having cartilage conduction section
JP2015513854A (ja) * 2012-03-01 2015-05-14 ボーン トーン コミュニケイションズ(イスラエル)リミテッドBone Tone Communications(Israel)Ltd. モバイル通信機器での音声通信エクスペリエンスを向上させるための方法およびシステム
US9998836B2 (en) * 2012-05-01 2018-06-12 Kyocera Corporation Electronic device, control method, and control program
EP2869591B1 (en) 2012-06-29 2020-12-09 FINEWELL Co., Ltd. Stereo earphone
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US9438985B2 (en) 2012-09-28 2016-09-06 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US9313572B2 (en) 2012-09-28 2016-04-12 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9363596B2 (en) 2013-03-15 2016-06-07 Apple Inc. System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
KR102282366B1 (ko) 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2015025829A1 (ja) 2013-08-23 2015-02-26 ローム株式会社 携帯電話
EP3062491B1 (en) 2013-10-24 2019-02-20 FINEWELL Co., Ltd. Bracelet-type transmission/reception device and bracelet-type notification device
CN103778909B (zh) * 2014-01-10 2017-03-01 瑞声科技(南京)有限公司 屏幕发声系统及其控制方法
US9547175B2 (en) 2014-03-18 2017-01-17 Google Inc. Adaptive piezoelectric array for bone conduction receiver in wearable computers
JP6551919B2 (ja) 2014-08-20 2019-07-31 株式会社ファインウェル 見守りシステム、見守り検知装置および見守り通報装置
JP6446913B2 (ja) * 2014-08-27 2019-01-09 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
TWI559784B (zh) * 2014-09-19 2016-11-21 和碩聯合科技股份有限公司 音訊裝置及音訊調校方法
JP5951738B2 (ja) * 2014-12-01 2016-07-13 株式会社ファインウェル 振動素子およびこれを用いた携帯電話
EP3236669A4 (en) 2014-12-18 2018-10-03 Rohm Co., Ltd. Cartilage conduction hearing device using electromagnetic-type vibration unit, and electromagnetic-type vibration unit
TWI566742B (zh) 2015-02-26 2017-01-21 華邦電子股份有限公司 分析處理裝置
TWI552004B (zh) 2015-03-12 2016-10-01 國立交通大學 信號分解方法及其電子裝置
GB2538853B (en) 2015-04-09 2018-09-19 Dolby Laboratories Licensing Corp Switching to a second audio interface between a computer apparatus and an audio apparatus
KR102372188B1 (ko) * 2015-05-28 2022-03-08 삼성전자주식회사 오디오 신호의 잡음을 제거하기 위한 방법 및 그 전자 장치
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
CN107848125B (zh) 2015-07-15 2021-04-27 株式会社精好 机器人和机器人系统
JP6551929B2 (ja) 2015-09-16 2019-07-31 株式会社ファインウェル 受話機能を有する腕時計
US10165362B2 (en) * 2015-12-24 2018-12-25 Intel Corporation Automated equalization
KR102108668B1 (ko) 2016-01-19 2020-05-07 파인웰 씨오., 엘티디 펜형 송수화 장치
JP6178884B2 (ja) * 2016-01-27 2017-08-09 株式会社ファインウェル 携帯電話
US10319377B2 (en) * 2016-03-15 2019-06-11 Tata Consultancy Services Limited Method and system of estimating clean speech parameters from noisy speech parameters
JP6096962B2 (ja) * 2016-03-29 2017-03-15 株式会社ファインウェル 携帯電話
CN107071652B (zh) * 2016-12-27 2023-08-04 深圳市优必选科技有限公司 一种服务机器人
CN106792354A (zh) * 2016-12-27 2017-05-31 广东小天才科技有限公司 一种可穿戴设备的播放模式控制方法及可穿戴设备
CN106686494A (zh) * 2016-12-27 2017-05-17 广东小天才科技有限公司 一种可穿戴设备的语音输入控制方法及可穿戴设备
CN106850963A (zh) * 2016-12-27 2017-06-13 广东小天才科技有限公司 一种可穿戴设备的通话控制方法及可穿戴设备
US10614788B2 (en) 2017-03-15 2020-04-07 Synaptics Incorporated Two channel headset-based own voice enhancement
US10135822B2 (en) 2017-03-21 2018-11-20 YouaretheID, LLC Biometric authentication of individuals utilizing characteristics of bone and blood vessel structures
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
US11600273B2 (en) 2018-02-14 2023-03-07 Nec Corporation Speech processing apparatus, method, and program
JP2020053948A (ja) 2018-09-28 2020-04-02 株式会社ファインウェル 聴取装置
CN110058689A (zh) * 2019-04-08 2019-07-26 深圳大学 一种基于脸部振动的智能设备输入方法
WO2021046796A1 (en) 2019-09-12 2021-03-18 Shenzhen Voxtech Co., Ltd. Systems and methods for audio signal generation
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
CN111327985A (zh) * 2020-03-06 2020-06-23 华勤通讯技术有限公司 一种耳机降噪方法和装置
CN113205824B (zh) * 2021-04-30 2022-11-11 紫光展锐(重庆)科技有限公司 声音信号处理方法、装置、存储介质、芯片及相关设备

Family Cites Families (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2761800A (en) * 1955-05-02 1956-09-04 Rca Corp Method of forming p-n junctions in n-type germanium
US3383466A (en) * 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) * 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) * 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
JPS5756624Y2 (es) * 1979-04-20 1982-12-06
US4382164A (en) * 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) * 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03108997A (ja) 1989-09-22 1991-05-09 Temuko Japan:Kk 骨伝導マイク
JPH03160851A (ja) * 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) * 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) * 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5295193A (en) * 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) * 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
JPH0739150U (ja) * 1993-12-14 1995-07-14 アツデン株式会社 携帯用電話機
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) * 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
DE69527731T2 (de) * 1994-05-18 2003-04-03 Nippon Telegraph & Telephone Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
JP3453898B2 (ja) * 1995-02-17 2003-10-06 ソニー株式会社 音声信号の雑音低減方法及び装置
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) * 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) * 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
JP3264822B2 (ja) * 1995-04-05 2002-03-11 三菱電機株式会社 移動体通信機器
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) * 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) * 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6243596B1 (en) * 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
JPH09284877A (ja) * 1996-04-19 1997-10-31 Toyo Commun Equip Co Ltd マイクシステム
US5943627A (en) * 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) * 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) * 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) * 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) * 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) * 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) * 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) * 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
JP3548380B2 (ja) * 1997-05-30 2004-07-28 アイホン株式会社 ドアホン子機
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US6434239B1 (en) * 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
EP0951883B1 (en) 1998-03-18 2005-07-27 Nippon Telegraph and Telephone Corporation Wearable communication device with bone conduction transducer
EP1080361A4 (en) * 1998-05-19 2005-08-10 Spectrx Inc APPARATUS AND METHOD FOR DETERMINING THE CHARACTERISTICS OF FABRICS
US6717991B1 (en) * 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) * 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) * 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) * 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) * 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6760600B2 (en) * 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
JP2000250577A (ja) * 1999-02-24 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6542721B2 (en) * 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6952483B2 (en) * 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US20020057810A1 (en) * 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6094492A (en) * 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6560468B1 (en) * 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6738485B1 (en) * 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
JP2001016057A (ja) * 1999-07-01 2001-01-19 Matsushita Electric Ind Co Ltd 音響装置
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6603823B1 (en) * 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6339706B1 (en) * 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
GB2357400A (en) * 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
JP4472823B2 (ja) * 2000-02-04 2010-06-02 パナソニック株式会社 クロマトグラフィー試験片、及びその製造方法
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
JP3339579B2 (ja) * 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) * 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) * 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) * 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
US6987986B2 (en) * 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
JP3699018B2 (ja) * 2001-07-25 2005-09-28 埼玉日本電気株式会社 電話機の自動音量調整装置
US7054423B2 (en) * 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) * 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
JP3678694B2 (ja) * 2001-11-02 2005-08-03 Necビューテクノロジー株式会社 対話型端末装置、その通話制御方法、およびそのプログラム
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) * 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) * 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) * 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) * 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
GB2390264B (en) 2002-06-24 2006-07-12 Samsung Electronics Co Ltd Usage position detection
MXPA05001079A (es) * 2002-07-26 2005-06-03 Oakley Inc Audifonos interactivos inalambricos.
US7092529B2 (en) * 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
TW200425763A (en) * 2003-01-30 2004-11-16 Aliphcom Inc Acoustic vibration sensor
US7593851B2 (en) * 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) * 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) * 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Also Published As

Publication number Publication date
US20050185813A1 (en) 2005-08-25
JP4796309B2 (ja) 2011-10-19
NO20050986L (no) 2005-08-25
IL166473A (en) 2010-12-30
CN101510905A (zh) 2009-08-19
RU2376722C2 (ru) 2009-12-20
TW200601798A (en) 2006-01-01
BRPI0500587A (pt) 2005-10-18
RU2005104970A (ru) 2006-08-10
IL166473A0 (en) 2006-01-15
NZ537900A (en) 2006-08-31
AU2005200249A1 (en) 2005-09-08
KR101137181B1 (ko) 2012-04-19
CN100583909C (zh) 2010-01-20
EP1569422A2 (en) 2005-08-31
CA2494637A1 (en) 2005-08-24
NO20050986D0 (no) 2005-02-23
NO332636B1 (no) 2012-11-26
SG114686A1 (en) 2005-09-28
CN1662018A (zh) 2005-08-31
EP1569422B1 (en) 2019-11-13
EG23701A (en) 2007-05-22
JP2005244968A (ja) 2005-09-08
KR20050086378A (ko) 2005-08-30
CA2494637C (en) 2013-09-03
US7499686B2 (en) 2009-03-03
CN101510905B (zh) 2011-03-09
MXPA05002133A (es) 2005-12-05
EP1569422A3 (en) 2007-08-29
ZA200500691B (en) 2007-03-28

Similar Documents

Publication Publication Date Title
ES2775799T3 (es) Método y aparato para la mejora multisensorial del habla en un dispositivo móvil
US8831936B2 (en) Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP2643834B1 (en) Device and method for producing an audio signal
TWI281354B (en) Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression
JP5862349B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
US8606572B2 (en) Noise cancellation device for communications in high noise environments
US9538301B2 (en) Device comprising a plurality of audio sensors and a method of operating the same
US20060224382A1 (en) Noise reduction and audio-visual speech activity detection
US20110264447A1 (en) Systems, methods, and apparatus for speech feature detection
KR101402551B1 (ko) 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법
CN111833896A (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
US20120284022A1 (en) Noise reduction system using a sensor based speech detector
US8423357B2 (en) System and method for biometric acoustic noise reduction
Dupont et al. Combined use of close-talk and throat microphones for improved speech recognition under non-stationary background noise
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
CN117014761B (zh) 交互式脑控耳机控制方法及装置、脑控耳机、存储介质
JP2006267664A (ja) 音声認識方法および音声認識装置