ES2898717T3

ES2898717T3 - Sistemas, métodos, aparatos, y medios legibles por ordenador para un aumento de audio espacialmente selectivo

Info

Publication number: ES2898717T3
Application number: ES12716739T
Authority: ES
Inventors: Hyun Jin Park; Kwokleung Chan; Ren Li
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-02-23
Filing date: 2012-02-22
Publication date: 2022-03-08
Anticipated expiration: 2032-02-22
Also published as: KR20130124573A; EP2679022B1; US20120215519A1; JP2015173502A; KR101606966B1; JP6009619B2; US9037458B2; CN103392349A; JP2014511612A; EP2679022A1; CN103392349B; WO2012161781A1

Abstract

Un método (M100) para procesar una señal multicanal que incluye un primer canal de entrada de audio y un segundo canal de entrada de audio, comprendiendo dicho método: realizar (T100) una operación de cancelación activa de ruido en el primer canal de entrada de audio para producir una señal antirruido; procesar (T200) la señal multicanal para obtener un componente fuente, incluyendo dicho procesamiento realizar una operación de procesamiento espacialmente selectiva en la señal multicanal para separar el componente fuente de un componente de fondo; procesar (T300) el componente fuente separado obtenido para producir un componente objetivo: producir una señal aumentada del componente objetivo, en donde la señal aumentada es una señal estéreo que proporciona una dirección de llegada percibida correspondiente a una dirección de llegada asociada con el componente fuente separado obtenido, en donde la dirección de llegada asociada con el componente fuente separado obtenido se determina a partir del primer canal de entrada de audio y el segundo canal de entrada de audio; y combinar (T400) la señal antirruido y la señal aumentada para producir una señal de salida de audio.

Description

DESCRIPCIÓN

Sistemas, métodos, aparatos, y medios legibles por ordenador para un aumento de audio espacialmente selectivo Antecedentes

Campo

Esta descripción se refiere al procesamiento de señales de audio.

Antecedentes

El término “realidad aumentada” (o AR) se refiere al aumento de un entorno percibido mediante información sensorial generada por ordenador. Por el contrario, el término “realidad virtual” se refiere a la sustitución del entorno real por un entorno simulado.

Se ha demostrado ampliamente el aumento visual de la realidad. En una aplicación de vídeo, es relativamente fácil reemplazar un elemento original del entorno con un elemento aumentado correspondiente simplemente aplicando el elemento aumentado como una superposición opaca para cubrir el elemento original. Un ejemplo de realidad visual aumentada es la línea amarilla “first down" generada por ordenador que ahora es una característica común de las transmisiones de partidos de fútbol. La publicación de patente US2010/0296668 A1 divulga métodos y dispositivos para el control automático de la cancelación activa de ruido, donde la señal de referencia de ruido es una señal multicanal y el filtro de cancelación activa de ruido está configurado para realizar una operación de procesamiento direccionalmente selectivo (por ejemplo, para atenuar el sonido de la dirección de la boca del usuario). Esto permite que los componentes útiles de la señal de salida de audio permanezcan fácilmente inteligibles cuando los escucha un usuario.

Resumen

La invención se define en las reivindicaciones independientes adjuntas.

Las características opcionales se definen en las reivindicaciones dependientes.

Breve descripción de los dibujos

La Figura 1A muestra un diagrama de flujo de un método M100 de acuerdo con una configuración general.

La Figura 1B muestra una vista superior del uso de casco auricular HS10 en la oreja derecha de un usuario.

Las Figuras 2A a 2D muestran diversas vistas de un casco auricular HS10 inalámbrico.

Las Figuras 3A a 3D muestran diversas vistas de un dispositivo HS20 de detección de audio portátil con diversos micrófonos.

Las Figuras 4A a 5C muestran secciones transversales horizontales de implementaciones ECR10, ECR20, ECR30, ECR40, ECR50 y ECR60 del lado derecho, respectivamente, de audífonos.

Las Figuras 6A y 6B muestran vistas superior y frontal, respectivamente, de un caso de uso típico de un par de auriculares.

La Figura 7A muestra un diagrama de bloques de un aparato A100 de acuerdo con una configuración general. La Figura 7B muestra un ejemplo de una división de elementos del aparato A100 entre un dispositivo ANC montado en la cabeza y un dispositivo PD10 de procesamiento.

La Figura 8A muestra un diagrama de bloques de una disposición que incluye una etapa AP10 de preprocesamiento de audio.

Las Figuras 8B y 8C muestran diagramas de bloques de disposiciones que incluyen una implementación AP20 de la etapa AP10 de preprocesamiento de audio.

La Figura 9A muestra un ejemplo de la izquierda de un auricular EB10.

La Figura 9B muestra un diagrama de bloques de una implementación A200 del aparato A100.

La Figura 10A muestra una vista lateral de un ejemplo de la izquierda de un auricular EB20.

La Figura 10B muestra una vista frontal de un ejemplo de auricular EB30.

La Figura 10C muestra un caso de uso de auriculares que llevan micrófonos ML10 y MR10.

La Figura 11 muestra un diagrama de bloques de una implementación A210 del aparato A200.

Las Figuras 12A-12E muestran ejemplos adicionales de dispositivos que pueden usarse para transportar micrófonos y/o un altavoz como se describe en el presente documento.

La Figura 13A muestra un diagrama de bloques de una implementación AR20 del módulo AR10.

La Figura 13B muestra un diagrama de bloques de una implementación AM20 del módulo AM10 de aumento.

La Figura 13C muestra un diagrama de bloques de una implementación SM20 del módulo SSP SM10.

La Figura 14A muestra un ejemplo de selección de uno deseado entre tres sectores espaciales.

La Figura 14B muestra un ejemplo de selección de uno deseado entre cinco sectores espaciales.

La Figura 14C muestra un diagrama de bloques de una implementación A200 del aparato A210.

La Figura 15 muestra una vista superior de un ejemplo de múltiples sectores espaciales seleccionables.

Las Figuras 16A y 16B muestran un ejemplo en el cual el esquema propuesto se usa para soportar una aplicación de “oído biónico”.

La Figura 17A muestra un ejemplo de un patrón espacial de ganancia de sonido percibida para un usuario A con oídos descubiertos.

La Figura 17B muestra un ejemplo de un patrón espacial de ganancia de sonido percibida para un usuario A.

La Figura 18A muestra un ejemplo de un patrón espacial de ganancia de audio percibida para un componente fuente separado.

La Figura 18B muestra un ejemplo de un patrón espacial de ganancia de audio percibida para un componente objetivo.

La Figura 19 muestra un ejemplo de un patrón espacial de ganancia de sonido percibida para un usuario A.

Las Figuras 20A y 20B muestran un ejemplo en el cual el esquema propuesto se usa para soportar la traducción de voz en vivo.

Las Figuras 21-24 muestran ejemplos de patrones espaciales de ganancia de sonido.

La Figura 25A muestra un diagrama de bloques de una implementación AR30 del módulo AR10 de procesamiento de realidad aumentada.

La Figura 25B muestra un diagrama de bloques de una implementación AM40 del módulo AM20 y AM30 de aumento.

La Figura 26A muestra un diagrama de bloques

una implementación AR100 del módulo AR20 de La Figura 26B muestra un diagrama de bloques

n aparato MF100 de acuerdo con una configurac La Figura 27A muestra un diagrama de bloques

un sistema ANC general.

Las Figuras 27B y 27C muestran ejemplos de implementaciones HS15 y HS25 de auriculares HS10 y HS20, respectivamente.

Las Figuras 28A-C muestran las implementaciones EB32, ECR15, y ECR25 del auricular EB30 y los audífonos ECR20 y ECR20, respectivamente.

Descripción detallada

No se ha buscado el aumento de audio de la realidad porque es difícil controlar eficazmente un entorno de audio. Por ejemplo, un elemento de sonido entrante no se puede eliminar con una simple superposición como un elemento de vídeo, y es difícil pasar y bloquear selectivamente la llegada de sonidos naturales al oído del usuario.

Se puede usar un audífono convencional para mejorar la capacidad del usuario para escuchar sonidos ambientales. Si bien un audífono puede amplificar los sonidos ambientales, sin embargo, no los bloquea, por lo que dicho dispositivo no proporciona un control suficiente para aumentar la realidad del audio. Si bien se han utilizado auriculares pasivos para bloquear los sonidos ambientales, su capacidad de bloqueo es limitada.

Se pueden usar auriculares con cancelación activa de ruido (ANC) para cancelar el sonido ambiental a la vez que se escuchan medios pregrabados o una comunicación remota. Los sistemas, métodos, y aparatos descritos en el presente documento se pueden usar con un auricular de cancelación activa de ruido (ANC) de múltiples micrófonos (por ejemplo, estereofónicos) para proporcionar control selectivo y aumento de los sonidos ambientales. Se divulgan diversos casos de uso de realidad aumentada de audio y su implementación efectiva a través de auriculares ANC y dispositivos móviles.

A menos que esté expresamente limitado por su contexto, el término “señal” se usa en el presente documento para indicar cualquiera de sus significados ordinarios, que incluyen el estado de una ubicación de memoria (o conjunto de ubicaciones de memoria) expresado en un cable, bus, u otro medio de transmisión. A menos que esté expresamente limitado por su contexto, el término “generar” se usa en el presente documento para indicar cualquiera de sus significados ordinarios, tales como computar o de otro modo producir. A menos que esté expresamente limitado por su contexto, el término “calcular” se usa en el presente documento para indicar cualquiera de sus significados ordinarios, tales como computar, evaluar, estimar, y/o seleccionar entre una pluralidad de valores. A menos que esté expresamente limitado por su contexto, el término “obtener” se usa para indicar cualquiera de sus significados ordinarios, tales como calcular, derivar, recibir (por ejemplo, a partir de un dispositivo externo), y/o recuperar (por ejemplo, a partir de una matriz de almacenamiento elementos). A menos que esté expresamente limitado por su contexto, el término “seleccionar” se usa para indicar cualquiera de sus significados ordinarios, tales como identificar, indicar, aplicar, y/o usar al menos uno, y menos que todos, de un conjunto de dos o más. Cuando el término “que comprende” se usa en la presente descripción y reivindicaciones, no excluye otros elementos u operaciones. El término “con base en” (como en “A se basa en B”) se utiliza para indicar cualquiera de sus significados ordinarios, que incluyen los casos (i) “derivado de” (por ejemplo, “B es un precursor de A”), (ii) “con base en al menos” (por ejemplo, “A se basa en al menos B”) y, si es apropiado en el contexto particular, (iii) “igual a” (por ejemplo, “A es igual a B”). De manera similar, el término “en respuesta a” se usa para indicar cualquiera de sus significados ordinarios, que incluye “en respuesta a al menos”.

Las referencias a una “ubicación” de un micrófono de un dispositivo de detección de audio de múltiples micrófonos indican la ubicación del centro de una cara acústicamente sensible del micrófono, a menos que el contexto indique lo contrario. El término “canal” se usa a veces para indicar una ruta de señal y en otras ocasiones para indicar una señal transportada por dicha ruta, de acuerdo con el contexto particular. A menos que se indique lo contrario, el término “serie” se utiliza para indicar una secuencia de dos o más elementos. El término “logaritmo” se usa para indicar el logaritmo en base diez, aunque las extensiones de dicha operación a otras bases están dentro del alcance de esta divulgación. El término “componente de frecuencia” se utiliza para indicar uno entre un conjunto de frecuencias o bandas de frecuencia de una señal, tal como una muestra de una representación en el dominio de frecuencia de la señal (por ejemplo, producida por una transformada rápida de Fourier) o una subbanda de la señal (por ejemplo, una subbanda de escala de Bark o escala de mel).

A menos que se indique lo contrario, cualquier divulgación de una operación de un aparato que tiene una característica particular también está expresamente destinada a divulgar un método que tiene una característica análoga (y viceversa), y cualquier divulgación de una operación de un aparato de acuerdo con una configuración particular también está destinada expresamente para divulgar un método de acuerdo con una configuración análoga (y viceversa). El término “configuración” puede usarse en referencia a un método, aparato, y/o sistema de acuerdo con lo indicado por su contexto particular. Los términos “método”, “proceso”, “procedimiento”, y “técnica” se utilizan de forma genérica e intercambiable a menos que el contexto particular indique lo contrario. Los términos “aparato” y “dispositivo” también se utilizan de forma genérica e intercambiable a menos que el contexto particular indique lo contrario. Los términos “elemento” y “módulo” se utilizan normalmente para indicar una porción de una configuración mayor. A menos que esté expresamente limitado por su contexto, el término “sistema” se usa en el presente documento para indicar cualquiera de sus significados ordinarios, que incluyen “un grupo de elementos que interactúan para servir a un propósito común”. También se entenderá que cualquier incorporación por referencia de una porción de un documento incorpora definiciones de términos o variables a los que se hace referencia dentro de la porción, donde dichas definiciones aparecen en otra parte del documento, así como cualquier figura referenciada en la porción incorporada.

Se puede asumir que en las regiones de campo cercano y de campo lejano de un campo de sonido emitido, los frentes de onda son esféricos y planos, respectivamente. El campo cercano puede definirse como la región del espacio la cual está a menos de una longitud de onda de un receptor de sonido (por ejemplo, una matriz de micrófonos). De acuerdo con esta definición, la distancia al límite de la región varía inversamente con la frecuencia.

A frecuencias de doscientos, setecientos, y dos mil hercios, por ejemplo, la distancia a un límite de una longitud de onda es de aproximadamente 170, cuarenta y nueve, y diecisiete centímetros, respectivamente. En cambio, puede ser útil considerar que el límite de campo cercano/campo lejano está a una distancia particular de la matriz de micrófonos (por ejemplo, cincuenta centímetros de un micrófono de la matriz o del centroide de la matriz, o un metro o 1.5 metros de un micrófono de la matriz o del centroide de la matriz).

La cancelación activa de ruido (ANC, también llamada reducción activa de ruido) es una tecnología que reduce activamente el ruido acústico en el aire al generar una forma de onda que es una forma inversa de la onda de ruido (por ejemplo, que tiene el mismo nivel y una fase invertida), también denominada forma de onda “antifase” o “antirruido”. Un sistema ANC en general usa uno o más micrófonos para captar una señal de referencia de ruido externa, genera una forma de onda antirruido a partir de la señal de referencia de ruido, y reproduce la forma de onda antirruido a través de uno o más altavoces. Esta forma de onda antirruido interfiere destructivamente con la onda de ruido original para reducir el nivel de ruido que llega al oído del usuario.

Se puede usar un auricular ANC como se describe en el presente documento como un mecanismo eficaz para controlar el paso de los sonidos ambientales al oído del usuario y para mejorar la capacidad de escucha ambiental del usuario. El uso de un auricular ANC en el esquema propuesto puede proporcionar un reemplazo más efectivo de una señal de audio real con audio virtual que el que está disponible con las técnicas convencionales de realidad aumentada.

Un auricular ANC incluye típicamente uno o más micrófonos de referencia que se colocan cerca del oído del usuario para capturar los sonidos ambientales. Dicho micrófono o micrófonos también están ubicados ventajosamente para capturar señales de audio para aplicaciones de realidad aumentada y pueden usarse para proporcionar captura y procesamiento selectivos de sonidos ambientales para procesamiento y aumento de señal selectiva con base en la diversidad espacial.

La Figura 1A muestra un diagrama de flujo de un método M100 de procesamiento de una señal multicanal de acuerdo con una configuración general que incluye las tareas T100, T200, T300, y T400. La tarea T100 realiza una operación ANC en un primer canal de entrada de audio de la señal multicanal para producir una señal antirruido. La tarea T200 procesa la señal multicanal, la cual incluye el primer canal de entrada de audio y un segundo canal de entrada de audio, para obtener un componente fuente de la señal multicanal. La tarea T200 incluye realizar una operación de procesamiento espacialmente selectivo (SSP) en la señal multicanal para separar el componente fuente de un componente de fondo de la señal multicanal. La tarea T300 procesa el componente fuente obtenido para producir un componente objetivo. La tarea T300 normalmente incluye aumentar la perceptibilidad del componente fuente obtenido. La tarea T400 combina la señal antirruido y una señal aumentada que se basa en el componente objetivo para producir una señal de salida de audio.

Un audífono u otro auricular que tenga dos o más micrófonos es un tipo de dispositivo de detección de audio portátil (por ejemplo, un dispositivo de comunicaciones) que puede configurarse para realizar una implementación del método M100. Dichos auriculares pueden ser inalámbricos o con cable. Por ejemplo, un auricular inalámbrico puede configurarse para admitir telefonía semidúplex o dúplex completo a través de la comunicación con un dispositivo telefónico tal como un teléfono celular (por ejemplo, usando una versión del protocolo Bluetooth™ promulgada por el Grupo de Interés Especial de Bluetooth, Inc., Bellevue, WA).

Las Figuras 2A a 2D muestran diversas vistas de un auricular HS10 inalámbrico que puede configurarse para realizar una implementación del método M100. El auricular HS10 incluye una carcasa Z10 la cual lleva una matriz de dos micrófonos y un auricular Z20 que se extiende a partir de la carcasa. En general, la carcasa de un auricular puede ser rectangular o alargada de otro modo como se muestra en las Figuras 2A, 2B, y 2D (por ejemplo, con forma de minibrazo) o pueden ser más redondeadas o incluso circulares. La carcasa también puede incluir una batería y un procesador y/u otro circuito de procesamiento (por ejemplo, una placa de circuito impreso y componentes montados en ella) y puede incluir un puerto eléctrico (por ejemplo, un mini bus en serie universal (USB) u otro puerto para carga de la batería) y características de la interfaz de usuario, tal como uno o más interruptores de botón y/o LEDs. Normalmente, la longitud de la carcasa a lo largo de su eje principal está en el rango de una a tres pulgadas (2.5 cm a 7.6 cm).

En dicha implementación del método M100, el primer canal de entrada de audio se basa en una señal producida por un micrófono principal del auricular, y el primer canal de entrada de audio se basa en una señal producida por un micrófono secundario del auricular. Normalmente, cada micrófono se monta dentro de los auriculares detrás de uno o más pequeños orificios en la carcasa que sirven como puerto acústico. Las Figuras 2B a 2D muestran las ubicaciones del puerto Z50 acústico para un micrófono principal del dispositivo HS10 y el puerto Z40 acústico para un micrófono secundario del dispositivo HS10. El auricular Z20 dirige el sonido de un altavoz del auricular, el cual produce una señal acústica que se basa en la señal de salida de audio, al canal auditivo del usuario.

Un auricular también puede incluir un dispositivo de seguridad, tal como el gancho Z30 para la oreja, el cual normalmente se puede separar del auricular. Un gancho para la oreja externa puede ser reversible, por ejemplo, para permitir al usuario configurar el auricular para usar en cualquier oreja. Alternativamente, el audífono de un auricular puede diseñarse como un dispositivo de seguridad interno (por ejemplo, un tapón para los oídos) el cual puede incluir un auricular desmontable para permitir que diferentes usuarios usen un auricular de diferente tamaño (por ejemplo, diámetro) para un mejor ajuste a la porción exterior del canal auditivo del usuario en particular. La Figura 1B muestra una vista superior del uso de auriculares HS10 en la oreja derecha de un usuario.

Las Figuras 3A a 3D muestran diversas vistas de un dispositivo HS20 de detección de audio portátil multimicrófono que es otro ejemplo de un auricular inalámbrico el cual puede configurarse para realizar una implementación del método M100. El dispositivo HS20 incluye una carcasa Z12 redondeada y elíptica y un auricular Z22 que puede configurarse como tapón para los oídos. Las Figuras 3A a 3D también muestran las ubicaciones del puerto Z52 acústico para el micrófono principal y el puerto Z42 acústico para el micrófono secundario del dispositivo HS20. Es posible que el puerto Z52 de micrófono primario esté al menos parcialmente ocluido (por ejemplo, mediante un botón de la interfaz de usuario).

Un auricular que tiene dos o más micrófonos, o un par de auriculares (los cuales normalmente están unidos por una banda que se coloca sobre la cabeza del usuario), cada uno con al menos un micrófono, es otro tipo de dispositivo de comunicaciones portátil que puede configurarse para realizar una implementación del método M100. Las Figuras 4A a 5C muestran secciones transversales horizontales de implementaciones ECR10, ECR20, ECR30, ECR40, ECR50, y ECR60 del lado derecho, respectivamente, de dichos auriculares (también llamados auriculares) que incluyen un altavoz RLS10 que está dispuesto para producir una señal acústica con base en la señal de salida de audio al oído del usuario. Dichos auriculares pueden configurarse para ser supraaurales (es decir, para descansar sobre el oído del usuario durante el uso sin encerrarlos) o circumaurales (es decir, para encerrar el oído del usuario durante el uso). Estos ejemplos también incluyen uno o más micrófonos MR10, m R20, MR30 que están dispuestos para recibir señales acústicas ambientales a través de un puerto acústico en la carcasa del auricular y para producir señales en las cuales se basan las señales de audio de entrada correspondientes. Puede ser conveniente aislar los micrófonos para que no reciban vibraciones mecánicas del altavoz RLS10 a través de la estructura del auricular. Se entenderá que las instancias del lado izquierdo de los diversos auriculares del lado derecho descritos en el presente documento se configuran de forma análoga. Las Figuras 6A y 6B muestran vistas superior y frontal, respectivamente, de un caso de uso típico de un par de cascos auriculares. Este ejemplo incluye una implementación ECR42 del auricular ECR40, un auricular ECL42 del lado izquierdo correspondiente, y una banda BD10 que une los dos auriculares.

La Figura 7A muestra un diagrama de bloques de un aparato A100 de acuerdo con una configuración general que incluye un filtro AF10 ANC, un módulo AR10 de procesamiento de realidad aumentada (AR), y una etapa AOIO de salida de audio. El aparato A100 puede usarse para realizar una implementación del método M100. Por ejemplo, el filtro AF10 ANC puede usarse para realizar la tarea T100, el módulo AR10 de procesamiento AR puede usarse para realizar las tareas T200 y T300, y la etapa AO10 de salida de audio puede usarse para realizar la tarea T400.

Durante el funcionamiento de un dispositivo de detección de audio de múltiples micrófonos como se describe en el presente documento, la disposición de dos o más micrófonos produce una señal multicanal en la cual cada canal se basa en la respuesta de uno de los micrófonos correspondientes al entorno acústico. Un micrófono puede recibir un sonido particular más directamente que otro micrófono, de tal modo que los canales correspondientes difieran entre sí para proporcionar colectivamente una representación más completa del entorno acústico que la que se puede capturar usando un solo micrófono.

Puede ser deseable que el dispositivo de detección de audio realice una o más operaciones de procesamiento en las señales producidas por los micrófonos para producir la señal multicanal correspondiente. Por ejemplo, dicho dispositivo puede incluir una disposición como se muestra en la Figura 8A que incluye una etapa AP10 de preprocesamiento de audio. La etapa AP10 de preprocesamiento de audio está configurada para realizar una o más de estas operaciones, las cuales pueden incluir (sin limitación) adaptación de impedancia, conversión de analógico a digital, control de ganancia, y/o filtrado en los dominios analógico y/o digital, de las señales producidas por los micrófonos para producir la señal MCS10 multicanal de tal manera que cada canal SI10 y SI20 se basa en una respuesta del micrófono correspondiente a una señal acústica.

La Figura 8B muestra un diagrama de bloques de dicha disposición que incluye una implementación AP20 de la etapa AP10 de preprocesamiento de audio que incluye las etapas PlOa y P10b de preprocesamiento analógicas. En un ejemplo, las etapas PlOa y PlOb están configuradas cada una para realizar una operación de filtrado de paso alto (por ejemplo, con una frecuencia de corte de 50, 100, o 200 Hz) en las señales correspondientes de los micrófonos MR10 y MR20.

Puede ser deseable que la etapa de preprocesamiento produzca la señal multicanal correspondiente como una señal digital, es decir, como una secuencia de muestras. Por ejemplo, la etapa AP20 de preprocesamiento de audio incluye convertidores de analógico a digital (ADCs) ClOa y C10b, cada uno de los cuales está dispuesto para muestras en el canal analógico correspondiente. Las frecuencias de muestreo típicas para aplicaciones acústicas incluyen 8 kHz, 12 kHz, 16 kHz, y otras frecuencias en el rango de aproximadamente 8 a aproximadamente 16 kHz, aunque también se pueden utilizar frecuencias de muestreo tan altas como aproximadamente 32, 44.1, 48, o 192 kHz. En este ejemplo particular, la etapa AP20 de preprocesamiento de audio también incluye las etapas P20a y P20b de preprocesamiento digital que están configuradas para realizar una o más operaciones de preprocesamiento (por ejemplo, cancelación de eco, reducción de ruido, y/o modelado espectral) en el canal digitalizado correspondiente para producir los canales SI10, SI20 correspondientes de la señal MCS10 multicanal. La Figura 8C muestra un ejemplo en el cual la etapa AP20 de preprocesamiento de audio está dispuesta para producir canales SI10 y SI20 de entrada de audio con base en señales producidas por los micrófonos ML10 y MR10 correspondientes.

Para un caso en cual el dispositivo ANC sea lo suficientemente grande (por ejemplo, un casco auricular), el aparato A100 puede implementarse dentro del dispositivo. En otros casos, puede ser deseable implementar algunos elementos del aparato A100 dentro del dispositivo ANC montado en la cabeza, y otros elementos del aparato A100 dentro de un dispositivo PD10 de procesamiento portátil. Ejemplos de un dispositivo de procesamiento de este tipo incluyen, sin limitación, un auricular de teléfono celular, teléfono inteligente, u otro dispositivo de comunicaciones móviles; un asistente digital personal (PDA) u otro dispositivo informático de mano; y una libreta portátil, ordenador portátil, ordenador portátil pequeño, ordenador tableta, u otro dispositivo informático portátil. La Figura 7B muestra un ejemplo de dicha división de elementos del aparato A100 entre el dispositivo ANC montado en la cabeza (por ejemplo, un casco auricular, auricular, o audífono como se describe en el presente documento) y el dispositivo PD10 de procesamiento. En este ejemplo, la porción A102A del aparato A100 (es decir, el filtro AF10 ANC y la etapa AO10 de salida de audio) se implementa dentro del dispositivo ANC, y la porción A102B del aparato A100 (es decir, el módulo AR10 de procesamiento AR) se implementa dentro de PD10. En esta y otras implementaciones del aparato A100, el módulo AR10 de procesamiento A^rse implementa típicamente en un dominio digital, a la vez que el filtro AF10 ANC puede implementarse para realizar el filtrado ANC en el dominio analógico o en un dominio digital, y de la misma manera, la etapa AO10 de salida de audio puede ser implementada para combinar las señales SG10 y SA10 para producir la señal SOIO de salida en el dominio analógico o en un dominio digital.

La comunicación de los canales SI10 y SI20 y la señal SG10 entre el dispositivo PD10 de procesamiento portátil y el dispositivo ANC puede ocurrir a través de un canal de transmisión por cable y/o inalámbrico. Ejemplos de métodos inalámbricos que pueden usarse para soportar dicho enlace de comunicaciones incluyen especificaciones de radio de baja potencia para comunicaciones de corto alcance (por ejemplo, de unas pocas pulgadas a unos pocos pies, es decir, en un rango de decímetro a metro) tal como Bluetooth (por ejemplo, un Casco Auricular u otro Perfil como se describe en la Especificación Principal de Bluetooth versión 4.0 [la cual incluye los protocolos Bluetooth Clásico, Bluetooth de alta velocidad, y Bluetooth de baja energía], Bluetooth SIG, Inc., Kirkland, WA), Peanut (QUALCOMM Incorporated, San Diego, ^cA), y ZigBee (por ejemplo, como se describe en Especificación ZigBee 2007 y/o la Especificación ZigBee RF4CE, ZigBee Alliance, San Ramón, CA). Otros canales de transmisión inalámbrica que pueden usarse entre dichos dispositivos incluyen canales que no son de radio, tales como infrarrojos y ultrasónicos.

En otro ejemplo, los micrófonos y el altavoz se implementan dentro de uno o más auriculares. La Figura 9A muestra un ejemplo a la izquierda de un auricular EB10 que incluye un altavoz LLS10 y micrófonos ML10 y ML20 en una implementación con cable. En este ejemplo, el micrófono ML20 está montado en una porción CB10 de cable semirrígido del cable CD10 a una distancia de aproximadamente tres a cuatro centímetros del micrófono ML10. El cable CB10 semirrígido puede configurarse para ser flexible y liviano pero lo suficientemente rígido para mantener el micrófono ML20 orientado en una dirección relativamente constante (por ejemplo, en relación con el micrófono ML10) durante el uso. La Figura 10A muestra una vista lateral de un ejemplo a la izquierda de otro auricular EB20 en el cual el micrófono ML20 está montado dentro de una porción de alivio de tensión del cable CD20 en el auricular de tal modo que el micrófono ML20 esté orientado en una dirección de avance relativamente constante (por ejemplo, en relación con el micrófono ML10) durante el uso.

En otro ejemplo, los micrófonos ML10 y MR10 se implementan dentro de los respectivos de un par de auriculares. La Figura 10B muestra una vista frontal de un ejemplo de un auricular EB30 que contiene el altavoz LLS10 izquierdo y el micrófono ML10 izquierdo. Durante el uso, el auricular EB30 se coloca en el oído izquierdo del usuario para dirigir una señal acústica producida por el altavoz LLS10 izquierdo (por ejemplo, a partir de una instancia de señal SO10 de salida de audio recibida a través del cable CD30) al canal auditivo del usuario. Puede ser deseable que una porción del auricular (por ejemplo, EB10, EB20, EB30) la cual dirige la señal acústica al canal auditivo del usuario esté hecha o cubierta por un material elástico, tal como un elastómero (por ejemplo, caucho de silicona), de tal modo que pueda llevarse cómodamente para formar un sello con el canal auditivo del usuario.

Para un caso en el cual la aplicación de realidad aumentada pasa una señal a través del oído del usuario, un auricular ANC también puede entregar la mayoría de los sonidos de alta fidelidad (por ejemplo, en términos de señal binaural). La Figura 9B muestra un diagrama de bloques de una implementación A200 del aparato A100 que incluye un segundo filtro AF20 ANC y una segunda etapa AO20 de salida de audio. Una segunda instancia AF20 del filtro AF10 ANC está configurada para producir una segunda señal SA20 antirruido que se basa en el segundo canal SI20 de entrada de audio, y una segunda instancia AO20 de la etapa AO10 de salida de audio está configurada para combinar la señal SG10 aumentada con la señal SA20 antirruido para producir una segunda señal SO20 de salida de audio.

Un dispositivo que incluye el aparato A200 se configura típicamente para incluir un micrófono y un altavoz que se colocan en uno de los oídos del usuario (por ejemplo, dentro de un casco auricular, auricular, o audífono como se describe en el presente documento) para proporcionar la primera señal SI10 de entrada de audio y para ser accionado por la señal SOIO de salida de audio, respectivamente, y otro micrófono y altavoz colocados en el otro de los oídos del usuario (por ejemplo, dentro de otro casco auricular, auricular, o audífono como se describe en el presente documento) para proporcionar una segunda señal SI20 de entrada de audio y para ser accionado por la señal SO20 de salida de audio, respectivamente. Por ejemplo, el aparato A200 puede implementarse dentro de uno o ambos de un par de cascos auriculares, auriculares (por ejemplo, cascos auriculares), o audífonos como se describe en el presente documento y/o dentro de una instancia de dispositivo PD10 de procesamiento portátil. Para un caso en el cual el aparato A200 se implemente con un par de cascos auriculares inalámbricos, dichos cascos auriculares pueden configurarse para transferir las respectivas señales de entrada y salida de audio con el dispositivo PD10 y/o entre sí utilizando cualquiera de los canales inalámbricos descritos en el presente documento.

El aparato A100 está implementado para recibir señales de entrada de audio de al menos dos micrófonos, pero se puede esperar un mejor rendimiento (por ejemplo, mayor selectividad direccional) si se utilizan más de dos micrófonos. La Figura 11 muestra un diagrama de bloques de una implementación A210 del aparato A200 que incluye una implementación AR12 del módulo AR10 de procesamiento Ar . En este ejemplo, el módulo AR12 está configurado para realizar una operación de procesamiento espacialmente selectiva en los canales SI10, SI20, y SI30 de entrada de audio para separar el componente fuente de un componente de fondo. El canal SI30 de entrada de audio puede basarse en una señal producida por un micrófono ML20, MR20 o MC10 adicional como se describe en el presente documento con referencia a diversos ejemplos de ubicaciones de micrófonos montados en la cabeza. Se entenderá que el módulo AR10 de procesamiento AR puede extenderse de manera similar de tal manera para procesar cuatro, cinco, o un número arbitrariamente mayor de canales de entrada de audio.

La Figura 10C muestra un caso de uso en el cual los auriculares que llevan micrófonos ML10, MR10 y los correspondientes altavoces izquierdo y derecho (no se muestran) se implementan para transferir las señales SI10, SI20, SI30 de entrada de audio y las señales SOIO, SO20 de salida de audio a partir de, una implementación del dispositivo PD10 de procesamiento portátil como un reproductor PD20 multimedia portátil sobre un cable CD40. En este caso, la tercera señal SI30 de entrada de audio se basa en una señal producida por el micrófono ML20 montado en cable.

Las Figuras 12A-12E muestran ejemplos adicionales de dispositivos que pueden usarse para transportar micrófonos y/o un altavoz como se describe en el presente documento. La Figura 12a muestra anteojos (por ejemplo, anteojos recetados, anteojos de sol, o anteojos de seguridad) con cada micrófono del par ML10, MR10 binaural montado en una patilla y otro micrófono MR20 montado en una patilla o la pieza de extremo correspondiente. La Figura 12B muestra un casco en el cual el micrófono MC10 está montado en la parte delantera de la cara del usuario (por ejemplo, en la boca del usuario) y cada micrófono del par ML10, MR10 binaural está montado en un lado correspondiente de la cabeza del usuario. Las Figuras 12C-E muestran ejemplos de gafas (por ejemplo, gafas de esquí) en las cuales cada micrófono del par ML10, MR10 binaural está montado en un lado correspondiente de la cabeza del usuario, y cada uno de estos ejemplos muestra una ubicación correspondiente diferente para el micrófono MC10 adicional. Ejemplos adicionales de ubicaciones para micrófonos para usar con una implementación del aparato A100 como se describe en el presente documento incluyen, pero no se limitan a lo siguiente: visera o ala de una gorra o sombrero; solapa, bolsillo en el pecho, o en el hombro.

El filtro AF10 de cancelación de ruido activo está configurado para recibir un primer canal SI10 de audio de entrada y para realizar una operación de cancelación de ruido activa para producir una señal SA10 antirruido correspondiente. Por lo general, es deseable configurar el filtro AF10 ANC para generar la señal SA10 antirruido para que coincida con el ruido acústico en amplitud y en sentido opuesto al ruido acústico en fase. El filtro AF10 también puede realizar operaciones de procesamiento de señales (por ejemplo, igualación o minimización de retraso de tiempo, amplificación de ganancia, y/o ecualización de respuesta de frecuencia) para lograr una cancelación de ruido óptima. Puede ser deseable configurar el filtro AF10 ANC para filtrar la señal de paso alto (por ejemplo, para atenuar señales acústicas de alta amplitud y baja frecuencia). Adicional o alternativamente, puede ser deseable configurar el filtro AF10 ANC para filtrar la señal de paso bajo (por ejemplo, de tal modo que el efecto ANC disminuya con la frecuencia a altas frecuencias). Debido a que la señal SA10 antirruido debería estar disponible en el momento en que el ruido acústico viaje a partir del micrófono al altavoz, el retraso de procesamiento causado por el filtro AF10 ANC no debería exceder un tiempo muy corto (típicamente alrededor de treinta a sesenta microsegundos).

El filtro AF10 puede configurarse para realizar la operación ANC en el dominio analógico y/o en un dominio digital, y en el dominio del tiempo y/o en un dominio de transformación (por ejemplo, una transformada de Fourier u otro dominio de frecuencia). Ejemplos de operaciones ANC que puede realizar el filtro AF10 ANC para producir la señal SA10 antirruido incluyen una operación de filtrado de inversión de fase, una operación de filtrado de mínimos cuadrados medios (lMs ) (por ejemplo, LMS de referencia filtrada (“x filtrado”), como se describe en la Publicación de Solicitud de Patente de Estados Unidos Número 2006/0069566 (Nadjar et al.) y en otros lugares), y un algoritmo de tierra virtual digital (por ejemplo, como se describe en la Patente de Estados Unidos Número 5.105.377 (Ziegler)). Otros ejemplos de operaciones de filtrado de LMS que pueden ser realizadas por el filtro AF10 ANC incluyen LMS de error filtrado (“filtrado-E”), LMS de U filtrada, y otras variantes (por ejemplo, LMS de subbanda, LMS de tamaño de paso normalizado, etc.).

Para obtener una latencia muy baja (por ejemplo, del orden de diez microsegundos) en un dominio digital, puede ser deseable implementar el filtro AF10 ANC para realizar el filtrado ANC en un dominio de modulación de densidad de pulsos (PDM), y para adaptar los coeficientes de este filtro PDM utilizando un algoritmo que se ejecuta en un dominio de modulación de código de pulso (PCM). En dicho caso, el dominio PDM tiene una resolución baja (por ejemplo, un ancho de bits de uno, dos, o cuatro bits) y una tasa de muestreo muy alta (por ejemplo, del orden de 100 kHz, 1 MHz, o incluso 10 MHz), y el dominio PCM tiene una resolución más alta (por ejemplo, un ancho de bits de ocho, diez, doce, o dieciséis bits o más) y una frecuencia de reloj más baja (por ejemplo, del orden de uno o diez kHz, tal como ocho, 12, 16, 32, 44.1 o 48 kHz). El filtrado del Pd M se puede realizar mediante hardware digital, tal como una matriz de puertas programables en campo (FPGA), un circuito integrado específico de la aplicación (ASIC), o un producto estándar específico de la aplicación (ASSP). La adaptación de PCM se puede realizar usando una implementación de un algoritmo ANC adaptativo en un dominio de PCM usando software (por ejemplo, instrucciones para la ejecución por un procesador, tal como un DSP). Ejemplos de una implementación de este tipo del filtro AF10 ANC se describen, por ejemplo, en la Publicación de Solicitud de Patente de Estados Unidos Número 2011/0007907, titulado “SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR ADAPTIVE ACTIVE NOISE CANCELLATION”, publicada el 13 de enero de 2011. (Cabe señalar que el filtro ANC AF20 puede implementarse de manera similar como una segunda instancia de filtro ANC AF10 como se describe en el presente documento).

El módulo AR10 de procesamiento de realidad aumentada está configurado para procesar una señal multicanal que incluye el primer canal SI10 de entrada de audio y el segundo canal SI10 de entrada de audio y para producir la señal SG10 aumentada. La Figura 13A muestra un diagrama de bloques de una implementación AR20 del módulo AR10 que incluye un módulo SM10 de procesamiento espacialmente selectivo (SSP) y un módulo AM10 de aumento.

El módulo SM10 de procesamiento espacialmente selectivo (SSP) está configurado para incluir un filtro SSP configurado para realizar una operación SSP en la señal multicanal para separar un componente SC10 fuente de la señal multicanal de un componente de fondo. Dicha operación SSP puede basarse, por ejemplo, en diferencias de fase y/o diferencias de ganancia entre los canales de entrada de audio. Los sonidos de fuentes cercanas que están cerca de un eje de la matriz de micrófonos, por ejemplo, pueden distinguirse de un componente de fondo (por ejemplo, sonidos de fuentes distantes y sonidos difusos) con base en la diferencia de ganancia. En un ejemplo, el filtro SSP se implementa para separar el componente fuente con base en la proximidad, de tal modo que las tramas que tienen una diferencia de ganancia entre los canales que cumplen (alternativamente, que superan) un valor de umbral se separa de otras tramas. En tal caso, la ganancia de una trama para cada canal puede calcularse en el dominio del tiempo como la energía total (por ejemplo, suma de muestras cuadradas) o energía promedio por muestra, o en el dominio de frecuencia con base en, por ejemplo, una suma de magnitudes cuadradas.

También se puede usar una diferencia de ganancia entre canales para separar señales que llegan de un rango deseado de direcciones (es decir, en relación con un eje de la matriz de micrófonos) de un componente de fondo (por ejemplo, sonidos que llegan a partir de otras direcciones). La Figura 14A muestra un ejemplo en el cual el filtro SSP usa el estado de una relación entre la diferencia de ganancia GD[n] para la trama n de la señal multicanal y un valor de umbral de diferencia de ganancia T^lpara separar las señales que llegan a partir de una deseada entre tres sectores espaciales (es decir, sector de fuego final 1, sector lateral 2, y sector de fuego final 3) de otras señales. La Figura 14B muestra un ejemplo en el cual el filtro SSP usa el estado de una relación entre la diferencia de ganancia GD[n] y un primer valor de umbral de diferencia de ganancia Tu, y el estado de una relación entre la diferencia de ganancia GD[n] y un segundo valor de umbral de diferencia de ganancia Tl², para seleccionar señales que llegan de uno deseado entre cinco sectores espaciales. La Figura 15 muestra una vista superior de otro ejemplo de múltiples sectores espaciales seleccionables en una implementación que incluye cascos auriculares HS10 inalámbricos y cascos auriculares HS30 con un solo micrófono.

También se puede usar una diferencia de fase entre canales para separar señales que llegan de un rango deseado de direcciones de un componente de fondo (por ejemplo, sonidos que llegan de otras direcciones). En dicho caso, puede ser deseable configurar el filtro SSP para producir el componente fuente separado espacialmente de uno o más de los canales de entrada de audio pasando solo aquellos contenedores de frecuencia cuya diferencia de fase en la señal multicanal indica una dirección de llegada que está dentro del rango deseado.

La “coherencia direccional” de una señal multicanal se define como el grado en el cual los diversos componentes de frecuencia de la señal llegan a partir de la misma dirección. Para un par de canales idealmente coherente en la dirección, el valor de la relación entre la diferencia de fase y la frecuencia es igual a una constante k para todas las frecuencias, donde el valor de k está relacionado con la dirección de llegada 0 y el retraso de tiempo de llegada ^t. En otro ejemplo, el filtro SSP está configurado para pasar tramas que son suficientemente coherentes direccionalmente dentro del rango deseado de direcciones.

Otros ejemplos de operaciones SSP direccionalmente selectivas que pueden ser realizadas por un filtro SSP dentro del módulo SSP SM10 incluyen formación de haces y separación de fuente ciega (BSS). Ejemplos de enfoques de formación de haces que pueden usarse para generar uno o más filtros para seleccionar componentes en las direcciones correspondientes incluyen cancelación de lóbulos laterales generalizados (GSC), respuesta sin distorsión de varianza mínima (MVDr ), y formadores de haz de varianza mínima linealmente restringida (LCMV). Los ejemplos de métodos BSS incluyen el análisis de componentes independientes (ICA) y el análisis vectorial independiente (IVA), que operan dirigiendo haces nulos hacia fuentes puntuales de interferencia.

El filtro SSP puede configurarse para aplicar la operación de procesamiento espacialmente selectivo en una dirección fija (por ejemplo, para separar las señales que llegan a partir de una dirección hacia adelante del usuario de un componente de fondo que incluye señales que llegan a partir de otras direcciones). Alternativamente, el usuario puede seleccionar o indicar de otro modo una dirección de llegada deseada mediante, por ejemplo, una interfaz de usuario del dispositivo PD10 (por ejemplo, una pantalla táctil). En dicho caso, puede ser deseable que la porción del dispositivo montada en la cabeza incluya uno o más magnetómetros, giroscopios, y/o acelerómetros configurados para rastrear una rotación de la cabeza del usuario, de tal modo que el filtro SSP pueda implementarse para adaptarse para mantener la dirección seleccionada (relativa a una referencia externa fija, tal como el campo gravitacional y/o magnético de la tierra) a medida que gira la cabeza del usuario. Dicha adaptación puede incluir seleccionar un sector espacial diferente, por ejemplo, seleccionando una relación de umbral de diferencia de ganancia diferente, seleccionando una relación diferente de diferencia de fase a frecuencia, o seleccionando un diferente de un conjunto de filtros de formación de haces orientados en diferentes direcciones correspondientes.

Además de la separación del componente fuente en el dominio espacial como lo realiza el filtro SSP, también puede ser deseable implementar el módulo SSP SM10 para separar el componente fuente en uno o más dominios diferentes. La Figura 13C muestra un diagrama de bloques de una implementación SM20 del módulo SSP SM10 que incluye un filtro SSP SF10 como se describe en el presente documento y un filtro DF10 selectivo de dominio. El filtro DF10 está configurado para procesar el componente fuente separado espacialmente producido por el filtro SSP SF10 para separarlo en uno o más dominios adicionales. En un ejemplo, el filtro DF10 se implementa para realizar una operación de detección de actividad de voz (VAD) en el componente fuente separado espacialmente para separar las tramas activas de voz de las tramas inactivas de voz (por ejemplo, en el dominio del tiempo).

Dicha operación de VAD puede basarse en uno o más factores tales como energía de trama, relación señal/ruido, periodicidad, autocorrelación de la voz y/o residual (por ejemplo, residual de codificación de predicción lineal), tasa de cruce por cero, y/o primer coeficiente de reflexión. Dicha clasificación puede incluir comparar un valor o magnitud de tal factor con un valor umbral y/o comparar la magnitud de un cambio en dicho factor con un valor umbral. Alternativa o adicionalmente, dicha clasificación puede incluir comparar un valor o magnitud de dicho factor, tal como energía, o la magnitud de un cambio en dicho factor, en una banda de frecuencia con un valor similar en otra banda de frecuencia. Puede ser deseable implementar el filtro DF10 para realizar la detección de actividad de voz con base en múltiples criterios (por ejemplo, energía, tasa de cruce por cero, etc.) y/o una memoria de decisiones recientes de VAD. Un ejemplo de una operación de detección de actividad de voz que se puede realizar mediante el filtro DF10 incluye comparar las energías de banda alta y de banda baja del componente fuente espacialmente separado con los umbrales respectivos como se describe, por ejemplo, en la sección 4.7 (páginas 4-49 a 4-57). del documento 3GPP2 C.S0014-C, v1.0, titulado “Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems”, Enero de 2007 (disponible en línea en www-punto-3gpp-punto-org).

Adicional o alternativamente, el filtro DF10 puede implementarse para realizar una operación de análisis de codificación predictiva lineal (LPC) en el componente fuente separado espacialmente para soportar la separación del contenido de voz en el LPC y/o en el dominio del tiempo. En uno de estos ejemplos, el filtro DF10 se implementa para separar las tramas de voz de otro contenido con base, por ejemplo, en la estructura del formante (por ejemplo, un ancho de banda que no es demasiado estrecho y/o no demasiado ancho) y/o inclinación espectral. En otro ejemplo, el filtro DF10 se implementa para calcular una estimación de frecuencia de tono a partir del LPC residual y para separar tramas de voz particulares de otro contenido con base en un rango de frecuencia de tono indicado (por ejemplo, para seleccionar solo la voz de un hablante masculino, solo la voz de una hablante femenina, o solo llanto u otras vocalizaciones de un bebé). Dicha selección puede ser indicada por un usuario (por ejemplo, a través de una interfaz de usuario del dispositivo PD10). Un procedimiento de estimación de tono se describe, por ejemplo, en la sección 4.6.3 (páginas 4-44 a 4-49) del documento EVRC (Códec de Tasa Variable Mejorada) C.S0014-C, disponible en línea en www-punto-3gpp-punto-org. Dicho análisis LPC también puede usarse para separar tramas de voz de una persona en particular de otro contenido de voz.

Adicional o alternativamente, el filtro DF10 puede implementarse para producir el componente SC10 fuente procesando el componente fuente separado espacialmente para separar solo el contenido de voz en un idioma hablado indicado (por ejemplo, solo en inglés o solo en coreano). El idioma a seleccionar puede ser indicado por un usuario (por ejemplo, a través de una interfaz de usuario del dispositivo PD10). Por ejemplo, el filtro DF10 puede implementarse para utilizar el procesamiento del modelo de Markov oculto (HMM) para identificar las tramas del componente fuente separado que probablemente incluyan contenido en el idioma indicado.

El módulo AM10 de aumento está configurado para realizar una operación de aumento en el componente SC10 fuente para producir un componente objetivo y para producir una señal SG10 aumentada que se basa en el componente objetivo. La Figura 13B muestra un diagrama de bloques de una implementación AM20 del módulo AM10 de aumento que está configurado para emitir el componente TC10 objetivo como señal SG10 aumentada. El módulo AM20 de aumento incluye un módulo PM10 de procesamiento fuente que está configurado para procesar el componente SC10 fuente para producir el componente TC10 objetivo aumentando la perceptibilidad del componente SC10 fuente.

Los ejemplos de operaciones que puede realizar el módulo PM10 de procesamiento fuente para aumentar la perceptibilidad del componente SC10 fuente incluyen, sin limitación, las siguientes: amplificación, ecualización, desverberación, reducción de ruido, alteración de la velocidad de la voz, y cambio de tono de la voz. Dichas operaciones pueden ser seleccionadas y/o configuradas por el usuario a través de, por ejemplo, una interfaz de usuario del dispositivo PD10 (por ejemplo, una pantalla táctil).

El módulo PM10 de procesamiento fuente puede implementarse para desverberar el componente SC10 fuente mediante el filtrado inverso del componente usando una función de transferencia de habitación estimada. Puede ser deseable realizar dicho filtrado inverso sin el componente SC10 fuente de blanqueamiento. En un ejemplo, el componente de fondo del cual está separado espacialmente el componente SC10 fuente se usa para estimar la función de transferencia de habitación invertida.

El módulo PM10 de procesamiento fuente puede implementarse para ecualizar el componente SC10 fuente de acuerdo con la preferencia del usuario y/o para compensar una pérdida auditiva del usuario (por ejemplo, para aumentar las frecuencias altas). En otro ejemplo, el módulo PM10 de procesamiento fuente se implementa para realizar una operación de mejora psicoacústica de graves (PBE) extendiendo armónicamente el contenido de baja frecuencia del componente SC10 fuente. Dicha operación puede mejorar la perceptibilidad y/o la direccionalidad del contenido de baja frecuencia.

El módulo PM10 de procesamiento fuente puede implementarse para realizar una operación de reducción de ruido en el componente SC10 fuente. Dicha operación puede incluir, por ejemplo, reducir un nivel del componente SC10 fuente durante intervalos sin habla y/o sustracción espectral de una estimación de ruido del componente SC10 fuente, donde la estimación de ruido se calcula en el dominio de la frecuencia como un promedio de tiempo sobre intervalos sin voz y/o con base en un espectro de un componente que llega a partir de una dirección sin voz (por ejemplo, el componente de fondo del cual el componente SC10 fuente está separado espacialmente).

El módulo PM10 de procesamiento fuente puede implementarse para realizar una operación de alteración de la velocidad de voz en el componente SC10 fuente. Dicha operación, que se realiza expandiendo o comprimiendo una señal de voz en el tiempo, se usa típicamente para disminuir la velocidad del contenido de voz y típicamente incluye una operación de análisis LPC para separar la estructura formante de la residual, la cual proporciona información de tono. El módulo PM10 de procesamiento fuente puede implementarse para realizar dicha ralentización extendiendo la longitud de cada trama, insertando períodos de tono en segmentos de voz sonora y extendiendo de manera similar segmentos de voz sordos (por ejemplo, usando una señal de excitación aleatoria), y realizando una operación de síntesis LPC para reproducir el contenido de la voz a la velocidad deseada. Dicha ralentización también puede incluir la sustitución de períodos de silencio con el contenido de voz ampliado en el tiempo. El usuario puede configurar dicha operación de alteración de la velocidad de la voz seleccionando un factor de alteración de la velocidad (por ejemplo, 0.7, 0.75, 0.8, 0.9, 1.1, 1.2, 1.25, 1.3, etc.).

El módulo PM10 de procesamiento fuente puede implementarse para realizar una operación de cambio de tono de voz en el componente SC10 fuente para cambiar una frecuencia de tono del contenido de voz. El módulo PM10 de procesamiento fuente puede implementarse para realizar dicha operación realizando una operación de análisis LPC para extraer la información de tono, comprimiendo o expandiendo la señal residual sin cambiar la longitud de la trama y realizando una operación de síntesis LPC para reproducir el contenido de voz con el tono deseado. El usuario puede configurar dicha operación de alteración de la velocidad de la voz seleccionando un rango de tono deseado o un factor de alteración de tono (por ejemplo, en un rango de 0.5, 0.7 o 0.8 a 1.2, 1.4, 1.5, 1.7, o 2).

El módulo AM10 de aumento (o AM20) puede configurarse para incluir un módulo de control automático de ganancia (AGC) que está dispuesto para comprimir el rango dinámico de la señal SG10 aumentada. Dicho módulo puede configurarse para proporcionar una definición de margen superior y/o un ajuste de volumen maestro. Alternativa o adicionalmente, el módulo AM10 de aumento (o AM20) puede configurarse para incluir un limitador de picos que está dispuesto para limitar el nivel de la señal SG10 aumentada.

La etapa AOIO de salida de audio está configurada para combinar la señal SA10 antirruido y la señal SG10 aumentada para producir una señal SO10 de salida de audio. Por ejemplo, la etapa AO10 de salida de audio puede implementarse como un mezclador que está configurado para producir la señal SOIO de salida de audio mezclando la señal SA10 antirruido con la señal SG10 aumentada. La etapa AOIO de salida de audio también se puede configurar para producir la señal SOIO de salida de audio mediante la conversión de la señal SA10 antirruido, la señal SG10 aumentada, o una mezcla de las dos señales de una forma digital a una analógica y/o realizando cualquier otra operación de procesamiento de audio deseada en dicha señal (por ejemplo, filtrando, amplificando, aplicando un factor de ganancia, y/o controlando un nivel de dicha señal). La etapa AOIO de salida de audio también se puede configurar para proporcionar una adaptación de impedancia a un altavoz, una ruta de transmisión de frecuencia de audio que conduce a un altavoz, y/u otra interfaz eléctrica, óptica, o magnética que está dispuesta para recibir o transferir la señal SOIO de salida de audio (por ejemplo, un conector de salida de audio, o una interfaz a un circuito de transmisión inalámbrica).

Puede ser deseable implementar el módulo AR10 de procesamiento AR (por ejemplo, para implementar el módulo AM10 o AM20 de aumento) para realizar una operación SSP en la señal SG10 aumentada para producir una salida de audio binaural. Por ejemplo, puede ser deseable producir una señal SG10 aumentada como una señal estéreo para proporcionar una dirección de llegada percibida que se parezca a la dirección original del componente fuente. Dicha configuración puede mejorar la experiencia de realidad aumentada del usuario al producir una señal binaural que corresponde al entorno real (por ejemplo, como se percibe visualmente). La Figura 14^cmuestra un diagrama de bloques de una implementación A220 del aparato A210 que incluye dicha implementación AR14 del módulo AR12 de procesamiento Ar . En dicho caso, el módulo AR14 de procesamiento AR puede incluir una implementación del módulo AM10 de aumento (o AM20) que realiza una operación de formación de haz o diferencia de ganancia (por ejemplo, control de balance) para producir la señal SG10 aumentada como un par de canales SG10a y SG10b estéreo, con base en información direccional similar obtenida (por ejemplo, como se describe en el presente documento) a partir de la señal de entrada multicanal.

Los casos de uso para una implementación del método M100 incluyen diversas aplicaciones valiosas para aumentar la perceptibilidad de un componente fuente de la señal multicanal. Una de dichas aplicaciones es la amplificación direccionalmente selectiva, la cual puede denominarse coloquialmente “oído biónico”. Otra de dichas aplicaciones es el reemplazo en vivo de una señal de voz recibida con una versión que ha sido, por ejemplo, traducida, ralentizada, ecualizada, y/o amplificada. El procesamiento de los sonidos ambientales capturados (es decir, por el casco auricular o por un dispositivo de procesamiento al cual está acoplado el casco auricular) para producir una señal aumentada aumentando la perceptibilidad de un componente fuente separado puede incluir una o más de las siguientes operaciones: sonidos capturados por fuentes o dirección de llegada; identificar las fuentes de interés de acuerdo con uno o más criterios (por ejemplo, dirección, distancia, reconocimiento de voz, clasificación de sonido); mejorar, transformar, bloquear, pasar, o de otro modo modificar el flujo separado; y/o aplicar un procesamiento de señales útil en un flujo seleccionado (por ejemplo, ecualización personalizada, ralentización de la voz, cambio de tono, y/o traducción de idiomas). Dicho procesamiento también puede incluir mezclar los sonidos procesados y reproducir la señal aumentada resultante en el oído del usuario.

En una aplicación de “oído biónico”, el usuario del aparato A100 percibe que los sonidos específicos del entorno se vuelven más perceptibles a la vez que otros sonidos se bloquean y/o se vuelven mucho menos perceptibles. Las Figuras 16A y 16B muestran un ejemplo en el cual se realiza una implementación del método M100 para soportar una aplicación de “oído biónico”. La Figura 16A describe lo que sucede en este ejemplo en el entorno real: el hablante B pregunta “¿Puedes venir aquí, abuela?” y el usuario A no puede oír o comprender la voz del hablante B debido a los sonidos que interfieren que llegan de otras direcciones.

La Figura 16B muestra lo que el usuario A escucha en el mismo escenario con realidad aumentada: una versión amplificada de la solicitud B del hablante, con los otros sonidos atenuados. En este ejemplo, el filtro AF10 ANC bloquea los sonidos ambientales, y el módulo AR10 de procesamiento AR realiza un procesamiento espacialmente selectivo de múltiples micrófonos para separar los sonidos de una o más fuentes o direcciones específicas. Dicha técnica puede usarse para obtener un patrón de ganancia de audio espacial como se muestra en la Figura 19 amplificando los sonidos de una fuente específica (hablante B) en el oído del usuario A, pero impidiendo que los sonidos ambientales genéricos pasen al oído del usuario A. El resultado es que el usuario A escucha poco sonido ambiental, excepto los sonidos de una fuente (o dirección) específica, los cuales se procesan y reproducen a través de un altavoz del dispositivo ANC. Otros casos de uso para una aplicación de “oído biónico” incluyen amplificar la voz de un profesor o conferenciante en tiempo real a la vez que se suprime el ruido ambiental.

La Figura 17A muestra un ejemplo de un patrón espacial de ganancia de sonido percibida para un usuario A con oídos descubiertos. En este ejemplo, una ganancia de uno equivale a una condición auditiva normal. La Figura 17B muestra un ejemplo de un patrón espacial de ganancia de sonido percibida para el usuario A usando una implementación binaural de un dispositivo ANC como se describe en el presente documento (por ejemplo, un par de cascos auriculares, auriculares, o audífonos con una implementación del aparato A200). Esta figura muestra un ejemplo de un patrón de ganancia de audio espacial producido con los filtros AF10 y AF20 ANC, en el cual la ganancia percibida del entorno ambiental se reduce en los oídos del usuario.

La Figura 18A muestra un ejemplo de un patrón espacial de ganancia de audio percibida para un componente fuente separado como se produce mediante una implementación direccionalmente selectiva de una operación de procesamiento de señales de múltiples micrófonos de la tarea T200. En este ejemplo, el sonido que llega de una dirección frontal del usuario se pasa con ganancia normal a la vez que los sonidos que llegan de otras direcciones se bloquean. La Figura 18B muestra un ejemplo de un patrón espacial de ganancia de audio percibida para un componente objetivo que se produce amplificando el componente fuente.

En este ejemplo de “oído biónico”, una matriz de micrófonos que incluye el micrófono de referencia ANC capta el sonido X ambiental (= voz Y del hablante B otro sonido Z ambiental direccional y difuso) y produce señales SI10 y SI20 de entrada de audio. El módulo AR10 de procesamiento AR realiza un procesamiento espacialmente selectivo de diversos micrófonos para separar el componente Y de voz (es decir, el componente SC10 fuente) del otro componente Z de sonido. El módulo AR10 de procesamiento AR también procesa la señal Y de voz para producir la señal Y' de voz objetivo. En este caso, dicho procesamiento incluye amplificar el componente Y de voz y también puede incluir el componente de ecualización Y, desverberando el componente Y para simular una distancia cercana y/o ralentizar el contenido de voz del componente Y (por ejemplo, en un 25% o 50%). El procesamiento espacialmente selectivo reduce el nivel del componente Z de sonido restante para producir un componente Z' escalado (= aZ, donde a << 1), y el módulo AR10 Ar genera una señal X' aumentada (= Y'+ Z') en el casco auricular ANC. El casco auricular ANC genera una señal antirruido para bloquear el sonido X ambiental del oído, y la etapa AOIO de salida de audio reproduce la señal aumentada X' en el oído del usuario.

El componente fuente seleccionado puede amplificarse (por ejemplo, como se ilustra en la Figura 18B) y/o de otro modo procesarse (por ejemplo, ecualizarse, ralentizarse, cambiarse de tono, y/o desverberarse como se describe en el presente documento) para aumentar la perceptibilidad del componente.

Las Figuras 20A y 20B muestran un ejemplo en el cual se realiza una implementación del método M100 para soportar la traducción de voz en vivo de un idioma hablado a otro. La Figura 20A describe lo que sucede en la realidad (por ejemplo, el hablante B pregunta “¿Habla usted español?”), y la Figura 20B representa lo que el usuario A escucha con realidad aumentada (por ejemplo, “¿Hablas español?”).

Un ejemplo como se muestra en las Figuras 20A y 20B puede implementarse de tal modo que el dispositivo ANC suprima la voz original del hablante B, pero se transmiten otros sonidos ambientales (por ejemplo, mediante una mezcla de tonos laterales con base en diversos micrófonos) al oído del usuario. En este caso, el usuario A escucha los sonidos existentes del entorno ambiental, excepto la voz del hablante B. El dispositivo PD10 de procesamiento puede configurarse para realizar una técnica ^sS^pde diversos micrófonos como se describe en el presente documento (por ejemplo, de acuerdo con las diferencias de fase entre canales y/o diferencias de ganancia entre canales) para separar selectivamente la voz del hablante B (por ejemplo, con base en la dirección de llegada estimada). El dispositivo PD10 de procesamiento también puede configurarse para extraer (por ejemplo, reconocer) y traducir la información de voz y para sintetizar un resultado de traducción contemporáneo (por ejemplo, a través de texto a voz (TTS)). Los sonidos TTS sintetizados luego se mezclan en el dispositivo ANC (opcionalmente con indicaciones direccionales).

El módulo AM10 de aumento (por ejemplo, el módulo PM10 de procesamiento fuente) se puede implementar para realizar la traducción de voz contemporánea procesando el componente SC10 fuente para realizar una operación de voz a texto (por ejemplo, utilizando el procesamiento del modelo de Markov oculto) para reconocer el contenido de voz, para traducir el texto reconocido del idioma fuente al idioma objetivo, y para realizar una operación de conversión de texto a voz para producir el componente TC10 objetivo. El módulo AM10 de aumento se puede implementar para producir el componente objetivo traducido en una voz o tono seleccionados por el usuario (por ejemplo, en una voz de tono bajo a tono medio) o para extraer y aplicar una o más características de la voz del hablante original (por ejemplo, frecuencia de tono). Puede ser deseable configurar el dispositivo PD10 para que muestre un icono que indique el idioma fuente particular que se está traduciendo (por ejemplo, una bandera nacional correspondiente). En un ejemplo similar, el usuario A puede escuchar una versión contemporánea de la voz del hablante B que se ha ralentizado, cambiado de tono, y/o ecualizado.

La Figura 18A muestra un ejemplo de un patrón espacial de ganancia de audio para el procesamiento de señales de múltiples micrófonos. En este ejemplo, el sonido que llega de una dirección frontal del usuario se pasa con ganancia normal a la vez que los sonidos que llegan de otras direcciones se bloquean. La Figura 21 muestra una aplicación del ejemplo de la Figura 18A para obtener un patrón de ganancia de audio espacial que pasa los sonidos de una fuente específica (hablante B) al oído del usuario A, pero bloquea los sonidos ambientales genéricos para que no pasen al oído del usuario A.

En este ejemplo de traducción contemporánea, una matriz de micrófonos que incluye el micrófono de referencia ANC capta el sonido X ambiental (= voz Y del hablante B todos los demás sonidos Z ambientales) y produce señales SI10 y SI20 de entrada de audio. El módulo AR10 de procesamiento AR realiza un procesamiento espacialmente selectivo de diversos micrófonos para separar el componente Y de voz (es decir, el componente SC10 fuente) del otro componente Z de sonido. El módulo AR10 de procesamiento AR también traduce la señal Y de voz al idioma objetivo (por ejemplo, a través de texto a voz o “TTS”) para producir la señal Y' de voz objetivo y genera una señal X' (= Y' Z) aumentada en el auricular ANC. Alternativa o adicionalmente, el módulo AR10 de procesamiento AR puede configurarse para ralentizar la señal Y en un 50% para generar Y' y/o para realizar un procesamiento adicional de aumento de la perceptibilidad como se describe en el presente documento (por ejemplo, cambio de tono, desverberación) para producir el componente objetivo. El auricular ANC genera una señal antirruido para bloquear el sonido X ambiental del oído, y la etapa AOIO de salida de audio reproduce la señal X' aumentada en el oído.

Como se señaló anteriormente, el aumento de audio puede incluir pasar otros sonidos ambientales (por ejemplo, el componente de fondo) a través del oído del usuario con el componente objetivo. Puede ser deseable aplicar diversas técnicas de procesamiento de señales por separado a múltiples fuentes de sonidos ambientales para generar una señal aumentada. En uno de dichos ejemplos, el usuario A está hablando con el hablante B en una acera cerca de una carretera. En este caso, el usuario A quiere escuchar al hablante B con el servicio de amplificación de voz (es decir, “oído biónico”), pero también quiere escuchar los sonidos del entorno de la acera. Al mismo tiempo, el usuario A no quiere escuchar ruidos fuertes en la carretera generados por coches. Un esquema de realidad aumentada con base en auriculares ANC como se describe en el presente documento puede proporcionar dicha experiencia de usuario, como se describe en el presente documento.

La Figura 22 muestra un ejemplo de un patrón espacial de ganancia de audio para el procesamiento de señales de múltiples micrófonos. En este ejemplo, el sonido que llega a partir de una dirección frontal del usuario se bloquea a la vez que los sonidos que llegan a partir de otras direcciones se pasan con ganancia normal. La Figura 23 muestra una aplicación del ejemplo de la Figura 22 para obtener un patrón de ganancia de audio espacial que transmite los sonidos ambientales al oído del usuario A, pero bloquea el sonido de una fuente específica (hablante B) para que no pase al oído del usuario A. Como se describe con referencia al ejemplo de traducción en vivo anterior, la voz que falta del hablante B se puede reemplazar con una versión traducida de la información de voz (por ejemplo, a través de TTS).

En un ejemplo de un escenario combinado como se ilustra en la Figura 24, el sonido que llega de un primer rango de direcciones se reemplaza con la traducción del idioma (por ejemplo, a través de tTs ), el sonido que llega de un segundo rango de direcciones se bloquea (por ejemplo, ruido de la carretera), y se transmite el sonido que llega a partir de un tercer rango de direcciones (por ejemplo, sonidos de la acera). El dispositivo ANC transmite sonidos ambientales (por ejemplo, sonidos de acera) al oído del usuario A, pero el procesamiento espacialmente selectivo bloquea el sonido de una fuente específica (hablante B) y una dirección de ruido específica para que no llegue al oído del usuario A. El procesamiento aumentado inyecta una versión amplificada (y posiblemente ralentizada) de la voz del hablante B al oído del usuario A. El usuario A escucha los sonidos de la acera y los sonidos procesados del hablante B, pero poco del ruido del coche en la carretera.

En este ejemplo espacialmente diverso, una matriz de micrófonos que incluye el micrófono de referencia ANC capta el sonido X ambiental (= voz Y del hablante B sonido Z de la acera ruido W de carretera) y produce señales SI10 y SI20 de entrada de audio. El módulo AR10 de procesamiento AR realiza un procesamiento espacialmente selectivo de diversos micrófonos para separar el componente Y de voz del usuario B (es decir, el componente SC10 fuente), los sonidos Z de la acera a partir de la dirección C, y el ruido W de la carretera a partir de la dirección D. El módulo AR10 de procesamiento AR procesa (por ejemplo, amplifica, ecualiza, desverbera, y/o ralentiza) la señal Y de voz para producir la señal Y' de voz objetivo, pasa el componente Z de sonido de la acera, y genera la señal X' (= Y' Z) aumentada en el dispositivo ANC. El dispositivo ANC genera una señal antirruido para bloquear el sonido X ambiental del oído, y la etapa AO10 de salida de audio reproduce la señal X' aumentada en el oído.

La Figura 25A muestra un diagrama de bloques de una implementación AR30 del módulo AR10 de procesamiento de realidad aumentada que incluye una implementación SF20 del filtro SSP SF10 y una implementación AM30 del módulo AM10 de aumento. El filtro SF20 está configurado para realizar una operación SSP en la señal multicanal para separar el componente SC10 fuente del componente BC10 de fondo. El filtro SF20 puede configurarse para producir el componente BC10 de fondo como una diferencia entre la señal multicanal y el componente fuente separado espacialmente (por ejemplo, como los contenedores o tramas de frecuencia no seleccionados). Alternativamente, el filtro SF20 puede implementarse para realizar una operación SSP en la señal multicanal para separar el componente BC10 de fondo del componente SC10 fuente y posiblemente de otro sonido. En este caso, el filtro SF20 puede implementarse para producir el componente BC10 de fondo usando cualquiera de las operaciones SSP descritas en el presente documento (por ejemplo, con base en ganancia y/o diferencias de fase, formación de haces, BSS).

Por ejemplo, el filtro SF20 puede implementarse para producir el componente BC10 de fondo a partir de la señal multicanal aplicando un filtro de formación de haz que tenga un haz ancho en una dirección distinta a la dirección del componente fuente. En otro ejemplo, el filtro SF20 se implementa para producir el componente BC10 de fondo a partir de la señal multicanal aplicando uno o más filtros de formación de haces que tienen haces nulos en las direcciones de las fuentes a excluir (por ejemplo, en la dirección del componente fuente y/o en la dirección de una fuente de ruido (por ejemplo, como en la dirección D de la fuente de ruido de la carretera W en el ejemplo discutido anteriormente)). El módulo AM30 de aumento está configurado para producir una implementación SG20 de la señal SG10 aumentada que se basa en el componente TC10 objetivo y en el componente BC10 de fondo separado.

La Figura 25B muestra un diagrama de bloques de una implementación AM40 del módulo AM20 y AM30 de aumento que incluye un mezclador MX10 configurado para mezclar (por ejemplo, para agregar) el componente TC10 objetivo con el componente BC10 de fondo separado para producir la señal SG20 aumentada.

Puede ser deseable implementar el módulo AR10 de procesamiento AR para detectar y pasar sonidos de advertencia, tales como una sirena, bocina de coche, alarma, u otro sonido destinado a advertir, alertar o captar la atención. Dichos sonidos son típicamente componentes tonales que tienen anchos de banda estrechos en comparación con otras señales de sonido, tales como componentes de voz y ruido. La Figura 26A muestra un diagrama de bloques de una implementación AR100 del módulo AR10 de procesamiento AR que incluye un detector WD10 de sonido de advertencia. El detector WD10 de sonido de advertencia está configurado para detectar un sonido que aparece solo dentro de un rango de frecuencia particular (por ejemplo, a partir de aproximadamente 500 o 1000 Hertz hasta aproximadamente dos o tres kilohercios), tiene un ancho de banda estrecho (por ejemplo, no mayor de aproximadamente cincuenta, cien, o doscientos Hertz), tiene un perfil de ataque agudo (por ejemplo, tiene un aumento de energía no menor a cincuenta, setenta y cinco, o cien por ciento de una trama a la siguiente), y/o tiene una frecuencia de tono que está por encima de un valor umbral (por ejemplo, el sonido del llanto de un bebé). El detector WD10 de sonido de advertencia puede configurarse para realizar dicha detección en el dominio del tiempo, el dominio LPC y/o en un dominio de transformación (por ejemplo, un dominio de Fourier u otro dominio de frecuencia) y para producir una indicación SW10 de advertencia correspondiente. En otro ejemplo, el detector WD10 de sonido de advertencia está configurado para detectar el sonido de un vehículo que se aproxima mediante la detección del efecto Doppler.

El módulo AR100 de procesamiento AR también incluye una implementación AM100 del módulo AM10 de aumento que está configurado para cancelar el aumento del componente SC10 fuente en respuesta a la indicación SW10 de advertencia. El módulo AR100 de procesamiento AR también puede configurarse para anular la operación ANC en respuesta a la indicación SW10 de advertencia y/o para proporcionar una indicación de audio adicional al usuario (por ejemplo, para generar un sonido de alarma).

La detección realizada por el detector WD10 de sonido de advertencia puede ser no direccional (por ejemplo, en un canal de entrada de audio, por separado en dos o más canales de entrada de audio, y/o en una suma de más de un canal de entrada de audio). Alternativamente, el detector WD10 puede implementarse para indicar una dirección del sonido de advertencia al módulo AM100 de aumento para la selección y/o aumento (por ejemplo, amplificación) del sonido de advertencia detectado. En una implementación binaural, dicho aumento puede incluir señales direccionales para indicar la dirección de llegada del sonido de advertencia al usuario. En dicho caso, puede ser deseable no anular la operación ANC y/o realizar una operación PBE en el sonido de advertencia para mejorar la directividad de las bajas frecuencias.

Las mejoras adicionales al método M100 y/o al aparato A100 pueden incluir traducción de audio del entorno escrito (por ejemplo, traducción de audio de signos en otro idioma). Las aplicaciones adicionales incluyen un bastón de sonido virtual configurado para producir un cambio en el tono para indicar obstáculos físicos, como una ayuda de navegación para un usuario con problemas de visión.

La Figura 26B muestra un diagrama de bloques de un aparato MF100 de acuerdo con una configuración general. El aparato MF100 incluye un medio F100 para realizar una operación de cancelación de ruido activa en el primer canal de entrada de audio para producir una señal antirruido (por ejemplo, como se describe en el presente documento con referencia a implementaciones de la tarea T100 y/o filtro AF10 ANC). El aparato MF100 también incluye medios F200 para procesar la señal multicanal para obtener un componente fuente, que incluye medios para realizar una operación de procesamiento espacialmente selectiva en la señal multicanal para separar el componente fuente de un componente de fondo (por ejemplo, como se describe en el presente documento con referencia a implementaciones de tarea t200 y/o módulo SSP SM10). El aparato MF100 también incluye medios F300 para procesar el componente fuente obtenido para producir un componente objetivo (por ejemplo, como se describe en el presente documento con referencia a implementaciones de la tarea T300 y/o módulo AM10 de aumento). El aparato MF100 también incluye medios F400 para combinar la señal antirruido y una señal aumentada que se basa en el componente objetivo para producir una señal de salida de audio (por ejemplo, como se describe en el presente documento con referencia a implementaciones de la tarea T400 y/o etapa AO10 de salida de audio).

La Figura 27A muestra un diagrama de bloques de un sistema ANC general. El filtro adaptativo W(z) se utiliza para estimar la función de transferencia de ruta primaria P(z) a partir de un micrófono de referencia (por ejemplo, micrófono ML10 o MR10), el cual detecta el ruido externo que se cancelará, a un micrófono de error, el cual está más cerca del canal auditivo del usuario que el micrófono de referencia (por ejemplo, está dentro del canal auditivo, está dirigido al canal auditivo, y/o está dentro del campo acústico emitido por el altavoz) y detecta el error acústico en el oído del usuario. También puede ser deseable estimar la función de transferencia de ruta secundaria S(z), la cual incluye la ruta eléctrica y acústica a partir de la señal antirruido generada por el filtro W(z) hasta la señal de error utilizada para adaptar el filtro W(z). Por ejemplo, el algoritmo LMS-X filtrado adapta el filtro W(z) con base en la señal de error y en una versión de la señal de referencia que se filtra mediante una estimación de S(z). Adicional o alternativamente, puede ser deseable tener en cuenta la función de transferencia de ruta de retroalimentación F(z) a partir de la señal antirruido al micrófono de referencia. La tarea T100 y/o el filtro AF10 ANC pueden implementarse de acuerdo con cualquiera de estos principios ANC. Por ejemplo, las Figuras 27B y 27C muestran ejemplos de implementaciones HS15 y HS25 de cascos auriculares HS10 y HS20, respectivamente, que incluyen cada uno una instancia de un micrófono ME10 de error ANC, y las Figuras 28A-C muestran implementaciones EB32, ECR15 y ECR25 similares del auricular EB30 y los auriculares ECR20 y ECR20, respectivamente.

De la Figura 27A, se puede entender que mezclar la señal SG10 aumentada con la señal SA10 antirruido puede hacer que la señal SG10 aumentada retroalimente acústicamente a la señal de referencia (por ejemplo, el canal de entrada de audio) y/o alimentar acústicamente a la señal de error. En consecuencia, puede ser deseable mezclar una versión invertida de la señal SG10 aumentada en una o ambas de la señal de referencia y la señal de error para reducir el efecto de la señal SG10 aumentada en la adaptación del filtro ANC.

Los métodos y aparatos divulgados en el presente documento se pueden aplicar en general en cualquier aplicación de detección de audio y/o transceptor, especialmente en instancias móviles o portátiles de dichas aplicaciones. Por ejemplo, la gama de configuraciones divulgadas en el presente documento incluye dispositivos de comunicaciones que residen en un sistema de comunicaciones de telefonía inalámbrica configurado para emplear una interfaz inalámbrica de acceso múltiple por división de código (CDMA). No obstante, los expertos en la técnica entenderán que un método y un aparato que tienen las características descritas en el presente documento pueden residir en cualquiera de los diversos sistemas de comunicación que emplean una amplia gama de tecnologías conocidas por los expertos en la técnica, tales como sistemas que emplean Voz sobre IP (VoIP) sobre canales de transmisión por cable y/o inalámbricos (por ejemplo, CDMA, TDMA, F^dM^a, y/o TD-SCDMA).

Se contempla expresamente y se divulga por la presente que los dispositivos de comunicaciones divulgados en el presente documento pueden adaptarse para su uso en redes que están conmutadas por paquetes (por ejemplo, redes por cable y/o inalámbricas dispuestas para transportar transmisiones de audio de acuerdo con protocolos tales como VoIP) y/o conmutación de circuitos. También se contempla expresamente y se divulga en el presente documento que los dispositivos de comunicaciones divulgados en el presente documento pueden adaptarse para su uso en sistemas de codificación de banda estrecha (por ejemplo, sistemas que codifican un rango de frecuencia de audio de aproximadamente cuatro o cinco kilohercios) y/o para su uso en sistemas de codificación de banda ancha (por ejemplo, sistemas que codifican frecuencias de audio superiores a cinco kilohercios), que incluyen los sistemas de codificación de banda ancha de banda completa y los sistemas de codificación de banda ancha de banda dividida.

La presentación anterior de las configuraciones descritas se proporciona para permitir que cualquier persona experta en la técnica realice o utilice los métodos y otras estructuras divulgadas en el presente documento. Los diagramas de flujo, diagramas de bloques, y otras estructuras que se muestran y describen en el presente documento son solo ejemplos, y otras variantes de estas estructuras también están dentro del alcance de la divulgación. Son posibles diversas modificaciones a estas configuraciones, y los principios genéricos presentados en el presente documento pueden aplicarse también a otras configuraciones. Por lo tanto, la presente divulgación no pretende limitarse a las configuraciones mostradas anteriormente, sino que solo está definida por las reivindicaciones adjuntas.

Los expertos en la técnica comprenderán que la información y las señales se pueden representar utilizando cualquiera de una diversidad de tecnologías y técnicas diferentes. Por ejemplo, los datos, instrucciones, comandos, información, señales, bits, y símbolos a los que se puede hacer referencia a lo largo de la descripción anterior pueden estar representados por voltajes, corrientes, ondas electromagnéticas, campos o partículas magnéticos, campos o partículas ópticos, o cualquier combinación de los mismos.

Los requisitos de diseño importantes para la implementación de una configuración como se divulga en el presente documento pueden incluir minimizar el retraso de procesamiento y/o la complejidad computacional (en general medida en millones de instrucciones por segundo o MIPS), especialmente para aplicaciones de computación intensiva, tales como aplicaciones para comunicaciones de voz a frecuencias de muestreo superiores a ocho kilohercios (por ejemplo, 12, 16, 32, 44.1, 48, o 192 kHz).

Los objetivos de un sistema de procesamiento de múltiples micrófonos como se describe en el presente documento pueden incluir lograr de diez a doce dB en la reducción de ruido general, preservar el nivel de voz y el color durante el movimiento de un hablante deseado, obtener una percepción de que el ruido se ha movido a un segundo plano. en lugar de una eliminación de ruido agresiva, desverberación de la voz, y/o habilitación de la opción de procesamiento posterior (por ejemplo, enmascaramiento y/o reducción de ruido) para una reducción de ruido más agresiva.

Un aparato como se divulga en el presente documento (por ejemplo, aparato A100, A200, MF100) puede implementarse en cualquier combinación de hardware con software, y/o con firmware, que se considera adecuado para la aplicación pretendida. Por ejemplo, los elementos de dicho aparato pueden fabricarse como dispositivos electrónicos y/u ópticos que residen, por ejemplo, en el mismo chip o entre dos o más chips en un chipset. Un ejemplo de dicho dispositivo es una matriz fija o programable de elementos lógicos, tales como transistores o puertas lógicas, y cualquiera de estos elementos puede implementarse como una o más de dichas matrices. Dos o más, o incluso todos, de estos elementos pueden implementarse dentro de la misma matriz o matrices. Dicha matriz o matrices se pueden implementar dentro de uno o más chips (por ejemplo, dentro de un chipset que incluye dos o más chips).

Uno o más elementos de las diversas implementaciones del aparato divulgado en el presente documento (por ejemplo, el aparato A100, A200, MF100) también pueden implementarse en su totalidad o en parte como uno o más conjuntos de instrucciones dispuestas para ejecutarse en una o más matrices programables o fijas de elementos lógicos, tales como microprocesadores, procesadores integrados, núcleos IP, procesadores de señales digitales, FPGAs (matrices de puertas programables en campo), ASSPs (productos estándar específicos de la aplicación), y ASICs (circuitos integrados específicos de la aplicación). Cualquiera de los diversos elementos de una implementación de un aparato como se divulga en el presente documento también puede incorporarse como uno o más ordenadores (por ejemplo, máquinas que incluyen una o más matrices programadas para ejecutar uno o más conjuntos o secuencias de instrucciones, también llamados “procesadores”), y dos o más, o incluso todos, de estos elementos pueden implementarse dentro del mismo ordenador u ordenadores.

Un procesador u otro medio de procesamiento como se divulga en el presente documento puede fabricarse como uno o más dispositivos electrónicos y/u ópticos que residen, por ejemplo, en el mismo chip o entre dos o más chips en un chipset. Un ejemplo de dicho dispositivo es una matriz fija o programable de elementos lógicos, tales como transistores o puertas lógicas, y cualquiera de estos elementos puede implementarse como una o más de tales matrices. Dicha matriz o matrices se pueden implementar dentro de uno o más chips (por ejemplo, dentro de un chipset que incluye dos o más chips). Ejemplos de dichas matrices incluyen matrices fijas o programables de elementos lógicos, tales como microprocesadores, procesadores integrados, núcleos IP, DSPs, FPGAs, ASSPs, y ASICs. Un procesador u otro medio de procesamiento como se divulga en el presente documento también se puede realizar como uno o más ordenadores (por ejemplo, máquinas que incluyen una o más matrices programadas para ejecutar uno o más conjuntos o secuencias de instrucciones) u otros procesadores. Es posible que un procesador como se describe en el presente documento se use para realizar tareas o ejecutar otros conjuntos de instrucciones que no están directamente relacionadas con el aumento de audio espacialmente selectivo, tal como una tarea relacionada con otra operación de un dispositivo o sistema en el cual el procesador está integrado (por ejemplo, un dispositivo de detección de audio). También es posible que parte de un método como se describe en el presente documento sea realizado por un procesador del dispositivo de detección de audio y que otra parte del método se realice bajo el control de uno o más procesadores.

Los expertos apreciarán que los diversos módulos ilustrativos, bloques lógicos, circuitos, y pruebas y otras operaciones descritas en relación con las configuraciones divulgadas en el presente documento pueden implementarse como hardware electrónico, software informático, o combinaciones de ambos. Dichos módulos, bloques lógicos, circuitos, y operaciones pueden implementarse o realizarse con un procesador de propósito general, un procesador de señal digital (DSP), un ASIC o ASSP, un FPGA u otro dispositivo lógico programable, puerta discreta o lógica de transistor, componentes de hardware discreto, o cualquier combinación de los mismos diseñada para producir la configuración como se divulga en el presente documento. Por ejemplo, dicha configuración puede implementarse al menos en parte como un circuito por cable, como una configuración de circuito fabricada en un circuito integrado específico de la aplicación, o como un programa de firmware cargado en un almacenamiento no volátil o un programa de software cargado a partir de o en un medio de almacenamiento de datos como código legible por máquina, siendo dicho código instrucciones ejecutables por una matriz de elementos lógicos tales como un procesador de propósito general u otra unidad de procesamiento de señales digitales. Un procesador de propósito general puede ser un microprocesador, pero como alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador, o máquina de estado convencional. Un procesador también puede implementarse como una combinación de dispositivos informáticos, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un núcleo DSP, o cualquier otra configuración de este tipo. Un módulo de software puede residir en un medio de almacenamiento no transitorio tal como RAM (memoria de acceso aleatorio), ROM (memoria de solo lectura), RAM no volátil (NVRAM) tal como flash RAM, ROM programable borrable (EPROM), ROM programable borrable de manera eléctrica (EEPROM), registros, disco duro, disco desmontable, o un CD-ROM; o en cualquier otra forma de medio de almacenamiento conocida en la técnica. Un medio de almacenamiento ilustrativo está acoplado al procesador de tal manera que el procesador pueda leer información de, y escribir información en, el medio de almacenamiento. Como alternativa, el medio de almacenamiento puede ser parte integral del procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. El ASIC puede residir en un terminal de usuario. Como alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en un terminal de usuario.

Se observa que los diversos métodos divulgados en el presente documento (por ejemplo, el método M100 y otros métodos divulgados a modo de descripción del funcionamiento de los diversos aparatos descritos en el presente documento) se pueden realizar mediante una matriz de elementos lógicos, tales como un procesador, y que los diversos elementos de un aparato como se describe en el presente documento pueden implementarse en parte como módulos diseñados para ejecutarse en dicha matriz. Como se usa en el presente documento, el término “módulo” o “submódulo” puede referirse a cualquier método, aparato, dispositivo, unidad o medio de almacenamiento de datos legible por ordenador que incluye instrucciones de ordenador (por ejemplo, expresiones lógicas) en forma de software, hardware o firmware. Debe entenderse que se pueden combinar múltiples módulos o sistemas en un módulo o sistema y que un módulo o sistema se puede separar en múltiples módulos o sistemas para realizar las mismas funciones. Cuando se implementa en software u otras instrucciones ejecutables por ordenador, los elementos de un proceso son esencialmente los segmentos de código para realizar las tareas relacionadas, tales como rutinas, programas, objetos, componentes, estructuras de datos, y similares. El término “software” debe entenderse que incluye código fuente, código en lenguaje de conjunto, código máquina, código binario, firmware, macrocódigo, microcódigo, uno o más conjuntos o secuencias de instrucciones ejecutables por una matriz de elementos lógicos, y cualquier combinación de dichos ejemplos. El programa o los segmentos de código pueden almacenarse en un medio de almacenamiento legible por procesador o transmitirse mediante una señal de datos de ordenador incorporada en una onda portadora a través de un medio de transmisión o enlace de comunicación.

Las implementaciones de métodos, esquemas y técnicas divulgadas en el presente documento también pueden incorporarse de manera tangible (por ejemplo, en características tangibles legibles por ordenador de uno o más medios de almacenamiento legibles por ordenador como se enumeran en el presente documento) como uno o más conjuntos de instrucciones legibles y/o ejecutables por una máquina que incluye una matriz de elementos lógicos (por ejemplo, un procesador, microprocesador, microcontrolador, u otra máquina de estados finitos). El término “medio legible por ordenador” puede incluir cualquier medio que pueda almacenar o transferir información, que incluye los medios de almacenamiento volátiles, no volátiles, desmontables, y no desmontables. Ejemplos de un medio legible por ordenador incluyen un circuito electrónico, un dispositivo de memoria semiconductivo, una ROM, una memoria flash, una ROM borrable (EROM), un disquete u otro almacenamiento magnético, un CD-ROM/DVD u otro almacenamiento óptico, un disco duro, un medio de fibra óptica, un enlace de radiofrecuencia (RF), o cualquier otro medio que se pueda utilizar para almacenar la información deseada y al cual se pueda acceder. La señal de datos de ordenador puede incluir cualquier señal que pueda propagarse a través de un medio de transmisión como canales de red electrónica, fibras ópticas, enlaces de aire, electromagnéticos, de RF, etc. Los segmentos de código pueden descargarse a través de redes de ordenadores tales como Internet o una intranet. En cualquier caso, el alcance de la presente divulgación no debe interpretarse como limitado por dichas realizaciones.

Cada una de las tareas de los métodos descritos en el presente documento (por ejemplo, el método M100 y otros métodos divulgados a modo de descripción del funcionamiento de los diversos aparatos descritos en el presente documento) pueden incorporarse directamente en el hardware, en un módulo de software ejecutado por un procesador, o en una combinación de los dos. En una aplicación típica de una implementación de un método como se divulga en el presente documento, se configura una matriz de elementos lógicos (por ejemplo, puertas lógicas) para realizar una, más de una, o incluso todas las diversas tareas del método. Una o más (posiblemente todas) de las tareas también pueden implementarse como código (por ejemplo, uno o más conjuntos de instrucciones), incorporadas en un producto de programa informático (por ejemplo, uno o más medios de almacenamiento de datos, tales como discos, flash u otros tarjetas de memoria no volátiles, chips de memoria semiconductivos, etc.), que es legible y/o ejecutable por una máquina (por ejemplo, un ordenador) que incluye una matriz de elementos lógicos (por ejemplo, un procesador, microprocesador, microcontrolador, u otra máquina de estado finito). Las tareas de una implementación de un método como se divulga en el presente documento también pueden ser realizadas por más de una matriz o máquina de este tipo. En estas u otras implementaciones, las tareas se pueden realizar dentro de un dispositivo para comunicaciones inalámbricas, tal como un teléfono celular u otro dispositivo que tenga dicha capacidad de comunicación. Un dispositivo de este tipo puede configurarse para comunicarse con redes de conmutación de circuitos y/o de conmutación de paquetes (por ejemplo, utilizando uno o más protocolos tales como VoIP). Por ejemplo, dicho dispositivo puede incluir circuitos de RF configurados para recibir y/o transmitir tramas codificadas.

Se divulga expresamente que los diversos métodos divulgados en el presente documento pueden realizarse mediante un dispositivo de comunicaciones portátil (por ejemplo, un auricular, casco auricular, o asistente digital portátil (PDA)), y que los diversos aparatos descritos en el presente documento pueden incluirse dentro de dicho un dispositivo. Una aplicación típica en tiempo real (por ejemplo, en línea) es una conversación telefónica realizada utilizando un dispositivo móvil de este tipo.

En una o más realizaciones de ejemplo, las operaciones descritas en el presente documento pueden implementarse en hardware, software, firmware, o cualquier combinación de los mismos. Si se implementan en software, dichas operaciones pueden almacenarse o transmitirse a través de un medio legible por ordenador como una o más instrucciones o código. El término “medio legible por ordenador” incluye tanto los medios de almacenamiento legibles por ordenador como los medios de comunicación (por ejemplo, transmisión). A modo de ejemplo, y no de limitación, los medios de almacenamiento legibles por ordenador pueden comprender una matriz de elementos de almacenamiento, tales como memoria semiconductiva (la cual puede incluir, sin limitación, RAM dinámica o estática, ROM, EEPROM y/o RAM flash), o ferroeléctrica, magnetorresistiva, memoria ovónica, polimérica, o de cambio de fase; CD-ROM u otro almacenamiento en disco óptico; y/o almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético. Dichos medios de almacenamiento pueden almacenar información en la forma de instrucciones o estructuras de datos a las que puede acceder un ordenador. Los medios de comunicación pueden comprender cualquier medio que pueda usarse para transportar el código de programa deseado en la forma de instrucciones o estructuras de datos y al que pueda acceder un ordenador, que incluye cualquier medio que facilite la transferencia de un programa de ordenador de un lugar a otro. Además, cualquier conexión se denomina correctamente un medio legible por ordenador. Por ejemplo, si el software se transmite a partir de un sitio web, servidor, u otra fuente remota utilizando un cable coaxial, cable de fibra óptica, par trenzado, línea de abonado digital (DSL), o tecnología inalámbrica tal como infrarrojos, radio, y/o microondas, entonces el cable coaxial, cable de fibra óptica, par trenzado, DSL o tecnología inalámbrica tal como infrarrojos, radio, y/o microondas se incluyen en la definición de medio. El disco y el disco magnético, como se usan en el presente documento, incluyen disco compacto (CD), disco láser, disco óptico, disco versátil digital (DVD), disquete, y disco Blu-ray™ (Blu-Ray Disc Association, Universal City, CA), donde los discos en general reproducen datos magnéticamente, a la vez que los discos reproducen datos ópticamente con láseres. Las combinaciones de los anteriores también deben incluirse dentro del alcance de los medios legibles por ordenador.

Un aparato de procesamiento de señales acústicas como se describe en el presente documento (por ejemplo, aparato A100, MF100) puede incorporarse en un dispositivo electrónico que acepta entrada de voz con el fin controlar ciertas operaciones, o puede beneficiarse de otra manera de la separación de los ruidos deseados de los ruidos de fondo, tales como dispositivos de comunicaciones. Diversas aplicaciones pueden beneficiarse de mejorar o separar el sonido claro deseado de los sonidos de fondo que se originan en múltiples direcciones. Dichas aplicaciones pueden incluir interfaces hombre-máquina en dispositivos electrónicos o informáticos que incorporan capacidades tales como reconocimiento y detección de voz, mejora y separación de voz, control activado por voz, y similares. Puede ser deseable implementar un aparato de procesamiento de señales acústicas de este tipo para que sea adecuado en dispositivos que solo proporcionan capacidades de procesamiento limitadas.

Los elementos de las diversas implementaciones de los módulos, elementos y dispositivos descritos en el presente documento pueden fabricarse como dispositivos electrónicos y/u ópticos que residen, por ejemplo, en el mismo chip o entre dos o más chips en un chipset. Un ejemplo de un dispositivo de este tipo es una matriz fija o programable de elementos lógicos, tales como transistores o puertas. Uno o más elementos de las diversas implementaciones del aparato descrito en el presente documento también pueden implementarse en su totalidad o en parte como uno o más conjuntos de instrucciones dispuestas para ejecutarse en una o más matrices fijas o programables de elementos lógicos tales como microprocesadores, procesadores integrados, núcleos IP, procesadores de señales digitales, FPGAs, ASSPs, y ASICs.

Es posible que uno o más elementos de una implementación de un aparato como se describe en el presente documento se utilicen para realizar tareas o ejecutar otros conjuntos de instrucciones que no están directamente relacionadas con una operación del aparato, tal como una tarea relacionada con otra operación de un dispositivo o sistema en el cual está integrado el aparato. También es posible que uno o más elementos de una implementación de dicho aparato tengan una estructura en común (por ejemplo, un procesador usado para ejecutar porciones de código correspondientes a diferentes elementos en diferentes momentos, un conjunto de instrucciones ejecutadas para realizar tareas correspondientes a diferentes elementos en diferentes momentos, o una disposición de dispositivos electrónicos y/u ópticos que realizan operaciones para diferentes elementos en diferentes momentos).

Claims

REIVINDICACIONES

1. Un método (M100) para procesar una señal multicanal que incluye un primer canal de entrada de audio y un segundo canal de entrada de audio, comprendiendo dicho método:

realizar (T100) una operación de cancelación activa de ruido en el primer canal de entrada de audio para producir una señal antirruido;

procesar (T200) la señal multicanal para obtener un componente fuente, incluyendo dicho procesamiento realizar una operación de procesamiento espacialmente selectiva en la señal multicanal para separar el componente fuente de un componente de fondo;

procesar (T300) el componente fuente separado obtenido para producir un componente objetivo:

producir una señal aumentada del componente objetivo, en donde la señal aumentada es una señal estéreo que proporciona una dirección de llegada percibida correspondiente a una dirección de llegada asociada con el componente fuente separado obtenido, en donde la dirección de llegada asociada con el componente fuente separado obtenido se determina a partir del primer canal de entrada de audio y el segundo canal de entrada de audio; y

combinar (T400) la señal antirruido y la señal aumentada para producir una señal de salida de audio.

2. El método de procesamiento de señales de acuerdo con la reivindicación 1, en donde dicho método comprende combinar el componente objetivo y el componente de fondo separado para producir la señal aumentada.

3. Un aparato configurado para procesar una señal multicanal que incluye un primer canal de entrada de audio y un segundo canal de entrada de audio, comprendiendo dicho aparato:

medios para realizar una operación (AF10) de cancelación activa de ruido en el primer canal de entrada de audio para producir una señal (SA10, SA20) antirruido;

medios para procesar (AR20) la señal multicanal para obtener un componente (SC10) fuente, dichos medios para procesar incluyen medios para realizar una operación (SM10, SF10) de procesamiento espacialmente selectiva en la señal multicanal para separar el componente (SC10) fuente de un componente de fondo;

medios para procesar (PM10) el componente fuente separado obtenido para producir un componente (TC10) objetivo;

medios para producir una señal aumentada a partir del componente objetivo, en donde la señal aumentada es una señal estéreo que proporciona una dirección de llegada percibida correspondiente a una dirección de llegada asociada con el componente fuente separado obtenido, en donde la dirección de llegada asociada con el componente fuente separado obtenido se determina a partir del primer canal de entrada de audio y el segundo canal de entrada de audio; y

medios para combinar (AO10, AO20) la señal (SA10, SA20) antirruido y la señal (SG10) aumentada para producir una señal (SOIO, SO20) de salida de audio.

4. El aparato de acuerdo con la reivindicación 3, en donde dicho aparato incluye medios para combinar el componente objetivo y el componente de fondo separado para producir la señal aumentada.

5. El aparato de acuerdo con una cualquiera de las reivindicaciones 3 y 4, en donde dicha operación de procesamiento espacialmente selectiva incluye aplicar un haz en una dirección de la fuente para producir el componente fuente.

6. El aparato de acuerdo con una cualquiera de las reivindicaciones 3-5, en donde dicha operación de procesamiento espacialmente selectiva incluye aplicar un haz nulo en la dirección de la fuente para producir el componente de fondo.

7. El aparato de acuerdo con la reivindicación 6, en donde dicha operación de procesamiento espacialmente selectiva incluye aplicar un segundo haz nulo en una dirección de una fuente de ruido para producir el componente de fondo.

8. El aparato de acuerdo con una cualquiera de las reivindicaciones 3-7, en donde dicha operación de procesamiento espacialmente selectivo se basa en al menos una entre, A, diferencias de fase entre el primer y segundo canales de entrada de audio y, B, diferencias de ganancia entre el primer y el segundo canales de entrada de audio.

9. El aparato de acuerdo con cualquiera de las reivindicaciones 3-8, en donde dichos medios para procesar el componente fuente separado obtenido comprenden medios para aumentar la perceptibilidad del componente fuente separado obtenido amplificando el componente fuente separado obtenido.

10. El aparato de acuerdo con cualquiera de las reivindicaciones 3-8, en donde dichos medios para procesar el componente fuente separado obtenido comprenden medios para aumentar la perceptibilidad del componente fuente separado obtenido en al menos uno entre comprimir un rango dinámico del componente fuente separado obtenido, desverberar el componente fuente separado obtenido y alterar un espectro de frecuencia del componente fuente separado obtenido.

11. El aparato de acuerdo con cualquiera de las reivindicaciones 3-8, en donde dichos medios para procesar el componente fuente separado obtenido comprenden medios para aumentar la perceptibilidad del contenido de voz del componente fuente separado obtenido traduciendo dicho contenido de voz de un primer idioma hablado a un segundo idioma hablado que es diferente del primer idioma hablado.

12. Aparato de acuerdo con una cualquiera de las reivindicaciones 3-8, en donde dichos medios para procesar el componente fuente separado obtenido comprenden medios para aumentar la perceptibilidad del contenido de voz del componente fuente separado obtenido variando la velocidad de dicho contenido de voz.

13. El aparato de acuerdo con cualquiera de las reivindicaciones 3-8, en donde dichos medios para procesar el componente fuente separado obtenido comprenden medios para aumentar la perceptibilidad del contenido de voz del componente fuente separado obtenido produciendo dicho componente objetivo para que tenga un mayor número de períodos de tono que dicho componente fuente separado obtenido.

14. El aparato de acuerdo con una cualquiera de las reivindicaciones 5-13, en donde dicho aparato comprende medios para activar un altavoz para producir una señal acústica que se basa en la señal de salida de audio, en donde el altavoz está dispuesto para llevarse en la oreja de un usuario y dirigido a un canal auditivo del usuario, y en donde dicha operación de cancelación activa de ruido se basa en una señal de error producida por un micrófono de error, en donde el micrófono de error está dispuesto para dirigirse al canal auditivo.

15. El aparato de acuerdo con cualquiera de las reivindicaciones 5-13, en donde dicha realización de una operación de procesamiento espacialmente selectiva en la señal multicanal para separar el componente fuente del componente de fondo incluye separar la voz de una persona distinta del usuario del componente de fondo.

16. Un medio de almacenamiento legible por ordenador que comprende instrucciones las cuales, cuando son ejecutadas por un ordenador, hacen que el ordenador lleve a cabo el método de acuerdo con una cualquiera de las reivindicaciones 1-2.