ES2347163T3

ES2347163T3 - Altavoz que tiene una mejor calidad del audio de salida.

Info

Publication number: ES2347163T3
Application number: ES05794079T
Authority: ES
Inventors: Marc A. Boillot; Ali Behboodian; Pratik V. Desai
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2004-08-25
Filing date: 2005-08-23
Publication date: 2010-10-26
Anticipated expiration: 2025-08-23
Also published as: EP1784925A4; EP1784925A2; BRPI0514587A8; EP1784925B1; WO2006026221A2; ATE474379T1; US7123714B2; DE602005022321D1; WO2006026221A3; BRPI0514587A; US20060067512A1

Abstract

Un método para proporcionar audio de salida en un teléfono que opera en un modo altavoz, que comprende: recibir una primera unidad de datos (350) que comprende un valor de primer identificador de tipo de unidad; y en respuesta a la determinación de que el primer identificador de tipo de unidad posee el primer valor, proporcionar audio de salida desenmudecido reproducido desde la primera unidad de datos, donde proporcionar audio de salida desenmudecido además comprende deshabilitar la detección de actividad de voz en el teléfono; recibir una segunda unidad de datos (350) que comprende un valor de segundo identificador de tipo de unidad; y en respuesta a la determinación de que el segundo identificador de tipo de unidad posee el segundo valor, permitir la detección de actividad de voz en el teléfono.

Description

Altavoz que tiene una mejor calidad del audio de salida.

Antecedentes de la invención Campo de la invención

La presente invención en general se refiere a teléfonos, y más particularmente a teléfonos que poseen función de altavoz.

Antecedentes de la invención

Los teléfonos móviles a menudo incluyen un modo altavoz en el que los usuarios pueden utilizar los teléfonos en una configuración de manos libres sin el uso de auriculares. Cuando un teléfono móvil está en el modo altavoz, la sensibilidad de su transductor de audio de entrada se incrementa. El nivel de salida del transductor de audio de salida del teléfono también se incrementa. De ese modo, un usuario aun puede comunicarse a través del teléfono aunque el teléfono pueda estar ubicado a una corta distancia.

Para impedir que el audio de salida del transductor de salida del teléfono se retroalimente en el transductor de entrada del teléfono, y de ese modo y de vuelta a la fuente original del audio, típicamente se utiliza un detector de actividad de voz (VAD) para enmudecer el audio de entrada del teléfono cuando los patrones vocales están siendo reproducidos por el transductor de audio de salida. Cuando los patrones vocales no están presentes en el audio de salida, se prevé que el usuario del teléfono comenzará a hablar. Por consiguiente, el VAD después desenmudece el audio de entrada y enmudece el audio de salida.

Debido a que el enmudecimiento y desenmudecimiento del audio de salida depende de si los patrones vocales están presentes en el audio de salida, el VAD debe ser capaz de distinguir entre patrones vocales e intervalos de silencio contenidos en el mismo cuando una persona deja de hablar y está esperando una respuesta. Para realizar esto, el VAD típicamente utiliza estadísticas generales de patrones vocales, tales como energía y periodicidad. Frecuentemente el audio de salida contiene señales musicales, por ejemplo cuando el usuario del teléfono está en espera. Las señales musicales son mucho más complejas que los patrones vocales y los VADs usualmente tienen dificultad para distinguir las señales musicales de los patrones vocales e intervalos de silencio. En consecuencia, los VADs intermitentemente enmudecen y desenmudecen el audio de salida, creando de ese modo audio de salida que posee un sonido entrecortado muy molesto.

El documento US 6.223.154 divulga un dispositivo de comunicación móvil, tal como un teléfono celular, que es operable en un modo altavoz. El dispositivo de comunicación utiliza un esquema de comunicación digital, y recibe y genera señales codificadas. El altavoz proporciona operación dúplex media para eliminar el eco. Cuando se detecta actividad de voz, el dispositivo activa un altavoz y enmudece un micrófono para evitar el eco. Cuando no se detecta ninguna actividad de voz en la señal recibida, el altavoz es enmudecido y el micrófono es activado. Para determinar cuándo está presente la actividad de voz en la señal recibida, se utiliza un algoritmo de detección de actividad de voz (VAD) que aprovecha parámetros provistos como parte de la señal codificada recibida.

Compendio de la invención

La presente invención se refiere a un método y un sistema para proporcionar audio de salida en un teléfono que opera en un modo altavoz. Más particularmente, los datos musicales recibidos por el teléfono pueden reproducirse como audio de salida sin enmudecimiento y desenmudecimiento intermitente de la señal de audio de salida, lo que se sabe que sucede en los teléfonos convencionales de la técnica anterior. En operación, el teléfono puede recibir una primera unidad de datos que incluye un primera identificador de tipo de unidad. Por ejemplo, puede proporcionarse un módem en el teléfono para recibir la primera unidad de datos.

El primer identificador de tipo de unidad puede ser un indicador de un tipo de datos de audio contenido en la primera unidad de datos. Por ejemplo, el primer identificador de tipo de unidad puede indicar si los datos de audio son datos de audio musicales o no musicales. Si se determina que el primer identificador de tipo de unidad posee un primer valor, por ejemplo un valor que indica que los datos de audio son datos musicales, el audio de salida desenmudecido reproducido desde la primera unidad de datos puede ser provisto, por ejemplo, por un controlador de unidad de datos en el teléfono. El controlador de unidad de datos también puede inhabilitar la detección de actividad de voz en el teléfono y enmudecer el audio de entrada mientras el audio de salida es desenmudecido.

Mientras el audio de salida es desenmudecido, un controlador de ganancia del transductor de salida puede reducir periódicamente el nivel de presión de sonido (SPL) del audio de salida desde un primer nivel a un segundo nivel. El nivel de presión de sonido del audio de salida puede reducirse gradualmente desde el primer nivel hasta el segundo nivel. El controlador de unidad de datos puede desenmudecer el audio de entrada cuando el nivel de presión de sonido del audio de salida está en el segundo nivel. Después de que el nivel de presión de sonido ha sido reducido, el nivel de presión de sonido puede entonces incrementarse gradualmente desde el segundo nivel hasta el primer nivel.

Al recibir una segunda unidad de datos que incluye un segundo identificador de tipo de unidad que se determina que tenga un segundo valor, por ejemplo un valor que indica que los datos de audio son datos no musicales, el controlador de unidad de datos puede permitir la detección de actividad de voz. El controlador de unidad de datos también puede enmudecer el audio de salida, y desenmudecer el audio de entrada mientras el audio de salida está enmudecido.

Breve descripción de los dibujos

Las realizaciones preferibles de la presente invención se describirán en mayor detalle más abajo, con referencia a los dibujos anexados, en los que:

La Fig. 1 es un diagrama de flujo para mejorar la calidad de sonido del audio de salida en un teléfono que opera en un modo altavoz en conformidad con una realización de la presente invención.

La Fig. 2 es un diagrama de flujo para detectar si la voz de entrada está presente en el teléfono en conformidad con una realización de la presente invención.

La Fig. 3 es un diagrama de bloques de una red de comunicaciones útil para entender la presente invención.

La Fig. 4 es un diagrama de bloques de un sistema de procesamiento de altavoz en conformidad con una realización de la presente invención.

Descripción detallada

La presente invención se refiere a un procedimiento y a un sistema para proporcionar audio de salida en un teléfono que opera en un modo altavoz. Más particularmente, los datos musicales recibidos por el teléfono pueden reproducirse como audio de salida sin enmudecimiento o desenmudecimiento intermitente de la señal de audio de salida, que se sabe que se produce en los teléfonos convencionales de la técnica anterior. Según se define en la presente memoria, el audio de salida es audio que es reproducido por un transductor de audio de salida conectado al teléfono. El audio de entrada es audio detectado por un transductor de audio de entrada conectado al teléfono.

Se muestra en la Fig. 1 un diagrama de flujo que ilustra un método 100 para mejorar la calidad de sonido del audio de salida desde un teléfono que está operando en modo altavoz. Comenzando en la etapa 105, el teléfono puede recibir una unidad de datos que contiene datos de audio. Según se define en la presente memoria, el término "unidad de datos" significa una unidad de datos que es enviada entre un origen y un destino en una red. Por ejemplo, si la red es una red basada en cuadros, tal como una red de telecomunicaciones inalámbricas, la unidad de datos puede ser un cuadro. Si la red es una red de conmutación de paquetes, tal como Internet, la unidad de datos puede ser un paquete.

Cada unidad de datos puede incluir un identificador de tipo de unidad. El identificador de tipo de unidad puede utilizarse para identificar el tipo de datos de audio contenidos en la unidad de datos. El identificador de tipo de unidad puede almacenarse en una cabecera de unidad de datos, una cola de unidad de datos, o en cualquier otro lugar de la unidad de datos. En una forma muy simple, el identificador de tipo de unidad puede ser un único bit señalizador que identifica si la unidad de datos contiene datos musicales. Por ejemplo, fijar el señalizador en un valor de 1 puede indicar que los datos musicales están presentes en la unidad de datos. En una forma más compleja, el identificador de tipo de unidad puede comprender una pluralidad de bits, proporcionando de ese modo un intervalo más amplio de categorías de datos de audio que puede identificarse. Por ejemplo, un identificador de tipo de unidad que comprende una pluralidad de bits puede identificar si los datos de audio contenidos en la unidad de datos representan voz, música, tonos, silencio o cualquier otro tipo de audio que puede identificarse.

Pasando a la etapa 110, la unidad de datos puede analizarse para distinguir el identificador de tipo de unidad de otros datos contenidos en la unidad de datos, y el identificador de tipo de unidad puede evaluarse. En los sistemas de telecomunicaciones inalámbricas, los datos no musicales son frecuentemente codificados en forma diferente de los datos musicales. Por ejemplo, los datos no musicales generalmente se codifican utilizando un codificador de voz. Tal como es conocido por aquellos expertos en la técnica, se dispone de una miríada de algoritmos de codificador de voz. Los ejemplos de dichos algoritmos incluyen Sistema Global de Comunicaciones Móviles (GSM), Excitación Multibanda Avanzada (AMBE), predicción lineal con excitación por vector suma (VSELP), etcétera. Dichos algoritmos permiten reproducción de alta resolución de datos no musicales para una velocidad dada de datos.

Aunque los algoritmos del codificador de voz funcionan bien para codificar voz y otras señales simples de audio, las señales musicales tienden a ser más complejas para ser codificadas por un codificador de voz. Así, si se utilizara un codificador de voz para codificar señales musicales, muchos datos musicales se perderían durante el proceso de codificación, dando como resultado señales musicales que suenan muy indescifrables. Por lo tanto, las señales musicales son típicamente codificadas utilizando otros esquemas de compresión de audio, por ejemplo codificación de forma de onda, o algoritmos de compresión de audio tales como Interfaz Digital para Instrumentos Musicales (MIDI), Capa 3 de Audio para MPEG-1 (MP3), Ogg Vorbis, Windows Media Audio (WMA), Real Audio o Codificación Avanzada de Audio (AAC), etc. Dichos esquemas están mejor adaptados para codificar señales de audio distintas de la voz, pero se requiere una velocidad de datos más alta para lograr una calidad de audio comparable con la calidad de la voz codificada con algoritmos de codificador de voz.

Por consiguiente, haciendo referencia al cuadro de decisión 115, el esquema de decodificación que se utiliza para decodificar los datos de audio puede seleccionarse en base al valor del identificador de tipo de unidad. De ese modo, si el valor del identificador de tipo de unidad no se correlaciona con datos musicales, los datos de audio contenidos en la unidad de datos pueden decodificarse como datos no musicales para generar señales no musicales, según se muestra en la etapa 120. Continuando con la etapa 125, después puede aplicarse la lógica de detección de actividad de voz a las señales no musicales para enmudecer y desenmudecer el audio de salida y de entrada según se requiera para impedir que el audio de salida generado por el transductor de salida del teléfono se retroalimente en el transductor de entrada del teléfono. Dicha implementación de detección de actividad de voz es conocida por los técnicos expertos.

Haciendo referencia nuevamente al cuadro de decisión 115, si el identificador de tipo de unidad sí se correlaciona con datos musicales, entonces en la etapa 130 los datos de audio contenidos en la unidad de datos pueden codificarse como datos musicales para generar señales musicales. Puede utilizarse un esquema de codificación que sea compatible con el esquema que se utilizó para codificar los datos de audio. Pasando a la etapa 135, el audio de entrada después puede enmudecerse y el audio de salida puede desenmudecerse. El audio de entrada y el audio de salida pueden permanecer en sus respectivos estados hasta que se reciba otra unidad de datos que contenga un identificador de tipo de unidad que indique que la unidad de datos contiene datos no musicales, momento en el que puede aplicarse la lógica de detección de actividad de voz para enmudecer y desenmudecer el audio de entrada y el audio de salida.

Notablemente, deshabilitar el uso de lógica de detección de actividad de voz puede ser ventajoso cuando las señales musicales están siendo producidas como audio de salida. En particular, esto permite que las señales musicales sean reproducidas sin el efecto no deseable de enmudecimiento intermitente que típicamente sucede cuando se utiliza la detección de actividad de voz al procesar las señales musicales. Esto puede proporcionar una experiencia de escucha más placentera durante las operaciones de altavoz.

En algunos casos, puede utilizarse un primer teléfono en un ambiente ruidoso, por ejemplo en un club que pasa música fuerte. De ese modo, los datos de audio para el audio de salida generado desde el primer teléfono pueden codificarse como música. El audio de entrada en un segundo teléfono que se comunica con el primer teléfono por ello sería enmudecido en conformidad con la etapa 135, aunque los usuarios de los teléfonos pueden desear tener una conversación. A fin de determinar si los usuarios están intentando conversar cuando existen dichas condiciones, puede ser beneficioso detectar periódicamente si una señal de audio de entrada está presente en el segundo teléfono, aun cuando el identificador de tipo de unidad se correlacione con datos musicales y el audio de salida haya sido desenmudecido. Dicho proceso se ilustra en el diagrama de flujo de la Fig. 2.

La Fig. 2 muestra un método 200 en el que el audio de entrada periódicamente es desenmudecido para detectar si una señal de audio de entrada está presente. Además, un nivel de presión de sonido del audio de salida puede reducirse desde un primer nivel a un segundo nivel para reducir la retroalimentación del audio de salida cuando el audio de entrada es desenmudecido. Este método 200 puede implementarse cuando el valor del identificador de tipo de unidad se correlaciona con datos musicales.

Comenzando en la etapa 205, el nivel de presión de sonido (SPL) del audio de salida puede reducirse desde el primer nivel al segundo nivel. Por ejemplo, el SPL puede reducirse en 6 dB. No obstante, la invención no se limita en este aspecto y puede implementarse cualquier proporción de reducción de SPL. Notablemente, la reducción en el SPL del audio de salida puede implementarse sobre un período de tiempo especificado para minimizar la percepción del usuario del cambio de volumen. Por ejemplo, el SPL puede reducirse durante un período de aproximadamente 50 milisegundos a 1 segundo.

Cuando el SPL del audio de salida alcanza el segundo nivel, el audio de entrada puede desenmudecerse. El audio de entrada después puede probarse, por ejemplo mediante un detector de actividad de voz (VAD), para determinar si está presente la voz de entrada, según se muestra en la etapa 210. Pasando al cuadro de decisión 215 y la etapa 220, si la voz de entrada no está presente, el SPL del audio de salida puede incrementarse desde el segundo nivel de vuelta al primer nivel, y el audio de entrada puede nuevamente enmudecerse. Como antes, el cambio de SPL puede implementarse durante un período de tiempo especificado para minimizar la percepción del usuario del cambio.

En la etapa 225, puede implementarse un retraso temporal antes de que se repitan las etapas 205, 210 y 215. El retraso temporal puede estar, por ejemplo, en algún lugar en el intervalo entre aproximadamente 2 segundos y 15 segundos. Por consiguiente, si el usuario comienza a hablar, sólo una porción de su voz será enmudecida. En una disposición, el retraso temporal podría ser al menos el doble del período que el SPL del audio de salida se reduce o incrementa.

Haciendo referencia nuevamente al cuadro de decisión 215 y a la etapa 230, si está presente la voz en el audio de entrada, entonces el audio de salida puede enmudecerse y el desenmudecimiento del audio de entrada puede mantenerse hasta que la voz de entrada cese, o haya transcurrido una cantidad específica de tiempo. Continuando con la etapa 220, el audio de entrada nuevamente puede enmudecerse y el SPL del audio de salida puede entonces regresarse a su nivel previo. El método 200 puede continuar mientras el valor del identificador de tipo de unidad se correlacione con datos musicales.

La Fig. 3 describe un ejemplo de una red de comunicaciones 300 en la que puede implementarse el método antes mencionado. La red de comunicaciones 300 puede incluir líneas fijas y/o enlaces de comunicaciones inalámbricas. Por ejemplo, la red de comunicaciones 300 puede ser una red de comunicaciones móvil por radio, una red de comunicaciones por teléfono celular, una red de telefonía pública conmutada (PSTN), una red pública por conmutación de paquetes (PSPN), una red de área amplia (WAN), una red de área local (LAN), una intranet, Internet o cualquier otra red de comunicaciones apropiada para propagar datos de audio en forma bidireccional.

Puede proporcionarse un teléfono 310 como un nodo de la red de comunicaciones 300. El teléfono 310 puede ser cualquier dispositivo de comunicación de dos direcciones capaz de operar en un modo altavoz. Por ejemplo, el teléfono 310 puede se un teléfono móvil que posea capacidades de interconexión y/o despacho, un dispositivo telefónico asistente digital personal (PDA), una voz sobre IP (VoIP) o red digital de servicios integrados (ISDN), o cualquier otro dispositivo de comunicación de dos direcciones apropiado. El teléfono 310 puede incluir la lógica de control de unidad de datos 330. La lógica de control de datos 330 puede utilizarse para implementar el procedimiento descrito en la presente memoria.

En operación, el teléfono 310 puede enlazarse comunicativamente a un teléfono y/o sistema de procesamiento de llamadas 340 a través de la red de comunicaciones 300. El teléfono/sistema de procesamiento de llamadas 340 puede propagar al menos una unidad de datos 350 que contiene datos de audio al teléfono 310. La unidad de datos 350 también puede incluir un identificador de tipo de unidad 360 que, según lo señalado, identifica el tipo de datos de audio contenidos en la unidad de datos 350. El teléfono 310 puede comprender un sistema de procesamiento por altavoz 320 para procesar el audio de salida y de entrada cuando el teléfono 310 está operando en modo altavoz. El sistema de procesamiento por altavoz 320 además puede incluir lógica de control de unidad de datos 330 para evaluar el identificador de tipo de unidad 360 y determinar si procesar los datos de audio contenidos en la unidad de datos 350 como datos musicales o datos no musicales, según se describió previamente.

Un ejemplo de una realización del sistema de procesamiento por altavoz 320 se muestra en la Fig. 4. Debe señalarse, sin embargo, que el sistema de procesamiento por altavoz puede implementarse utilizando cualquiera de una miríada de estructuras de sistemas, y la invención no es restrictiva en este aspecto. El sistema de procesamiento por altavoz 320 puede incluir un mecanismo de canal de entrada 405 y un mecanismo de canal de salida 410. El mecanismo de canal de entrada 405 puede comprender un transductor de entrada 415, por ejemplo un micrófono, y un control de ganancia del transductor de entrada 420, El mecanismo de canal de entrada 405 también puede comprender un cancelador de eco 425, un codificador 430, un módem de transmisión 435 y un detector de actividad de voz (VAD) de entrada 440. De manera similar, la vía del canal de salida 410 puede incluir un módem de recepción 445, un decodificador 450, un VAD de salida 455, un control de ganancia del transductor de salida 460 y un transductor de salida 465. Pueden conectarse operativamente un controlador de unidad de datos 470 y árbitro dúplex 475 a la vía del canal de entrada 405 y a la vía del canal de salida 410. De igual manera, puede conectarse operativamente una unidad de sustitución y generación de ruido confortable 480 a la vía del canal de entrada 405 y a la vía del canal de salida 410. La unidad de sustitución y generación de ruido confortable 480 también puede conectarse operativamente al árbitro dúplex 475, según se muestra.

Los canceladores de eco, codificadores, decodificadores, módem de transmisión/recepción, y las unidades de sustitución y generación de ruido confortable están todos comercialmente disponibles y su implementación es bien entendida por aquellos expertos en la técnica. El controlador de unidad de datos 470 puede ejecutarse en hardware, software, firmware, o una combinación de hardware, software y/o firmware. Por ejemplo, el controlador de unidad de datos 470 puede incluir un procesador, tal como una unidad de procesamiento central (CPU), un procesador de señal digital (DSP), un circuito integrado específico de aplicación (ASIC) o cualquier otro procesador apropiado para llevar a cabo las funciones del controlador de unidad de datos descritas en la presente memoria. Además, el controlador de unidad de datos 470 puede incluirse en un circuito integrado (IC) que contiene el árbitro dúplex 475, el VAD de entrada 440, el VAD de salida 455, el decodificador 450 y/o cualquier otro componente de circuito telefónico. Además, el software y/o firmware puede proporcionarse en un almacén de datos (no se muestra) para la ejecución por parte del procesador. Juntos, el controlador de unidad de datos 470, el árbitro dúplex 475, el VAD de entrada 440, el VAD de salida 455 y el decodificador 450 pueden formar la lógica de control de unidad de datos 330 de la Fig. 3.

Al operar en modo altavoz, el audio de entrada 485 puede ser recibido por el transductor de entrada 415 y puede ser enviado como señal de audio de entrada al control de ganancia del transductor de entrada 420, que puede ajustar la amplitud de la señal del audio de entrada. La señal del audio de entrada después puede comunicarse al cancelador de eco 425, que también recibe una señal de audio de salida desde el decodificador 450, para eliminar una porción de cualquier retroalimentación que pudiera estar presente debido al acoplamiento del audio de salida 490 desde el transductor de salida 465 al transductor de entrada 415. La señal del audio de entrada después puede propagarse a un codificador 430 para ser codificada como unidades de datos para la transmisión por el módem de transmisión 435. Notablemente, el codificador puede incluir un codificador no musical, tal como un codificador de voz, para codificar las señales de audio no musicales, y un codificador musical, tal como un codificador de forma de onda, para codificar las señales de audio musicales. El codificador 430 también puede codificar un identificador de tipo de unidad en cada unidad de datos para identificar el tipo de datos de audio codificado en la misma.

En la vía del canal de salida 410, el módem de recepción 445 puede recibir una señal de salida codificada que contiene unidades de datos y puede enviar la señal codificada al decodificador 450. El decodificador 450 puede incluir un decodificador no musical, tal como un codificador de voz, y un decodificador musical, tal como un decodificador en forma de onda. El decodificador 450 puede analizar las unidades de datos y evaluar el identificador de tipo de unidad contenido en las unidades de datos. Si el identificador de tipo de unidad en una unidad de datos particular indica que los datos de audio contenidos en la unidad de datos son datos no musicales, el decodificador puede decodificar los datos consiguientemente para generar una señal de audio de salida no musical. La señal de audio de salida no musical puede comunicarse al control de ganancia del transductor de salida 460, después al transductor de salida 465 para generar el audio de salida 490.

El decodificador también puede indicar al controlador de unidad de datos 470 que los datos de audio son no musicales. El controlador de unidad de datos 470 después puede ordenar al árbitro dúplex 475 que permita la detección de actividad de voz dentro del sistema de procesamiento por altavoz 320. La detección de actividad de voz se utiliza comúnmente en teléfonos que operan en modo altavoz debido a que el cancelador de eco 425 típicamente sólo puede eliminar una porción de retroalimentación que puede estar presente debido al acoplamiento del audio de salida 490 desde el transductor de salida 465 al transductor de entrada 415. Por ello se proporcionan el VAD de entrada 440, el VAD de salida 455 y el árbitro dúplex 475 para potenciar el control de retroalimentación durante las operaciones del altavoz.

En operación, la salida del cancelador de eco 425 puede estar comunicada al VAD de entrada 440. La señal de audio de salida no musical desde el decodificador 450 puede estar comunicada de igual manera al VAD de salida 455, que también puede estar conectado en forma comunicada al VAD de entrada 440 para permitir la comunicación directa entre los VADs 440, 455. Los VADs 440, 455 pueden generar cada uno una señal de detección de voz que se utiliza para identificar la presencia de información de voz, en oposición al fondo u otros tipos de ruido.

Las señales de detección de voz de cada uno del VAD de entrada 440 y el VAD de salida 455 pueden comunicarse al árbitro dúplex 475. El árbitro dúplex 475 puede procesar las señales de detección de voz para determinar cuándo enmudecer y desenmudecer el audio de entrada 485 y el audio de salida 490. Por ejemplo, si la señal de audio de entrada detectada por el VAD de entrada 440 es significativa mientras la señal de audio de salida detectada por el VAD de salida 455 es insignificante, esto indicaría que un usuario del teléfono (usuario final cercano) está hablando mientras un usuario en un extremo lejano de la sesión de comunicación (usuario final lejano) está en silencio. El árbitro dúplex 475 puede así activar la vía del canal de entrada 405 para capturar el audio de entrada 485, desactivando o enmudeciendo al mismo tiempo la vía del canal de salida 410 para enmudecer el audio de salida 490. La desactivación o enmudecimiento de la vía del canal de salida 410 puede lograrse rompiendo un mecanismo de circuito dentro de la vía del canal de salida 410 o reduciendo una ganancia del control de ganancia del transductor de salida 460.

A la inversa, si la señal de audio de entrada detectada por el VAD de entrada 440 es insignificante mientras que la señal de audio de salida detectada por el VAD de salida 455 es significativa, el árbitro dúplex 475 puede desenmudecer el audio de salida 490 desactivando o enmudeciendo al mismo tiempo la vía del canal de entrada 405 para enmudecer el audio de entrada 485. La desactivación o enmudecimiento de la vía del canal de entrada 405 puede lograrse rompiendo una vía de circuito dentro de la vía del canal de entrada 405 o reduciendo una ganancia del control de ganancia del transductor de entrada 420. Por consiguiente, la voz del usuario final lejano puede oírse sobre el transductor de salida 465, minimizando al mismo tiempo el riesgo de que el audio de salida 490 se retroalimente a ese usuario.

Por otra parte, durante aquellos intervalos de tiempo en los que tanto el VAD de entrada 440 como el VAD de salida 455 detectan señales de audio significativas en sus respectivas vías de canal 405, 410, el árbitro dúplex 475 puede aplicar criterios selectivos para decidir qué vía de canal activar y qué vía de canal desactivar.

Si una señal de salida codificada recibida por el módem de recepción 445 contiene una unidad de datos que posee un identificador de tipo de unidad que indica que la unidad de datos contiene datos musicales, el decodificador 450 puede decodificar los datos consiguientemente para generar una señal de audio de salida musical. La señal de audio de salida musical también puede estar comunicada al control de ganancia del transductor de salida 460, después al transductor de salida 465 para generar el audio de salida 490.

Además, el decodificador 450 puede indicar al controlador de unidad de datos 470 que los datos de audio son musicales. La unidad de control de datos 470 puede entonces indicar al árbitro dúplex 475 inhabilitar la detección de actividad de voz dentro del sistema de procesamiento de altavoz 320. Además, la unidad de control de datos 470 puede indicar al árbitro dúplex 475 desenmudecer el mecanismo de canal de salida 410 y enmudecer el mecanismo de canal de entrada 405. De ese modo, según lo señalado, las señales musicales pueden reproducirse sin el sonido entrecortado que típicamente se produce cuando se utiliza detección de actividad de voz al procesar las señales musicales.

Según lo señalado, puede desearse desenmudecer periódicamente el audio de entrada 485 para detectar si una señal de audio de entrada está presente. Cuando esto sucede, el control de ganancia del transductor de salida 460 puede reducir el SPL del audio de salida 490 desde un primer nivel a un segundo nivel para reducir la retroalimentación del audio de salida cuando el audio de entrada es desenmudecido. En forma similar, el control de ganancia del transductor de salida 460 también puede incrementar el SPL del audio de salida 490 desde el segundo nivel al primer nivel cuando el audio de entrada 485 se enmudece nuevamente. El control de ganancia del transductor de salida 460 puede implementar los cambios de SPL gradualmente para minimizar la percepción del usuario de los cambios.

La presente invención puede ejecutarse en hardware, software o una combinación de hardware y software. La presente invención puede ejecutarse de una manera centralizada en un sistema, o de una manera distribuida donde se esparcen diferentes elementos a través de varios sistemas interconectados. Cualquier clase de dispositivo de procesamiento u otro equipo adaptado para llevar a cabo los procedimientos descritos en la presente memoria es apropiado. Una combinación típica de hardware y software puede ser un dispositivo de procesamiento con una aplicación que, cuando es cargada y ejecutada, controla el dispositivo de procesamiento de manera que éste lleva a cabo los procedimientos descritos en la presente memoria.

La presente invención también puede insertarse en un producto de programa de aplicación, que comprende todas las características que permiten la implementación de los métodos descritos en la presente memoria, y que cuando es cargado en un dispositivo de procesamiento es capaz de llevar a cabo estos métodos. Programa de aplicación en el presente contexto significa cualquier expresión, en cualquier lenguaje, código o notación, de un conjunto de instrucciones destinadas a hacer que un sistema que posee capacidad de procesamiento de información lleve a cabo una función particular directamente o después de cualquiera o ambas de las siguientes: a) conversión a otro lenguaje, código o notación; b) reproducción en una forma material diferente.

La presente invención puede realizarse en otras formas sin apartarse del espíritu o atributos esenciales de la misma. Por consiguiente, debe hacerse referencia a las siguientes reivindicaciones, en lugar de a la memoria descriptiva precedente, como indicadoras del alcance de la invención.

Claims

1. Un método para proporcionar audio de salida en un teléfono que opera en un modo altavoz, que comprende:

recibir una primera unidad de datos (350) que comprende un valor de primer identificador de tipo de unidad; y

en respuesta a la determinación de que el primer identificador de tipo de unidad posee el primer valor, proporcionar audio de salida desenmudecido reproducido desde la primera unidad de datos, donde proporcionar audio de salida desenmudecido además comprende deshabilitar la detección de actividad de voz en el teléfono;

recibir una segunda unidad de datos (350) que comprende un valor de segundo identificador de tipo de unidad; y

en respuesta a la determinación de que el segundo identificador de tipo de unidad posee el segundo valor, permitir la detección de actividad de voz en el teléfono.

2. El método de acuerdo con la reivindicación 1, que además comprende la etapa de seleccionar el valor del primer identificador de tipo de unidad para ser un indicador del tipo de datos de audio contenidos en la primera unidad de datos (350).

3. El método de acuerdo con la reivindicación 1, que además comprende enmudecer el audio de entrada mientras el audio de salida es desenmudecido.

4. El método de acuerdo con la reivindicación 1, que además comprende la etapa de seleccionar el valor del segundo identificador de tipo de unidad para ser un indicador del tipo de datos de audio contenidos en la segunda unidad de datos (350).

5. El método de acuerdo con la reivindicación 1, en el que permitir la etapa de detección de actividad de voz además comprende enmudecer el audio de salida.

6. El método de acuerdo con la reivindicación 5, que además comprende desenmudecer el audio de entrada mientras el audio de salida es enmudecido.

7. Un teléfono (310) que posee un modo de operación de altavoz, que comprende:

un módem para recibir una primera unidad de datos (350) que comprende un valor del primer identificador de tipo de unidad; y

un controlador de unidad de datos para proporcionar audio de salida desenmudecido reproducido desde la primera unidad de datos (350) en respuesta a la determinación de que el primer identificador de tipo de unidad posee el primer valor, y en el que el controlador de unidad de datos inhabilita la detección de actividad de voz en el teléfono (310);

donde el módem recibe una segunda unidad de datos (350) que comprende un valor de segundo identificador de tipo de unidad; y

donde el controlador de unidad de datos permite la detección de actividad de voz en respuesta a la determinación de que el segundo identificador de tipo de unidad posee el segundo valor.

8. El teléfono (310) de la reivindicación 1, en el que el controlador de unidad de datos además enmudece el audio de entrada mientras el audio de salida es desenmudecido.