ES2347163T3 - Altavoz que tiene una mejor calidad del audio de salida. - Google Patents
Altavoz que tiene una mejor calidad del audio de salida. Download PDFInfo
- Publication number
- ES2347163T3 ES2347163T3 ES05794079T ES05794079T ES2347163T3 ES 2347163 T3 ES2347163 T3 ES 2347163T3 ES 05794079 T ES05794079 T ES 05794079T ES 05794079 T ES05794079 T ES 05794079T ES 2347163 T3 ES2347163 T3 ES 2347163T3
- Authority
- ES
- Spain
- Prior art keywords
- audio
- data
- unit
- output
- type identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6033—Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M19/00—Current supply arrangements for telephone systems
- H04M19/02—Current supply arrangements for telephone systems providing ringing current or supervisory tones, e.g. dialling tone or busy tone
- H04M19/04—Current supply arrangements for telephone systems providing ringing current or supervisory tones, e.g. dialling tone or busy tone the ringing-current being generated at the substations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72442—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Cosmetics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Paper (AREA)
- Audible-Bandwidth Dynamoelectric Transducers Other Than Pickups (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
Abstract
Un método para proporcionar audio de salida en un teléfono que opera en un modo altavoz, que comprende: recibir una primera unidad de datos (350) que comprende un valor de primer identificador de tipo de unidad; y en respuesta a la determinación de que el primer identificador de tipo de unidad posee el primer valor, proporcionar audio de salida desenmudecido reproducido desde la primera unidad de datos, donde proporcionar audio de salida desenmudecido además comprende deshabilitar la detección de actividad de voz en el teléfono; recibir una segunda unidad de datos (350) que comprende un valor de segundo identificador de tipo de unidad; y en respuesta a la determinación de que el segundo identificador de tipo de unidad posee el segundo valor, permitir la detección de actividad de voz en el teléfono.
Description
Altavoz que tiene una mejor calidad del audio de
salida.
La presente invención en general se refiere a
teléfonos, y más particularmente a teléfonos que poseen función de
altavoz.
Los teléfonos móviles a menudo incluyen un modo
altavoz en el que los usuarios pueden utilizar los teléfonos en una
configuración de manos libres sin el uso de auriculares. Cuando un
teléfono móvil está en el modo altavoz, la sensibilidad de su
transductor de audio de entrada se incrementa. El nivel de salida
del transductor de audio de salida del teléfono también se
incrementa. De ese modo, un usuario aun puede comunicarse a través
del teléfono aunque el teléfono pueda estar ubicado a una corta
distancia.
Para impedir que el audio de salida del
transductor de salida del teléfono se retroalimente en el
transductor de entrada del teléfono, y de ese modo y de vuelta a la
fuente original del audio, típicamente se utiliza un detector de
actividad de voz (VAD) para enmudecer el audio de entrada del
teléfono cuando los patrones vocales están siendo reproducidos por
el transductor de audio de salida. Cuando los patrones vocales no
están presentes en el audio de salida, se prevé que el usuario del
teléfono comenzará a hablar. Por consiguiente, el VAD después
desenmudece el audio de entrada y enmudece el audio de salida.
Debido a que el enmudecimiento y
desenmudecimiento del audio de salida depende de si los patrones
vocales están presentes en el audio de salida, el VAD debe ser
capaz de distinguir entre patrones vocales e intervalos de silencio
contenidos en el mismo cuando una persona deja de hablar y está
esperando una respuesta. Para realizar esto, el VAD típicamente
utiliza estadísticas generales de patrones vocales, tales como
energía y periodicidad. Frecuentemente el audio de salida contiene
señales musicales, por ejemplo cuando el usuario del teléfono está
en espera. Las señales musicales son mucho más complejas que los
patrones vocales y los VADs usualmente tienen dificultad para
distinguir las señales musicales de los patrones vocales e
intervalos de silencio. En consecuencia, los VADs intermitentemente
enmudecen y desenmudecen el audio de salida, creando de ese modo
audio de salida que posee un sonido entrecortado muy molesto.
El documento US 6.223.154 divulga un dispositivo
de comunicación móvil, tal como un teléfono celular, que es
operable en un modo altavoz. El dispositivo de comunicación utiliza
un esquema de comunicación digital, y recibe y genera señales
codificadas. El altavoz proporciona operación dúplex media para
eliminar el eco. Cuando se detecta actividad de voz, el dispositivo
activa un altavoz y enmudece un micrófono para evitar el eco.
Cuando no se detecta ninguna actividad de voz en la señal recibida,
el altavoz es enmudecido y el micrófono es activado. Para
determinar cuándo está presente la actividad de voz en la señal
recibida, se utiliza un algoritmo de detección de actividad de voz
(VAD) que aprovecha parámetros provistos como parte de la señal
codificada recibida.
La presente invención se refiere a un método y
un sistema para proporcionar audio de salida en un teléfono que
opera en un modo altavoz. Más particularmente, los datos musicales
recibidos por el teléfono pueden reproducirse como audio de salida
sin enmudecimiento y desenmudecimiento intermitente de la señal de
audio de salida, lo que se sabe que sucede en los teléfonos
convencionales de la técnica anterior. En operación, el teléfono
puede recibir una primera unidad de datos que incluye un primera
identificador de tipo de unidad. Por ejemplo, puede proporcionarse
un módem en el teléfono para recibir la primera unidad de datos.
El primer identificador de tipo de unidad puede
ser un indicador de un tipo de datos de audio contenido en la
primera unidad de datos. Por ejemplo, el primer identificador de
tipo de unidad puede indicar si los datos de audio son datos de
audio musicales o no musicales. Si se determina que el primer
identificador de tipo de unidad posee un primer valor, por ejemplo
un valor que indica que los datos de audio son datos musicales, el
audio de salida desenmudecido reproducido desde la primera unidad de
datos puede ser provisto, por ejemplo, por un controlador de unidad
de datos en el teléfono. El controlador de unidad de datos también
puede inhabilitar la detección de actividad de voz en el teléfono y
enmudecer el audio de entrada mientras el audio de salida es
desenmudecido.
Mientras el audio de salida es desenmudecido, un
controlador de ganancia del transductor de salida puede reducir
periódicamente el nivel de presión de sonido (SPL) del audio de
salida desde un primer nivel a un segundo nivel. El nivel de
presión de sonido del audio de salida puede reducirse gradualmente
desde el primer nivel hasta el segundo nivel. El controlador de
unidad de datos puede desenmudecer el audio de entrada cuando el
nivel de presión de sonido del audio de salida está en el segundo
nivel. Después de que el nivel de presión de sonido ha sido
reducido, el nivel de presión de sonido puede entonces incrementarse
gradualmente desde el segundo nivel hasta el primer nivel.
Al recibir una segunda unidad de datos que
incluye un segundo identificador de tipo de unidad que se determina
que tenga un segundo valor, por ejemplo un valor que indica que los
datos de audio son datos no musicales, el controlador de unidad de
datos puede permitir la detección de actividad de voz. El
controlador de unidad de datos también puede enmudecer el audio de
salida, y desenmudecer el audio de entrada mientras el audio de
salida está enmudecido.
Las realizaciones preferibles de la presente
invención se describirán en mayor detalle más abajo, con referencia
a los dibujos anexados, en los que:
La Fig. 1 es un diagrama de flujo para mejorar
la calidad de sonido del audio de salida en un teléfono que opera
en un modo altavoz en conformidad con una realización de la presente
invención.
La Fig. 2 es un diagrama de flujo para detectar
si la voz de entrada está presente en el teléfono en conformidad
con una realización de la presente invención.
La Fig. 3 es un diagrama de bloques de una red
de comunicaciones útil para entender la presente invención.
La Fig. 4 es un diagrama de bloques de un
sistema de procesamiento de altavoz en conformidad con una
realización de la presente invención.
La presente invención se refiere a un
procedimiento y a un sistema para proporcionar audio de salida en un
teléfono que opera en un modo altavoz. Más particularmente, los
datos musicales recibidos por el teléfono pueden reproducirse como
audio de salida sin enmudecimiento o desenmudecimiento intermitente
de la señal de audio de salida, que se sabe que se produce en los
teléfonos convencionales de la técnica anterior. Según se define en
la presente memoria, el audio de salida es audio que es reproducido
por un transductor de audio de salida conectado al teléfono. El
audio de entrada es audio detectado por un transductor de audio de
entrada conectado al teléfono.
Se muestra en la Fig. 1 un diagrama de flujo que
ilustra un método 100 para mejorar la calidad de sonido del audio
de salida desde un teléfono que está operando en modo altavoz.
Comenzando en la etapa 105, el teléfono puede recibir una unidad de
datos que contiene datos de audio. Según se define en la presente
memoria, el término "unidad de datos" significa una unidad de
datos que es enviada entre un origen y un destino en una red. Por
ejemplo, si la red es una red basada en cuadros, tal como una red de
telecomunicaciones inalámbricas, la unidad de datos puede ser un
cuadro. Si la red es una red de conmutación de paquetes, tal como
Internet, la unidad de datos puede ser un paquete.
Cada unidad de datos puede incluir un
identificador de tipo de unidad. El identificador de tipo de unidad
puede utilizarse para identificar el tipo de datos de audio
contenidos en la unidad de datos. El identificador de tipo de
unidad puede almacenarse en una cabecera de unidad de datos, una
cola de unidad de datos, o en cualquier otro lugar de la unidad de
datos. En una forma muy simple, el identificador de tipo de unidad
puede ser un único bit señalizador que identifica si la unidad de
datos contiene datos musicales. Por ejemplo, fijar el señalizador
en un valor de 1 puede indicar que los datos musicales están
presentes en la unidad de datos. En una forma más compleja, el
identificador de tipo de unidad puede comprender una pluralidad de
bits, proporcionando de ese modo un intervalo más amplio de
categorías de datos de audio que puede identificarse. Por ejemplo,
un identificador de tipo de unidad que comprende una pluralidad de
bits puede identificar si los datos de audio contenidos en la
unidad de datos representan voz, música, tonos, silencio o cualquier
otro tipo de audio que puede identificarse.
Pasando a la etapa 110, la unidad de datos puede
analizarse para distinguir el identificador de tipo de unidad de
otros datos contenidos en la unidad de datos, y el identificador de
tipo de unidad puede evaluarse. En los sistemas de
telecomunicaciones inalámbricas, los datos no musicales son
frecuentemente codificados en forma diferente de los datos
musicales. Por ejemplo, los datos no musicales generalmente se
codifican utilizando un codificador de voz. Tal como es conocido
por aquellos expertos en la técnica, se dispone de una miríada de
algoritmos de codificador de voz. Los ejemplos de dichos algoritmos
incluyen Sistema Global de Comunicaciones Móviles (GSM), Excitación
Multibanda Avanzada (AMBE), predicción lineal con excitación por
vector suma (VSELP), etcétera. Dichos algoritmos permiten
reproducción de alta resolución de datos no musicales para una
velocidad dada de datos.
Aunque los algoritmos del codificador de voz
funcionan bien para codificar voz y otras señales simples de audio,
las señales musicales tienden a ser más complejas para ser
codificadas por un codificador de voz. Así, si se utilizara un
codificador de voz para codificar señales musicales, muchos datos
musicales se perderían durante el proceso de codificación, dando
como resultado señales musicales que suenan muy indescifrables. Por
lo tanto, las señales musicales son típicamente codificadas
utilizando otros esquemas de compresión de audio, por ejemplo
codificación de forma de onda, o algoritmos de compresión de audio
tales como Interfaz Digital para Instrumentos Musicales (MIDI),
Capa 3 de Audio para MPEG-1 (MP3), Ogg Vorbis,
Windows Media Audio (WMA), Real Audio o Codificación Avanzada de
Audio (AAC), etc. Dichos esquemas están mejor adaptados para
codificar señales de audio distintas de la voz, pero se requiere una
velocidad de datos más alta para lograr una calidad de audio
comparable con la calidad de la voz codificada con algoritmos de
codificador de voz.
Por consiguiente, haciendo referencia al cuadro
de decisión 115, el esquema de decodificación que se utiliza para
decodificar los datos de audio puede seleccionarse en base al valor
del identificador de tipo de unidad. De ese modo, si el valor del
identificador de tipo de unidad no se correlaciona con datos
musicales, los datos de audio contenidos en la unidad de datos
pueden decodificarse como datos no musicales para generar señales
no musicales, según se muestra en la etapa 120. Continuando con la
etapa 125, después puede aplicarse la lógica de detección de
actividad de voz a las señales no musicales para enmudecer y
desenmudecer el audio de salida y de entrada según se requiera para
impedir que el audio de salida generado por el transductor de salida
del teléfono se retroalimente en el transductor de entrada del
teléfono. Dicha implementación de detección de actividad de voz es
conocida por los técnicos expertos.
Haciendo referencia nuevamente al cuadro de
decisión 115, si el identificador de tipo de unidad sí se
correlaciona con datos musicales, entonces en la etapa 130 los
datos de audio contenidos en la unidad de datos pueden codificarse
como datos musicales para generar señales musicales. Puede
utilizarse un esquema de codificación que sea compatible con el
esquema que se utilizó para codificar los datos de audio. Pasando a
la etapa 135, el audio de entrada después puede enmudecerse y el
audio de salida puede desenmudecerse. El audio de entrada y el audio
de salida pueden permanecer en sus respectivos estados hasta que se
reciba otra unidad de datos que contenga un identificador de tipo
de unidad que indique que la unidad de datos contiene datos no
musicales, momento en el que puede aplicarse la lógica de detección
de actividad de voz para enmudecer y desenmudecer el audio de
entrada y el audio de salida.
Notablemente, deshabilitar el uso de lógica de
detección de actividad de voz puede ser ventajoso cuando las
señales musicales están siendo producidas como audio de salida. En
particular, esto permite que las señales musicales sean
reproducidas sin el efecto no deseable de enmudecimiento
intermitente que típicamente sucede cuando se utiliza la detección
de actividad de voz al procesar las señales musicales. Esto puede
proporcionar una experiencia de escucha más placentera durante las
operaciones de altavoz.
En algunos casos, puede utilizarse un primer
teléfono en un ambiente ruidoso, por ejemplo en un club que pasa
música fuerte. De ese modo, los datos de audio para el audio de
salida generado desde el primer teléfono pueden codificarse como
música. El audio de entrada en un segundo teléfono que se comunica
con el primer teléfono por ello sería enmudecido en conformidad con
la etapa 135, aunque los usuarios de los teléfonos pueden desear
tener una conversación. A fin de determinar si los usuarios están
intentando conversar cuando existen dichas condiciones, puede ser
beneficioso detectar periódicamente si una señal de audio de entrada
está presente en el segundo teléfono, aun cuando el identificador
de tipo de unidad se correlacione con datos musicales y el audio de
salida haya sido desenmudecido. Dicho proceso se ilustra en el
diagrama de flujo de la Fig. 2.
La Fig. 2 muestra un método 200 en el que el
audio de entrada periódicamente es desenmudecido para detectar si
una señal de audio de entrada está presente. Además, un nivel de
presión de sonido del audio de salida puede reducirse desde un
primer nivel a un segundo nivel para reducir la retroalimentación
del audio de salida cuando el audio de entrada es desenmudecido.
Este método 200 puede implementarse cuando el valor del
identificador de tipo de unidad se correlaciona con datos
musicales.
Comenzando en la etapa 205, el nivel de presión
de sonido (SPL) del audio de salida puede reducirse desde el primer
nivel al segundo nivel. Por ejemplo, el SPL puede reducirse en 6 dB.
No obstante, la invención no se limita en este aspecto y puede
implementarse cualquier proporción de reducción de SPL.
Notablemente, la reducción en el SPL del audio de salida puede
implementarse sobre un período de tiempo especificado para minimizar
la percepción del usuario del cambio de volumen. Por ejemplo, el
SPL puede reducirse durante un período de aproximadamente 50
milisegundos a 1 segundo.
Cuando el SPL del audio de salida alcanza el
segundo nivel, el audio de entrada puede desenmudecerse. El audio
de entrada después puede probarse, por ejemplo mediante un detector
de actividad de voz (VAD), para determinar si está presente la voz
de entrada, según se muestra en la etapa 210. Pasando al cuadro de
decisión 215 y la etapa 220, si la voz de entrada no está presente,
el SPL del audio de salida puede incrementarse desde el segundo
nivel de vuelta al primer nivel, y el audio de entrada puede
nuevamente enmudecerse. Como antes, el cambio de SPL puede
implementarse durante un período de tiempo especificado para
minimizar la percepción del usuario del cambio.
En la etapa 225, puede implementarse un retraso
temporal antes de que se repitan las etapas 205, 210 y 215. El
retraso temporal puede estar, por ejemplo, en algún lugar en el
intervalo entre aproximadamente 2 segundos y 15 segundos. Por
consiguiente, si el usuario comienza a hablar, sólo una porción de
su voz será enmudecida. En una disposición, el retraso temporal
podría ser al menos el doble del período que el SPL del audio de
salida se reduce o incrementa.
Haciendo referencia nuevamente al cuadro de
decisión 215 y a la etapa 230, si está presente la voz en el audio
de entrada, entonces el audio de salida puede enmudecerse y el
desenmudecimiento del audio de entrada puede mantenerse hasta que
la voz de entrada cese, o haya transcurrido una cantidad específica
de tiempo. Continuando con la etapa 220, el audio de entrada
nuevamente puede enmudecerse y el SPL del audio de salida puede
entonces regresarse a su nivel previo. El método 200 puede
continuar mientras el valor del identificador de tipo de unidad se
correlacione con datos musicales.
La Fig. 3 describe un ejemplo de una red de
comunicaciones 300 en la que puede implementarse el método antes
mencionado. La red de comunicaciones 300 puede incluir líneas fijas
y/o enlaces de comunicaciones inalámbricas. Por ejemplo, la red de
comunicaciones 300 puede ser una red de comunicaciones móvil por
radio, una red de comunicaciones por teléfono celular, una red de
telefonía pública conmutada (PSTN), una red pública por conmutación
de paquetes (PSPN), una red de área amplia (WAN), una red de área
local (LAN), una intranet, Internet o cualquier otra red de
comunicaciones apropiada para propagar datos de audio en forma
bidireccional.
Puede proporcionarse un teléfono 310 como un
nodo de la red de comunicaciones 300. El teléfono 310 puede ser
cualquier dispositivo de comunicación de dos direcciones capaz de
operar en un modo altavoz. Por ejemplo, el teléfono 310 puede se un
teléfono móvil que posea capacidades de interconexión y/o despacho,
un dispositivo telefónico asistente digital personal (PDA), una voz
sobre IP (VoIP) o red digital de servicios integrados (ISDN), o
cualquier otro dispositivo de comunicación de dos direcciones
apropiado. El teléfono 310 puede incluir la lógica de control de
unidad de datos 330. La lógica de control de datos 330 puede
utilizarse para implementar el procedimiento descrito en la
presente memoria.
En operación, el teléfono 310 puede enlazarse
comunicativamente a un teléfono y/o sistema de procesamiento de
llamadas 340 a través de la red de comunicaciones 300. El
teléfono/sistema de procesamiento de llamadas 340 puede propagar al
menos una unidad de datos 350 que contiene datos de audio al
teléfono 310. La unidad de datos 350 también puede incluir un
identificador de tipo de unidad 360 que, según lo señalado,
identifica el tipo de datos de audio contenidos en la unidad de
datos 350. El teléfono 310 puede comprender un sistema de
procesamiento por altavoz 320 para procesar el audio de salida y de
entrada cuando el teléfono 310 está operando en modo altavoz. El
sistema de procesamiento por altavoz 320 además puede incluir lógica
de control de unidad de datos 330 para evaluar el identificador de
tipo de unidad 360 y determinar si procesar los datos de audio
contenidos en la unidad de datos 350 como datos musicales o datos no
musicales, según se describió previamente.
Un ejemplo de una realización del sistema de
procesamiento por altavoz 320 se muestra en la Fig. 4. Debe
señalarse, sin embargo, que el sistema de procesamiento por altavoz
puede implementarse utilizando cualquiera de una miríada de
estructuras de sistemas, y la invención no es restrictiva en este
aspecto. El sistema de procesamiento por altavoz 320 puede incluir
un mecanismo de canal de entrada 405 y un mecanismo de canal de
salida 410. El mecanismo de canal de entrada 405 puede comprender
un transductor de entrada 415, por ejemplo un micrófono, y un
control de ganancia del transductor de entrada 420, El mecanismo de
canal de entrada 405 también puede comprender un cancelador de eco
425, un codificador 430, un módem de transmisión 435 y un detector
de actividad de voz (VAD) de entrada 440. De manera similar, la vía
del canal de salida 410 puede incluir un módem de recepción 445, un
decodificador 450, un VAD de salida 455, un control de ganancia del
transductor de salida 460 y un transductor de salida 465. Pueden
conectarse operativamente un controlador de unidad de datos 470 y
árbitro dúplex 475 a la vía del canal de entrada 405 y a la vía
del canal de salida 410. De igual manera, puede conectarse
operativamente una unidad de sustitución y generación de ruido
confortable 480 a la vía del canal de entrada 405 y a la vía del
canal de salida 410. La unidad de sustitución y generación de ruido
confortable 480 también puede conectarse operativamente al árbitro
dúplex 475, según se muestra.
Los canceladores de eco, codificadores,
decodificadores, módem de transmisión/recepción, y las unidades de
sustitución y generación de ruido confortable están todos
comercialmente disponibles y su implementación es bien entendida
por aquellos expertos en la técnica. El controlador de unidad de
datos 470 puede ejecutarse en hardware, software, firmware, o una
combinación de hardware, software y/o firmware. Por ejemplo, el
controlador de unidad de datos 470 puede incluir un procesador, tal
como una unidad de procesamiento central (CPU), un procesador de
señal digital (DSP), un circuito integrado específico de aplicación
(ASIC) o cualquier otro procesador apropiado para llevar a cabo las
funciones del controlador de unidad de datos descritas en la
presente memoria. Además, el controlador de unidad de datos 470
puede incluirse en un circuito integrado (IC) que contiene el
árbitro dúplex 475, el VAD de entrada 440, el VAD de salida 455, el
decodificador 450 y/o cualquier otro componente de circuito
telefónico. Además, el software y/o firmware puede proporcionarse en
un almacén de datos (no se muestra) para la ejecución por parte del
procesador. Juntos, el controlador de unidad de datos 470, el
árbitro dúplex 475, el VAD de entrada 440, el VAD de salida 455 y el
decodificador 450 pueden formar la lógica de control de unidad de
datos 330 de la Fig. 3.
Al operar en modo altavoz, el audio de entrada
485 puede ser recibido por el transductor de entrada 415 y puede
ser enviado como señal de audio de entrada al control de ganancia
del transductor de entrada 420, que puede ajustar la amplitud de la
señal del audio de entrada. La señal del audio de entrada después
puede comunicarse al cancelador de eco 425, que también recibe una
señal de audio de salida desde el decodificador 450, para eliminar
una porción de cualquier retroalimentación que pudiera estar
presente debido al acoplamiento del audio de salida 490 desde el
transductor de salida 465 al transductor de entrada 415. La señal
del audio de entrada después puede propagarse a un codificador 430
para ser codificada como unidades de datos para la transmisión por
el módem de transmisión 435. Notablemente, el codificador puede
incluir un codificador no musical, tal como un codificador de voz,
para codificar las señales de audio no musicales, y un codificador
musical, tal como un codificador de forma de onda, para codificar
las señales de audio musicales. El codificador 430 también puede
codificar un identificador de tipo de unidad en cada unidad de
datos para identificar el tipo de datos de audio codificado en la
misma.
En la vía del canal de salida 410, el módem de
recepción 445 puede recibir una señal de salida codificada que
contiene unidades de datos y puede enviar la señal codificada al
decodificador 450. El decodificador 450 puede incluir un
decodificador no musical, tal como un codificador de voz, y un
decodificador musical, tal como un decodificador en forma de onda.
El decodificador 450 puede analizar las unidades de datos y evaluar
el identificador de tipo de unidad contenido en las unidades de
datos. Si el identificador de tipo de unidad en una unidad de datos
particular indica que los datos de audio contenidos en la unidad de
datos son datos no musicales, el decodificador puede decodificar
los datos consiguientemente para generar una señal de audio de
salida no musical. La señal de audio de salida no musical puede
comunicarse al control de ganancia del transductor de salida 460,
después al transductor de salida 465 para generar el audio de salida
490.
El decodificador también puede indicar al
controlador de unidad de datos 470 que los datos de audio son no
musicales. El controlador de unidad de datos 470 después puede
ordenar al árbitro dúplex 475 que permita la detección de actividad
de voz dentro del sistema de procesamiento por altavoz 320. La
detección de actividad de voz se utiliza comúnmente en teléfonos
que operan en modo altavoz debido a que el cancelador de eco 425
típicamente sólo puede eliminar una porción de retroalimentación que
puede estar presente debido al acoplamiento del audio de salida 490
desde el transductor de salida 465 al transductor de entrada 415.
Por ello se proporcionan el VAD de entrada 440, el VAD de salida
455 y el árbitro dúplex 475 para potenciar el control de
retroalimentación durante las operaciones del altavoz.
En operación, la salida del cancelador de eco
425 puede estar comunicada al VAD de entrada 440. La señal de audio
de salida no musical desde el decodificador 450 puede estar
comunicada de igual manera al VAD de salida 455, que también puede
estar conectado en forma comunicada al VAD de entrada 440 para
permitir la comunicación directa entre los VADs 440, 455. Los VADs
440, 455 pueden generar cada uno una señal de detección de voz que
se utiliza para identificar la presencia de información de voz, en
oposición al fondo u otros tipos de ruido.
Las señales de detección de voz de cada uno del
VAD de entrada 440 y el VAD de salida 455 pueden comunicarse al
árbitro dúplex 475. El árbitro dúplex 475 puede procesar las señales
de detección de voz para determinar cuándo enmudecer y
desenmudecer el audio de entrada 485 y el audio de salida 490. Por
ejemplo, si la señal de audio de entrada detectada por el VAD de
entrada 440 es significativa mientras la señal de audio de salida
detectada por el VAD de salida 455 es insignificante, esto indicaría
que un usuario del teléfono (usuario final cercano) está hablando
mientras un usuario en un extremo lejano de la sesión de
comunicación (usuario final lejano) está en silencio. El árbitro
dúplex 475 puede así activar la vía del canal de entrada 405 para
capturar el audio de entrada 485, desactivando o enmudeciendo al
mismo tiempo la vía del canal de salida 410 para enmudecer el audio
de salida 490. La desactivación o enmudecimiento de la vía del canal
de salida 410 puede lograrse rompiendo un mecanismo de circuito
dentro de la vía del canal de salida 410 o reduciendo una ganancia
del control de ganancia del transductor de salida 460.
A la inversa, si la señal de audio de entrada
detectada por el VAD de entrada 440 es insignificante mientras que
la señal de audio de salida detectada por el VAD de salida 455 es
significativa, el árbitro dúplex 475 puede desenmudecer el audio de
salida 490 desactivando o enmudeciendo al mismo tiempo la vía del
canal de entrada 405 para enmudecer el audio de entrada 485. La
desactivación o enmudecimiento de la vía del canal de entrada 405
puede lograrse rompiendo una vía de circuito dentro de la vía del
canal de entrada 405 o reduciendo una ganancia del control de
ganancia del transductor de entrada 420. Por consiguiente, la voz
del usuario final lejano puede oírse sobre el transductor de salida
465, minimizando al mismo tiempo el riesgo de que el audio de
salida 490 se retroalimente a ese usuario.
Por otra parte, durante aquellos intervalos de
tiempo en los que tanto el VAD de entrada 440 como el VAD de salida
455 detectan señales de audio significativas en sus respectivas vías
de canal 405, 410, el árbitro dúplex 475 puede aplicar criterios
selectivos para decidir qué vía de canal activar y qué vía de canal
desactivar.
Si una señal de salida codificada recibida por
el módem de recepción 445 contiene una unidad de datos que posee un
identificador de tipo de unidad que indica que la unidad de datos
contiene datos musicales, el decodificador 450 puede decodificar
los datos consiguientemente para generar una señal de audio de
salida musical. La señal de audio de salida musical también puede
estar comunicada al control de ganancia del transductor de salida
460, después al transductor de salida 465 para generar el audio de
salida 490.
Además, el decodificador 450 puede indicar al
controlador de unidad de datos 470 que los datos de audio son
musicales. La unidad de control de datos 470 puede entonces indicar
al árbitro dúplex 475 inhabilitar la detección de actividad de voz
dentro del sistema de procesamiento de altavoz 320. Además, la
unidad de control de datos 470 puede indicar al árbitro dúplex 475
desenmudecer el mecanismo de canal de salida 410 y enmudecer el
mecanismo de canal de entrada 405. De ese modo, según lo señalado,
las señales musicales pueden reproducirse sin el sonido
entrecortado que típicamente se produce cuando se utiliza detección
de actividad de voz al procesar las señales musicales.
Según lo señalado, puede desearse desenmudecer
periódicamente el audio de entrada 485 para detectar si una señal
de audio de entrada está presente. Cuando esto sucede, el control de
ganancia del transductor de salida 460 puede reducir el SPL del
audio de salida 490 desde un primer nivel a un segundo nivel para
reducir la retroalimentación del audio de salida cuando el audio de
entrada es desenmudecido. En forma similar, el control de ganancia
del transductor de salida 460 también puede incrementar el SPL del
audio de salida 490 desde el segundo nivel al primer nivel cuando
el audio de entrada 485 se enmudece nuevamente. El control de
ganancia del transductor de salida 460 puede implementar los
cambios de SPL gradualmente para minimizar la percepción del
usuario de los cambios.
La presente invención puede ejecutarse en
hardware, software o una combinación de hardware y software. La
presente invención puede ejecutarse de una manera centralizada en un
sistema, o de una manera distribuida donde se esparcen diferentes
elementos a través de varios sistemas interconectados. Cualquier
clase de dispositivo de procesamiento u otro equipo adaptado para
llevar a cabo los procedimientos descritos en la presente memoria
es apropiado. Una combinación típica de hardware y software puede
ser un dispositivo de procesamiento con una aplicación que, cuando
es cargada y ejecutada, controla el dispositivo de procesamiento de
manera que éste lleva a cabo los procedimientos descritos en la
presente memoria.
La presente invención también puede insertarse
en un producto de programa de aplicación, que comprende todas las
características que permiten la implementación de los métodos
descritos en la presente memoria, y que cuando es cargado en un
dispositivo de procesamiento es capaz de llevar a cabo estos
métodos. Programa de aplicación en el presente contexto significa
cualquier expresión, en cualquier lenguaje, código o notación, de
un conjunto de instrucciones destinadas a hacer que un sistema que
posee capacidad de procesamiento de información lleve a cabo una
función particular directamente o después de cualquiera o ambas de
las siguientes: a) conversión a otro lenguaje, código o notación;
b) reproducción en una forma material diferente.
La presente invención puede realizarse en otras
formas sin apartarse del espíritu o atributos esenciales de la
misma. Por consiguiente, debe hacerse referencia a las siguientes
reivindicaciones, en lugar de a la memoria descriptiva precedente,
como indicadoras del alcance de la invención.
Claims (8)
1. Un método para proporcionar audio de salida
en un teléfono que opera en un modo altavoz, que comprende:
recibir una primera unidad de datos (350) que
comprende un valor de primer identificador de tipo de unidad; y
en respuesta a la determinación de que el primer
identificador de tipo de unidad posee el primer valor, proporcionar
audio de salida desenmudecido reproducido desde la primera unidad de
datos, donde proporcionar audio de salida desenmudecido además
comprende deshabilitar la detección de actividad de voz en el
teléfono;
recibir una segunda unidad de datos (350) que
comprende un valor de segundo identificador de tipo de unidad;
y
en respuesta a la determinación de que el
segundo identificador de tipo de unidad posee el segundo valor,
permitir la detección de actividad de voz en el teléfono.
2. El método de acuerdo con la reivindicación 1,
que además comprende la etapa de seleccionar el valor del primer
identificador de tipo de unidad para ser un indicador del tipo de
datos de audio contenidos en la primera unidad de datos (350).
3. El método de acuerdo con la reivindicación 1,
que además comprende enmudecer el audio de entrada mientras el
audio de salida es desenmudecido.
4. El método de acuerdo con la reivindicación 1,
que además comprende la etapa de seleccionar el valor del segundo
identificador de tipo de unidad para ser un indicador del tipo de
datos de audio contenidos en la segunda unidad de datos (350).
5. El método de acuerdo con la reivindicación 1,
en el que permitir la etapa de detección de actividad de voz además
comprende enmudecer el audio de salida.
6. El método de acuerdo con la reivindicación 5,
que además comprende desenmudecer el audio de entrada mientras el
audio de salida es enmudecido.
7. Un teléfono (310) que posee un modo de
operación de altavoz, que comprende:
un módem para recibir una primera unidad de
datos (350) que comprende un valor del primer identificador de tipo
de unidad; y
un controlador de unidad de datos para
proporcionar audio de salida desenmudecido reproducido desde la
primera unidad de datos (350) en respuesta a la determinación de
que el primer identificador de tipo de unidad posee el primer
valor, y en el que el controlador de unidad de datos inhabilita la
detección de actividad de voz en el teléfono (310);
donde el módem recibe una segunda unidad de
datos (350) que comprende un valor de segundo identificador de tipo
de unidad; y
donde el controlador de unidad de datos permite
la detección de actividad de voz en respuesta a la determinación de
que el segundo identificador de tipo de unidad posee el segundo
valor.
8. El teléfono (310) de la reivindicación 1, en
el que el controlador de unidad de datos además enmudece el audio
de entrada mientras el audio de salida es desenmudecido.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/925,399 US7123714B2 (en) | 2004-08-25 | 2004-08-25 | Speakerphone having improved outbound audio quality |
US925399 | 2004-08-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2347163T3 true ES2347163T3 (es) | 2010-10-26 |
Family
ID=36000539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05794079T Active ES2347163T3 (es) | 2004-08-25 | 2005-08-23 | Altavoz que tiene una mejor calidad del audio de salida. |
Country Status (7)
Country | Link |
---|---|
US (1) | US7123714B2 (es) |
EP (1) | EP1784925B1 (es) |
AT (1) | ATE474379T1 (es) |
BR (1) | BRPI0514587A8 (es) |
DE (1) | DE602005022321D1 (es) |
ES (1) | ES2347163T3 (es) |
WO (1) | WO2006026221A2 (es) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008137870A1 (en) | 2007-05-04 | 2008-11-13 | Personics Holdings Inc. | Method and device for acoustic management control of multiple microphones |
US8526645B2 (en) | 2007-05-04 | 2013-09-03 | Personics Holdings Inc. | Method and device for in ear canal echo suppression |
US9191740B2 (en) * | 2007-05-04 | 2015-11-17 | Personics Holdings, Llc | Method and apparatus for in-ear canal sound suppression |
US11856375B2 (en) | 2007-05-04 | 2023-12-26 | Staton Techiya Llc | Method and device for in-ear echo suppression |
US11683643B2 (en) | 2007-05-04 | 2023-06-20 | Staton Techiya Llc | Method and device for in ear canal echo suppression |
US10194032B2 (en) | 2007-05-04 | 2019-01-29 | Staton Techiya, Llc | Method and apparatus for in-ear canal sound suppression |
CN101159891B (zh) | 2007-08-17 | 2010-09-08 | 华为技术有限公司 | 语音激活检测控制的方法及其控制设备 |
US9049277B2 (en) * | 2009-07-09 | 2015-06-02 | Nec Corporation | Event notification device, event notification method, program, and recording medium |
US9167409B2 (en) | 2010-02-19 | 2015-10-20 | Telefonaktiebolaget L M Ericsson (Publ) | Music control signal dependent activation of a voice activity detector |
US8848934B2 (en) | 2010-12-08 | 2014-09-30 | Skype | Controlling audio signals |
CN104469255A (zh) | 2013-09-16 | 2015-03-25 | 杜比实验室特许公司 | 改进的音频或视频会议 |
CN103413553B (zh) | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
CN109724811B (zh) * | 2018-12-21 | 2020-12-18 | 江苏大学 | 一种乘坐室声品质的结构传递路径检测系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4441203A (en) * | 1982-03-04 | 1984-04-03 | Fleming Mark C | Music speech filter |
US5600714A (en) * | 1994-01-14 | 1997-02-04 | Sound Control Technologies, Inc. | Conference telephone using dynamic modeled line hybrid |
US6006108A (en) * | 1996-01-31 | 1999-12-21 | Qualcomm Incorporated | Digital audio processing in a dual-mode telephone |
US6122531A (en) | 1998-07-31 | 2000-09-19 | Motorola, Inc. | Method for selectively including leading fricative sounds in a portable communication device operated in a speakerphone mode |
US6223154B1 (en) | 1998-07-31 | 2001-04-24 | Motorola, Inc. | Using vocoded parameters in a staggered average to provide speakerphone operation based on enhanced speech activity thresholds |
US6138040A (en) | 1998-07-31 | 2000-10-24 | Motorola, Inc. | Method for suppressing speaker activation in a portable communication device operated in a speakerphone mode |
US6157906A (en) | 1998-07-31 | 2000-12-05 | Motorola, Inc. | Method for detecting speech in a vocoded signal |
US6768914B1 (en) * | 1998-08-31 | 2004-07-27 | Skyworks Solutions, Inc. | Full-duplex speakerphone with wireless microphone |
EP1171988B1 (en) * | 1999-04-19 | 2011-10-19 | Kyocera Corporation | Portable telephone set |
KR100310342B1 (ko) * | 1999-07-21 | 2001-11-01 | 윤종용 | 휴대폰에서 스피커폰 모드시 송/수신 음성신호의 스위칭방법 |
US6741873B1 (en) | 2000-07-05 | 2004-05-25 | Motorola, Inc. | Background noise adaptable speaker phone for use in a mobile communication device |
US6694011B2 (en) * | 2001-02-02 | 2004-02-17 | Telcordia Technologies, Inc. | Method and system for reliably detecting voiceband signaling tones |
CN100504840C (zh) * | 2002-07-26 | 2009-06-24 | 摩托罗拉公司 | 用于背景噪声快速动态估计的方法 |
-
2004
- 2004-08-25 US US10/925,399 patent/US7123714B2/en active Active
-
2005
- 2005-08-23 EP EP05794079A patent/EP1784925B1/en active Active
- 2005-08-23 ES ES05794079T patent/ES2347163T3/es active Active
- 2005-08-23 BR BRPI0514587A patent/BRPI0514587A8/pt not_active Application Discontinuation
- 2005-08-23 DE DE602005022321T patent/DE602005022321D1/de active Active
- 2005-08-23 WO PCT/US2005/029775 patent/WO2006026221A2/en active Application Filing
- 2005-08-23 AT AT05794079T patent/ATE474379T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP1784925A4 (en) | 2008-01-30 |
EP1784925A2 (en) | 2007-05-16 |
BRPI0514587A8 (pt) | 2018-05-22 |
EP1784925B1 (en) | 2010-07-14 |
WO2006026221A2 (en) | 2006-03-09 |
ATE474379T1 (de) | 2010-07-15 |
US7123714B2 (en) | 2006-10-17 |
DE602005022321D1 (de) | 2010-08-26 |
WO2006026221A3 (en) | 2006-06-22 |
BRPI0514587A (pt) | 2008-06-17 |
US20060067512A1 (en) | 2006-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2347163T3 (es) | Altavoz que tiene una mejor calidad del audio de salida. | |
FI117496B (fi) | Menetelmä ja laitteisto kaiutinpuhelintoiminnon toteuttamiseksi kannettavassa tietoliikennelaitteessa | |
JP4522497B2 (ja) | デジタル電話システムの機能素子を制御するために状態決定を使用する方法および装置 | |
US6138040A (en) | Method for suppressing speaker activation in a portable communication device operated in a speakerphone mode | |
US8600454B2 (en) | Decisions on ambient noise suppression in a mobile communications handset device | |
US20140364171A1 (en) | Method and system for improving voice communication experience in mobile communication devices | |
US6122531A (en) | Method for selectively including leading fricative sounds in a portable communication device operated in a speakerphone mode | |
US20210272575A1 (en) | Adaptive comfort noise parameter determination | |
ES2371455T3 (es) | Pre-procesamiento de datos digitales de audio para codecs de audio de móvil. | |
KR100848798B1 (ko) | 배경 노이즈의 고속 동적 추정을 위한 방법 | |
JP2001186221A (ja) | ディジタル通信装置または関連装置の改良 | |
US7054436B2 (en) | Communication terminals with a dual use speaker for sensing background noise and generating sound, and related methods and computer program products | |
KR100884425B1 (ko) | 외부 오디오 품질이 개선된 스피커폰을 제공하는 방법 및 전화 | |
JP3773917B2 (ja) | 携帯通信装置、通信方法 | |
JP4918118B2 (ja) | 通話区間検出装置、その方法、プログラム | |
JP2974427B2 (ja) | 音声通信システムとその音声通信装置 | |
JP2006270300A (ja) | 受話音量制御装置 | |
JPH06326670A (ja) | 音声通信装置 | |
JP2001237920A (ja) | 入力レベル調整回路 | |
JPH0799534A (ja) | 電話機 | |
JPH09149100A (ja) | 電話機 | |
JPH1032638A (ja) | テレビ会議装置 | |
JP2003316400A (ja) | 音声信号処理装置及び音声信号処理方法 | |
JPH05110637A (ja) | 電話機 | |
JP2000101683A (ja) | 音声通信装置 |