ES2613693T3 - Aparato de audio - Google Patents

Aparato de audio Download PDF

Info

Publication number
ES2613693T3
ES2613693T3 ES08750243.1T ES08750243T ES2613693T3 ES 2613693 T3 ES2613693 T3 ES 2613693T3 ES 08750243 T ES08750243 T ES 08750243T ES 2613693 T3 ES2613693 T3 ES 2613693T3
Authority
ES
Spain
Prior art keywords
audio
audio signal
coding
signal
scalable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08750243.1T
Other languages
English (en)
Inventor
Lasse Laaksonen
Mikko Tammi
Adriana VASILACHE
Anssi Ramo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Application granted granted Critical
Publication of ES2613693T3 publication Critical patent/ES2613693T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Abstract

Un aparato para codificar una señal de audio configurado para: recibir una parte mayor de componentes de audio de una fuente de audio desde al menos un micrófono situado o dirigido hacia la fuente de audio; generar una primera señal de audio que comprende la parte mayor de los componentes de audio de la fuente de audio; recibir una parte menor de los componentes de audio de la fuente de audio desde al menos un micrófono adicional situado o dirigido lejos de la fuente de audio; y generar una segunda señal de audio que comprende la parte menor de los componentes de audio de la fuente de audio.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Aparato de audio Campo de la invencion
La presente invencion se refiere al aparato y metodo para la codificacion y reproduccion de audio, y en particular, pero no exclusivamente, al aparato para senales de voz y audio codificadas.
Antecedentes de la invencion
Las senales de audio, como la voz o la musica, estan codificadas, por ejemplo, para posibilitar una transmision o almacenamiento eficientes de las senales de audio.
Los codificadores y descodificadores de audio se usan para representar senales basadas en audio, tales como musica y ruido ambiental. Estos tipos de codificadores normalmente no utilizan un modelo de voz para el proceso de codificacion, sino que usan procesos para representar todos los tipos de senales de audio, incluyendo la voz.
Los codificadores y descodificadores de voz (codecs) estan optimizados habitualmente para senales de voz, y pueden operar tanto a una velocidad de bits fija como variable.
Un codec de audio puede tambien estar configurado para operar con velocidades de bits variables. A velocidades de bits menores, de manera que un codec de audio puede trabajar con senales de voz a una velocidad de codificacion equivalente a un codec de voz total. A velocidades de bits mayores, el codec de audio puede codificar cualquier senal, incluyendo musica, ruido ambiental y voz, con mayor calidad y rendimiento.
En algunos codecs de audio la senal de entrada esta dividida en un numero limitado de bandas. Cada una de las senales de banda puede calcularse. De la teoria de la psicoacustica se conoce que las frecuencias mas altas en el espectro son menos importantes perceptivamente que las frecuencias bajas. Esto se refleja en algunos codecs de audio mediante una asignacion de bits donde se asignan menos bits a las senales de alta frecuencia que a las senales de baja frecuencia.
Una tendencia creciente en el campo de la codificacion de medios son los denominados codecs estratificados, por ejemplo, el codec de voz/audio integrado de velocidad de bits variable (EV-VBR, por sus siglas en ingles) de la UIT- T y el codec de video escalable (SVC, por sus siglas en ingles) de la UIT-T. Los datos de medios escalables consisten en una capa principal, que siempre se necesita para posibilitar la reconstruction en el extremo de reception, y una o varias capas de mejora que pueden usarse para proporcionar valor anadido a los medios reconstruidos (por ejemplo, calidad de medios mejorada o mayor robustez contra errores de transmision, etc.).
La escalabilidad de estos codecs puede usarse en un nivel de transmision, por ejemplo para controlar la capacidad de red o formar un flujo de medios de multidifusion, para facilitar la operation con participates tras enlaces de acceso de diferente anchura de banda. En un nivel de aplicacion, la escalabilidad puede usarse para controlar tales variables como la complejidad de calculo, el retardo de codificacion, o el nivel de calidad deseado. Observese que mientras que en algunos casos la escalabilidad puede aplicarse al punto final de transmision, tambien hay casos de operacion donde es mas adecuado que un elemento de red intermedio sea capaz de realizar la escalada.
La mayoria de la codificacion de voz a tiempo real es con respecto a senales mono, pero para algunos sistemas de video de gama alta y de teleconferencia de audio, se ha usado la codificacion en estereo para producir una mejor experiencia de reproduccion de voz para el receptor. La codificacion de voz en estereo clasica implica la codificacion de canales separados izquierdo y derecho, que posicionan la fuente en algun lugar en la escena auditiva. La codificacion en estereo para voz comunmente usada es codificacion biaural, donde la fuente de audio (tal como una voz de un orador) se detecta por dos microfonos que estan situados en una position de oido izquierdo y derecho de una cabeza de referencia simulada.
La codificacion y la transmision (o el almacenamiento) de las senales generadas por el microfono izquierdo y derecho requieren mas anchura de banda y calculo de transmision ya que hay mas senales a codificar y descodificar que en una grabacion de fuente de audio mono convencional. Un enfoque para reducir la cantidad de anchura de banda de transmision (almacenamiento) usada en los metodos de codificacion en estereo es requerir que el codificador mezcle ambos canales izquierdo y derecho entre si y despues codificar la senal mono construida (combinada) como una capa principal. Las diferencias de information en los canales izquierdo y derecho pueden codificarse despues como un flujo de bits separado o capa de mejora. Sin embargo, este tipo de codificacion produce una senal mono en el descodificador con una calidad de audio peor que la codificacion clasica de una senal mono desde un unico microfono (situado, por ejemplo, cerca de la boca) ya que las dos senales de microfono combinadas entre si reciben mucho mas ruido ambiental o de entorno que un unico microfono situado cerca de la fuente de audio (por ejemplo, la boca). Esto hace que la calidad de salida "mono" retrocompatible usando el equipo de reproduccion heredado sea peor que la grabacion mono y el proceso de reproduccion mono originales.
5
10
15
20
25
30
35
40
45
50
55
60
65
Asi mismo, la colocacion del microfono en estereo biaural donde se situan los microfonos en posiciones de o^do simuladas en una cabeza simulada puede producir una senal de audio molesta para el receptor, especialmente cuando la fuente de audio se mueve rapidamente o de repente. Por ejemplo, en una disposition donde la colocacion del microfono esta cerca de la fuente, pueden generarse experiencias de escucha de mala calidad de un altavoz simplemente cuando el hablante rota su cabeza, causando un desvio considerable y distorsionado de las senales de salida izquierda y derecha.
Un ejemplo de un conocido esquema de codification de entrada biaural se divulga en el documento Faller et al.:"Binaural Cue Coding- Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Nueva York, vol. 11, n. ° 6, 1. Noviembre de 2003, paginas 520-531, XP011104739.
Sumario de la invencion
Esta solicitud propone un mecanismo que facilita la reproduction de imagen en estereo eficiente para tales entornos, como actividades de conferencia y el uso del equipo de usuario movil.
Las realizaciones de la presente invencion aspiran a solucionar o al menos mitigar parcialmente el problema anterior.
Se proporciona de acuerdo con un primer aspecto de la invencion un aparato para codificar una senal de audio de acuerdo con la reivindicacion 1.
De acuerdo con un segundo aspecto de la invencion puede proporcionarse un aparato para descodificar de acuerdo con la reivindicacion 5.
De acuerdo con un tercer aspecto de la invencion se proporciona un metodo para codificar una senal de audio de acuerdo con en la reivindicacion 10.
De acuerdo con un cuarto aspecto de la invencion se proporciona un metodo para descodificar una senal de audio codificada escalable de acuerdo con la reivindicacion 14.
Las realizaciones especificas se definen en las reivindicaciones dependientes.
Un codificador puede comprender el aparato como se ha descrito anteriormente.
Un descodificador puede comprender el aparato como se ha descrito anteriormente.
Un dispositivo electronico puede comprender el aparato como se ha descrito anteriormente.
Un conjunto de chips puede comprender el aparato como se ha descrito anteriormente.
Breve descripcion de los dibujos
Para un mejor entendimiento de la presente invencion, a continuation se hara referencia a modo de ejemplo a los dibujos que acompanan, en donde:
La figura 1 muestra esquematicamente un dispositivo electronico que emplea realizaciones de la invencion; la figura 2 muestra esquematicamente un sistema codec de audio que emplea realizaciones de la presente invencion;
la figura 3 muestra esquematicamente una parte de codificador del sistema codec de audio mostrado en la figura 2;
la figura 4 muestra esquematicamente un flujograma que ilustra la operation de una realization del codificador de audio como se muestra en la figura 3 de acuerdo con la presente invencion;
la figura 5 muestra esquematicamente una parte de descodificador del sistema codec de audio mostrado en la figura 2;
la figura 6 muestra un flujograma que ilustra la operacion de una realizacion del descodificador de audio como se muestra en la figura 5 de acuerdo con la presente invencion; y
las figuras 7a a 7h muestran posibles lugares de microfono/altavoz de acuerdo con las realizaciones de la invencion.
Descripcion de las realizaciones preferentes de la invencion
Lo siguiente describe con mas detalle los posibles mecanismos para la provision de un sistema de codificacion de audio escalable. En este sentido primero se hace referencia a la figura 1 que muestra un diagrama de bloques esquematico de un dispositivo electronico 10 a modo de ejemplo, que puede incorporar codec de acuerdo con una
5
10
15
20
25
30
35
40
45
50
55
60
65
realizacion de la invencion.
El dispositivo electronico 10 puede ser, por ejemplo, un terminal movil o equipo de usuario de un sistema de comunicacion inalambrica.
El dispositivo electronico 10 comprende un microfono 11, que esta enlazado a traves de un convertidor de analogico a digital 14 a un procesador 21. El procesador 21 esta enlazado ademas a traves de un convertidor de digital a analogico 32 a unos altavoces 33. El procesador 21 esta enlazado tambien a un transceptor 13 (TX/RX), a una interfaz de usuario 15 (IU) y a una memoria 22.
El procesador 21 puede configurarse para ejecutar varios codigos de programa. Los codigos de programa implementados comprenden un codigo de codificacion de audio para codificar una senal de audio y un codigo combinados para extraer y codificar informacion lateral perteneciente a la informacion espacial de los multiples canales. Los codigos de programa 23 implementados comprenden ademas un codigo de descodificacion de audio. Los codigos de programa 23 implementados pueden almacenarse, por ejemplo, en la memoria 22 para que el procesador 21 los recupere siempre que sea necesario. La memoria 22 podria proporcionar ademas una seccion 24 para almacenar datos, por ejemplo, datos que se han codificado de acuerdo con la invencion.
El codigo de codificacion y descodificacion puede implementarse, en las realizaciones de la invencion, en un hardware o firmware.
La interfaz de usuario 15 permite al usuario introducir comandos al dispositivo electronico 10, por ejemplo a traves de un teclado, y/o para obtener informacion del dispositivo electronico 10, por ejemplo a traves de una pantalla. El transceptor 13 permite una comunicacion con otros dispositivos electronicos, por ejemplo a traves de una red de comunicacion inalambrica.
Ha de entenderse de nuevo que la estructura del dispositivo electronico 10 podria complementarse y variar de muchas maneras.
Un usuario del dispositivo electronico 10 puede usar los microfonos 11 para introducir la voz que ha de transmitirse a algun otro dispositivo electronico o que ha de almacenarse en la seccion 24 de datos de la memoria 22. Con este objetivo, se ha activado una aplicacion correspondiente por parte del usuario a traves de la interfaz de usuario 15. Esta aplicacion, que puede ejecutarse por el procesador 21, causa que el procesador 21 ejecute el codigo de codificacion almacenado en la memoria 22.
El convertidor de analogico a digital 14 convierte la senal de audio analogica de entrada en una senal de audio digital y proporciona la senal de audio digital al procesador 21.
El procesador 21 puede entonces procesar la senal de audio digital de la misma manera que se ha descrito en relacion con las figuras 3 y 4.
El flujo de bits resultante se proporciona al transceptor 13 para transmitirlo a otro dispositivo electronico. Alternativamente, los datos codificados podrian almacenarse en la seccion 24 de datos de la memoria 22, por ejemplo, para una transmision posterior o para una presentacion posterior mediante el mismo dispositivo electronico 10.
El dispositivo electronico 10 podria tambien recibir un flujo de bits con datos codificados correspondientes desde otro dispositivo electronico a traves de su transceptor 13. En este caso, el procesador 21 puede ejecutar el codigo del programa de descodificacion almacenado en la memoria 22. El procesador 21 descodifica los datos recibidos, y proporciona los datos descodificados al convertidor de digital a analogico 32. El convertidor de digital a analogico 32 convierte los datos descodificados digitales a datos de audio analogicos y los emite a traves de los altavoces 33. La ejecucion del codigo de programa de descodificacion tambien podria accionarse mediante una aplicacion impulsada por el usuario a traves de la interfaz de usuario 15.
Los datos codificados recibidos tambien podrian almacenarse en lugar de ser presentados inmediatamente a traves del/los altavoz(ces) 33 en la seccion 24 de datos de la memoria 22, por ejemplo, para posibilitar una presentacion posterior o un reenvio a aun otro dispositivo electronico.
Se apreciara que las estructuras esquematicas descritas en las figuras 3 y 5 y las etapas del metodo de las figuras 4 y 6 representan solo una parte de la operacion de un codec de audio completo como se muestra a modo de ejemplo implementado en el dispositivo electronico mostrado en la figura 1.
En relacion con la figura 7a y 7b, se muestran los ejemplos de las disposiciones de microfono adecuadas para las realizaciones de la invencion. En la figura 7a, se muestra un ejemplo de disposicion de un primer y segundo microfono 11a y 11b. Un primer microfono 11a esta situado cerca de una primera fuente de audio, por ejemplo un hablante de conferencia 701a. Las senales de audio recibidas desde el primer microfono 11a pueden designarse
5
10
15
20
25
30
35
40
45
50
55
60
65
como la senal "cercana". Se muestra tambien un segundo microfono 11 b situado lejos de la fuente de audio 701 a. La senal de audio recibida desde el segundo microfono 11 b puede definirse como la senal de audio "lejana".
Como el experto en la materia entendera claramente, la diferencia entre el posicionamiento del microfono para generar las senales de audio "cercana" y "lejana" es una diferencia relativa a la fuente de audio 701a. Asi, para una segunda fuente de audio, otro hablante de conferencia 701b, la senal de audio derivada desde el segundo microfono 11b sera la senal de audio "cercana" mientras que la senal de audio derivada desde el primer microfono 11a se considerara el audio "lejano":
En relacion con la figura 7b, puede mostrarse un ejemplo de colocacion de microfono para generar senales de audio "cercana" y "lejana" para un dispositivo de comunicaciones moviles tipico. En tal disposicion, el microfono 11a que genera la senal de audio "cercana" se situa cerca de la fuente de audio 703 que estara, por ejemplo, en un lugar similar a un microfono-dispositivo de comunicaciones moviles convencional cerca asi de la boca del usuario 705 del dispositivo de comunicacion movil, mientras que el segundo microfono 11b que genera la senal de audio "lejana" esta situado en el lado opuesto del dispositivo de comunicacion movil 707 y esta configurado para recibir las senales de audio de los alrededores, estando protegido de captar la trayectoria de audio directa de la fuente de audio 703 del propio dispositivo de comunicacion movil 707.
A pesar de que en la figura 7 se muestran un primer microfono 11a y un segundo microfono 11b, el experto en la materia entendera que las senales de audio "cercana" y "lejana" pueden generarse desde cualquier numero de fuentes de microfono.
Por ejemplo, las senales de audio "cercana" y "lejana" pueden generarse usando un unico microfono con elementos direccionales. En esta realizacion, puede ser posible generar una senal "cercana" usando los elementos direccionales de microfono que senalan hacia la fuente de audio y generar una senal de audio "lejana" desde los elementos direccionales de microfono que senalan lejos de la fuente de audio.
Asi mismo, en otras realizaciones de la invencion, puede ser posible usar multiples microfonos para generar las senales de audio "cercana" y "lejana". En estas realizaciones, puede haber un pre-procesamiento de las senales de los microfonos para generar una senal de audio "cercana" mezclando las senales de audio recibidas desde el/los microfono(s) cercano(s) a la fuente de audio y una senal de audio "lejana" mezclando las senales de audio recibidas desde el/los microfono(s) situado(s) o dirigido(s) lejos de la fuente de audio.
A pesar de que anteriormente y a continuacion se ha hablado de las senales "cercana" y "lejana" tanto generadas directamente por microfonos o generadas por el pre-procesamiento de las senales generadas por el microfono, se apreciara que las senales "cercana" y "lejana" pueden ser senales grabadas/almacenadas previamente o recibidas de otra forma que no sea directamente desde el microfono/preprocesador.
Asi mismo, a pesar de que anteriormente y a continuacion se habla de la codificacion y descodificacion de las senales de audio "cercana" y "lejana", se apreciara que en realizaciones de la invencion puede haber mas de dos senales de audio a codificar. Por ejemplo, en una realizacion puede haber multiples senales de audio "cercanas" o multiples "lejanas". En otras realizaciones de la invencion, puede haber una senal de audio "cercana" primaria y multiples senales de audio "cercanas" subprimarias donde la senal deriva desde un lugar entre las senales de audio "cercanas" y "lejanas".
Para hablar del resto de la invencion, se hablara de la codificacion y descodificacion de un proceso de codificacion y descodificacion de dos microfonos/canales cercanos y lejanos.
En relacion con las figuras 7c y 7d, se muestran los ejemplos de disposiciones de altavoz adecuadas para las realizaciones de la invencion. En la figura 7c se muestra una disposicion de altavoz mono convencional o heredado. El usuario 705 tiene un altavoz 709 situado proximo a uno de los oidos del usuario 705. En tal disposicion, como se muestra en la figura 7c, el unico altavoz 709 puede proporcionar la senal "cercana" al oido preferente. En algunas realizaciones de la invencion, el unico altavoz 709 puede proporcionar la senal "cercana" mas un componente procesado o filtrado de la senal "lejana" para anadir algo de "espacio" a la senal de salida.
En la figura 7d, el usuario 705 esta equipado con unos auriculares 711 que comprenden un par de altavoces 711a y 711b. En tal disposicion, el primer altavoz 711a puede emitir la senal "cercana" y el segundo altavoz 711b puede emitir la senal "lejana".
En otras realizaciones de la invencion el primer altavoz 711a y el segundo altavoz 711b estan ambos provistos de una combinacion de las senales "cercana" y "lejana".
En algunas realizaciones de la invencion, el primer altavoz 711a esta provisto de una combinacion de las senales de audio "cercana" y "lejana" de tal manera que el primer altavoz 711a recibe una senal "cercana" y una senal de audio "lejana" a modificada. El segundo altavoz 711b recibe la senal de audio "lejana" y una senal de audio "cercana" p modificada. En esta realizacion, los terminos a y p indican que se ha llevado a cabo un filtrado o procesamiento en la
5
10
15
20
25
30
35
40
45
50
55
60
65
senal de audio.
En relacion con la figura 7e, se muestra otro ejemplo de, tanto una disposicion de microfono, como de altavoz adecuadas para las realizaciones de la invencion. En tal realization, el usuario 705 esta equipado con una primera unidad de telefono/auriculares que comprende un altavoz 713a y un microfono 713b que esta situado proximo al oido preferente y la boca, respectivamente. El usuario 705 esta equipado ademas con un dispositivo Bluetooth 715 separado que esta equipado con un altavoz 715a de dispositivo Bluetooth separado y un microfono 715b de dispositivo Bluetooth separado. El microfono 715b del dispositivo Bluetooth 715 separado esta configurado de manera que no recibe directamente senales de la fuente de audio del usuario 705, dicho de otra forma, de la boca del usuario 705. La disposicion del altavoz 713a de los auriculares y del altavoz 715a del dispositivo Bluetooth separado puede considerarse similar a la disposicion de los dos altavoces de los auriculares 711 sencillos como se muestra en la figura 7d.
En relacion con la figura 7f, se muestra tambien otro ejemplo de una disposicion microfono y altavoz adecuada para realizaciones de la invencion. En la figura 7f, se muestra un cable que puede o no puede conectarse directamente al dispositivo electronico. El cable 717 comprende un altavoz 729 y varios microfonos separados. Los microfonos estan dispuestos a lo largo de la longitud del cable para formar una serie de microfonos. Asi, un primer microfono 727 esta situado cerca del altavoz 729, el segundo microfono 725 esta situado tambien a lo largo del cable 717 desde el primer microfono 727. El tercer microfono 723 esta situado mas abajo del cable 717 desde el segundo microfono 725. El cuarto microfono 721 esta situado mas abajo del cable 717 desde el tercer microfono 723. El quinto microfono 719 esta situado mas abajo del cable 717 desde el cuarto microfono 721. La separation de los microfonos puede estar en una configuracion lineal o no lineal dependiendo de las realizaciones de la invencion. En tal disposicion, la senal "cercana" puede estar formada mezclando una combination de senales de audio recibidas por los microfonos mas cercanos a la boca del usuario 705. La senal de audio "lejana" puede generarse mezclando una combinacion de las senales de audio recibidas desde los microfonos mas lejanos a la boca del usuario 705. Como se ha descrito anteriormente en algunas realizaciones de la invencion, cada uno de los microfonos puede usarse para generar una senal de audio separada que despues se procesa como se describe con mas detalle a continuacion.
En estas realizaciones el experto en la materia apreciara que el numero real de microfonos no es importante. Asi, en las realizaciones de la invencion, puede usarse una multitud de microfonos en cualquier disposicion para registrar el campo de audio, y los metodos de procesamiento de senal pueden usarse para recuperar las senales "cercana" y "lejana":
En relacion con la figura 7g, se muestra otro ejemplo de disposicion de microfono y altavoz adecuada para las realizaciones de la invencion. En la figura 7g, se muestra un dispositivo Bluetooth conectado al oido preferente del usuario 705. El dispositivo Bluetooth 735 comprende un microfono 731 "cercano" situado proximo a la boca del usuario 705. El dispositivo Bluetooth 735 comprende ademas un microfono 733 "lejano" situado distante en relacion con el lugar del microfono 731 proximo (cercano).
Asi mismo en relacion con la figura 7h, se muestra un ejemplo de la disposicion microfono/altavoz adecuada para las realizaciones de la invencion. En la figura 7h, la configuration esta disenada para que el usuario 705 opere unos auriculares 751. Los auriculares comprenden unos auriculares en estereo biaurales con un primer altavoz 737 y un segundo altavoz 739. Los auriculares 751 se muestran ademas con un par de microfonos. El primer microfono 741, que se muestra en la figura 7h estando situado a 100 milimetros del altavoz 739 y un segundo microfono 743 situado a 200 milimetros del altavoz 739. En tal disposicion, el primer altavoz 737 y el segundo altavoz 739 pueden estar configurados de acuerdo con la disposicion de reproduction descrita en relacion con la figura 7d.
Asi mismo, la disposicion de microfono del primer microfono 741 y del segundo microfono 743 puede configurarse de manera que el primer microfono 741 este configurado para recibir o generar el componente de senal de audio "cercana" y el segundo microfono 743 este configurado para generar la senal de audio "lejana".
En la figura 2 se muestra la operation general de los codecs de audio como se emplea en las realizaciones de la invencion. Los sistemas de codificacion/descodificacion de audio generales consisten en un codificador y un descodificador, como se ilustra esquematicamente en la figura 2. Se ilustra un sistema 102 con un codificador 104, un almacenamiento o canal de medios 106 y un descodificador 108.
El codificador 104 comprime una senal 110 de audio de entrada que produce un flujo de bits 112 que, o bien se almacena, o se transmite a traves de un canal de medios 106. El flujo de bits 112 puede recibirse en el interior del descodificador 108. El descodificador 108 descomprime el flujo de bits 112 y produce una senal 114 de audio de salida. La velocidad de bits del flujo de bits 112 y la calidad de la senal 114 de audio de salida en relacion con la senal 110 de entrada son las caracteristicas principales que definen el rendimiento del sistema 102 de codification.
La figura 3 representa esquematicamente un codificador 104 de acuerdo con una realizacion a modo de ejemplo de la invencion.
5
10
15
20
25
30
35
40
45
50
55
60
65
El codificador 104 comprende un procesador de codec principal 301 que esta configurado para recibir la senal de audio "cercana", por ejemplo, como se muestra en la figura 3, la senal de audio del microfono 11a. El procesador de codec principal se dispone ademas para conectarse a un multiplexor 305 y a un procesador de capa de mejora 303.
El procesador de capa de mejora 303 esta configurado ademas para recibir la senal de audio "lejana", que en la figura 3 se muestra como la senal de audio recibida desde el microfono 11b. El procesador de capa de mejora esta configurado tambien para conectarse al multiplexor 305. El multiplexor 305 esta configurado para emitir el flujo de bits tal como el flujo de bits 112 mostrado en la figura 2.
La operacion de estos componentes se describe con mas detalle en relacion con el flujograma de la figura 4 que muestra la operacion del codificador 104.
El codificador 104 recibe las senales de audio "cercana" y "lejana". En una primera realizacion de la invention, las senales de audio "cercana" y "lejana" son senales muestreadas digitalmente. En otras realizaciones de la presente invencion las senales de audio "cercana" y "lejana" pueden ser una senal de audio analogica recibida desde los microfonos 11a y 11b que se convierten de analogicas a digitales (A/D). En otras realizaciones de la invencion las senales de audio se convierten desde una senal digital de modulation de pulsos codificados (PCM) a una senal digital de modulacion de amplitud (AM). La reception de las senales de audio desde los microfonos se muestra en la figura 4 con la etapa 401.
Como se ha mostrado anteriormente en algunas realizaciones de la invencion las senales de audio "cercana" y "lejana" pueden procesarse desde una serie de microfonos (que puede comprender mas de 2 microfonos). Las senales de audio recibidas desde la serie de microfonos, tal como la serie mostrada en la figura 7f, pueden generar las senales de audio "cercana" y "lejana" usando metodos de procesamiento de senal tales como formation de haces, mejora de la voz, seguimiento de fuente, supresion del ruido. Asi, en las realizaciones de la invencion la senal de audio "cercana" generada se selecciona y se determina de manera que contiene preferentemente senales de voz (claras) (dicho de otra forma, la senal de audio sin demasiado ruido) y la senal de audio "lejana" generada se selecciona y se determina de manera que contiene preferentemente los componentes de ruido ambiental junto con el propio eco de los altavoces del entorno circundante.
El procesador de codec principal 301 recibe la senal de audio "cercana" a codificar y emite los parametros de codification que representan la senal codificada de nivel principal. El procesador de codec principal 301 puede generar ademas para uso interno la senal de audio "cercana" sintetizada (dicho de otra forma, la senal de audio "cercana" se codifica en parametros y despues los parametros se descodifican usando los procesos reciprocos para producir una senal de audio "cercana" sintetizada).
El procesador de codec principal 301 puede usar cualquier tecnica de codificacion apropiada para generar la capa principal.
En una primera realizacion de la invencion, el procesador de codec principal 301 genera una capa principal usando un codec integrado de velocidad de bits variable (EB-VBR).
En otras realizaciones de la invencion el procesador de codec principal puede ser una codificacion de prediction lineal algebraica con excitation por codigo (ACELP, por sus siglas en ingles) y esta configurada para emitir un flujo de bits de parametros de ACELP tipicos.
Ha de entenderse que las realizaciones de la presente invencion podrian usar igualmente cualquier codec basado en audio o voz para representar la capa principal.
La generation de la senal codificada de capa principal se muestra en la figura 4 con la etapa 403. La senal codificada de capa principal pasa desde el procesador de codec principal 301 hasta el multiplexor 305.
El procesador de capa de mejora 303 recibe la senal de audio "lejana" y a partir de la senal de audio "lejana" genera las salidas de capa de mejora. En algunas realizaciones de la invencion, el procesador de capa de mejora realiza una codificacion similar en la senal de audio "lejana", igual que el procesador de codec principal 301 realiza en la senal de audio "cercana". En otras realizaciones de la invencion, la senal de audio "lejana" se codifica usando cualquier metodo de codificacion adecuado. Por ejemplo, la senal de audio "lejana" puede codificarse usando tales esquemas similares a los que se usan en la transmision discontinua (DTX, por sus siglas en ingles): donde el codec de generacion de ruido de confort (CNG, por sus siglas en ingles) se usa en capas de baja velocidad de bits, los metodos de codificacion residual de prediccion lineal algebraica con excitacion por codigo (ACELP) y de transformada discreta del coseno modificada (MDCT) pueden usarse para codificadores de capacidad de velocidad de bits media y alta. En algunas realizaciones de la invencion la cuantificacion de la senal "lejana" tambien puede elegirse especificamente para adaptarse al tipo de senal.
En algunas realizaciones de la invencion, el procesador de capa de mejora esta configurado para recibir la senal de audio "cercana" sintetizada y la senal de audio "lejana". En realizaciones de la invencion, el procesador de capa de
5
10
15
20
25
30
35
40
45
50
55
60
65
mejora 303 puede generar un flujo de bits codificado, tambien conocido como una capa de mejora que depende de la senal de audio "lejana" y de la senal de audio "cercana" sintetizada. Por ejemplo, en una realizacion de la invention, el procesador de capa de mejora sustrae la senal "cercana" sintetizada de la senal de audio "lejana" y despues codifica la senal de audio de diferencia, por ejemplo, realizando una conversion de dominio de tiempo a frecuencia y codificando la salida de dominio de frecuencia como la capa de mejora.
En otras realizaciones de la invencion, el procesador de capa de mejora 303 esta configurado para recibir la senal de audio "lejana", la senal de audio "cercana" sintetizada y la senal de audio "cercana" y generar un flujo de bits de capa de mejora que depende de una combination de las tres entradas.
Asi, en las realizaciones de la invencion, el aparato para codificar una senal de audio puede estar configurado para generar una primera capa de senal codificada escalable a partir de una primera senal de audio, generar una segunda capa de senal codificada escalable a partir de una segunda senal de audio, y combinar la primera y la segunda capas de senal codificada escalables para formar una tercera capa de senal codificada escalable.
En las realizaciones, el aparato puede estar configurado ademas para generar la primera senal de audio que comprende una parte mayor de los componentes de audio de una fuente de audio, y para generar la segunda senal de audio que comprende una parte menor de los componentes de audio de la fuente de audio.
En las realizaciones, el aparato puede estar configurado ademas para recibir la parte mayor de los componentes de audio de la fuente de audio desde al menos un microfono situado o dirigido hacia la fuente de audio, y recibir la parte menor de los componentes de audio de la fuente de audio desde al menos otro microfono situado o dirigido lejos de la fuente de audio.
Por ejemplo, en algunas realizaciones de la invencion, al menos una parte de la salida de flujo de bits de la capa de mejora se genera dependiendo de la senal de audio "cercana" sintetizada y de la senal de audio "cercana" y una parte de la salida de flujo de bits de la capa de mejora depende solo de la senal de audio "lejana". En esta realizacion, el procesador de capa de mejora 303 realiza un procesamiento de codec principal similar al de la senal de audio "lejana" para generar una capa codificada "lejana" similar a aquella producida por el procesador codec principal 301 en la senal de audio "cercana", pero para la parte de senal de audio "lejana".
En otras realizaciones de la invencion, la senal "cercana" sintetizada y la senal de audio "lejana" se transforman en el dominio de frecuencia y la diferencia entre las dos senales de dominio de frecuencia se codifica entonces para producir los datos de capa de mejora.
En las realizaciones de la invencion que usan banda de frecuencia que codifica el dominio de tiempo a frecuencia, la transformation puede realizarse con cualquier convertidor adecuado, tal como con transformada discreta del coseno (DCT, por sus siglas en ingles), transformada discreta de Fourier (DFT, por sus siglas en ingles), transformada rapida de Fourier (FFT, por sus siglas en ingles).
En algunas realizaciones de la invencion, pueden generarse las capas de mejora del codec de voz/audio UIT-T integrado de velocidad de bits variable (EV-VBR) y las capas de mejora del codec de video escalable UIT-T (SVC).
Otras realizaciones pueden incluir pero no estan limitadas a generar capas de mejora usando esquemas de codification de banda ancha de multivelocidad variable (VMR-WB, por sus siglas en ingles), UIT-T G.729, UIT-T G.729.1, UIT-T G.722.2, UIT G.722.1c, banda ancha de multivelocidad adaptativa (AMR-Wb, por sus siglas en ingles), y banda ancha+ de multivelocidad adaptativa (AMR-WB+, por sus siglas en ingles).
En otras realizaciones de la invencion, puede emplearse cualquier codec de capa adecuado para extraer la correlation entre la senal "cercana" sintetizada y la senal "lejana" para generar una senal de datos de capa de mejora codificada ventajosa.
La generation de la capa de mejora se muestra en la figura 4 con la etapa 405.
Los datos de capa de mejora pasan desde el procesador de capa de mejora 303 hasta el multiplexor 305.
El multiplexor 305 multiplexa entonces la capa principal recibida desde el procesador de codec principal 301 y la capa o capas de mejora del procesador de capa de mejora 303 para formar el flujo de bits 112 de senal codificada. En la figura 4, con la etapa 407, se muestra la multiplexion de las capas principal y de mejora para producir el flujo de bits.
Para ayudar tambien a entender la invencion, se muestra la operation del descodificador 108 respecto a las realizaciones de la invencion en relation con el descodificador esquematicamente mostrado en la figura 5 y el flujograma que muestra la operacion del descodificador en la figura 6.
El descodificador 108 comprende una entrada 502 desde la que puede recibirse el flujo de bits 112 codificado. La
5
10
15
20
25
30
35
40
45
50
55
60
65
entrada 502 esta conectada al receptor de bits/desmultiplexor 1401. El desmultiplexor 1401 esta configurado para decapar del flujo de bits 112 la(s) capa(s) principal y de mejora. Los datos de la capa principal se pasan desde el desmultiplexor 1401 hasta el procesador descodificador de codec principal 1043 y los datos de la capa de mejora se pasan desde el desmultiplexor 1401 hasta el procesador descodificador de capa de mejora 1405.
Asi mismo, el procesador descodificador de codec principal 1403 esta conectado al combinador y mezclador de senal de audio 1407 y al procesador descodificador de capa de mejora 1405.
El procesador descodificador de capa de mejora 1405 esta conectado al combinador y mezclador de senal de audio 1407. La salida del combinador y mezclador de senal de audio 1407 esta conectada a la senal 114 de audio de salida.
En la figura 6, con la etapa 501, se muestra la recepcion del flujo de bits codificado multiplexado.
En la figura 6, con la etapa 503, se muestra la descodificacion del flujo de bits y la separacion en datos de capa principal y datos de capa de mejora.
El procesador descodificador de codec principal 1403 realiza un proceso reciproco al procesador de codec principal 301 como se muestra en el codificador 104 para generar una senal de audio "cercana" sintetizada. Esto pasa desde el procesador descodificador de codec principal 1403 hasta el combinador y mezclador de senal de audio 1407.
Asi mismo en algunas realizaciones de la invencion la senal de audio "cercana" sintetizada pasa tambien hasta el procesador descodificador de capa de mejora 1405.
En la figura 6, con la etapa 505, se muestra la descodificacion de la capa principal para formar la sena de audio "cercana" sintetizada.
El procesador descodificador de capa de mejora 1405 recibe al menos las senales de capa de mejora desde el desmultiplexor 1401. Asi mismo, en algunas realizaciones de la invencion, el procesador descodificador de capa de mejora 1405 recibe la senal de audio "cercana" sintetizada desde el procesador descodificador de codec principal 1403. Asi mismo, en algunas realizaciones de la invencion, el procesador descodificador de capa de mejora 1405 recibe, tanto la senal de audio "cercana" sintetizada desde el procesador descodificador de codec principal 1403, como algunos parametros descodificados de la capa principal.
El procesador descodificador de capa de mejora 1405 realiza despues el proceso reciproco a aquella generada en el interior del procesador de capa de mejora 303 del codificador 104 para generar al menos la senal de audio "lejana".
En algunas realizaciones de la invencion, el procesador descodificador de capa de mejora 1405 puede tambien producir componentes de audio adicionales para la senal de audio "cercana". La produccion de la senal de audio "lejana" desde el descodificador de la capa de mejora (y en algunas realizaciones, la capa principal sintetizada) se muestra en la figura 6 con la etapa 507.
La senal de audio "lejana" del procesador descodificador de capa de mejora pasa hasta el combinador y mezclador de senal de audio 1407.
El combinador y mezclador de senal de audio 1407, al recibir la senal de audio "cercana" sintetizada y la senal de audio "lejana" descodificada produce entonces una combinacion combinada y/o seleccionada de las dos senales recibidas y emite una senal de audio mixta en la salida de senal de audio de salida.
En algunas realizaciones de la invencion, el combinador y mezclador de senal de audio recibe mas informacion, o bien desde el flujo de bits de entrada a traves del desmultiplexor 1401, o tiene conocimiento previo sobre la colocacion de los microfonos usados para generar las senales de audio "cercana" y "lejana" para procesar digitalmente las senales de audio "cercana" sintetizada y "lejana" descodificada respecto a la posicion de los altavoces o el lugar del auricular en el receptor para crear la combinacion de sonido correcta o ventajosa de las senales de audio "cercana" y "lejana".
En algunas realizaciones de la invencion el combinador y mezclador de senal de audio puede emitir solo la senal de audio "cercana". En tal realizacion, se producira la senal de audio similar a una codificacion/descodificacion mono heredada y por lo tanto producira resultados que seran retrocompatibles con las senales de audio presentes.
En algunas realizaciones de la invencion las senales "cercana" y "lejana" se descodifican desde el flujo de bits y una cantidad de la senal "lejana" se mezcla con la senal "cercana" para obtener un agradable sonido ambiental auditivo monoaural. En tal realizacion de la invencion, sera posible para el receptor ser consciente del entorno de la fuente de audio sin perturbar la comprension de la fuente de audio. Esto tambien permitira a la persona que lo recibe ajustar la cantidad de "entorno" para adaptarlo a sus preferencias.
5
10
15
20
25
30
35
40
45
50
55
60
65
El uso de las senales "cercana" y "lejana" produce una salida que es mas estable que el proceso biaural convencional y se ve menos afectado por el movimiento de la fuente de audio. Asi mismo, en realizaciones de la invention existe otra ventaja en la que no se requiere que el codificador este conectado a multiples microfonos para producir experiencias de audio agradables.
Asi, a partir de lo anterior esta claro que en las realizaciones de la invencion el aparato para descodificar una senal de audio codificada escalable esta configurado para dividir la senal de audio codificada escalable en al menos una primera senal de audio codificada escalable y una segunda senal de audio codificada escalable. El aparato esta configurado ademas para descodificar la primera senal de audio codificada escalable para generar una primera senal de audio. El aparato tambien esta configurado para descodificar la segunda senal de audio codificada escalable para generar una segunda senal de audio.
Asi mismo, en realizaciones de la invencion el aparato puede estar tambien configurado para emitir al menos la primera senal de audio a un primer altavoz.
Como se ha descrito anteriormente en algunas realizaciones el aparato puede estar configurado ademas para generar al menos una primera combination de la primera senal de audio y la segunda senal de audio y emitir la primera combinacion al primer altavoz.
El aparato puede estar configurado tambien en otras realizaciones para generar otra combinacion de la primera senal de audio y la segunda senal de audio y emitir la segunda combinacion a un segundo altavoz.
Ha de entenderse que aunque la presente invencion se ha descrito a modo de ejemplo en terminos de una capa principal y una unica capa de mejora, ha de entenderse que la presente invencion puede aplicarse a otras capas de mejora.
Las realizaciones de la invencion descritas anteriormente describen el codec en terminos de aparatos de codificadores 104 y descodificadores 108 separados para ayudar a entender los procesos implicados. Sin embargo, se apreciara que los aparatos, estructuras y operaciones pueden implementarse como un unico aparato/estructura/operacion codificador-descodificador. Ademas, en algunas realizaciones de la invencion, el codificador y descodificador pueden compartir algunos o todos los elementos comunes.
Como se ha mencionado anteriormente, aunque el proceso anterior describe una senal de audio codificada principal y una unica senal de audio codificada de capa de mejora, pueden aplicarse el mismo enfoque para sincronizar y dos flujos de medios que usen los mismos o similares protocolos de transmision de paquetes.
A pesar de que los ejemplos anteriores describen realizaciones de la invencion que operan en el interior de un codec que esta en el interior de un dispositivo electronico 610, se apreciara que la invencion, como se a continuation, puede implementarse como parte de cualquier codec de audio (o voz) de velocidad variable/velocidad adaptativa. Asi, por ejemplo, las realizaciones de la invencion pueden implementarse en un codec de audio que puede implementar la codification de audio sobre trayectorias de comunicacion fijas o cableadas.
Asi, el equipo de usuario puede comprender un codec de audio tal como aquellos descritos en las realizaciones de la invencion anteriores.
Deberia apreciarse que el termino equipo de usuario pretende cubrir cualquier tipo adecuado de equipo de usuario inalambrico, tal como telefonos moviles, dispositivos de procesamiento de datos portatiles o navegadores web portatiles.
Otros elementos de una red publica movil terrestre (PLMN, por sus siglas en ingles) pueden comprender tambien codecs de audio como se ha descrito anteriormente.
En general, las varias realizaciones de la invencion pueden implementarse en hardware o circuitos con fines especiales, software, logica o cualquier combinacion de los mismos. Por ejemplo, algunos aspectos pueden implementarse en el hardware, mientras que otros aspectos pueden implementarse en el firmware o software que pueden ejecutarse por un controlador, microprocesador u otro dispositivo informatico, a pesar de que la invencion no esta limitada a los mismos. Mientras que varios aspectos de la invencion pueden ilustrarse y describirse como diagramas de bloques, flujogramas, o usar cualquier otra representation pictografica, se entiende bien que estos bloques, aparatos, sistemas, tecnicas o metodos descritos en el presente documento pueden implementarse en, como ejemplos no limitantes, hardware, software, firmware, circuitos o logica con fines especiales, hardware o controladores con fines generales u otros dispositivos informaticos, o alguna combinacion de los mismos.
Por ejemplo, las realizaciones de la invencion pueden implementarse como un conjunto de chips, dicho de otra forma, una serie de circuitos integrados que se comunican entre si. El conjunto de chips puede comprender microprocesadores dispuestos para ejecutar codigo, circuitos integrados de aplicaciones especificas (ASIC, por sus siglas en ingles), o procesadores de senal digital programables para realizar las operaciones descritas
5
10
15
20
25
30
35
anteriormente.
Las realizaciones de la presente invencion pueden implementarse mediante software informatico ejecutable por un procesador de datos del dispositivo movil, tal como en la entidad del procesador, o mediante hardware, o mediante una combinacion de software y hardware. Tambien en este sentido deberia observarse que cualesquiera bloques del flujo logico como en las figuras pueden representar etapas de programa, o circuitos, bloques y funciones logicos interconectados, o una combinacion de etapas de programa y circuitos, bloques y funciones logicos.
La memoria puede ser de cualquier tipo adecuado al entorno tecnico local y puede implementarse usando cualquier tecnologia de almacenamiento de datos adecuada, tal como dispositivos de memoria basados en semiconductores, dispositivos y sistemas de memoria magnetica, dispositivos y sistemas de memoria optica, memoria fija y memoria extraible. Los procesadores de datos pueden ser de cualquier tipo adecuado al entorno tecnologico local, y pueden incluir uno o mas de los ordenadores con fines generales, ordenadores con fines especiales, microprocesadores, procesadores de senal digital (DSP, por sus siglas en ingles) y procesadores basados en arquitectura de procesador multinucleo, como ejemplos no limitantes.
Las realizaciones de la invencion se pueden ejercer en varios componentes tales como modulos de circuito integrado. El diseno de los circuitos integrados es por lo general un proceso altamente automatizado. Las herramientas de software complejas y potentes estan disponibles para convertir un diseno de nivel logico en un diseno de circuito semiconductor listo para grabarse y formarse en un sustrato semiconductor.
Los programas, tales como aquellos proporcionados por Synopsys, Inc. de Mountain View, California y por Cadence Design, de San Jose, California redirigen automaticamente los conductores y situan los componentes en un chip semiconductor usando reglas bien establecidas de diseno asi como bibliotecas de modulos de diseno prealmacenados. Una vez se ha completado el diseno para un circuito semiconductor, el diseno resultante, en formato electronico estandarizado (por ejemplo, Opus, GDSII, o similares) puede transmitirse a una instalacion de fabrication de semiconductores o "fab" para la fabrication.
La description antecedente ha proporcionado a modo de ejemplo y ejemplos no limitantes una description completa e informativa de la realization a modo de ejemplo de esta invencion. Sin embargo, pueden resultar evidentes varias modificaciones y adaptaciones para los expertos en las tecnicas relevantes en vista de la descripcion antecedente, cuando se lee junto con los dibujos que acompanan y las reivindicaciones adjuntas. Sin embargo, todas las modificaciones semejantes y similares de las ensenanzas de esta invencion seguiran estando dentro del alcance de esta invencion como se define en las reivindicaciones adjuntas.

Claims (18)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un aparato para codificar una senal de audio configurado para:
    recibir una parte mayor de componentes de audio de una fuente de audio desde al menos un microfono situado o dirigido hacia la fuente de audio;
    generar una primera senal de audio que comprende la parte mayor de los componentes de audio de la fuente de audio;
    recibir una parte menor de los componentes de audio de la fuente de audio desde al menos un microfono adicional situado o dirigido lejos de la fuente de audio; y
    generar una segunda senal de audio que comprende la parte menor de los componentes de audio de la fuente de audio.
  2. 2. El aparato de acuerdo con la reivindicacion 1, configurado ademas para:
    generar una primera capa de senal codificada escalable a partir de la primera senal de audio;
    generar una segunda capa de senal codificada escalable a partir de la segunda senal de audio; y
    combinar la primera y la segunda capas de senal codificadas escalables para formar una tercera capa de senal
    codificada escalable.
  3. 3. El aparato de acuerdo con cualquiera de las reivindicaciones 1 a 2, configurado ademas para generar la primera capa codificada escalable mediante al menos uno de:
    codificacion de audio avanzada, ACC (por sus siglas en ingles);
    MPEG-1 de capa 3, MP3;
    codificacion de linea base de codificacion de voz integrada de velocidad variable de la UIT-T, EV-VBR; codificacion de banda ancha de multivelocidad adaptativa, AMR-WB;
    UIT-T G.279.1 (G.722.1, G.722.1 C); y
    codificacion de banda ancha plus de multivelocidad adaptativa, AMR-WB+.
  4. 4. El aparato de acuerdo con cualquiera de las reivindicaciones 1 a 3, configurado ademas para generar la segunda capa codificada escalable mediante al menos uno de:
    codificacion de audio avanzada, ACC;
    MPEG-1 de capa 3, MP3;
    codificacion de linea base de codificacion de voz integrada de velocidad variable de la UIT-T, EV-VBR;
    codificacion de banda ancha de multivelocidad adaptativa, AMR-WB;
    codificacion de generacion de ruido de confort, CnG; y
    codificacion de banda ancha plus de multivelocidad adaptativa, AMR-WB+.
  5. 5. Un aparato para descodificar una senal de audio codificada escalable, configurado para:
    dividir la senal de audio codificada escalable en al menos una primera senal de audio codificada escalable y una segunda senal de audio codificada escalable;
    descodificar la primera senal de audio codificada escalable a partir de al menos un microfono situado o dirigido hacia una fuente de audio para generar una primera senal de audio que comprende una parte mayor de los componentes de audio de la fuente de audio; y
    descodificar la segunda senal de audio codificada escalable a partir de al menos un microfono adicional situado o dirigido lejos de la fuente de audio para generar una segunda senal de audio que comprende una parte menor de los componentes de audio de la fuente de audio.
  6. 6. El aparato de acuerdo con la reivindicacion 5, configurado ademas para:
    emitir al menos la primera senal de audio a un primer altavoz.
  7. 7. El aparato de acuerdo con cualquiera de las reivindicaciones 5 a 6, configurado ademas para generar al menos una primera combinacion de la primera senal de audio y de la segunda senal de audio y para emitir la primera combinacion al primer altavoz.
  8. 8. El aparato de acuerdo con la reivindicacion 7, configurado ademas para generar una combinacion adicional de la primera senal de audio y de la segunda senal de audio y para emitir la segunda combinacion a un segundo altavoz.
  9. 9. El aparato de acuerdo con cualquiera de las reivindicaciones 5 a 8, en donde al menos una de primera senal de audio codificada escalable y la segunda senal de audio codificada escalable comprende al menos uno de:
    codificacion de audio avanzada, ACC;
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    MPEG-1 de capa 3, MP3;
    codificacion de lmea base de codificacion de voz integrada de velocidad variable de la UIT-T, EV-VBR; codificacion de banda ancha de multivelocidad adaptativa, AMR-WB;
    UIT-T G.279.1 (G.722.1, G.722.1 C); codificacion de generacion de ruido de confort, CNG; y codificacion de banda ancha plus de multivelocidad adaptativa, AMR-WB+.
  10. 10. Un metodo para codificar una senal de audio, que comprende:
    recibir una parte mayor de los componentes de audio de una fuente de audio desde situado o dirigido hacia la fuente de audio;
    generar una primera senal de audio que comprende la parte mayor de los componentes audio;
    recibir una parte menor de los componentes de audio de la fuente de audio desde adicional situado o dirigido lejos de la fuente de audio; y generar una segunda senal de audio que comprende la parte menor de los componentes de audio de la fuente de audio.
  11. 11. El metodo de acuerdo con la reivindicacion 10, que comprende ademas:
    generar una primera capa de senal codificada escalable de la primera senal de audio;
    generar una segunda capa de senal codificada escalable de la segunda senal de audio; y
    combinar la primera y la segunda capas de senal codificada escalable para formar una tercera capa de senal
    codificada escalable.
  12. 12. El metodo de acuerdo con cualquiera de las reivindicaciones 10 a 11, comprendiendo ademas la generacion de la primera capa codificada escalable mediante al menos uno de:
    codificacion de audio avanzada, ACC;
    MPEG-1 de capa 3, MP3;
    codificacion de linea base de codificacion de voz integrada de velocidad variable de la UIT-T, EV-VBR; codificacion de banda ancha de multivelocidad adaptativa, AMR-WB;
    UIT-T G.729.1 (G.722.1, G.722.1 C); y
    codificacion de banda ancha plus de multivelocidad adaptativa, AMR-WB+.
  13. 13. El metodo de acuerdo con cualquiera de las reivindicaciones 10 a 12, comprendiendo ademas la generacion de la segunda capa codificada escalable mediante al menos uno de:
    codificacion de audio avanzada, ACC;
    MPEG-1 de capa 3, MP3;
    codificacion de linea base de codificacion de voz integrada de velocidad variable de la UIT-T, EV-VBR;
    codificacion de banda ancha de multivelocidad adaptativa, AMR-WB;
    codificacion de generacion de ruido de confort, CNG; y
    codificacion de banda ancha plus de multivelocidad adaptativa, AMR-WB+.
  14. 14. Un metodo para descodificar una senal de audio codificada escalable que comprende:
    dividir la senal de audio codificada escalable en al menos una primera senal de audio codificada escalable y una segunda senal de audio codificada escalable;
    descodificar la primera senal de audio codificada escalable de al menos un microfono situado o dirigido hacia una fuente de audio para generar una primera senal de audio que comprende una parte mayor de los componentes de audio de la fuente de audio; y
    descodificar la segunda senal de audio codificada escalable de al menos un microfono adicional situado o dirigido lejos de la fuente de audio para generar una segunda senal de audio que comprende una parte menor de los componentes de audio de una fuente de audio.
  15. 15. El metodo de acuerdo con la reivindicacion 14, que comprende ademas: emitir al menos la primera senal de audio a un primer altavoz.
  16. 16. El metodo de acuerdo con cualquiera de las reivindicaciones 14 a 15, comprendiendo ademas la generacion de al menos una primera combinacion de la primera senal de audio y de la segunda senal de audio y emitir la primera combinacion al primer altavoz.
  17. 17. El metodo de acuerdo con la reivindicacion 16, comprendiendo ademas la generacion de una combinacion adicional de la primera senal de audio y de la segunda senal de audio y emitir la segunda combinacion a un segundo
    al menos un microfono de audio de la fuente de al menos un microfono
    altavoz.
  18. 18. El metodo de acuerdo con cualquiera de las reivindicaciones 14 a 17, en donde al menos una de las senales de audio codificadas escalables primera y segunda comprende al menos uno de:
    codificacion de audio avanzada, ACC;
    MPEG-1 de capa 3, MP3;
    codificacion de linea base de codificacion de voz integrada de velocidad variable de la UIT-T, EV-VBR; codificacion de banda ancha de multivelocidad adaptativa, AMR-WB;
    10 UIT-T G.279.1 (G.722.1, G.722.1 C);
    codificacion de generacion de ruido de confort, CNG; y
    codificacion de banda ancha plus de multivelocidad adaptativa, AMR-WB+.
ES08750243.1T 2008-05-09 2008-05-09 Aparato de audio Active ES2613693T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2008/055776 WO2009135532A1 (en) 2008-05-09 2008-05-09 An apparatus

Publications (1)

Publication Number Publication Date
ES2613693T3 true ES2613693T3 (es) 2017-05-25

Family

ID=40090076

Family Applications (1)

Application Number Title Priority Date Filing Date
ES08750243.1T Active ES2613693T3 (es) 2008-05-09 2008-05-09 Aparato de audio

Country Status (9)

Country Link
US (1) US8930197B2 (es)
EP (1) EP2301017B1 (es)
KR (1) KR101414412B1 (es)
CN (1) CN102067210B (es)
CA (1) CA2721702C (es)
ES (1) ES2613693T3 (es)
PL (1) PL2301017T3 (es)
RU (1) RU2477532C2 (es)
WO (1) WO2009135532A1 (es)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150371643A1 (en) * 2012-04-18 2015-12-24 Nokia Corporation Stereo audio signal encoder
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US8804035B1 (en) * 2012-09-25 2014-08-12 The Directv Group, Inc. Method and system for communicating descriptive data in a television broadcast system
CA2895391C (en) * 2012-12-21 2019-08-06 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
US9338551B2 (en) * 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
TW201442482A (zh) * 2013-04-26 2014-11-01 Chi Mei Comm Systems Inc 語音留言系統及方法
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
CN106028208A (zh) * 2016-07-25 2016-10-12 北京塞宾科技有限公司 一种无线k歌麦克风耳机

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000030404A1 (en) * 1998-11-16 2000-05-25 The Board Of Trustees Of The University Of Illinois Binaural signal processing techniques
US6137887A (en) 1997-09-16 2000-10-24 Shure Incorporated Directional microphone system
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
KR101021079B1 (ko) * 2002-04-22 2011-03-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 다채널 오디오 표현
RU2325046C2 (ru) * 2002-07-16 2008-05-20 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
US7783061B2 (en) * 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
EP1939863A3 (en) 2003-10-10 2008-07-16 Agency for Science, Technology and Research Method for encoding a digital signal into a scalable bitstream; method for decoding a scalable bitstream
US7447630B2 (en) 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
US8340309B2 (en) * 2004-08-06 2012-12-25 Aliphcom, Inc. Noise suppressing multi-microphone headset
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
RU2387024C2 (ru) * 2004-11-05 2010-04-20 Панасоник Корпорэйшн Кодер, декодер, способ кодирования и способ декодирования
CN101151659B (zh) * 2005-03-30 2014-02-05 皇家飞利浦电子股份有限公司 多通道音频编码器、设备、方法及其解码器、设备和方法
US7991167B2 (en) * 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
WO2007043642A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
CA2639969C (en) * 2006-03-03 2012-06-19 Widex A/S Hearing aid and method of utilizing gain limitation in a hearing aid
US8306827B2 (en) * 2006-03-10 2012-11-06 Panasonic Corporation Coding device and coding method with high layer coding based on lower layer coding results
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
KR101313170B1 (ko) * 2006-09-12 2013-09-30 삼성전자주식회사 전화통화시 잡음을 제거하는 단말기 및 그 방법
US20080152006A1 (en) * 2006-12-22 2008-06-26 Qualcomm Incorporated Reference frame placement in the enhancement layer
KR100798623B1 (ko) * 2007-04-10 2008-01-28 에스케이 텔레콤주식회사 이동통신단말기에서의 음성 처리 장치 및 방법
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
JP4735640B2 (ja) * 2007-11-19 2011-07-27 ヤマハ株式会社 音声会議システム

Also Published As

Publication number Publication date
RU2010149667A (ru) 2012-06-20
CN102067210A (zh) 2011-05-18
KR20110002086A (ko) 2011-01-06
US20110093276A1 (en) 2011-04-21
CA2721702C (en) 2016-09-27
CA2721702A1 (en) 2009-11-12
CN102067210B (zh) 2013-05-15
WO2009135532A1 (en) 2009-11-12
PL2301017T3 (pl) 2017-05-31
US8930197B2 (en) 2015-01-06
RU2477532C2 (ru) 2013-03-10
KR101414412B1 (ko) 2014-07-01
EP2301017A1 (en) 2011-03-30
EP2301017B1 (en) 2016-12-21

Similar Documents

Publication Publication Date Title
ES2613693T3 (es) Aparato de audio
ES2248570T3 (es) Codificacion estereofonica prametrica eficaz y ampliable para aplicaciones de baja velocidad de transferencia de bits.
EP2038880B1 (en) Dynamic decoding of binaural audio signals
ES2453074T3 (es) Aparato y procedimiento para generar señales de salida de audio mediante el uso de metadatos basados en objetos
JP4418493B2 (ja) パラメトリックマルチチャネル符号化システムにおけるチャネルの周波数ベースの符号化
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
JP4838361B2 (ja) オーディオ信号のデコーディング方法及びその装置
US20150371643A1 (en) Stereo audio signal encoder
WO2010090019A1 (ja) 結合装置、遠隔通信システム及び結合方法
JP5713296B2 (ja) 信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置および方法
AU2021317755B2 (en) Apparatus, method and computer program for encoding an audio signal or for decoding an encoded audio scene
JP2013137563A (ja) ストリーム合成装置、復号装置、ストリーム合成方法、復号方法、およびコンピュータプログラム
ES2882904T3 (es) Predicción entre canales en el dominio del tiempo
WO2021023505A1 (en) Masa with embedded near-far stereo for mobile devices
CN115580822A (zh) 空间音频捕获、传输和再现
WO2020152394A1 (en) Audio representation and associated rendering
Herre et al. Perceptual audio coding
JP5483813B2 (ja) マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法