ES2592217T3 - Un aparato y método para convertir una primera señal de audio paramétrico espacial en una segunda señal de audio paramétrico espacial - Google Patents

Un aparato y método para convertir una primera señal de audio paramétrico espacial en una segunda señal de audio paramétrico espacial Download PDF

Info

Publication number
ES2592217T3
ES2592217T3 ES10796353.0T ES10796353T ES2592217T3 ES 2592217 T3 ES2592217 T3 ES 2592217T3 ES 10796353 T ES10796353 T ES 10796353T ES 2592217 T3 ES2592217 T3 ES 2592217T3
Authority
ES
Spain
Prior art keywords
parameter
audio signal
spatial audio
directional
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10796353.0T
Other languages
English (en)
Inventor
Richard Schultz-Amling
Fabian KÜCH
Markus Kallinger
Giovanni Del Galdo
Oliver Thiergart
Dirk Mahne
Achim Kuntz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2592217T3 publication Critical patent/ES2592217T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Abstract

Aparato (300) para convertir una primera señal de audio espacial paramétrico (112, 114) que representa una primera posición de escucha o una primera orientación de escucha en una escena de audio espacial en una segunda señal de audio espacial paramétrico (212, 214) que representa una segunda posición de escucha o una segunda orientación de escucha, comprendiendo el aparato: una unidad de modificación de señales de audio espacial (301, 302) adaptada para modificar al menos una de la señal de mezcla descendente (112) de la primera señal de audio espacial paramétrico (112, 114), el parámetro de dirección de llegada (114a) de la primera señal de audio espacial paramétrico y el parámetro de difusividad (114b) de la primera señal de audio espacial paramétrico dependiendo de un cambio de la primera posición de escucha o la primera orientación de escucha para obtener la segunda señal de audio espacial paramétrico (212, 214), en el que la segunda posición de escucha o la segunda orientación de escucha corresponde a la primera posición de escucha o la primera orientación de escucha modificada por el cambio, en el que la unidad de modificación de señales de audio espacial (301, 302) comprende: una unidad de modificación de parámetros (301, 301a) adaptada para modificar un primer parámetro direccional (114a) de la primera señal de audio espacial paramétrico (112, 114) para obtener un segundo parámetro direccional (214a) de la segunda señal de audio espacial paramétrico (212, 214) dependiendo de una señal de control (402) que proporciona información que corresponde al cambio; y en el que la unidad de modificación de parámetros (301, 310b) está adaptada para modificar un primer parámetro de difusividad (114b) de la primera señal de audio espacial paramétrico para obtener un segundo parámetro de difusividad (214b) de la segunda señal de audio espacial paramétrico dependiendo del primer parámetro direccional (114a) o dependiendo del segundo parámetro direccional (214a).

Description

5
10
15
20
25
30
35
40
45
50
55
60
Un aparato y metodo para convertir una primera senal de audio parametrico espacial en una segunda senal de audio
parametrico espacial
DESCRIPCION
La presente invencion se refiere al campo del procesamiento de audio, especialmente al campo del procesamiento de audio espacial parametrico y para la conversion de una primera senal de audio parametrico espacial en una segunda senal de audio parametrico espacial.
Antecedentes de la invencion
La grabacion de sonido espacial tiene por objeto capturar un campo de sonido con multiples microfonos de tal manera que, en el lado de la reproduccion, un oyente perciba la imagen de sonido, tal como estuviera presente en el sitio de la grabacion. Los enfoques normales para la grabacion de sonido espacial utilizan microfonos estereo sencillos o combinaciones mas sofisticadas de microfonos direccionales, por ejemplo, tal como los microfonos de formato B empleados en Ambisonics y descritos por M.A. Gerzon, “Periphony: Width-Height Sound Reproduction,” J. Aud. Eng. Soc., Vol. 21, N.° 1, pags. 2-10, 1973, al que en adelante se hace referencia como [Ambisonics]. Habitualmente, se hace referencia a estos metodos como tecnicas de microfonos coincidentes.
Como alternativa, se pueden aplicar metodos basados en una representacion parametrica de campos de sonido, que se denominan como codificadores parametricos de audio parametrico espacial. Estos metodos determinan una senal de audio de mezcla descendente junto con la correspondiente informacion secundaria espacial, que son relevantes para la percepcion del sonido espacial. Son ejemplos de esto la Codificacion de Audio Direccional (DirAC) como se analiza en Pulkki, V., “Directional audio coding in spatial sound reproduction and stereo upmixing”, en Proceedings of The AES 28th International Conference, pags. 251-258, Pitea, Suecia, 30 de junio - 2 de julio de 2006, al que en adelante se hace referencia como [DirAC], o el enfoque de los denominados microfonos de audio espacial (SAM) propuesta por Faller, C., “Microphone Front-Ends for Spatial Audio Coders”, en Proceedings of the AES 125" International Convention, San Francisco, octubre de 2008, al que en adelante se hace referencia como [SAM]. La informacion de los indicios espaciales basicamente consiste en la direccion de llegada (DOA) del sonido y la difusividad del campo de sonido en subbandas de frecuencia. En una etapa de smtesis, se determinan las senales de altavoz deseadas para la reproduccion basandose en la senal de mezcla descendente y la informacion parametrica secundaria.
En otras palabras, las senales de mezcla descendente y la correspondiente informacion espacial secundaria representan la escena de audio de acuerdo con la configuracion, por ejemplo, la orientacion y/o posicion de los microfonos, en relacion con las diferentes fuentes de audio utilizadas en el momento que se grabo la escena de audio.
El documento US 2008/0298597 A1 describe metodos, medios legibles por ordenador y aparatos para un procesamiento digital de senales acusticas para crear una reproduccion de un entorno de sonido espacial natural o uno artificial. Una realizacion soporta procesamiento de audio espacial tal como extrayendo un canal central en sonido estereo de mezcla ascendente para una configuracion de altavoz multi-canal o virtualizacion de auriculares. Una realizacion soporta escucha direccional en la que las fuentes de sonido en una direccion deseada pueden amplificarse o atenuarse. Se determinan los parametros de direccion y difusividad para regiones de canales de entrada y se extrae un canal extrafdo a partir de los canales de entrada de acuerdo con los parametros de direccion y difusividad. Los estimadores estimados para cada componente de senal que se alimentan en el canal extrafdo y un canal extrafdo se sintetizan a partir de una senal de base y la estimacion de la ganancia. Los canales de entrada se subdividen en una pluralidad de regiones de tiempo-frecuencia.
El documento EP 1 589 754 A1 describe un aparato de procesamiento de informacion, un aparato de adquisicion de imagenes, un metodo de procesamiento de informacion y un programa. El aparato de procesamiento de informacion tiene una funcion para procesar senales de audio de diversos canales asociadas con una senal de video. El aparato de procesamiento de informacion incluye una unidad de conversion de audio para generar una pluralidad de senales de audio convirtiendo los niveles de la senal de audio de diversos canales de acuerdo con un parametro de ajuste definido dependiendo de la informacion de las condiciones de captura de imagenes con respecto a la senal de video.
El documento EP 1 473 971 A2 describe un controlador de campo de sonido. El controlador de campo de sonido incluye una pluralidad de canales de salida para suministrar respectivamente senales a una pluralidad de altavoces. El controlador de campo de sonido incluye una unidad de emision de coeficiente de ponderacion que emite coeficientes de ponderacion para determinar como se han de distribuir las senales en la pluralidad de canales para reproducir un campo de sonido a los canales de salida, de acuerdo con una relacion posicional relativa entre el campo de sonido y un oyente. El controlador de campo de sonido comprende tambien una unidad de entrada que
5
10
15
20
25
30
35
40
45
50
55
60
introduce datos de relacion posicional que indican la relacion posicional relativa. El controlador de campo de sonido comprende un controlador de distribucion que distribuye las senales en la pluralidad de canales a los canales de salida basandose en los coeficientes de ponderacion emitidos de acuerdo con los datos de relacion posicional introducidos.
El artfculo “Spatial Sound Reproduction with Directional Audio Coding” de Ville Pulkki (publicado en el Journal of the Audio Engineering Society, volumen 55, n.° 6, junio de 2007) describe codificacion de audio direccional. La codificacion de audio direccional es un metodo para representacion de sonido espacial, aplicable para diferentes sistemas de reproduccion de sonido. En una parte de analisis, se estiman la difusividad y direccion de llegada del sonido en una unica localizacion dependiendo del tiempo y frecuencia. En una parte de smtesis, las senales de microfono se dividen en primer lugar en partes no difusa y difusa, y a continuacion se reproducen usando diferentes estrategias. La codificacion de audio direccional se desarrolla a partir de una tecnologfa existente para reproduccion de respuesta de impulso, representacion de respuesta de impulso espacial. Se describen implementaciones de codificacion de audio direccional para diferentes aplicaciones.
El artfculo “Virtual Sound Source Positioning Using Vector Base Amplitude Panning” de Ville Pulkki (publicado en el Audio Engineering Society, volumen 45, n.° 6, junio de 1997) describe una reformulacion basada en vector de panoramica de amplitud que conduce a ecuaciones sencillas y computacionalmente eficaces para colocacion de fuente de sonido virtual. Usando este metodo, es posible crear campos de sonido bi- o tridimensionales donde puede colocarse cualquier numero de altavoces arbitrariamente. El metodo produce fuentes de sonido virtuales que son tan agudas como sea posible con la configuracion de altavoz actual y metodos de panoramica de amplitud. Se describe una herramienta digital que implementa panoramica de amplitud de base de vector bi- y tridimensional con ocho entradas y salidas.
Un objetivo de la presente invencion es dar a conocer un concepto para una adaptacion flexible de la escena de audio grabada.
Sumario de la invencion
Este objetivo se resuelve mediante aparatos de acuerdo con las reivindicaciones 1 y 18, metodos de acuerdo con las reivindicaciones 15 y 16 y un programa de computacion de acuerdo con la reivindicacion 17. Se incluye tambien una reivindicacion 14 del sistema.
Todos los metodos antes mencionados tienen en comun que tienen por objeto representar el campo de sonido en el lado de la reproduccion, como si se percibiera en la posicion de la grabacion. La posicion de grabacion, es decir la posicion de los microfonos, tambien se puede denominar como la posicion de escucha de referencia. No se contempla una modificacion de la escena de audio grabada en estos metodos conocidos de captura de sonido espacial.
Por otro lado, se aplica comunmente la modificacion de la imagen visual, por ejemplo en el contexto de la captura de video. Por ejemplo, en las camaras de video se usa un zoom optico para modificar la posicion virtual de la camara, dando asf la impresion de que la imagen fue tomada desde un punto de vista diferente. Esto se describe mediante una traslacion de la posicion de la camara. Otra sencilla modificacion de la imagen es la rotacion horizontal o vertical de la camara alrededor de su propio eje. Tambien se hace referencia a la rotacion vertical como panoramica o inclinacion.
Las realizaciones de la presente invencion proporcionan aparatos y un metodos, que tambien permiten cambiar virtualmente la posicion y/u orientacion de escucha de acuerdo con el movimiento visual. En otras palabras, la invencion permite alterar la imagen acustica que percibe un oyente durante la reproduccion, de manera que corresponda a la grabacion obtenida utilizando una configuracion de microfonos ubicada en una posicion y/u orientacion virtual diferente de la posicion ffsica real de los microfonos. Al hacerlo asf, la imagen acustica grabada se puede alinear con la correspondiente imagen de video modificada. Por ejemplo, se puede aplicar el efecto de un zoom de video a una determinada area de una imagen a la imagen de audio espacial grabada de manera constante. De acuerdo con la invencion, esto se logra satisfactoriamente modificando los parametros de indicios espaciales y/o la senal de mezcla descendente en el dominio parametrico del codificador de audio espacial.
Las realizaciones de la presente invencion permiten cambiar con flexibilidad la posicion y/u orientacion de un oyente dentro de una escena de audio espacial dada sin tener que grabar la escena de audio espacial con una configuracion diferente de los microfonos, por ejemplo, una posicion y/u orientacion diferente de la configuracion de microfonos de grabacion con respecto a las fuentes de las senales de audio. En otras palabras, las realizaciones de la presente invencion permiten definir una posicion de escucha virtual y/o una orientacion de escucha virtual que es diferente de la posicion de grabacion o la posicion de escucha en el momento que se grabo la escena de audio espacial.
5
10
15
20
25
30
35
40
45
50
55
60
Ciertas realizaciones de la presente invencion solo utilizan una o varias senales de mezcla descendente y/o la informacion secundaria espacial, por ejemplo, la direccion de llegada y la difusividad para adaptar las senales de mezcla descendente y/o la informacion secundaria espacial para reflejar la posicion y/u orientacion de escucha modificada. En otras palabras, estas realizaciones no requieren ninguna informacion de configuracion adicional, por ejemplo, informacion geometrica de las diferentes fuentes de audio con respecto a la posicion de grabacion original.
Las realizaciones de la presente invencion reciben ademas senales de audio espacial parametrico de acuerdo con un determinado formato de audio espacial, por ejemplo, senales mono o estereo de mezcla descendente con direccion de llegada y difusividad como informacion secundaria espacial y convierten estos datos de acuerdo con senales de control, por ejemplo, senales de control de zoom o rotacion y producen como salida los datos modificados o convertidos en el mismo formato de audio espacial, es decir, en forma de senal de mezcla descendente mono o estereo con la direccion de llegada y parametros de difusividad asociados.
En una realizacion espedfica, las realizaciones de la presente invencion se acoplan a una camara de video u otras fuentes de video y modifican los datos de audio espacial recibidos u originales en los datos de audio espacial modificados de acuerdo con las senales de control de zoom o control de rotacion proporcionadas por la camara de video para sincronizar, por ejemplo, la experiencia de audio con la experiencia de video y, por ejemplo, para efectuar un zoom acustico en el caso de realizarse un zoom de video y/o realizar una rotacion de audio dentro de la escena de audio en caso de que la camara de video se gire y los microfonos no giren ffsicamente con la camara debido a que no estan montados en la camara.
Breve descripcion de las figuras
Las realizaciones de la presente invencion se describiran en detalle utilizando las siguientes Figuras.
La Figura 1 La Figura 2
La Figura 3A
La Figura 3B
La Figura 4 La Figura 5A
ilustra un diagrama de bloques de un codificador de audio espacial parametrico;
ilustra el codificador de audio espacial de la Figura 1 junto con una realizacion del bloque de modificaciones de parametros espaciales acoplado entre la unidad de analisis de audio espacial y la unidad de smtesis de audio espacial del codificador de audio espacial;
corresponde a la Figura 2 e ilustra una realizacion mas detallada del bloque de modificaciones de parametros espaciales;
corresponde a la Figura 2 e ilustra una realizacion mas detallada del bloque de modificaciones de parametros espaciales;
ilustra una vista general geometrica ilustrativa de un zoom acustico;
ilustra un ejemplo de funcion de mapeo direccional fp(k,n,q>,d) para el mapeo de direccion de llegada (DOA);
La Figura 5B La Figura 6
La Figura 7
ilustra un ejemplo de funcion de mapeo de difusividad fd(k,n,q>,d) para el mapeo de difusividad;
ilustra diferentes ventanas de ganancia correspondientes al filtro de ponderacion Hi(k,n,<p,d) del componente de sonido directo dependiendo de un factor de zoom; y
ilustra una ventana subcardioide para el filtro de ponderacion H2(k,n,y,d) para el componente difuso.
Los elementos iguales o equivalentes con funcionalidad igual o equivalente estan indicados en la siguiente descripcion de las Figuras por numeros de referencia iguales o equivalentes.
Descripcion detallada de la invencion
Para una mejor comprension de las realizaciones de la presente invencion, se describe un codificador de audio espacial tfpico. La tarea de un codificador de audio espacial parametrico tfpico es reproducir la impresion espacial que estaba presente en el lugar donde se realizara la grabacion. Por lo tanto, un codificador de audio espacial consiste en una parte de analisis 100 y una parte de smtesis 200, como se ilustra en la Figura 1. En el extremo del frente acustico, hay N microfonos 102 dispuestos para obtener N senales de entrada de microfono que se procesan por la unidad de analisis de audio espacial 100 para producir L senales de mezcla descendente 112 con L < N junto con la informacion espacial secundaria 114. En el decodificador, es decir en la unidad de smtesis de audio espacial, se utiliza la senal de mezcla descendente 112 y la informacion espacial secundaria 114 para calcular M canales de altavoz para M altavoces 202, que reproducen el campo de sonido grabado con la impresion espacial original. Las
5
10
15
20
25
30
35
40
45
50
55
60
lmeas gruesas (las lmeas entre los microfonos 102 y la unidad de analisis de audio espacial 100, las L senales de mezcla descendente 112 y las lmeas de senal M entre la unidad de smtesis de audio espacial 200 y los M altavoces 202) simbolizan los datos de audio, mientras que las lmeas finas 114 entre la unidad de analisis de audio espacial 100 y la unidad de smtesis de audio espacial 200 representan la informacion espacial secundaria.
A continuacion, se describen en forma mas detallada los pasos basicos incluidos en el calculo de los parametros espaciales o, en otras palabras, para el analisis de audio espacial realizado por la unidad de analisis de audio espacial 100. Las senales de microfono se procesan en una representacion adecuada de tiempo/frecuencia, por ejemplo, aplicando una Transformada de Fourier de tiempo reducido (STFT) o cualquier otro banco de filtros. La informacion espacial secundaria determinada en la etapa de analisis contiene una medida que corresponde a la direccion de llegada (DOA) del sonido y una medida de la difusividad del campo de sonido, que describe la relacion entre el sonido directo y difuso del campo de sonido analizado.
En DirAC, se ha propuesto determinar la DOA del sonido como direccion opuesta del vector de intensidad activo. La informacion acustica relevante se deriva de una entrada del denominado microfono de formato B, que corresponde a la presion de sonido y la velocidad obtenida por la configuracion de microfonos que produce un patron de captacion dipolo, que estan alineados con los ejes del sistema de coordenadas cartesianas. En otras palabras, el formato B consiste en cuatro senales, es decir w(t), x(t), y(t) y z(t). La primera corresponde a la presion medida por un microfono omnidireccional, mientras que las ultimas tres son senales de los microfonos que tienen patrones de captacion de figura en ocho dirigidos hacia los tres ejes de un sistema de coordenadas cartesianas. Las senales x(t), y(t) y z(t) son proporcionales a los componentes de los vectores de velocidad de partmulas dirigidos hacia x, y y z, respectivamente. Por otro lado, el enfoque presentado en SAM utiliza un conocimiento previo del patron de direccionalidad de los microfonos estereo para determinar la DOA del sonido.
Se puede obtener la medida de la difusividad relacionando la intensidad activa del sonido con la energfa total del campo de sonido como se propone en DirAC. Por otro lado, el metodo como se describe en SAM propone la evaluacion de la coherencia entre diferentes senales de microfono. Se debe tener en cuenta que la difusividad tambien se podna considerar una medida general de la fiabilidad de la DOA estimada. Sin perdida de generalidad, a continuacion se supone que la difusividad radica en el rango de [1, 0], donde un valor de 1 indica un campo de sonido puramente difuso y un valor de 0 corresponde al caso en que solo esta presente el sonido directo. En otras realizaciones, se pueden utilizar otros rangos y valores para la difusividad.
La senal de mezcla descendente 112, que va acompanada por la informacion secundaria 114, se calcula a partir de las senales de entrada de microfono. Puede ser mono o incluir multiples canales de audio. En el caso de DirAC, por lo general se considera solo una senal mono, que corresponde a la presion del sonido, obtenido por un microfono omnidireccional. En el caso del enfoque SAM, se utiliza una senal estereo de dos canales como senal de mezcla descendente.
A continuacion, se describe en forma mas detallada la smtesis de las senales de altavoz empleadas para la reproduccion efectuada por la unidad de smtesis de audio espacial 200. La entrada de la smtesis 200 es la senal de mezcla descendente 112 y los parametros espaciales 114 en su representacion de tiempo-frecuencia. A partir de estos datos, se calculan M canales de altavoces de tal manera que la imagen de audio espacial o la impresion de audio espacial se reproduzca correctamente. Siendo Y, (k,n), donde i = 1... M, denota la senal del canal de altavoz ffsico i-esimo en la representacion de tiempo/frecuencia con los indices de tiempo y frecuencia k y n, respectivamente. El modelo de senal subyacente para la smtesis se proporciona por
Y (k, n) = gt (k, n)S(k, n) + {#(k, n)} , (1)
donde S(k,n) corresponde al componente de sonido directo y N(k,n) representa el componente de sonido difuso. Observese que para la reproduccion correcta del sonido difuso, se aplica una operacion de descorrelacion Di{ } al componente difuso de cada canal de altavoz. El factor de escala g(k,n) depende de la DOA del sonido directo incluido en la informacion secundaria y de la configuracion de altavoces empleados para la reproduccion. Una eleccion adecuada se proporciona por el enfoque de panoramica en amplitud base por vectores propuesta por Pulkki, V., “Virtual sound source positioning using vector base amplitude panning”, J. Audio Eng. Soc., Vol. 45, pags. 456-466, junio de 1997, a la que en lo sucesivo se hace referencia como [VBAP].
En DirAC, el componente de sonido directo se determina mediante la escala apropiada de la senal de mezcla descendente mono W(k,n), y se obtiene de acuerdo con:
S (k, n) = W (k, n)y] 1 - Y(k, n)
(2)
5
10
15
20
25
30
35
40
45
50
55
60
El componente de sonido difuso se obtiene de acuerdo con N(k, n)= -^= W(k, n) • V^iM)
donde M es el numero de altavoces utilizado.
En SAM, se aplica el mismo modelo de senal que en (1), aunque en su lugar se calculan los componentes de sonido directo y difuso basandose en las senales de mezcla descendente estereo.
La Figura 2 ilustra un diagrama de bloques de una realizacion de la presente invencion integrada en el entorno ejemplar de la Figura 1, es decir, integrado entre una unidad de analisis espacial 100 y una unidad de smtesis de audio espacial 200. Como se explica basandose en la Figura 1, se graba la escena de audio original con una configuracion de microfonos de grabacion espedfica que especifica la ubicacion y orientacion (en el caso de los microfonos direccionales) con respecto a las diferentes fuentes de sonido de audio. Los N microfonos producen N senales de microfonos ffsicos o senales de canales, que se procesan por la unidad de analisis de audio espacial 100 para generar una o varias senales de mezcla descendente W 112 y la informacion espacial secundaria 114, por ejemplo, la direccion de llegada (DOA) 9 114a y la difusividad y 114b. A diferencia de la Figura 1, estas senales de audio espacial 112, 114a, 114b no se proporcionan directamente a la unidad de smtesis de audio espacial 200, sino que se modifican por un aparato para convertir o modificar una primera senal de audio espacial parametrico 112, 114a, 114b que representa una primera posicion de escucha y/o una primera orientacion de escucha (en este ejemplo, la posicion de grabacion y la orientacion de grabacion) en una escena de audio espacial en una segunda senal de audio espacial parametrico 212, 214a, 214b, es decir una senal de mezcla descendente modificada Wmod 212, una senal de direccion de llegada modificada ^mod 214a y/o una senal de difusividad modificada ymod 214b que representa una segunda posicion de escucha y/o una segunda orientacion de escucha que es diferente de la primera posicion de escucha y/o la primera orientacion de escucha. Tambien se hace referencia a direccion de llegada modificada 214a y la difusividad modificada 214b como informacion de audio espacial modificada 214. Tambien se hace referencia al aparato 300 como una unidad de modificacion de audio espacial o bloque de modificaciones de senal de audio 300. El aparato 300 de la Figura 3A esta adaptado para modificar la primera senal de audio espacial parametrico 112, 114 dependiendo de la senal de control d 402 proporcionada por, por ejemplo, una unidad de control externa 400. La senal de control 402 puede ser, por ejemplo una senal de control de zoom que define o es un factor de zoom d o un parametro de zoom d, o una senal de control de rotacion 402 proporcionada por una unidad de control de zoom y/o de control de rotacion 400 de una camara de video. Se debe tener en cuenta que un zoom en una determinada direccion y una traslacion en la misma direccion son solo dos maneras diferentes de describir un movimiento virtual en esa direccion determinada (el zoom por un factor de zoom, la traslacion por una distancia absoluta o por una distancia relativa con respecto a una distancia de referencia). Por lo tanto, las explicaciones presentadas en el presente documento con respecto a una senal de control de zoom se aplican, en correspondencia, a las senales de control de traslacion y viceversa, y la senal de control de zoom 402 tambien se refiere a una senal de control de traslacion. El termino d puede representar, por un lado, la propia senal de control 402, y por el otro, la informacion o parametro de control contenido en la senal de control. En otras realizaciones, el parametro de control d ya representa la senal de control 402. El parametro de control o la informacion de control d puede ser una distancia, un factor de zoom y/o un angulo de rotacion y/o una direccion de rotacion.
Como se puede apreciar en la Figura 2, el aparato 300 esta adaptado para producir senales de audio espacial parametrico 212, 214 (senales de mezcla descendente y la informacion secundaria/parametros asociados) en el mismo formato que se recibieron las senales de audio espacial parametrico 112, 114. Por lo tanto, la unidad de smtesis de audio espacial 200 tiene la capacidad (sin modificaciones) de procesar la senal de audio espacial modificada 212, 214 de la misma manera que la senal de audio espacial original o grabada 112, 114 y de convertirlas a M senales de altavoces ffsicos 204 para generar la experiencia de sonido en la escena de audio espacial modificada o, en otras palabras, en la posicion de escucha modificada y/o la orientacion de escucha modificada dentro de la escena de audio espacial de otro modo inalterada.
En otras palabras, en la Figura 2 se ilustra un diagrama esquematico de bloques de una realizacion del aparato o metodo novedosos. Como se puede apreciar, la salida 112, 114 del codificador de audio espacial 100 se modifica basandose en la informacion de control externo 402 para obtener una representacion de audio espacial 212, 214 que corresponde a una posicion de escucha, que es diferente de la utilizada en la ubicacion original utilizada para la captura del sonido. Mas precisamente, tanto las senales de mezcla descendente 112 como la informacion espacial secundaria 114 se modifican de manera apropiada. La estrategia de modificacion esta determinada por un control externo 400, que puede adquirirse directamente de una camara 400 o de cualquier otra interfaz del usuario 400 que ofrezca informacion acerca de la posicion real de la camara o zoom. En esta realizacion, la tarea del algoritmo, respectivamente de la unidad de modificacion 300 es cambiar la impresion espacial de la escena de sonido de la
5
10
15
20
25
30
35
40
45
50
55
misma manera que el zoom optico o la rotacion de la camara cambia el punto de vista del espectador. En otras palabras, la unidad de modificacion 300 esta adaptada para producir un zoom acustico o experiencia de rotacion de audio correspondiente al zoom de video o rotacion de video.
La Figura 3A ilustra un diagrama de bloques o vista general del sistema de una realizacion del aparato 300 al que se hace referencia como “unidad de zoom acustico”. La realizacion del aparato 300 de la Figura 3A comprende una unidad de modificacion de parametros 301 y una unidad de modificacion de mezcla descendente 302. La unidad de modificacion de parametros 301 comprende ademas una unidad de modificacion de direccion de llegada 301a y una unidad de modificacion de difusividad 301b. La unidad de modificacion de parametros 301 esta adaptada para recibir el parametro de direccion de llegada 114a y modificar el primer parametro de direccion de llegada o recibido 114a dependiendo de la senal de control d 402 para obtener el segundo parametro de direccion de llegada o modificado 214a. La unidad de modificacion de parametros 301 tambien esta adaptada para recibir el primer parametro de difusividad (u original) 114b y para modificar el parametro de difusividad 114b mediante la unidad de modificacion de difusividad 301b para obtener el segundo parametro de difusividad o modificado 214b dependiendo de la senal de control 402. La unidad de modificacion de mezcla descendente 302 esta adaptada para recibir la una o mas senales de mezcla descendente 112 y modificar la primera senal de mezcla descendente u original 112 para obtener la segunda senal de mezcla descendente o modificada 212 dependiendo del primer parametro de direccion de llegada u original 114a, el primer parametro de difusividad u original 114b y/o la senal de control 402.
Si se controla la camara independientemente de los microfonos 102, las realizaciones de la invencion ofrecen la posibilidad de sincronizar el cambio de la escena de audio o la percepcion de audio de acuerdo con los controles de la camara 402. Ademas, se pueden desplazar las direcciones sin modificar las senales de mezcla descendente 112 si solo se hace girar la camara 400 horizontalmente sin zoom, es decir aplicando solo una senal de control de rotacion y no una senal de control de zoom 402. Esto esta descrito por el “controlador de rotacion” en las Figuras 2 y 3.
La modificacion de rotacion se describe en forma mas detallada en la seccion sobre el remapeo direccional o remapeo de direcciones. Las secciones sobre la modificacion de la difusividad y mezcla descendente se relacionan con la aplicacion de traslacion o zoom.
Las realizaciones de la invencion pueden adaptarse para realizar ambas, una modificacion de la rotacion y una modificacion de la traslacion o zoom, por ejemplo efectuando en primer lugar la modificacion de la rotacion y posteriormente la modificacion de la traslacion o zoom o viceversa, o ambos al mismo tiempo proporcionando las correspondientes funciones de mapeo direccional.
Para obtener el efecto de zoom acustico, se cambia virtualmente la posicion de escucha, lo que se hace remapeando apropiadamente las direcciones analizadas. Para obtener una impresion general correcta de la escena de sonido modificada, la senal de mezcla descendente es procesada por un filtro, que depende de las direcciones remapeadas. Este filtro modifica las ganancias, como por ejemplo, se incrementa el nivel de los sonidos, que ahora estan mas cerca, mientras que los sonidos que estan fuera de las regiones de interes se pueden atenuar. Ademas, se escala la difusividad usando los mismos supuestos, como por ejemplo los sonidos que parecen mas cercanos a la posicion de escucha deben ser reproducidos en forma menos difusa que antes.
A continuacion, se presenta una descripcion mas detallada del algoritmo o metodo ejecutado por el aparato 300. En la Figura 3A se presenta una vista general de la unidad de zoom acustico. En primer lugar, se describe el remapeo de las direcciones (bloque 301a, fp(k,n,^,d)), luego se ilustra el filtro para la modificacion de la difusividad (bloque 301b, fd(k,n,9,d)). El bloque 302 describe la modificacion de la mezcla descendente, que depende del control de zoom y los parametros espaciales originales.
En la siguiente seccion, se describe el remapeo de las direcciones, especialmente el remapeo de los parametros de direccion de llegada realizado, por ejemplo, por el bloque de modificacion de la direccion 301a.
El parametro de direccion de llegada (parametro de DOA) puede representarse, por ejemplo, por un vector de unidad e. En el caso de un analisis de campo de sonido tridimensional (3D) el vector puede expresarse de la siguiente manera
imagen1
(4)
donde el angulo de azimut 9 corresponde a la DOA en el plano bidimensional (2D), es decir el plano horizontal. El
5
10
15
20
25
30
35
40
45
50
55
60
angulo de elevacion se proporciona por 0. Este vector se modificara, de acuerdo con la nueva posicion virtual del microfono, como se describe a continuacion.
Sin perdida de generalidad, se proporciona un ejemplo de remapeo de DOA para el caso bidimensional para simplificar la presentacion (Figura 4). Se puede efectuar el correspondiente remapeo de la DOA tridimensional con consideraciones similares.
La Figura 4 ilustra una vista general geometrica de una vista general geometrica ejemplar del zoom acustico. La posicion S marca la posicion original de grabacion del microfono, es decir la posicion de escucha original. A y B marcan posiciones espaciales dentro del plano bidimensional observado. Ahora se supone que la posicion de escucha se mueve de S a S2, por ejemplo en la direccion de la primera orientacion de escucha. Como se puede apreciar en la Figura 4, el sonido que emerge de la posicion espacial A se mantiene en la misma posicion angular con respecto al sitio de la grabacion, mientras que los sonidos procedentes del area o posicion espacial B se mueven al lado. Esto esta indicado por un cambio del angulo analizado a a p. P indica, por lo tanto, la direccion de llegada del sonido que llega de la posicion angular de B si el oyente se ha ubicado en S2. En el caso del ejemplo en cuestion, se aumenta el angulo azimutal de a a p como se ilustra en la Figura 4. Este remapeo de la informacion de direccion de llegada se puede expresar como una transformacion por vectores de acuerdo con
emod =F(e), (5)
donde f( ) indica una funcion de remapeo y emod es el vector de direccion modificado. Esta funcion es una transformacion no lineal, que depende del factor de zoom d y las DOA originales estimadas. La Figura 5A ilustra ejemplos para el mapeo f( ) de diferentes valores de a que se pueden aplicar en el ejemplo bidimensional expuesto en la Figura 4. En el caso del factor de control de zoom de d = 1, es decir, no se aplica zoom, los angulos son iguales a la DOA original a. Para aumentar los factores de control de zoom, el valor de p se incrementa tambien. La funcion puede obtenerse de factores geometricos o, como alternativa, se puede elegir de manera heunstica. Por consiguiente, el remapeo de las direcciones significa que cada DOA se modifica de acuerdo con la funcion f( ). El mapeo fp(k,n,9,d) se realiza por cada componente de tiempo y frecuencia (k,n).
Si bien en la Figura 4 se ilustra el parametro de zoom d en terminos de distancia de traslacion entre la posicion de escucha original S y la posicion de escucha modificada S2, como se ha mencionado anteriormente, d tambien puede ser un factor, por ejemplo un zoom optico tal como un zoom de 4x u 8x. Especialmente para el control del ancho o filtro, tomando a d como factor, no como distancia, se obtiene una facil implementacion del zoom acustico. En otras palabras, el parametro de zoom d es, en este caso, una distancia real, o al menos proporcional a una distancia.
Se debe indicar asimismo que las realizaciones de la invencion se pueden adaptar ademas para soportar, ademas del zoom de acercamiento (“zoom-in”) como se ha descrito anteriormente, por ejemplo reduciendo la distancia hasta un objeto (por ejemplo hasta el objeto A de la Figura 4 moviendose de la posicion S a la posicion S2), tambien un zoom de alejamiento (“zoom-out”), por ejemplo aumentando una distancia hasta un objeto (por ejemplo hasta el objeto A de la Figura 4 desde la posicion S2 a la posicion S). En este caso se aplican consideraciones inversas en comparacion al zoom de acercamiento descrito, puesto que los objetos situados en un lado del oyente (por ejemplo el objeto B con respecto a la posicion S2) se mueven hacia el frente del oyente al desplazarse este a la posicion S. En otras palabras, las magnitudes de los angulos se reducen (por ejemplo de p a a).
El remapeo de la transformacion de direcciones o vectores se realiza por la unidad de modificacion de direccion de llegada 301a. La Figura 5A ilustra una funcion de mapeo ilustrativa (que depende del factor de zoom d) para las direcciones de llegada de la situacion ilustrada en la Figura 4. El diagrama de la Figura 5A ilustra el factor de zoom en el eje x en el rango de 1 a 2 y el angulo modificado o mapeado p en el eje y. En el caso de un factor de zoom de 1, p = a, es decir que el angulo inicial no se modifica. El numero de referencia 512 se refiere a la funcion de mapeo fp correspondiente a a = 10°, el numero de referencia 514 representa la funcion de mapeo fp correspondiente a a = 30°, el numero de referencia 516 representa la funcion de mapeo fp(k,n,9,d) correspondiente a a = 50°, el numero de referencia 518 es la funcion de mapeo fp(k,n,9,d) correspondiente a a = 70° y el numero de referencia 520 representa la funcion de mapeo fp(k,n,9,d) correspondiente a a = 90°.
Las realizaciones de la invencion se pueden adaptar para usar la misma funcion de mapeo fp para todos los valores de componentes de tiempo y frecuencia definidas por k y n, o bien pueden emplear diferentes funciones de mapeo para diferentes valores de tiempo y/o componentes de frecuencia.
Como resulta evidente a partir de las explicaciones anteriores, la idea detras del filtro fd consiste en cambiar la difusividad 9 de tal manera que reduzca la difusividad para las direcciones acercadas (9 < |y|) y aumenta la difusividad para las direcciones fuera de foco (9 > |y|).
Para simplificar la determinacion del angulo mapeado p, ciertas realizaciones de la unidad de modificacion 301a
5
10
15
20
25
30
35
40
45
50
55
60
estan adaptadas para usar solamente la direccion y suponer que todas las fuentes, por ejemplo A y B, que definen la direccion de llegada del sonido tienen la misma distancia hasta la primera posicion de escucha, por ejemplo, estan dispuestas en un radio unitario.
Si se considera una configuracion de altavoces que solo reproduce el sonido procedente de direcciones frontales, por ejemplo, una configuracion tfpica de altavoces estereo, se puede disenar la funcion de mapeo f( ) de tal manera que el angulo maximo respecto del cual se remapean las DOA este limitado. Por ejemplo, se elige un angulo maximo de ±60°, cuando los altavoces estan colocados a ±60°. De esta manera, toda la escena de sonido se mantiene en el frente y solo se amplfa cuando se aplica el zoom.
En el caso de una rotacion de la camara, los valores azimutales originales simplemente se desplazan de tal manera que la nueva direccion de visualizacion corresponda a un angulo de cero. De esa manera, una rotacion horizontal de la camara en 20° dana como resultado p = a - 20°. Ademas, no se modifica la mezcla descendente ni la difusividad en este caso especial, a menos que se lleve a cabo simultaneamente la rotacion y traslacion.
Como se puede observar a partir de las explicaciones anteriormente mencionadas, el cambio o diferencia de rotacion se obtiene a partir de la primera orientacion de escucha, visualizando respectivamente en primer lugar la orientacion (por ejemplo la direccion de la “nariz” del oyente o respectivo espectador) que define una primera orientacion de referencia o 0°. Cuando cambia la orientacion de escucha, la orientacion de referencia o 0° cambia de manera correspondiente. Por lo tanto, las realizaciones de la presente invencion cambian los angulos o direcciones de llegada del sonido originales, es decir el primer parametro direccional de acuerdo con la nueva orientacion de referencia o 0° por lo que el segundo parametro direccional representa la misma “direccion de llegada” en la escena de audio, aunque con respecto a la nueva orientacion de referencia o sistema de coordenadas. Se aplican similares consideraciones a la traslacion o zoom, respectivamente, donde las direcciones de llegada percibidas cambian debido a la traslacion o zoom en la direccion de la primera orientacion de escucha (vease la Figura 4).
El primer parametro direccional 114a y el segundo parametro direccional 214a pueden ser vectores bidimensionales o tridimensionales. Ademas, el primer parametro direccional 114a puede ser un vector, donde la senal de control 402 es una senal de control de rotacion que define un angulo de rotacion (por ejemplo 20° en el ejemplo anteriormente mencionado) y una direccion de rotacion (a la derecha en el ejemplo bidimensional anteriormente mencionado), y donde la unidad de modificacion de parametros 301, 301a esta adaptada para hacer rotar el vector en el angulo de rotacion en direccion inversa a la direccion de rotacion (p= a-20° en el ejemplo anteriormente mencionado) para obtener el segundo parametro direccional, es decir el segundo vector o modificado 214a.
En la siguiente seccion se describe en forma mas detallada la escala de difusividad como se realiza, por ejemplo, por la unidad de modificacion de difusividad 301b.
La difusividad se escala con una ventana dependiente de la DOA. En ciertas realizaciones, los valores de la difusividad y(k,n) se reducen para las direcciones acercadas, mientras que se incrementan los valores de difusividad correspondientes a las direcciones sin interes. Esto corresponde a la observacion de que las fuentes de sonido se perciben menos difusas si estan situadas mas cerca de la posicion de escucha. Por lo tanto, por ejemplo, para un factor de zoom mmimo (por ejemplo d = 1), la difusividad no se modifica. Se puede tomar el rango del angulo visual cubierto por la imagen de la camara como un controlador para la escala por la cual se incrementa o reduce el valor de difusividad.
Los terminos direcciones de zoom de acercamiento o direcciones de interes se refieren a una ventana angular de interes, a la que tambien se hace referencia como rango central de angulos, que esta dispuesto alrededor de la primera direccion de escucha o direccion original, por ejemplo la direccion de referencia original 0°. La ventana angular o rango central esta determinado por los valores angulares y que definen el borde de la ventana angular. La ventana angular y el ancho de la ventana angular pueden definirse por el angulo de borde negativo -y y el angulo de borde positivo y, donde la magnitud del angulo de borde negativo puede ser diferente del angulo de borde positivo. En las realizaciones preferidas, el angulo de borde negativo y el angulo de borde positivo tienen la misma magnitud (ventana simetrica o rango central de angulos centrado alrededor de la primera orientacion de escucha). La magnitud del angulo de borde tambien se denomina ancho angular y el ancho de la ventana (del angulo de borde negativo al angulo de borde positivo) tambien se denomina ancho angular total.
De acuerdo con las realizaciones de la invencion, los parametros de direccion de llegada, los parametros de difusividad, y/o los componentes directos o difusos se pueden modificar de manera diferente dependiendo de si el parametro original de direccion de llegada esta dentro de la ventana de interes, por ejemplo si el angulo de DOA o la magnitud del angulo de DOA con respecto a la primera posicion de escucha es menor que la magnitud del angulo de borde o la amplitud angular y, o si el parametro original de direccion de llegada esta fuera de la ventana de interes, por ejemplo si el angulo de DOA o la magnitud del angulo de DOA con respecto a la primera posicion de escucha es mayor que la magnitud del angulo de borde o la amplitud angular y. Tambien se hace referencia a esto como
5
10
15
20
25
30
35
40
45
50
55
60
dependiente de la direccion y las correspondientes funciones de filtro como funciones de filtro dependientes de la direccion, donde la amplitud angular o angulo de borde y define el angulo en el cual el filtro correspondiente cambia de aumento del parametro a reduccion del parametro o viceversa.
Haciendo referencia de nuevo, a la unidad de modificacion de difusividad 301b, la unidad de modificacion de difusividad 301b esta adaptada para modificar la difusividad y por la funcion fd(k,n,9,d) o fd que depende de los indices de tiempo/frecuencia k,n, la direccion de llegada original 9 y el controlador de zoom d. La Figura 5B ilustra una realizacion de una funcion de filtro fd. El filtro fd se puede implementar en forma de inversion de la funcion de filtro H1, que se explica mas adelante, adaptado, sin embargo, para equipararse al rango de difusividad, por ejemplo el rango de [0..1]. La Figura 5B ilustra la funcion de mapeo o filtro fd, donde el eje x representa la primera difusividad o difusividad original y, de la Figura 5B a la que tambien se refiere como yin, donde el rango de 0 a 1, y el eje y representa la segunda difusividad o modificada ymod tambien en el rango de 0 a 1. En caso de no aplicarse zoom (d = 0), el filtro fd no cambia la difusividad en absoluto y se ajusta para desviarse, es decir ymod = yin respectivamente. El numero de referencia 552 ilustra la lmea de desviacion.
Si la direccion de llegada original radica dentro de la amplitud angular y, la difusividad se reduce. Si la direccion de llegada original esta fuera de la amplitud angular y, la difusividad se incrementa. La Figura 5B ilustra algunas funciones prototipo de fd, es decir 562, 564, 572 y 574 que dependen del ancho de vision o de la amplitud angular y. En el ejemplo ilustrado en la Figura 5B, la amplitud angular es menor para 72 que para 71, es decir 72 < 71. Por consiguiente, 72 corresponde a un factor de zoom mas alto que 71.
El area por debajo de la lmea de desviacion 552 define los valores de difusividad modificados ymod en caso de que la direccion de llegada original 9 este dentro de la amplitud angular y que se refleja por una reduccion del valor de difusividad modificado ymod en comparacion con el valor de difusividad original yin o y despues del mapeo realizado por el filtro fd. El area por encima de la lmea de desviacion 552 representa el mapeo de la difusividad original y a los valores de difusividad modificada ymod en caso de que la direccion de llegada original 9 este fuera de la ventana. En otras palabras, el area por encima de la lmea de desviacion 552 ilustra el aumento de la difusividad despues del mapeo. En las realizaciones preferidas, la amplitud angular y se reduce con un aumento del factor de zoom d. En otras palabras, cuanto mayor es un factor de zoom d, menor es la amplitud angular y. Ademas, las formas de realizacion se pueden adaptar de tal manera que el factor d o la informacion de traslacion no solo influye sobre la amplitud angular y de la funcion de filtro fd sino que tambien se incrementa el grado o factor de difusividad en caso de estar dentro de la ventana y se reduce el grado o factor de difusividad y en caso de estar fuera de la ventana definida por la amplitud angular y. Una realizacion de este tipo se ilustra en la Figura 5B, en la cual la amplitud angular 71 corresponde a un factor de zoom d1 y la amplitud angular 72 corresponde a un factor de zoom d2, donde d2 es mayor que d1 y, por consiguiente, la amplitud angular 72 es menor que la amplitud angular 71. Ademas, la funcion fd representada por el numero de referencia 564 y que corresponde al factor de zoom mayor d2 mapea los valores de difusividad originales yin con los valores de difusividad modificada mas bajos ymod que la funcion de filtro fd representada por 562 que corresponde al factor de zoom mas bajo d1. En otras palabras, las realizaciones de la funcion de filtro puede ser adaptada para reducir la difusividad original mas cuanto menor es la amplitud angular y. Lo siguiente se aplica al area por encima de la lmea de desviacion 552 de una manera inversa. En otras palabras, las realizaciones de la funcion de filtro fd se pueden adaptar para mapear la difusividad original yin a la difusividad modificada ymod dependiendo del factor de zoom d y la amplitud angular y, o a mayor factor de zoom d menor amplitud angular y y/o mayor aumento de la difusividad de la direccion de llegada 9 fuera de la ventana.
En otras realizaciones, se aplica la misma ventana o funcion de filtro dependiente de la direccion fd(k,n,9,d) para todos los factores de zoom. Sin embargo, el uso de una ventana dependiente de la direccion o funciones de filtro diferentes con menores amplitudes angulares para factores de traslacion o zoom mas elevados se equipara mejor a la experiencia de audio del usuario y ofrece una percepcion de audio mas realista. La aplicacion de diferentes valores de mapeo por diferentes factores de zoom (una mayor reduccion de la difusividad con el aumento del factor de zoom para el valor de direccion de llegada 9 dentro de la ventana y valores crecientes o de mayor difusividad para factores de zoom mas elevados en caso de que el valor de direccion de llegada 9 este fuera de la amplitud ancho angular y) incluso mejora aun mas la percepcion de audio realista.
A continuacion se describen en forma mas detallada las realizaciones de la modificacion de mezcla descendente, como por ejemplo la ejecutada por la unidad de modificacion de mezcla descendente 302.
Se utilizan filtros para la senal de mezcla descendente para modificar la ganancia de la parte directa y difusa de la senal de salida. Como consecuencia directa del concepto de codificador de audio espacial, se modifican asf las senales de altavoces. El sonido del area acercada se amplifica, mientras que el sonido de las direcciones fuera de la zona de interes se puede atenuar.
Como la senal de mezcla descendente 112 puede ser una senal mono o una estereo para microfonos de
5
10
15
20
25
30
35
40
45
50
55
60
codificacion de audio direccional (DirAC) o de audio espacial (SAM), a continuacion se describen dos realizaciones diferentes de la modificacion.
En primer lugar se describe una realizacion correspondiente a una modificacion de mezcla descendente mono, es decir una realizacion correspondiente a una modificacion de una senal de audio de mezcla descendente mono W 112. Con respecto a las siguientes consideraciones, es ventajoso introducir un modelo de senal de la senal de mezcla descendente mono W(k,n) que es similar al ya aplicado para la smtesis de las senales de altavoces de acuerdo con (1):
W (k, n) = S(k, n) + N (k, n) (6)
En este caso, S(k,n) indica el componente de sonido directo de la senal de mezcla descendente, N(k,n) indica los componentes de sonido difuso de la senal de mezcla descendente original y k indica el mdice temporal o el instante de tiempo que la senal representa y n representa un componente de frecuencia o canal de frecuencia de la senal en el instante de tiempo dado k.
Supongamos que Wmod(k,n) indica la senal de mezcla descendente mono modificada. Se obtiene procesando la senal de mezcla descendente original de acuerdo con
Wmod (k, n) = Hi (k, n, (p, d )S (k, n) + H 2 (k, n, (p, d) N (k, n) (7)
donde H1(k,n,^,d) y H2(k,n,^,d) representan filtros aplicados a los componentes directos y difusos del modelo de senal, 9 representa la direccion de llegada original y d el factor de zoom o parametro de zoom. Los componentes de sonido directos 112a y difusos 112b se pueden calcular de manera similar a (2), (3), es decir segun
S (k, n) = W (k, n)^\ -W
y
N(k,n)=fr(k,r,).JF.
Ambos filtros son direccionales dependiendo de las funciones de ponderacion. Por ejemplo, se puede tomar un patron de captacion de microfono en forma de cardioide como criterio de diseno para dichas funciones de ponderacion.
El filtro Hi(k,n,<p,d) se puede implementar en forma de ventana de coseno elevada de tal manera que el sonido directo se amplifique para las direcciones del area acercada, mientras que el nivel del sonido procedente de las demas direcciones se atenua. En general, se pueden aplicar diferentes formas de ventana a los componentes de sonido directo y difuso, respectivamente.
El filtro de ganancia implementado por las ventanas puede controlarse por la translacion real o el factor de control de zoom d. Por ejemplo, el zoom controla la amplitud de igual ganancia correspondiente a las direcciones enfocadas con la amplitud de la ganancia en general. En la Figura 6 se presentan ejemplos correspondientes a diferentes ventanas de ganancia.
La Figura 6 ilustra diferentes ventanas de ganancia para el filtro de ponderacion Hi(k,n,y,d). Se ilustran cuatro prototipos diferentes de ganancia:
1. lmea plena: no se aplica zoom, la ganancia es 0 dB en todas las direcciones (vease 612).
2. lmea de guiones: se aplica un factor de zoom de 1,3, la amplitud de ventana es una amplitud de 210° en el
caso de la ganancia maxima y la ganancia maxima es de 2,3 dB (vease 614).
3. lmea de puntos: se aplica un factor de zoom de 2,1, la amplitud de ventana para la ganancia maxima se
reduce a 140° y la ganancia maxima es de 3 dB, la mas baja -2,5 dB (vease 616).
4. lmea de guiones y puntos: el factor de zoom es 2,8, la amplitud de ventana es 30° en el caso de la ganancia maxima y la ganancia este limitada a un maximo de +3 dB y un mmimo -6 dB (vease 618).
Como se puede apreciar en la Figura 6, la primera orientacion de escucha representada por 0° en la Figura 6, forma el centro de diferentes ventanas dependientes de los factores de zoom dependientes de la direccion, donde el rango central predeterminado o anchura de las ventanas dependientes de la direccion es menor cuanto mayor sea el factor
de zoom. Los lfmites del rango o ventana central estan definidos por el angulo y en el cual la ganancia es 0 dB. La
Figura 6 ilustra ventanas simetricas con lfmites positivo y negativo que tienen la misma magnitud.
5
10
15
20
25
30
35
40
45
50
55
60
La ventana 614 tiene una amplitud de 210° en el caso de la ganancia maxima y una region central predeterminada con una amplitud de 260° con los lfmites +/- Y2 a +/- 130°, donde los componentes directos dentro o en el interior de la region central predeterminada se incrementan y los componentes directos fuera de la region central predeterminada se mantienen inalterados (ganancia = 0 dB).
La ventana 616 tiene una amplitud de 140° para la ganancia maxima y una region central predeterminada con una amplitud de 180° con lfmites o amplitudes angulares +/- Y3 a +/- 90°, donde los componentes directos dentro o en el interior de la region central predeterminada se incrementan y los componentes directos fuera de la region central predeterminada se reducen (ganancia negativa que desciende a -2,5 dB).
La ventana 618 tiene una amplitud de 30° para la ganancia maxima y una region central predeterminada con una amplitud de 60° con lfmites o amplitudes angulares +/- Y4 a +/- 30°, donde los componentes directos dentro o en el interior de la region central predeterminada se incrementan y los componentes directos fuera de la region central predeterminada se reducen (ganancia negativa que desciende a -6 dB).
Por lo tanto, en ciertas realizaciones el factor de zoom d controla la amplitud, es decir los lfmites negativo y positivo y la amplitud total, y la ganancia de las ventanas prototipo. Por consiguiente, ya se puede disenar la ventana de tal manera que se aplique la amplitud y la ganancia correctamente a las direcciones de llegada originales 9.
La ganancia maxima debena limitarse para evitar distorsiones en las senales de salida. La amplitud de la ventana, o la forma exacta como se muestra en este punto se debe considerar como un ejemplo ilustrativo de como el factor de zoom controla diversos aspectos de una ventana de ganancia. Se puede utilizar otra implementacion en diferentes realizaciones.
El filtro H2(k,n,9,d) se utiliza para modificar la parte difusa 112a de la senal de mezcla descendente de manera analoga a la manera en que se ha modificado la medida de la difusividad y{k,n) y puede implementarse como una ventana subcardioide, como se ilustra en la Figura 7. Al aplicar ese tipo de ventanas se atenua ligeramente la parte difusa de las direcciones fuera de interes, aunque las direcciones acercadas se mantienen sin modificacion o casi inalteradas. La Figura 7 ilustra una ventana subcardioide 702 que casi mantiene el componente difuso inalterado en un area entre -30° y +30° de la direccion de llegada original 9 y atenua el componente difuso a mayor desviacion, es decir el angulo que se aleja de la orientacion 0°, de la direccion de llegada original 9. En otras palabras, en el caso del area acercada, los componentes de la senal difusa en la senal de mezcla descendente se mantienen inalterados. Esto dara como resultado una reproduccion mas directa del sonido en la direccion de zoom. Los sonidos que proceden de todas las demas direcciones se representan mas difusos, ya que el microfono se ha colocado virtualmente en un sitio mas alejado. De esa manera, esas partes difusas se atenuaran en comparacion con las de la senal de mezcla descendente original. Evidentemente, tambien se puede disenar el filtro de ganancia deseado utilizando las ventanas de coseno elevado anteriormente descritas. Observese, sin embargo, que la escala sera menos pronunciada que en el caso de la modificacion del sonido directo. En otras realizaciones, las ventanas pueden depender del factor de zoom, donde la pendiente de la funcion de ventana 702 es mas abrupta cuanto mayor sea el factor de zoom.
A continuacion, se describe una realizacion de una modificacion de mezcla descendente estereo, es decir una modificacion de una senal de mezcla descendente estereo W.
A continuacion se describe como se ha de realizar la modificacion de mezcla descendente en el caso de una mezcla descendente estereo segun se requiere para el enfoque SAM. Para la senal de mezcla descendente estereo original se introduce un modelo de senal de dos canales de manera analoga al caso mono (6):
W1(k, n) = S(k, n) + N1(k, n)
(8)
W2(k, n) = cS(k, n) + N2(k, n)
(9)
De nuevo, la senal S(k,n) representa el sonido directo, mientras que Ni indica el sonido difuso correspondiente al i- esimo microfono. De manera analoga a (2), (3), los componentes de sonido directo y difuso se pueden determinar a partir de los canales de mezcla descendente basandose en la medida de la difusividad. El factor de ganancia c corresponde a una escala diferente del componente de sonido directo en los diferentes canales estereo, lo que surge del diferente patron de direccionalidad asociado a los dos canales de mezcla descendente. Se pueden encontrar mas detalles sobre la relacion del factor de escalamiento y la DOA del sonido directo en SAM. Dado que este escalamiento depende de la DOA del sonido del campo de sonido observado, su valor tiene que modificarse de acuerdo con el remapeo de la DOA resultante de la ubicacion de grabacion virtual modificada.
5
10
15
20
25
30
35
40
45
50
55
60
La senal de mezcla descendente estereo modificada que corresponde a la nueva posicion virtual de los microfonos se puede expresar de la siguiente manera
W
l,mod
(k, n) = G11 (k, n, v, d )S (k, n) + G12 (k, n, v, d) N1 (k, n)
(10)
W2,mod (k, n) = G21 (k, n V, d)Cmod S(k, n) + G22 (k, ^ V, d)N2 (k, n)
(11)
El calculo de los filtros de ganancia Gj(k,n,y,d) se realiza de acuerdo con los correspondientes filtros de ganancia H(k,n,y,d) como se analizara con respecto al caso de la mezcla descendente mono. Se determina el nuevo factor de escala estereo Cmod como una funcion de la DOA modificada de tal manera que corresponde a la nueva ubicacion de grabacion virtual.
Con referencia, una vez mas, a las Figuras 2 y 3A, las realizaciones de la presente invencion proporcionan un aparato 300 para convertir una primera senal de audio espacial parametrico 112, 114 que representa una primera posicion de escucha o una primera orientacion de escucha en una escena de audio espacial, en una segunda senal de audio espacial parametrico 212, 214 que representa una segunda posicion de escucha o una segunda orientacion de escucha, siendo la segunda posicion de escucha o segunda orientacion de escucha diferente de la primera posicion de escucha o primera orientacion de escucha. El aparato comprende una unidad de modificacion de senales de audio espacial 301, 302 adaptada para modificar la primera senal de audio parametrico parasita 112, 114 dependiendo de un cambio de la primera posicion de escucha o la primera orientacion de escucha para obtener la segunda senal de audio parametrico espacial 212, 214, donde la segunda posicion de escucha o la segunda orientacion de escucha corresponde a la primera posicion de escucha o la primera orientacion de escucha alterada por el cambio.
Las realizaciones del aparato 300 se pueden adaptar para convertir solo un unico parametro de informacion secundaria, por ejemplo, la direccion de llegada 114a o el parametro de difusividad 114b, o solo la senal de mezcla descendente de audio 112 o parte o la totalidad de las senales y parametros anteriormente citados.
Como se ha descrito anteriormente, en realizaciones que utilizan la codificacion de audio direccional (DirAC), las senales analogicas de microfono se digitalizan y procesan para generar una representacion de tiempo/frecuencia con mezcla descendente W(k,n) de las senales de microfono, que representan, para cada instante o bloque de tiempo k, una representacion de frecuencia, donde cada componente de frecuencia de la representacion en frecuencia o espectral esta indicada por el mdice n. Ademas de la senal de mezcla descendente 112, la unidad de analisis de audio espacial 100 determina, para cada instante de tiempo k y por cada componente de frecuencia n para el correspondiente instante de tiempo k, un vector unitario eooA (consultese la ecuacion (4)) que proporciona, por cada componente de frecuencia n y cada instante de tiempo k, el parametro o informacion direccional. Ademas, la unidad de analisis de audio espacial 100 determina para cada instante de tiempo k y cada componente de frecuencia n, un parametro de difusividad y que define una relacion entre los componentes de sonido o audio directo y los componentes de sonido o audio difuso, donde los componentes difusos se provocan, por ejemplo, por dos o mas fuentes de audio y/o por reflejos de las senales de audio procedentes de las fuentes de audio.
La DirAC es muy eficiente en su procesamiento y con codificacion eficiente en cuanto a la memoria, ya que reduce la informacion de audio espacial que define la escena de audio, por ejemplo, las fuentes de audio, el reflejo, posicion y orientacion de los microfonos y el respectivo oyente (para cada instante de tiempo k y cada componente de frecuencia n) a una informacion direccional, es decir un vector unitario eDOA(k,n) y un valor de difusividad y(k,n) de entre 0 y 1, asociado a la correspondiente senal de audio de mezcla descendente (mono) unica W(k,n) o a varias senales de audio de mezcla descendente (por ejemplo estereo) Wi(k,n) y W2(k,n).
Las realizaciones que utilizan la codificacion de audio direccional (DirAC) anteriormente mencionada se adaptan, por lo tanto, para modificar, para cada instante k y cada componente de frecuencia n, el correspondiente valor de mezcla descendente W(k,n) por Wmod(k,n), el correspondiente valor de parametro de direccion de llegada e(k,n) por emCd(k,n) (en las Figuras 1 a 3 representado por v, respectivamente Vmod) y/o el valor del parametro de difusividad y(k,n) por
ymod(k,n).
La unidad de modificacion de senales de audio espacial comprende o esta formada, por ejemplo, por la unidad de modificacion de parametros 301 y la unidad de modificacion de mezcla descendente 302. De acuerdo con una realizacion preferida, la unidad de modificacion de parametros 301 esta adaptada para procesar el parametro original 114a para determinar el parametro direccional modificado 214a, para procesar el parametro de difusividad y dependiendo del parametro direccional original v, respectivamente 114a, para dividir la senal de mezcla descendente 112 empleando las ecuaciones (2) y (3) usando el respectivo parametro de difusividad original y 114b, y para aplicar el filtrado dependiente de la direccion Hi(k,n,y,d) y H2(k,n,y,d) dependiendo del parametro direccional
5
10
15
20
25
30
35
40
45
50
55
60
original 9 114a, respectivamente. Como se ha explicado anteriormente, estas modificaciones se realizan para cada instante de tiempo k y cada componente de frecuencia n para obtener, para cada instante de tiempo k y cada instante de frecuencia n, las respectivas senales y/o parametros modificados.
De acuerdo con una realizacion, el aparato 300 esta adaptado para modificar solo el primer parametro direccional 114a de la primera senal de audio espacial parametrico para obtener un segundo parametro direccional 214a de la segunda senal de audio espacial parametrico dependiendo de la senal de control 402, por ejemplo, una senal de control de rotacion o una senal de control de zoom. En caso de que el cambio de la posicion/orientacion de escucha solo comprenda una rotacion y no una traslacion o zoom, es suficiente una correspondiente modificacion o desplazamiento del parametro direccional 9(k,n) 114a. Los correspondientes parametros de difusividad y los componentes de la senal de mezcla descendente pueden quedar sin modificaciones de manera que la senal de mezcla descendente 212 corresponda a la primera senal de mezcla descendente 112 y el segundo parametro de difusividad 214b corresponda al primer parametro de difusividad 114b.
En el caso de efectuarse un cambio traslacional, por ejemplo un zoom, una modificacion del parametro direccional 9(k,n) 114a de acuerdo con una funcion de remapeo expuesta en la Figura 5A ya mejora la experiencia de sonido y proporciona una mejor sincronizacion entre la senal de audio y, por ejemplo, una senal de video en comparacion con la senal de audio espacial parametrico original o sin modificaciones (sin modificar el parametro de difusividad ni la senal de mezcla descendente).
Las dos realizaciones anteriores, que solo comprenden la adaptacion o remapeo de la direccion de llegada por el filtro fp ya producen una impresion favorable del efecto de zoom.
De acuerdo con otra realizacion, el aparato 300 esta adaptado para aplicar solo el filtro H1(k,n,9,d). En otras palabras, esta realizacion no ejecuta el remapeo de la direccion de llegada ni la modificacion de la difusividad. Esta realizacion esta adaptada solamente para determinar, por ejemplo, el componente directo 112a a partir de la senal de mezcla descendente 112 y para aplicar la funcion de filtro H1 al componente directo para producir una version ponderada dependiente de la direccion del componente directo. Dichas realizaciones se pueden adaptar ademas para usar la version ponderada dependiente de la direccion del componente directo como senal de mezcla descendente modificada Wmod 212, o tambien para determinar el componente difuso 112b de la senal de mezcla descendente original W 112 y para generar la senal de mezcla descendente modificada Wmod 212 , anadiendo, o en general combinado, la version ponderada dependiente de la direccion del componente directo y el componente difuso original o sin modificaciones 112b. Se puede obtener una impresion mejorada del zoom acustico, aunque el efecto de zoom es limitado, ya que no se modifica la direccion de llegada.
En una realizacion adicional, se aplican tanto los filtros H1(k,n,9,d) como los H2(k,n,9,d); sin embargo, no se realiza el remapeo de la direccion de llegada ni la modificacion de la difusividad. La impresion acustica se mejora en comparacion con la senal de audio espacial parametrico inalterada u original 112, 114. La impresion de zoom tambien es mejor que solo la aplicacion de la funcion de filtro H1(k,n,9,d) al componente directo cuando el sonido difuso esta presente; sin embargo, sigue aun limitado, porque la direccion de llegada 9 no se modifica (mejor que la realizacion anteriormente mencionada que utiliza solo H1(k,n,9,d),.
En otra realizacion mas, solo se aplica el filtro fd o, en otras palabras, solo se modifica el componente de difusividad 9. Se mejora el efecto de zoom en comparacion con la senal de audio espacial parametrico original 112, 114 porque se reduce la difusividad de las areas acercadas (areas de interes) y se incrementan los valores de difusividad de las areas fuera de la zona de interes.
Otras realizaciones estan adaptadas para realizar el remapeo de la direccion de llegada 9 por la funcion de filtro fp en combinacion con aplicar el filtro H1(k,n,9,d) en solitario. En otras palabras, tales realizaciones no realizan una modificacion de la difusividad de acuerdo con la funcion de filtro fd y no aplican la segunda funcion de filtro H2(k,n,9,d) a un componente difuso de la senal de mezcla descendente original W 112. Tales realizaciones proporcionan una muy buena impresion de zoom que es mejor que solo la aplicacion del remapeo de la direccion de llegada.
Las realizaciones que aplican el remapeo de la direccion de llegada de acuerdo con la funcion fp en combinacion con una modificacion de mezcla descendente utilizando ambas funciones de filtro H1(k,n,9,d) y H2(k,n,9,d) producen impresiones de zoom aun mejores que solo la aplicacion del remapeo de la direccion de llegada en combinacion con la aplicacion de la primera funcion de filtro H1 solamente.
Aplicando el remapeo de la direccion de llegada de acuerdo con la funcion fp, la modificacion de mezcla descendente utilizando los filtros H1(k,n,9,d) y H2(k,n,9,d), y la modificacion de la difusividad utilizando la funcion fd proporciona la mejor implementacion del zoom acustico.
5
10
15
20
25
30
35
40
45
50
55
60
Con referencia, una vez mas, a la realizacion de remapeo solamente de la direccion de llegada, la modificacion adicional del parametro de difusividad 114b mejora aun mas la experiencia de audio o, en otras palabras, mejora la adaptacion de la experiencia de sonido con respecto a la posicion modificada dentro de la escena de audio espacial. Por lo tanto, en otras realizaciones, el aparato 300 puede estar adaptado solo para modificar el parametro direccional y(k,n) y el parametro de difusividad y(k,n), aunque sin modificar la senal de mezcla descendente W(k,n) 100.
Las realizaciones preferidas del aparato 300 como se ha mencionado anteriormente tambien comprenden la modificacion de la senal de mezcla descendente W(k,n) para mejorar aun mas la experiencia de audio con respecto a la posicion modificada en la escena de audio espacial.
Por lo tanto, en las realizaciones en las que el primer parametro direccional y(k,n) 114a es un vector, la unidad de modificacion de parametros 301 esta adaptada para desplazar o modificar el primer parametro direccional en un angulo definido por una senal de control de rotacion en direccion inversa a una direccion definida por la senal de control de rotacion para obtener el segundo parametro direccional <$mod(k,n) 214a.
En otras realizaciones, la unidad de modificacion de parametros 301 esta adaptada para obtener el segundo parametro direccional 214a utilizando una funcion de mapeo no lineal (como, por ejemplo, la ilustrada en la Figura 5A) que define el segundo parametro direccional 214a dependiendo del primer parametro direccional y(k,n) y un factor de zoom d definido por una senal de control de zoom 402 u otra informacion de control de traslacion definida por la senal de cambio.
Como se ha descrito anteriormente, en otras realizaciones, la unidad de modificacion de parametros 301 puede estar adaptada para modificar el primer parametro de difusividad y(k,n) 114b de la primera senal de audio espacial parametrico para obtener un segundo parametro de difusividad ymod(k,n) 214b dependiendo del primer parametro direccional y(k,n) 114a. La unidad de modificacion de parametros puede estar adaptada adicionalmente para obtener el segundo parametro de difusividad ymod(k,n) usando una funcion dependiente de la direccion adaptada para reducir el primer parametro de difusividad y(k,n) para obtener el segundo parametro de difusividad ymod(k,n) en caso de que el primer parametro direccional y(k,n) este dentro de un rango central predeterminado, por ejemplo y = +/- 30° de la orientacion de referencia original (vease la Figura 5B), y/o para aumentar el primer parametro de difusividad y(k,n) para obtener el segundo parametro de difusividad ymod(k,n) en caso de que el primer parametro direccional y(k,n) este fuera del rango central predeterminado, por ejemplo, en un caso bidimensional fuera del rango central definido por + y = +30° y - y = -30° a partir de la orientacion de referencia original 0°.
En otras palabras, en ciertas realizaciones la unidad de modificacion de parametros 301, 310b esta adaptada para obtener el segundo parametro de difusividad 214b empleando una funcion dependiente de la direccion adaptada para reducir el primer parametro de difusividad 114b para obtener el segundo parametro de difusividad 214b en caso de que el primer parametro direccional 114a este dentro de un rango central predeterminado del segundo parametro direccional con la segunda orientacion de escucha o la modificada, que forma el centro del rango central bidimensional o tridimensional predeterminado y/o para aumentar el primer parametro de difusividad 114b para obtener el segundo parametro de difusividad en caso de que el primer parametro direccional 114a este fuera del rango central predeterminado. La primera orientacion de escucha u original define un centro, por ejemplo 0°, del rango central predeterminado del primer parametro direccional, donde un lfmite positivo y otro negativo del rango central predeterminado estan definidos por un angulo positivo y otro negativo y en un plano bidimensional (por ejemplo horizontal) (por ejemplo +/-30°) independientemente de si la segunda orientacion de escucha es un vector bidimensional o tridimensional, o por un correspondiente angulo y (por ejemplo 30°) que define un cono circular derecho alrededor de la primera orientacion de escucha tridimensional. Otras realizaciones pueden comprender diferentes regiones centrales predeterminadas o ventanas, simetricas y asimetricas, dispuestas o centradas alrededor de la primera orientacion de escucha o un vector que define la primera orientacion de escucha.
En otras realizaciones, la funcion dependiente de la direccion fd(k,n,9,d) depende de la senal de cambio, por ejemplo, de la senal de control de zoom, donde el rango central predeterminado, los valores respectivos y que definen el lfmite negativo y positivo (o, en general, el lfmite) del rango central es el menor cuanto mayor sea el cambio de traslacion o mayor es el factor de zoom definido por la senal de control de zoom.
En otras realizaciones, la unidad de modificacion de senales de audio espacial comprende una unidad de modificacion de mezcla descendente 302 adaptada para modificar la primera senal de audio de mezcla descendente W(k,n) de la primera senal de audio espacial parametrico para obtener una segunda senal de mezcla descendente Wmod(k,n) de la segunda senal de audio espacial parametrico dependiendo del primer parametro direccional y(k,n) y del primer parametro de difusividad y(k,n). Las realizaciones de la unidad de modificacion de mezcla descendente 302 pueden adaptarse para dividir la primera senal de audio de mezcla descendente W en un componente directo
5
10
15
20
25
30
35
40
45
50
55
60
S(k,n) 112a y un componente difuso N(k,n) 112b dependiente del primer parametro de difusividad y(k,n), por ejemplo, basandose en las ecuaciones (2) y (3).
En otras realizaciones, la unidad de modificacion de mezcla descendente 302 esta adaptada para aplicar una primera funcion dependiente de la direccion H1(k,n,9,d) para obtener una version ponderada dependiente de la direccion del componente directo y/o para aplicar una segunda funcion dependiente de la direccion H2(k,n,9,d) al componente difuso para obtener una version ponderada dependiente de la direccion del componente difuso. La unidad de modificacion de mezcla descendente 302 puede estar adaptada para producir la version ponderada dependiente de la direccion del componente directo 112a aplicando otra funcion dependiente de la direccion Hi(k,n,<p,d) al componente directo, donde la otra funcion dependiente de la direccion esta adaptada para aumentar el componente directo 112a en caso de que el primer parametro direccional 114a este dentro del rango central predeterminado adicional de los primeros parametros direccionales y/o para reducir el componente directo 112a en caso de que el primer parametro direccional 114a este fuera del rango predeterminado adicional de los segundos parametros direccionales. En otras realizaciones la unidad de modificacion de mezcla descendente puede estar adaptada para producir la version ponderada dependiente de la direccion del componente difuso 112b aplicando una funcion dependiente de la direccion H2(k,n,9,d) al componente difuso 112b, donde la funcion dependiente de la direccion esta adaptada para reducir el componente difuso en caso de que el primer parametro direccional 114a este dentro de un rango central predeterminado del primer parametro direccional y/o para aumentar el componente de difusividad 112b en caso de que el primer parametro direccional 114a este fuera del rango predeterminado del segundo parametro direccional.
En otras realizaciones, la unidad de modificacion de mezcla descendente 302 esta adaptada para obtener la segunda senal de mezcla descendente 212 basandose en una combinacion, por ejemplo una suma, de una version ponderada dependiente de la direccion del componente directo 112a y una version ponderada dependiente de la direccion del componente difuso 112b. Sin embargo, otras realizaciones pueden aplicar otros algoritmos ademas de sumar los dos componentes para obtener la senal de mezcla descendente modificada 212.
Como se ha explicado anteriormente, las realizaciones de la unidad de modificacion de mezcla descendente 302 pueden estar adaptadas para dividir la senal de mezcla descendente W en una parte o componente difuso 112b y una parte o componente no difuso o directo 112a por medio de dos multiplicadores, es decir (y)1/2 y (1 - y) 1/2 y para filtrar la parte no difusa 112a mediante la funcion de filtro H1 y para filtrar la parte difusa 112b mediante la funcion de filtro H2. La funcion de filtro H1 o H1(k,n,9,d) puede depender de los indices de tiempo/frecuencia k, n, la direccion de llegada original 9 y el parametro de zoom d. La funcion de filtro H1 puede depender, ademas, de la difusividad y. La funcion de filtro H2 o H2(k,n,9,d) puede depender de los indices de tiempo/frecuencia k, n, la direccion de llegada original 9 y el parametro de zoom d. La funcion de filtro H2 puede depender, ademas, de la difusividad y. Como se describio anteriormente, la funcion de filtro H2 puede implementarse en forma de ventana subcardioide como se ilustra en la Figura 7, o como simple factor de atenuacion, independiente de la direccion de llegada 9.
Haciendo referencia a las explicaciones precedentes, se puede utilizar el parametro de zoom d para controlar los filtros H1, H2 y los modificadores o funciones fd y fp (vease la Figura 3A). En el caso de la funcion de filtro H1 y fd el parametro de zoom d tambien puede controlar la amplitud de vision o la amplitud angular y (a la que tambien se hace referencia como angulo lfmite y) de las ventanas o regiones centrales aplicadas. La amplitud y se define, por ejemplo como el angulo en el cual la funcion de filtro tiene 0 dB (vease, por ejemplo la lmea de 0 dB de la Figura 6). Se puede controlar la amplitud angular y y/o la ganancia por medio del parametro de zoom d. En la Figura 6 se ilustra un ejemplo de valores diferentes de y y ganancias maximas y mmimas diferentes.
Si bien se han descrito anteriormente realizaciones del aparato, en las cuales las funciones dependientes de la direccion y la ponderacion dependen del primer parametro direccional u original 9 (vease la Figura 3A), otras realizaciones pueden estar adaptadas para determinar la segunda difusividad o modificada ymod y/o una o ambas funciones de filtro H1 y H2 dependientes del segundo parametro direccional o modificado 9mod. Como se puede determinar a partir de la Figura 4, donde a corresponde al parametro direccional original 9 y P corresponde al parametro direccional modificado 9mod (en el caso del zoom de acercamiento), cuanto mas elevado es el factor de zoom d, mas se desplaza el objeto B de una posicion central o frontal a una posicion lateral, o incluso (en caso de factores de zoom aun mas elevados d al expuesto en la Figura 4) a una posicion detras de la posicion virtualmente modificada. En otras palabras, cuanto mas elevado sea el factor de zoom d, mas aumenta la magnitud de un angulo inicialmente pequeno que representa una posicion en un area frontal del oyente, donde los angulos mayores representan posiciones en un area lateral del oyente. Esta modificacion del parametro direccional se tiene en cuenta aplicando una funcion ilustrada en la Figura 5A. Ademas, las ventanas o funciones dependientes de la direccion correspondientes a los demas parametros y a los componentes directos y difusos tambien pueden ser disenadas para tener en cuenta la modificacion del parametro o angulo direccional original, mediante la reduccion de la amplitud angular y con el aumento del zoom d, por ejemplo de manera no lineal, correspondiente al parametro de direccion de llegada o mapeo direccional expuesto en la Figura 5A. Por lo tanto, estas ventanas o funciones
5
10
15
20
25
30
35
40
45
50
55
60
dependientes de la direccion pueden estar adaptadas de tal manera que se pueda utilizar directamente el parametro direccional original (por ejemplo sin la modificacion previa ejecutada por la funcion fp) o, como alternativa, se realiza primero el mapeo del parametro direccional fp y posteriormente se realiza de manera similar la ponderacion dependiente de la direccion fd, Hi y/o H2 del parametro direccional modificado. Con referencia, una vez mas, a la Figura 4, ambas cosas son posibles, las funciones dependientes de la direccion fd, Hi y H2 en referencia directa a a, que representa el parametro direccional original (para el zoom de acercamiento), o funciones dependientes de la direccion fd, Hi y H2 con referencia a p que representa el parametro direccional modificado.
Las realizaciones que hacen uso del parametro direccional modificado pueden emplear, similar al caso de las realizaciones que utilizan el parametro direccional original, diferentes ventanas con diferentes amplitudes angulares y/o diferentes ganancias para diferentes factores de zoom, o bien ventanas iguales con la misma amplitud angular (puesto que el parametro direccional ya ha sido mapeado para reflejar los diferentes factores de zoom) y la misma ganancia, o ventanas con las mismas amplitudes angulares aunque con diferentes ganancias, donde un factor de zoom mas elevado da como resultado una ganancia mayor (analogo a las ventanas de la Figura 6).
La Figura 3B ilustra otra de las realizaciones del aparato. La unidad de modificacion de senales de audio espacial de la Figura 3B comprende o esta formada, por ejemplo, por la unidad de modificacion de parametros 301 y la unidad de modificacion de mezcla descendente 302. De acuerdo con una realizacion alternativa, la unidad de modificacion de parametros 301 esta adaptada para procesar en primer lugar el parametro original 114a para determinar el parametro direccional modificado 214a, para luego procesar el parametro de difusividad y dependiendo del parametro direccional modificado ymod, que corresponde a 214a, para dividir la senal de mezcla descendente 112 usando las ecuaciones (2) y (3) y el parametro de difusividad original y respectivo, 114b como se describe con respecto a la Figura 3A, y para aplicar el filtrado dependiente de la direccion Hi y H2 dependiendo del parametro direccional modificado ymod, que corresponde a 214a. Como se explicara anteriormente, estas modificaciones se ejecutan para cada instante de tiempo k y cada componente de frecuencia n para obtener, para cada instante de tiempo k y cada instante de frecuencia n, las respectivas senales y/o parametros modificados.
De acuerdo con otra realizacion alternativa del aparato 300 de acuerdo con la Figura 3B, la unidad de modificacion de parametros 301 esta adaptada para procesar el parametro original 114a para determinar el parametro direccional modificado 214a, para procesar a continuacion el parametro de difusividad y dependiendo del parametro direccional original ymod, respectivamente 214a, para dividir la senal de mezcla descendente 112 utilizando las ecuaciones (2) y (3) y el parametro de difusividad original y, respectivamente 114b como se ha descrito basandose en la Figura 3A y para aplicar el filtrado dependiente de la direccion Hi y H2 dependiendo del parametro direccional modificado ymod, respectivamente 214a. como se ha explicado anteriormente, estas modificaciones se realizan para cada instante de tiempo k y cada componente de frecuencia n para obtener, para cada instante de tiempo k y cada instante de frecuencia n, las respectivas senales y/o parametros modificados.
De acuerdo con otra realizacion alternativa del aparato 300 de acuerdo con la Figura 3B, la unidad de modificacion de parametros 301 esta adaptada para procesar el parametro original 114a para determinar el parametro direccional modificado 214a, para procesar el parametro de difusividad y dependiendo del parametro direccional original y o 114a, para determinar el parametro de difusividad modificado ymod o 214b, para dividir la senal de mezcla descendente 112 usando las ecuaciones (2) y (3) y el parametro de difusividad original y o 114b como se ha descrito basandose en la Figura 3A, y para aplicar el filtrado dependiente de la direccion Hi y H2 dependiente del parametro direccional modificado ymod o 214a.
De acuerdo con una realizacion, el aparato 300 de acuerdo con la Figura 3B esta adaptado solo para modificar el primer parametro direccional 114a de la primera senal de audio espacial parametrico para obtener un segundo parametro direccional 214a de la segunda senal de audio espacial parametrico dependiendo de la senal de control 402, por ejemplo, una senal de control de rotacion o una senal de control de zoom. En el caso en que el cambio de posicion/orientacion de escucha solo comprenda una rotacion y no una traslacion o zoom, es suficiente una correspondiente modificacion o desplazamiento del parametro direccional y(k,n) 114a. Los correspondientes parametros de difusividad y los componentes de la senal de mezcla descendente pueden quedar sin modificaciones de manera que la segunda senal de mezcla descendente 212 corresponda a la primera senal de mezcla descendente 112 y el segundo parametro de difusividad 214b corresponda al primer parametro de difusividad 114b.
En el caso de realizarse un cambio por traslacion, por ejemplo un zoom, una modificacion del parametro direccional y(k,n) 114a de acuerdo con una funcion de remapeo ilustrada en la Figura 5A ya mejora la experiencia de sonido y proporciona una mejor sincronizacion entre la senal de audio y, por ejemplo, una senal de video en comparacion con la senal de audio parametrico original o sin modificar (sin modificar el parametro de difusividad ni la senal de mezcla descendente).
Modificar el parametro de difusividad 114b mejora aun mas la experiencia de audio o, en otras palabras, mejora la
5
10
15
20
25
30
35
40
45
50
55
60
adaptacion de la experiencia de sonido con respecto a la posicion cambiada dentro de la escena de audio espacial. Por lo tanto, en otras realizaciones, el aparato 300 puede estar adaptado para modificar solamente el parametro direccional y(k,n) y el parametro de difusividad y(k,n), este ultimo dependiendo del parametro direccional modificado <Pmod(k,n), pero no para modificar la senal de mezcla descendente W(k,n) 100.
Las realizaciones preferidas del aparato 300 de acuerdo con la Figura 3B tambien comprenden la modificacion de la senal de mezcla descendente W(k,n) dependiente de la difusividad original y(k,n) y del parametro direccional modificado ymod(k,n) para mejorar aun mas la experiencia de audio con respecto a la posicion cambiada en la escena de audio espacial.
Por lo tanto, en realizaciones en las cuales el primer parametro direccional y(k,n) 114a es un vector, la unidad de modificacion de parametros 301 esta adaptada para desplazar o modificar el primer parametro direccional en un angulo definido por una senal de control de rotacion en direccion inversa a una direccion definida por la senal de control de rotacion para obtener el segundo parametro direccional <$mod(k,n) 214a.
En otras realizaciones, la unidad de modificacion de parametros 301 esta adaptada para obtener el segundo parametro direccional 214a usando una funcion de mapeo no lineal (como, por ejemplo, la expuesta en la Figura 5A) que define el segundo parametro direccional 214a dependiendo del primer parametro direccional y(k,n) y de un factor de zoom d definido por una senal de control de zoom 402 u otra informacion de control de traslacion definida por la senal de cambio.
Como se ha descrito anteriormente, en otras realizaciones, la unidad de modificacion de parametros 301 puede estar adaptada para modificar el primer parametro de difusividad y(k,n) 114b de la primera senal de audio espacial parametrico para obtener un segundo parametro de difusividad ^mod(k,n) 214b dependiendo del segundo parametro direccional q>mod(k,n) 214a. La unidad de modificacion de parametros puede estar adaptada ademas para obtener el segundo parametro de difusividad ^mod(k,n) usando una funcion dependiente de la direccion adaptada para reducir el primer parametro de difusividad y(k,n) para obtener el segundo parametro de difusividad ymod(k,n) en caso de que el segundo parametro direccional q>mod(k,n) este dentro de un rango central predeterminado, por ejemplo +/- 30° de la orientacion de referencia original a la que se hace referencia como orientacion original a 0°, y/o para aumentar el primer parametro de difusividad y(k,n) para obtener el segundo parametro de difusividad ^mod(k,n) en caso de que el segundo parametro direccional q>mod(k,n) este fuera del rango central predeterminado, por ejemplo, en un caso bidimensional fuera del rango central definido por +30° y -30° de la orientacion de referencia original a 0°.
En otras palabras, en ciertas realizaciones la unidad de modificacion de parametros 301, 310b esta adaptada para obtener el segundo parametro de difusividad 214b usando una funcion dependiente de la direccion adaptada para reducir el primer parametro de difusividad 114b para obtener el segundo parametro de difusividad 214b en caso de que el segundo parametro direccional 214a este dentro de un rango central predeterminado del segundo parametro direccional, formando la primera orientacion de escucha, u orientacion de escucha original el centro del rango central bidimensional o tridimensional predeterminado y/o para aumentar el primer parametro de difusividad 114b para obtener el segundo parametro de difusividad en caso de que el segundo parametro direccional 214a este fuera del rango central predeterminado. La primera orientacion de escucha define un centro, por ejemplo 0°, del rango central predeterminado del segundo parametro direccional, donde un lfmite positivo y otro negativo del rango central predeterminado esta definido por un angulo positivo y otro negativo en un plano bidimensional (por ejemplo horizontal) (por ejemplo +/-30°) independientemente de si la primera orientacion de escucha es un vector bidimensional o tridimensional, o en un angulo correspondiente (por ejemplo 30°) que define un cono circular derecho alrededor de la segunda orientacion de escucha tridimensional. Otras realizaciones pueden comprender diferentes regiones centrales predeterminadas, simetricas y asimetricas, dispuestas alrededor de la primera orientacion de escucha o vector que define la primera orientacion de escucha.
En otras realizaciones, la funcion dependiente de la direccion fd(y) depende de la senal de cambio, por ejemplo, la senal de control de zoom, donde el rango central predeterminado, respectivamente los valores que definen los lfmites negativo y positivo (o en general, el lfmite) del rango central es menor cuanto mayor sea el cambio traslacional o mayor es el factor de zoom definido por la senal de control de zoom.
En otras realizaciones, la unidad de modificacion de senales de audio espacial comprende una unidad de modificacion de mezcla descendente 302 adaptada para modificar la primera senal de audio de mezcla descendente W(k,n) de la primera senal de audio espacial parametrico para obtener una segunda senal de mezcla descendente Wmod(k,n) de la segunda senal de audio espacial parametrico dependiendo del segundo parametro direccional q>mod(k,n) y del primer parametro de difusividad y(k,n). Ciertas realizaciones de la unidad de modificacion de mezcla descendente 302 pueden estar adaptadas para dividir la primera senal de audio de mezcla descendente W en un componente directo S(k,n) 112a y un componente difuso N(k,n) 112b dependiendo del primer parametro de difusividad y(k,n), por ejemplo, basandose en las ecuaciones (2) y (3).
5
10
15
20
25
30
35
40
45
50
55
60
En otras realizaciones, la unidad de modificacion de mezcla descendente 302 esta adaptada para aplicar una primera funcion dependiente de la direccion H1 para obtener una version ponderada dependiente de la direccion del componente directo y/o para aplicar una segunda funcion dependiente de la direccion H2 al componente difuso para obtener una version ponderada dependiente de la direccion del componente difuso. La unidad de modificacion de mezcla descendente 302 puede estar adaptada para producir la version ponderada dependiente de la direccion del componente directo 112a aplicando otra funcion dependiente de la direccion Hi al componente directo, donde la otra funcion dependiente de la direccion esta adaptada para incrementar el componente directo 112a en caso de que el segundo parametro direccional 214a este dentro de otro rango central predeterminado del segundo parametro direccional y/o para reducir el componente directo 112a en caso de que el segundo parametro direccional 214a este fuera del otro rango predeterminado del segundo parametro direccional. En otras realizaciones adicionales, la unidad de modificacion de mezcla descendente puede estar adaptada para producir la version ponderada dependiente de la direccion del componente difuso 112b mediante la aplicacion de una funcion dependiente de la direccion H2 al componente difuso 112b, donde la funcion dependiente de la direccion esta adaptada para reducir el componente difuso en caso de que el segundo parametro direccional 214a este dentro de un rango central predeterminado de los segundos parametros direccionales y/o para aumentar el componente difuso 112b en caso de que el segundo parametro direccional 214a este fuera del rango predeterminado de los segundos parametros direccionales.
En otras realizaciones, la unidad de modificacion de mezcla descendente 302 esta adaptada para obtener la segunda senal de mezcla descendente 212 basandose en una combinacion, por ejemplo una suma, de una version ponderada dependiente de la direccion del componente directo 112a y una version ponderada dependiente de la direccion del componente difuso 112b. Sin embargo, otras realizaciones pueden aplicar otros algoritmos aparte de la suma de los dos componentes para obtener la senal de mezcla descendente modificada 212.
Como se ha explicado anteriormente, las realizaciones de la unidad de modificacion de mezcla descendente 302 de acuerdo con la Figura 3B pueden estar adaptadas para dividir la senal de mezcla descendente W en una parte o componente difuso 112b y una parte o componente no difuso o directo 112a mediante dos multiplicadores, es decir (y)1/2 y (1 - w) 1/2 y para filtrar la parte no difusa 112a mediante la funcion de filtro H1 y para filtrar la parte difusa 112b mediante la funcion de filtro H2. La funcion de filtro H1 o H1(y, y) puede depender de los indices de tiempo/frecuencia k, n, la direccion de llegada modificada y el parametro de zoom d. La funcion de filtro H1 puede depender, ademas, de la difusividad y. La funcion de filtro H2 o H2(y, w) puede depender de los indices de tiempo/frecuencia k, n, la direccion de llegada original y y el parametro de zoom d. La funcion de filtro H2 o H2(y, y) puede depender, ademas, de la difusividad y. Como se ha descrito anteriormente, la funcion de filtro H2 puede implementarse en forma de ventana subcardioide de acuerdo con lo expuesto en la Figura 7, o en forma de factor de atenuacion simple, independiente de la direccion de llegada modificada ymod.
Haciendo referencia a las explicaciones precedentes, tambien en las realizaciones de acuerdo con la Figura 3B, se pueden utilizar los parametros de zoom d para controlar los filtros H1, H2 y los modificadores o funciones fd y fp. En el caso de la funcion de filtros H1 y fd el parametro de zoom d tambien puede controlar la amplitud angular y (a la que tambien se hace referencia como angulo lfmite y) de las ventanas o regiones centrales aplicadas. La amplitud y se define, por ejemplo como angulo en el cual la funcion de filtro tiene 0 dB (analogo a la lmea de 0 dB de la Figura 6). Se puede controlar la amplitud angular y y/o la ganancia mediante el parametro de zoom d. Se debe tener en cuenta que, en general, las explicaciones dadas con respecto a las realizaciones de acuerdo con la Figura 3A se aplican de la misma manera o al menos de una manera analoga a las realizaciones de acuerdo con la Figura 3B.
A continuacion se describen aplicaciones ilustrativas en que las realizaciones de la invencion llevan a una experiencia mejorada de una reproduccion conjunta de vfdeo/audio mediante el ajuste de la imagen de audio percibida al control de zoom de una camara de video.
En la realizacion de teleconferencias, el estado de la tecnica consiste en dirigir automaticamente la camara hacia el locutor activo. Esto esta conectado habitualmente con el zoom del hablante. El sonido no coincide habitualmente con la imagen. Las realizaciones de la presente invencion ofrecen la posibilidad de acercar tambien acusticamente al hablante activo. Esto hace que la impresion global sea mas realista para los usuarios remotos, ya que no solo la imagen cambia de foco, sino que el sonido coincide con el cambio de atencion pretendido. En smtesis, los indicios acusticos corresponden a los indicios visuales.
Las videocamaras actuales, por ejemplo, para uso de entretenimiento domestico, tienen la capacidad de grabar sonido envolvente y tienen un teleobjetivo optico potente. Sin embargo, no hay interaccion perceptual equivalente entre el zoom optico y el sonido grabado, ya que el sonido espacial grabado solo depende de la posicion real de la camara y, por consiguiente, de la posicion de los microfonos instalados en la propia camara. En el caso de una escena filmada en un modo de primer plano, la invencion permite ajustar en consecuencia la imagen de audio. Esto da lugar a una experiencia del consumidor mas natural y coherente, ya que el sonido se acerca con la imagen.
5
10
15
20
25
Se debe mencionar que la invencion se puede aplicar tambien en una fase de post-procesamiento si las senales de microfono originales se graban sin modificaciones con el v^deo y no se ha realizado mas procesamiento. Si bien puede no conocerse la longitud de zoom original, se puede utilizar la invencion en equipos creativos de herramientas de post-procesamiento audiovisual. El usuario puede elegir arbitrariamente una longitud de zoom y dirigir el zoom acustico para que coincida con la imagen. Como alternativa, el usuario puede crear sus propios efectos espaciales preferidos. En todo caso, se modificara la posicion de grabacion del microfono original por una posicion de grabacion virtual definida por el usuario.
Dependiendo de ciertos requisitos de implementacion de los metodos de la presente invencion, los metodos de la invencion se pueden implementar en hardware o en software. La implementacion se puede realizar utilizando un medio de almacenamiento digital, en particular un disco, un CD, un DVD o un disco Blu-Ray con una senal de control legible electronicamente almacenada en el mismo, que coopera con un sistema de computacion programable de tal manera que se realice una realizacion del metodo de la invencion. En terminos generales, una realizacion de la presente invencion consiste, por lo tanto, en un programa de computacion producido con un codigo de programa almacenado en un portador legible por una maquina, donde el codigo de programa es apto para llevar a la practica el metodo de la invencion al ejecutarse el producto programa de computacion en una computadora. En otras palabras, las realizaciones del metodo de la invencion consisten, por lo tanto, en un programa de computacion que consta de un codigo de programa para realizar al menos uno de los metodos de la invencion al ejecutarse el programa de computacion en una computadora.
Lo anterior se mostro y describio particularmente con referencia a realizaciones particulares de lo mismo. Los expertos en la materia comprenderan que se pueden efectuar otros cambios en forma y detalle sin apartarse del alcance de la misma. Se debe entender, por lo tanto, que se pueden efectuar diversos cambios al adaptar las diferentes realizaciones sin apartarse del concepto mas amplio desvelado en el presente documento y cubierto por las siguientes reivindicaciones.

Claims (18)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    REIVINDICACIONES
    1. Aparato (300) para convertir una primera senal de audio espacial parametrico (112, 114) que representa una primera posicion de escucha o una primera orientacion de escucha en una escena de audio espacial en una segunda senal de audio espacial parametrico (212, 214) que representa una segunda posicion de escucha o una segunda orientacion de escucha, comprendiendo el aparato:
    una unidad de modificacion de senales de audio espacial (301, 302) adaptada para modificar al menos una de la senal de mezcla descendente (112) de la primera senal de audio espacial parametrico (112, 114), el parametro de direccion de llegada (114a) de la primera senal de audio espacial parametrico y el parametro de difusividad (114b) de la primera senal de audio espacial parametrico dependiendo de un cambio de la primera posicion de escucha o la primera orientacion de escucha para obtener la segunda senal de audio espacial parametrico (212, 214), en el que la segunda posicion de escucha o la segunda orientacion de escucha corresponde a la primera posicion de escucha o la primera orientacion de escucha modificada por el cambio, en el que la unidad de modificacion de senales de audio espacial (301, 302) comprende:
    una unidad de modificacion de parametros (301, 301a) adaptada para modificar un primer parametro direccional (114a) de la primera senal de audio espacial parametrico (112, 114) para obtener un segundo parametro direccional (214a) de la segunda senal de audio espacial parametrico (212, 214) dependiendo de una senal de control (402) que proporciona informacion que corresponde al cambio; y
    en el que la unidad de modificacion de parametros (301, 310b) esta adaptada para modificar un primer parametro de difusividad (114b) de la primera senal de audio espacial parametrico para obtener un segundo parametro de difusividad (214b) de la segunda senal de audio espacial parametrico dependiendo del primer parametro direccional (114a) o dependiendo del segundo parametro direccional (214a).
  2. 2. Aparato de acuerdo con la reivindicacion 1, en el que el primer parametro direccional (114a) y el segundo parametro direccional (214a) son vectores bidimensionales o tridimensionales.
  3. 3. Aparato de acuerdo con la reivindicacion 1 o 2, en el que el primer parametro direccional (114a) es un vector, en el que la senal de control es una senal de control de rotacion que define un angulo de rotacion y una direccion de rotacion, y en el que la unidad de modificacion de parametros (301, 301a) esta adaptada para rotar el vector en un angulo de rotacion en una direccion inversa a la direccion de rotacion para obtener el segundo parametro direccional (214a).
  4. 4. Aparato de acuerdo con una de las reivindicaciones 1 a 3, en el que la senal de control es una senal de control de traslacion (402) que define una traslacion (d) en la direccion de la primera orientacion de escucha, en el que la unidad de modificacion de parametros (301, 301a) esta adaptada para obtener el segundo parametro direccional (214a) usando una funcion de mapeo no lineal (fp) que define el segundo parametro direccional dependiendo del primer parametro direccional (114a) y la traslacion (d) definida por la senal de control.
  5. 5. Aparato de acuerdo con una de las reivindicaciones 1 a 3, en el que la senal de control es una senal de control de zoom (402) que define un factor de zoom (d) en la direccion de la primera orientacion de escucha, donde la unidad de modificacion de parametros (301, 301a) esta adaptada para obtener el segundo parametro direccional (214a) utilizando una funcion de mapeo no lineal (fp) que define el segundo parametro direccional dependiendo del primer parametro direccional (114a) y el factor de zoom (d) definido por la senal de control de zoom.
  6. 6. Aparato de acuerdo con la reivindicacion 1 a 5, en el que la unidad de modificacion de parametros (301, 301b) esta adaptada para obtener el segundo parametro de difusividad (214b) empleando una funcion dependiente de la direccion (fd) adaptada para reducir el primer parametro de difusividad (114b) para obtener el segundo parametro de difusividad (214b) en caso de que el primer parametro direccional (114a) este dentro de un rango central predeterminado del primer parametro direccional y/o para incrementar el primer parametro de difusividad (114b) para obtener el segundo parametro de difusividad en caso de que el primer parametro direccional (114a) este fuera del rango central predeterminado, o
    en el que la unidad de modificacion de parametros (301, 310b) esta adaptada para obtener el segundo parametro de difusividad (214b) empleando una funcion dependiente de la direccion (fd) adaptada para reducir el primer parametro de difusividad (114b) para obtener el segundo parametro de difusividad (214b) en caso de que el segundo parametro direccional (214a) este dentro de un rango central predeterminado del segundo parametro direccional y/o para incrementar el primer parametro de difusividad (114b) para obtener el segundo parametro de difusividad en caso de que el segundo parametro direccional (214a) este fuera del rango central predeterminado.
  7. 7. Aparato de acuerdo con la reivindicacion 6, en el que la senal de control es una senal de control de traslacion (402) que define una traslacion (d) en la direccion de la primera orientacion de escucha, en el que la funcion dependiente de la direccion depende de la traslacion, y en el que el rango central predeterminado es menor cuanto
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    mayor sea la traslacion definida por la senal de control de traslacion; o en el que la senal de control es una senal de control de zoom (402) que define un zoom en la direccion de la primera orientacion de escucha, en el que la funcion dependiente de la direccion depende del zoom y en el que el rango central predeterminado es menor cuanto mayor sea un factor de zoom (d) definido por la senal de control de zoom.
  8. 8. Aparato de acuerdo con las reivindicaciones 1 a 7, comprendiendo la unidad de modificacion de senales de audio espacial (300):
    una unidad de modificacion de mezcla descendente (302) adaptada para modificar una primera senal de audio de mezcla descendente (112) de la primera senal de audio espacial parametrico para obtener una segunda senal de mezcla descendente (212) de la segunda senal de audio espacial parametrico dependiendo del primer parametro direccional (114a) y/o del primer parametro de difusividad (114b), o
    una unidad de modificacion de mezcla descendente (302) adaptada para modificar la primera senal de audio de mezcla descendente (112) de la primera senal de audio espacial parametrico para obtener la segunda senal de mezcla descendente (212) de la segunda senal de audio espacial parametrico dependiendo del segundo parametro direccional (214a) y/o del primer parametro de difusividad (114b).
  9. 9. Aparato de acuerdo con la reivindicacion 8, en el que la unidad de modificacion de mezcla descendente (302) esta adaptada para obtener un componente directo (112a) de la primera senal de audio de mezcla descendente (112) y/o un componente difuso (112b) de la primera senal de audio de mezcla descendente (112) dependiendo del primer parametro de difusividad (114b).
  10. 10. Aparato de acuerdo con la reivindicacion 9, en el que la unidad de modificacion de mezcla descendente (302) esta adaptada para determinar el componente directo (112a) segun:
    S (k, n) = W (k, n)^l - Y
    y/o el componente difuso segun:
    N (k, n)= W (k, n) -VY
    en el que k es un mdice de tiempo, n es un mdice de la componente de frecuencia, W(k,n) se refiere a la primera senal de mezcla descendente, y(k,n) se refiere al primer parametro de difusividad, S(k,n) se refiere al componente directo y N(k,n) se refiere al componente difuso obtenido de la primera senal de mezcla descendente.
  11. 11. Aparato de acuerdo con la reivindicacion 9 o 10, en el que la unidad de modificacion de mezcla descendente (302) esta adaptada para obtener la segunda senal de mezcla descendente (212) basandose en una version ponderada dependiente de la direccion del componente directo (112a), basandose en una version ponderada dependiente de la direccion del componente difuso (112b) o basandose en una combinacion de la version ponderada dependiente de la direccion del componente directo (112a) y la version ponderada dependiente de la direccion del componente difuso (112b).
  12. 12. Aparato de acuerdo con la reivindicacion 11, en el que la unidad de modificacion de mezcla descendente (302) esta adaptada para producir la version ponderada dependiente de la direccion del componente directo (112a) aplicando una funcion dependiente de la direccion (Hi) adicional al componente directo, estando adaptada la funcion dependiente de la direccion adicional para incrementar el componente directo (112a) en caso de que el primer parametro direccional (114a) este dentro de un rango central predeterminado adicional de los primeros parametros direccionales y/o para reducir el componente directo (112a) en caso de que el primer parametro direccional (114a) este fuera del rango predeterminado adicional de los primeros parametros direccionales.
  13. 13. Aparato de acuerdo con la reivindicacion 11 o 12, en el que la unidad de modificacion de mezcla descendente esta adaptada para producir la version ponderada dependiente de la direccion del componente difuso (112b) aplicando una funcion dependiente de la direccion (H2) al componente difuso (112b),
    estando adaptada la funcion dependiente de la direccion para reducir el componente difuso en caso de que el primer parametro direccional (114a) este dentro de un rango central predeterminado de los primeros parametros direccionales y/o para incrementar el componente difuso (112b) en caso de que el primer parametro direccional (114a) este fuera del rango predeterminado de los primeros parametros direccionales, o
    estando adaptada la funcion dependiente de la direccion para reducir el componente difuso en caso de que el segundo parametro direccional (214a) este dentro de un rango central predeterminado de los segundos parametros direccionales y/o para incrementar el componente difuso (112b) en caso de que el segundo parametro direccional (214a) este fuera del rango predeterminado de los segundos parametros direccionales.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
  14. 14. Sistema que comprende:
    un aparato de acuerdo con una de las reivindicaciones 1 a 13; y
    una camara de v^deo, en el que el aparato esta acoplado a la camara de video y esta adaptado para recibir una senal de rotacion de video o de zoom de video como una senal de control.
  15. 15. Un metodo para convertir una primera senal de audio espacial parametrico (112, 114) que representa una primera posicion de escucha o una primera orientacion de escucha en una escena de audio espacial en una segunda senal de audio espacial parametrico (212, 214) que representa una segunda posicion de escucha o una segunda orientacion de escucha, comprendiendo el metodo:
    modificar al menos una de la senal de mezcla descendente (112) de la primera senal de audio espacial parametrico (112, 114), el parametro de direccion de llegada (114a) de la primera senal de audio espacial parametrico y el parametro de difusividad (114b) de la primera senal de audio espacial parametrico dependiendo de un cambio de la primera posicion de escucha o la primera orientacion de escucha para obtener la segunda senal de audio espacial parametrico (212, 214), en el que la segunda posicion de escucha o la segunda orientacion de escucha corresponde a la primera posicion de escucha o la primera orientacion de escucha modificada por el cambio;
    en el que el metodo comprende modificar un primer parametro direccional (114a) de la primera senal de audio espacial parametrico (112, 114) para obtener un segundo parametro direccional (214a) de la segunda senal de audio espacial parametrico (212, 214) dependiendo de una senal de control (402) que proporciona informacion que corresponde al cambio; y
    en el que el metodo comprende modificar un primer parametro de difusividad (114b) de la primera senal de audio espacial parametrico para obtener un segundo parametro de difusividad (214b) de la segunda senal de audio espacial parametrico dependiendo del primer parametro direccional (114a) o dependiendo del segundo parametro direccional (214a).
  16. 16. Un metodo para convertir una primera senal de audio espacial parametrico (112, 114) que representa una primera posicion de escucha o una primera orientacion de escucha en una escena de audio espacial en una segunda senal de audio espacial parametrico (212, 214) que representa una segunda posicion de escucha o una segunda orientacion de escucha; comprendiendo el metodo:
    modificar la primera senal de audio espacial parametrico dependiendo de un cambio de la primera posicion de escucha o la primera orientacion de escucha para obtener la segunda senal de audio espacial parametrico, en el que la segunda posicion de escucha o la segunda orientacion de escucha corresponde a la primera posicion de escucha o la primera orientacion de escucha modificada por el cambio;
    en el que el metodo comprende modificar un primer parametro direccional (114a) de la primera senal de audio espacial parametrico (112, 114) para obtener un segundo parametro direccional (214a) de la segunda senal de audio espacial parametrico (212, 214) dependiendo de una senal de control (402) que proporciona informacion que corresponde al cambio;
    en el que el metodo comprende modificar una primera senal de audio de mezcla descendente (112) de la primera senal de audio espacial parametrico para obtener una segunda senal de mezcla descendente (212) de la segunda senal de audio espacial parametrico dependiendo del primer parametro direccional (114a) y/o un primer parametro de difusividad (114b), o
    modificar la primera senal de audio de mezcla descendente (112) de la primera senal de audio espacial parametrico para obtener la segunda senal de mezcla descendente (212) de la segunda senal de audio espacial parametrico dependiendo del segundo parametro direccional (214a) y/o un primer parametro de difusividad (114b);
    en el que un componente directo (112a) se obtiene a partir de la primera senal de audio de mezcla descendente (112) y un componente difuso (112b) se obtiene a partir de la primera senal de audio de mezcla descendente (112) dependiendo del primer parametro de difusividad (114b);
    en el que la segunda senal de mezcla descendente (212) se obtiene basandose en una combinacion de una version ponderada dependiente de la direccion del componente directo (112a) y una version ponderada dependiente de la direccion del componente difuso (112b);
    en el que la version ponderada dependiente de la direccion del componente directo (112a) se produce aplicando una primera funcion dependiente de la direccion (H1) al componente directo, estando adaptada la primera funcion dependiente de la direccion para incrementar el componente directo (112a) en caso de que el primer parametro direccional (114a) este dentro de un rango central predeterminado de los primeros parametros direccionales y/o para reducir el componente directo (112a) en caso de que el primer parametro direccional (114a) este fuera del rango predeterminado de los primeros parametros direccionales; y
    en el que se aplica una segunda funcion dependiente de la direccion (H2) al componente difuso para obtener la version ponderada dependiente de la direccion del componente difuso.
    5
    10
    15
    20
    25
    30
    35
    40
    45
  17. 17. Un programa de computacion que tiene un codigo de programa para realizar el metodo de acuerdo con la reivindicacion 15 o 16 cuando el programa se ejecuta en una computadora.
  18. 18. Un aparato (300) para convertir una primera senal de audio espacial parametrico (112, 114) que representa una primera posicion de escucha o una primera orientacion de escucha en una escena de audio espacial en una segunda senal de audio espacial parametrico (212, 214) que representa una segunda posicion de escucha o una segunda orientacion de escucha; comprendiendo el aparato:
    una unidad de modificacion de senal de audio espacial (301, 302) adaptada para modificar la primera senal de audio espacial parametrica (112, 114) dependiendo de un cambio de la primera posicion de escucha o la primera orientacion de escucha para obtener la segunda senal de audio espacial parametrico (212, 214), en el que la segunda posicion de escucha o la segunda orientacion de escucha corresponde a la primera posicion de escucha o la primera orientacion de escucha modificada por el cambio;
    en el que la unidad de modificacion de senal de audio espacial (301, 302) comprende una unidad de modificacion de parametros (301, 301a) adaptada para modificar un primer parametro direccional (114a) de la primera senal de audio espacial parametrico (112, 114) para obtener un segundo parametro direccional (214a) de la segunda senal de audio espacial parametrico (212, 214) dependiendo de una senal de control (402) que proporciona informacion correspondiente al cambio;
    en el que la unidad de modificacion de senal de audio espacial (300) comprende:
    una unidad de modificacion de mezcla descendente (302) adaptada para modificar una primera senal de audio de mezcla descendente (112) de la primera senal de audio espacial parametrico para obtener una segunda senal de mezcla descendente (212) de la segunda senal de audio espacial parametrico dependiendo del primer parametro direccional (114a) y/o un primer parametro de difusividad (114b), o
    una unidad de modificacion de mezcla descendente (302) adaptada para modificar la primera senal de audio de mezcla descendente (112) de la primera senal de audio espacial parametrico para obtener la segunda senal de mezcla descendente (212) de la segunda senal de audio espacial parametrico dependiendo del segundo parametro direccional (214a) y/o un primer parametro de difusividad (114b);
    en el que la unidad de modificacion de mezcla descendente (302) esta adaptada para obtener un componente directo (112a) de la primera senal de audio de mezcla descendente (112) y un componente difuso (112b) de la primera senal de audio de mezcla descendente (112) dependiendo del primer parametro de difusividad (114b); en el que la unidad de modificacion de mezcla descendente (302) esta adaptada para obtener la segunda senal de mezcla descendente (212) basandose en una combinacion de una version ponderada dependiente de la direccion del componente directo (112a) y una version ponderada dependiente de la direccion del componente difuso (112b);
    en el que la unidad de modificacion de mezcla descendente (302) esta adaptada para producir la version ponderada dependiente de la direccion del componente directo (112a) aplicando una primera funcion dependiente de la direccion (Hi) al componente directo, estando adaptada la primera funcion dependiente de la direccion para incrementar el componente directo (112a) en caso de que el primer parametro direccional (114a) este dentro de un rango central predeterminado de los primeros parametros direccionales y/o para reducir el componente directo (112a) en caso de que el primer parametro direccional (114a) este fuera del rango predeterminado de los primeros parametros direccionales; y
    en el que la unidad de modificacion de mezcla descendente (302) esta adaptada para aplicar una segunda funcion dependiente de la direccion (H2) al componente difuso para obtener la version ponderada dependiente de la direccion del componente difuso.
ES10796353.0T 2009-12-17 2010-12-14 Un aparato y método para convertir una primera señal de audio paramétrico espacial en una segunda señal de audio paramétrico espacial Active ES2592217T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US28759609P 2009-12-17 2009-12-17
US287596P 2009-12-17
EP10156263A EP2346028A1 (en) 2009-12-17 2010-03-11 An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
EP10156263 2010-03-11
PCT/EP2010/069669 WO2011073210A1 (en) 2009-12-17 2010-12-14 An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal

Publications (1)

Publication Number Publication Date
ES2592217T3 true ES2592217T3 (es) 2016-11-28

Family

ID=43748019

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10796353.0T Active ES2592217T3 (es) 2009-12-17 2010-12-14 Un aparato y método para convertir una primera señal de audio paramétrico espacial en una segunda señal de audio paramétrico espacial

Country Status (15)

Country Link
US (1) US9196257B2 (es)
EP (2) EP2346028A1 (es)
JP (1) JP5426035B2 (es)
KR (1) KR101431934B1 (es)
CN (1) CN102859584B (es)
AR (1) AR079517A1 (es)
AU (1) AU2010332934B2 (es)
BR (1) BR112012015018B1 (es)
CA (1) CA2784862C (es)
ES (1) ES2592217T3 (es)
HK (1) HK1176733A1 (es)
MX (1) MX2012006979A (es)
RU (1) RU2586842C2 (es)
TW (1) TWI523545B (es)
WO (1) WO2011073210A1 (es)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074921B2 (en) 2017-03-28 2021-07-27 Sony Corporation Information processing device and information processing method

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2647222T3 (pl) 2010-12-03 2015-04-30 Fraunhofer Ges Forschung Pozyskiwanie dźwięku za pomocą ekstrakcji informacji geometrycznej z estymacji kierunku nadejścia sygnału
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2727380B1 (en) 2011-07-01 2020-03-11 Dolby Laboratories Licensing Corporation Upmixing object based audio
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9047863B2 (en) 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
WO2013186593A1 (en) * 2012-06-14 2013-12-19 Nokia Corporation Audio capture apparatus
CN104471641B (zh) 2012-07-19 2017-09-12 杜比国际公司 用于改善对多声道音频信号的呈现的方法和设备
US9565314B2 (en) 2012-09-27 2017-02-07 Dolby Laboratories Licensing Corporation Spatial multiplexing in a soundfield teleconferencing system
JP6031930B2 (ja) * 2012-10-02 2016-11-24 ソニー株式会社 音声処理装置および方法、プログラム並びに記録媒体
EP2733965A1 (en) 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
CN103021414B (zh) * 2012-12-04 2014-12-17 武汉大学 一种三维音频系统距离调制方法
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
US9854377B2 (en) * 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
CN104244164A (zh) * 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
EP3933834A1 (en) 2013-07-05 2022-01-05 Dolby International AB Enhanced soundfield coding using parametric component generation
GB2521649B (en) 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
EP2942981A1 (en) 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions
CN106465027B (zh) 2014-05-13 2019-06-04 弗劳恩霍夫应用研究促进协会 用于边缘衰落幅度平移的装置和方法
US9883140B2 (en) * 2014-05-19 2018-01-30 Apple Inc. Using the location of a near-end user in a video stream to adjust audio settings of a far-end system
KR102605480B1 (ko) * 2014-11-28 2023-11-24 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
US9602946B2 (en) 2014-12-19 2017-03-21 Nokia Technologies Oy Method and apparatus for providing virtual audio reproduction
CN107533843B (zh) * 2015-01-30 2021-06-11 Dts公司 用于捕获、编码、分布和解码沉浸式音频的系统和方法
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
KR102617476B1 (ko) * 2016-02-29 2023-12-26 한국전자통신연구원 분리 음원을 합성하는 장치 및 방법
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
KR102561371B1 (ko) 2016-07-11 2023-08-01 삼성전자주식회사 디스플레이장치와, 기록매체
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
MC200185B1 (fr) * 2016-09-16 2017-10-04 Coronal Audio Dispositif et procédé de captation et traitement d'un champ acoustique tridimensionnel
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
MC200186B1 (fr) 2016-09-30 2017-10-18 Coronal Encoding Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel
EP3340648B1 (en) 2016-12-23 2019-11-27 Nxp B.V. Processing audio signals
WO2018132385A1 (en) * 2017-01-12 2018-07-19 Pcms Holdings, Inc. Audio zooming in natural audio video content service
KR20180090022A (ko) * 2017-02-02 2018-08-10 한국전자통신연구원 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치
CN110463226B (zh) * 2017-03-14 2022-02-18 株式会社理光 声音记录设备,声音系统,声音记录方法和载体装置
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
BR112019021897A2 (pt) * 2017-04-25 2020-05-26 Sony Corporation Dispositivo e método de processamento de sinal, e, programa
GB2562518A (en) * 2017-05-18 2018-11-21 Nokia Technologies Oy Spatial audio processing
US10299039B2 (en) 2017-06-02 2019-05-21 Apple Inc. Audio adaptation to room
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
AR112504A1 (es) 2017-07-14 2019-11-06 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción multi-capa
CN111108555B (zh) * 2017-07-14 2023-12-15 弗劳恩霍夫应用研究促进协会 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法
RU2736418C1 (ru) * 2017-07-14 2020-11-17 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многоточечного описания звукового поля
US11004567B2 (en) 2017-08-15 2021-05-11 Koko Home, Inc. System and method for processing wireless backscattered signal using artificial intelligence processing for activities of daily life
US10412482B2 (en) 2017-11-08 2019-09-10 Merry Electronics (Shenzhen) Co., Ltd. Loudspeaker apparatus
JP7175979B2 (ja) * 2017-11-17 2022-11-21 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 様々な時間/周波数分解能を使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
US11109178B2 (en) * 2017-12-18 2021-08-31 Dolby International Ab Method and system for handling local transitions between listening positions in a virtual reality environment
EP3729829A1 (en) * 2017-12-19 2020-10-28 Koninklijke KPN N.V. Enhanced audiovisual multiuser communication
RU2707149C2 (ru) * 2017-12-27 2019-11-22 Общество С Ограниченной Ответственностью "Яндекс" Устройство и способ модифицирования вывода аудиосигнала устройства
USD882547S1 (en) 2017-12-27 2020-04-28 Yandex Europe Ag Speaker device
GB201800918D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback
CN109492126B (zh) * 2018-11-02 2022-03-01 廊坊市森淼春食用菌有限公司 一种智能交互方法及装置
GB201818959D0 (en) 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
US10810850B2 (en) 2019-02-19 2020-10-20 Koko Home, Inc. System and method for state identity of a user and initiating feedback using multiple sources
GB2584838A (en) * 2019-06-11 2020-12-23 Nokia Technologies Oy Sound field related rendering
GB2584837A (en) * 2019-06-11 2020-12-23 Nokia Technologies Oy Sound field related rendering
WO2021006871A1 (en) 2019-07-08 2021-01-14 Dts, Inc. Non-coincident audio-visual capture system
GB2586586A (en) * 2019-08-16 2021-03-03 Nokia Technologies Oy Quantization of spatial audio direction parameters
GB2586461A (en) 2019-08-16 2021-02-24 Nokia Technologies Oy Quantization of spatial audio direction parameters
USD947152S1 (en) 2019-09-10 2022-03-29 Yandex Europe Ag Speaker device
GB2587335A (en) 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US11719804B2 (en) 2019-09-30 2023-08-08 Koko Home, Inc. System and method for determining user activities using artificial intelligence processing
EP3849202B1 (en) * 2020-01-10 2023-02-08 Nokia Technologies Oy Audio and video processing
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners
US11240635B1 (en) * 2020-04-03 2022-02-01 Koko Home, Inc. System and method for processing using multi-core processors, signals, and AI processors from multiple sources to create a spatial map of selected region
US11184738B1 (en) 2020-04-10 2021-11-23 Koko Home, Inc. System and method for processing using multi core processors, signals, and AI processors from multiple sources to create a spatial heat map of selected region
US11962989B2 (en) 2020-07-20 2024-04-16 Orbital Audio Laboratories, Inc. Multi-stage processing of audio signals to facilitate rendering of 3D audio via a plurality of playback devices
EP4226366A2 (en) * 2020-10-09 2023-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
MX2023003962A (es) * 2020-10-09 2023-05-25 Fraunhofer Ges Forschung Aparato, metodo, o programa de computadora para procesar una escena de audio codificada utilizando una conversion de parametros.
TWI805019B (zh) * 2020-10-09 2023-06-11 弗勞恩霍夫爾協會 使用參數平滑處理編碼音頻場景的裝置、方法或電腦程式
WO2022115803A1 (en) * 2020-11-30 2022-06-02 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
CN115472170A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 一种三维音频信号的处理方法和装置
GB2614254A (en) * 2021-12-22 2023-07-05 Nokia Technologies Oy Apparatus, methods and computer programs for generating spatial audio output
CN115086861B (zh) * 2022-07-20 2023-07-28 歌尔股份有限公司 音频处理方法、装置、设备及计算机可读存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4984087A (en) * 1988-05-27 1991-01-08 Matsushita Electric Industrial Co., Ltd. Microphone apparatus for a video camera
JPH03114000A (ja) * 1989-09-27 1991-05-15 Nippon Telegr & Teleph Corp <Ntt> 音声再生方式
JPH07288899A (ja) * 1994-04-15 1995-10-31 Matsushita Electric Ind Co Ltd 音場再生装置
JPH07312712A (ja) * 1994-05-19 1995-11-28 Sanyo Electric Co Ltd ビデオカメラ及び再生装置
JP3830997B2 (ja) * 1995-10-24 2006-10-11 日本放送協会 奥行方向音響再生装置及び立体音響再生装置
JP2002207488A (ja) * 2001-01-01 2002-07-26 Junichi Kakumoto 音響と画像の臨場感を表現し伝達する方式
GB2374507B (en) * 2001-01-29 2004-12-29 Hewlett Packard Co Audio user interface with audio cursor
JP2003244800A (ja) * 2002-02-14 2003-08-29 Matsushita Electric Ind Co Ltd 音像定位装置
JP2003284196A (ja) * 2002-03-20 2003-10-03 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
JP4134794B2 (ja) * 2003-04-07 2008-08-20 ヤマハ株式会社 音場制御装置
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
WO2007109338A1 (en) 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Low bit rate audio encoding and decoding
US20090299756A1 (en) 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
JP2005311604A (ja) * 2004-04-20 2005-11-04 Sony Corp 情報処理装置及び情報処理装置に用いるプログラム
JP2006050241A (ja) * 2004-08-04 2006-02-16 Matsushita Electric Ind Co Ltd 復号化装置
JP2006074386A (ja) * 2004-09-01 2006-03-16 Fujitsu Ltd 立体音響再生方法、通信装置及びプログラム
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
TWI330992B (en) 2005-10-20 2010-09-21 Lg Electronics Inc Method for encoding and decoding multi-channel audio signal and apparatus thereof
US8296155B2 (en) 2006-01-19 2012-10-23 Lg Electronics Inc. Method and apparatus for decoding a signal
JP4940671B2 (ja) * 2006-01-26 2012-05-30 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
BRPI0707969B1 (pt) 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
CN101690269A (zh) 2007-06-26 2010-03-31 皇家飞利浦电子股份有限公司 双耳的面向对象的音频解码器
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074921B2 (en) 2017-03-28 2021-07-27 Sony Corporation Information processing device and information processing method

Also Published As

Publication number Publication date
CN102859584A (zh) 2013-01-02
AU2010332934A1 (en) 2012-07-26
EP2502228A1 (en) 2012-09-26
BR112012015018A2 (pt) 2022-05-17
MX2012006979A (es) 2012-07-17
CA2784862A1 (en) 2011-06-23
KR20120089369A (ko) 2012-08-09
KR101431934B1 (ko) 2014-08-19
CA2784862C (en) 2020-06-16
RU2586842C2 (ru) 2016-06-10
WO2011073210A1 (en) 2011-06-23
CN102859584B (zh) 2015-11-25
JP5426035B2 (ja) 2014-02-26
US20130016842A1 (en) 2013-01-17
BR112012015018B1 (pt) 2023-11-28
TWI523545B (zh) 2016-02-21
JP2013514696A (ja) 2013-04-25
US9196257B2 (en) 2015-11-24
AU2010332934B2 (en) 2015-02-19
EP2346028A1 (en) 2011-07-20
TW201146026A (en) 2011-12-16
AR079517A1 (es) 2012-02-01
RU2012132354A (ru) 2014-01-27
EP2502228B1 (en) 2016-06-22
HK1176733A1 (zh) 2013-08-02

Similar Documents

Publication Publication Date Title
ES2592217T3 (es) Un aparato y método para convertir una primera señal de audio paramétrico espacial en una segunda señal de audio paramétrico espacial
ES2943586T3 (es) Facilitar las comunicaciones utilizando un dispositivo de comunicación portátil y salida de sonido dirigida
CN112567768B (zh) 用于交互式音频环境的空间音频
CN111108555B (zh) 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法
CN113170272B (zh) 近场音频渲染
BR112020000775A2 (pt) aparelho para gerar uma descrição do campo sonoro, programa de computador, descrição do campo sonoro aprimorada e seu método de geração
CN106664485A (zh) 基于自适应函数的一致声学场景再现的系统、装置和方法
KR20170106063A (ko) 오디오 신호 처리 방법 및 장치
CN115244952A (zh) 用于使能再现空间音频信号的装置、方法及计算机程序
US20230110257A1 (en) 6DOF Rendering of Microphone-Array Captured Audio For Locations Outside The Microphone-Arrays
CN116671132A (zh) 利用空间元数据内插和源位置信息的音频渲染