ES2391801T3

ES2391801T3 - Procedimiento y aparato para procesar una señal de audio

Info

Publication number: ES2391801T3
Application number: ES08866718T
Authority: ES
Inventors: Hyen-O Oh; Yang Won Jung
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2008-01-01
Filing date: 2008-12-31
Publication date: 2012-11-30
Anticipated expiration: 2028-12-31
Also published as: JP5243553B2; US20100316230A1; EP2225893A4; KR101147780B1; CN101911732A; AU2008344132B2; JP5243554B2; EP2225894A1; CN101911733A; EP2225894B1; KR101328962B1; EP2225894A4; JP2011509588A; EP2225893B1; AU2008344132A1; JP2011509589A; US20100284549A1; EP2225893A1; CA2710562A1; WO2009084914A1

Abstract

Procedimiento para procesar una señal de audio, que comprende:recibir información 5 de modo de salida;recibir una señal de submezcla que incluye por lo menos una señal de objeto;recibir información de objeto extraída cuando la señal de submezcla es generada;recibir información de mezcla para controlar la señal de objeto;generar información de procesamiento de la submezcla utilizando la información de objeto y la información demezcla si la información del modo de salida recibida indica una salida mono;generar información multicanal utilizando la información de objeto y la información de mezcla si la información delmodo recibida indica una salida multicanal;si la información de procesamiento de la submezcla es generada, generar una primera señal de salida aplicandola información de procesamiento de la submezcla a la señal de submezcla, controlando la información deprocesamiento de la submezcla la ganancia y/o el panning de dicha por lo menos una señal de objeto; ysi la información multicanal es generada, generar una segunda señal de salida mediante el mezclado ascendentede la señal de submezcla utilizando la información multicanal;en el que:la señal de submezcla y la primera señal de salida son una señal mono;la segunda señal de salida es una señal de audio multicanal, yla información multicanal incluye por lo menos una de entre la información de nivel del canal y la información decorrelación de canal.

Description

Procedimiento y aparato para procesar una señal de audio.

5 Campo técnico

La presente invención se refiere a un aparato y un procedimiento para procesar una señal de audio. Aunque la presente invención es adecuada para un amplio espectro de aplicaciones, es particularmente adecuada para procesar una señal de audio recibida a través de un soporte digital, una señal de difusión y similar.

Antecedentes de la técnica

Generalmente, en el proceso para someter a submezcla una serie de objetos dentro de una señal mono o estéreo, se extraen respectivamente parámetros de la señales de objeto. Estos parámetros pueden ser utilizados por un 15 decodificador. El panning (panorámica polifónica) y la ganancia de cada uno de los objetos son controlables mediante una selección de usuario.

El documento XP030015133 se refiere a una propuesta sobre codificación de objetos de audio espacial. La figura 4 de dicho documento puede tener como objetivo dar a conocer un decodificador de objetos de audio espacial (SAOC)

20 que recibe información secundaria que puede ser considerada información de objeto. La figura 5 de dicho documento puede tener como objetivo dar a conocer un flujo de bits de MPEG surround que puede ser considerado como información multicanal.

Exposición de la invención Problema técnico

No obstante, para controlar cada señal de objeto, cada fuente contenida en una submezcla debe ser posicionada o paneada adecuadamente.

30 Además, para proveer compatibilidad regresiva conforme a un sistema de decodificación orientado a canal, los parámetros de objeto deben ser convertidos a parámetros multicanal para mezclado ascendente.

Solución técnica

35 En consecuencia, la presente invención está dirigida a un aparato y un procedimiento para procesar una señal de audio, los cuales sustancialmente obvian uno o más de los problemas debidos a las limitaciones e inconvenientes de la técnica relacionada.

40 Un objetivo de la presente invención consiste en disponer un aparato y un procedimiento para procesar una señal de audio, mediante los cuales pueden emitirse una señal mono, una señal estéreo y una señal multicanal controlando la ganancia y el paneado de un objeto.

Otro objetivo de la presente invención consiste en disponer un aparato y un procedimiento para procesar una señal 45 de audio, mediante el cual pueden emitirse una señal mono y una señal estéreo a partir de una señal de submezcla sin efectuar el sistema complicado de un decodificador de multicanal.

Otro objetivo de la presente invención consiste en disponer un aparato y un procedimiento para procesar una señal de audio, mediante los cuales puede evitarse la distorsión del sonido en caso de ajuste de una ganancia de una 50 música vocal o de fondo con una amplitud considerable.

Efectos convenientes

En consecuencia, la presente invención aporta los siguientes efectos o ventajas. 55 En primer lugar, la presente invención puede controlar la ganancia y el panning de un objeto sin limitaciones.

En segundo lugar, la presente invención puede controlar la ganancia y el panning de un objeto basándose en una selección de usuario.

60 En tercer lugar, en el caso de que el modo salida sea un modo mono o estéreo, la presente invención genera una señal de salida sin efectuar el complicado sistema de un decodificador de multicanal, facilitando la implementación y disminuyendo la complejidad.

65 En cuarto lugar, en el caso de que se dispongan uno o dos altavoces para un dispositivo de esta clase como un

dispositivo móvil, la presente invención puede controlar la ganancia y el panning del objeto para la señal de submezcla sin un códec para el decodificador de multicanal.

En quinto lugar, en caso de que se suprima completamente la música vocal o la música de fondo, la presente invención puede evitar la distorsión de la calidad del sonido conforme al ajuste de ganancia.

En sexto lugar, en caso de que existan por lo menos dos objetos independientes (canal estéreo o algunas señales vocales) tales como un objeto vocal y similar, la presente invención puede evitar la distorsión de la calidad del sonido conforme al ajuste de la ganancia.

Descripción de los dibujos

Los dibujos adjuntos, que se incluyen para proveer una mejor comprensión de la invención y se incorporan como parte constituyente de esta especificación, ilustran formas de realización de la invención y junto con la descripción sirven para explicar los principios de la invención.

En los dibujos:

la figura 1 es un diagrama de bloques de un aparato para procesar una señal de audio según la presente invención para generar una señal mono/estéreo;

la figura 2 es un diagrama de bloques detallado de un primer ejemplo de la unidad de procesamiento de submezcla representada en la figura 1;

la figura 3 es un diagrama de bloques detallado de un segundo ejemplo de la unidad de procesamiento de submezcla representada en la figura 1;

la figura 4 es un diagrama de bloques de un aparato para procesar una señal de audio según una forma de realización de la presente invención para generar una señal binaural;

la figura 5 es un diagrama de bloques detallado de la unidad de procesamiento de submezcla representada en la figura 4;

la figura 6 es un diagrama de bloques de un aparato para procesar una señal de audio según otra forma de realización de la presente invención para generar una señal binaural;

la figura 7 es un diagrama de bloques de un aparato para procesar una señal de audio según una forma de realización de la presente invención para controlar un objeto independiente;

la figura 8 es un diagrama de bloques de un aparato para procesar una señal de audio según otra forma de realización de la presente invención para controlar un objeto independiente;

la figura 9 es un diagrama de bloques de un aparato para procesar una señal de audio según una quinta forma de realización de la presente invención para procesar un objeto mejorado;

la figura 10 es un diagrama de bloques de un aparato para procesar una señal de audio según una segunda forma de realización de la presente invención para procesar un objeto mejorado; y

la figura 11 y la figura 12 son diagramas de bloques de un aparato para procesar una señal de audio según una tercera forma de realización de la presente invención para procesar un objeto mejorado.

Mejor modo de realización de la invención

En la descripción siguiente se describen características y ventajas de la invención, que en parte se pondrán de manifiesto a partir de la descripción, o podrán aprenderse mediante la práctica de la invención. Los objetivos y otras ventajas de la invención se realizarán y alcanzarán mediante la estructura indicada en la descripción escrita y en las reivindicaciones, así como en los dibujos adjuntos.

Para alcanzar estas y otras ventajas conforme a los fines de la presente invención, tal como se expone y se describe ampliamente, un procedimiento de procesamiento de una señal de audio según la presente invención comprende las características señaladas en la reivindicación independiente 1.

En las reivindicaciones subordinadas 2 a 5 se definen formas de realización preferidas del procedimiento.

Para alcanzar adicionalmente estas y otras ventajas conforme al objetivo de la presente invención, el aparato para procesar una señal de audio comprende las características de la reivindicación independiente 6.

En las reivindicaciones subordinadas 7 a 10 se definen formas de realización preferidas del aparato.

Para alcanzar adicionalmente estas y otras ventajas conforme al objetivo de la presente invención, se define un soporte de grabación legible por ordenador en la reivindicación independiente 11.

Se entiende que tanto la descripción general anterior como la siguiente descripción detallada tienen carácter de ejemplo y explicativo y su propósito es proporcionar una explicación adicional de la invención según las reivindicaciones.

Modo de realización de la invención

A continuación se referirán detalladamente formas preferentes de realización de la presente invención, ejemplos de las cuales se ilustran en los dibujos adjuntos. En primer lugar, toda la terminología de la presente invención puede elaborarse según las referencias siguientes. Y, terminología no dada a conocer en esta especificación puede elaborarse según los conceptos y significados siguientes sintonizando con la idea técnica de la presente invención. Concretamente, en esta exposición "información" es un término que comprende en general valores, parámetros, coeficientes, elementos y similares y su significado puede construirse como ocasionalmente diferente, lo cual no limita la presente invención.

El concepto de objeto comprende tanto una señal basada en un objeto como una señal basada en un canal. Ocasionalmente, un objeto puede comprender solamente una señal basada en un objeto.

En el caso en que se recibe una señal de submezcla, la presente invención se propone describir diversos procesos para procesar una señal de submezcla mono. En primer lugar se describirá un procedimiento para generar una señal mono/estéreo o una pluralidad de señales a partir de una señal de submezcla mono, si es necesario, con referencia a las figuras 1 a 3. En segundo lugar, se describirá un procedimiento para generar una señal binaural a partir de una señal de submezcla mono (o una señal de submezcla estéreo) con referencia a las figuras 4 a 6. En tercer lugar, se describirán diversas formas de realización de un procedimiento para controlar una señal de objeto independiente (o una señal de fondo mono) contenida en una submezcla mono, con referencia a las figuras 7 a 12.

1. Generación de señal mono/estéreo

La figura 1 es un diagrama de bloques de un aparato para procesar una señal de audio según la presente invención para generar una señal mono/estéreo.

Con referencia a la figura 1, un aparato 100 para procesar una señal de audio según una forma de realización de la presente invención comprende un demultiplexor 110, una unidad de generación de información 120, y una unidad de procesamiento de submezcla 130. El aparato de procesamiento de la señal de audio 100 puede comprender además de un decodificador de multicanal 140.

El demultiplexor 110 recibe información de objeto (OI) a través de un flujo de bits. La información de objeto (OI) es la información de un objeto contenida en una señal de submezcla y puede comprender información de nivel del objeto, información de correlación del objeto, y similar. La información de objeto (OI) puede contener parámetros del objeto (OP) que son parámetros que indican características del objeto.

El flujo de bits además comprende una señal de submezcla (DMX). El demultiplexor 110 puede extraer adicionalmente la señal de submezcla (DMX) de este flujo de bits. La señal de submezcla (DMX) es la seña generada a partir de la submezcla de por lo menos una señal de objeto y puede corresponder a una señal en el dominio temporal. La señal de submezcla (DMX) puede ser una señal mono o una señal estéreo. En la presente forma de realización, la señal de submezcla (DMX) es, por ejemplo, una señal mono.

La unidad de generación de información 120 recibe la información de objeto (OI) del demultiplexor 110. La unidad de generación de información 120 recibe información de mezcla (MXI) de una interfaz de usuario. La unidad de generación de información 120 recibe información de salida (OM) del dispositivo de interfaz de usuario. La unidad de generación de información 120 puede recibir además parámetros HRTF (función de transferencia relacionada con la cabeza) de HRTF DB.

En este caso, la información de mezcla (MXI) es la información generada basándose en información de la posición del objeto, información de la ganancia del objeto, información de la configuración de la reproducción y similar. La información de la posición del objeto es la información introducida para que el usuario controle la posición o el panning de cada objeto. La información de la ganancia del objeto es la información introducida para que el usuario controle la ganancia de cada objeto. Específicamente, la información de la posición del objeto o la información de la ganancia del objeto pueden ser la seleccionada a partir de modos preajustados. En este caso, el modo preajustado es el valor para prefijar una ganancia o una posición específicos de un objeto en proceso de tiempo. La información de modo preajustado puede ser un valor recibido de otro dispositivo o un valor almacenado en el dispositivo.

Mientras tanto, la selección de dichos por lo menos uno o más modos preajustados (por ejemplo, modo preajustado no en uso, modo preajustado 1, modo preajustado 2, et.) puede ser determinada por una entrada de usuario.

La información de la configuración de reproducción es la información que contiene el número de altavoces, la posición del altavoz, la información ambiente (posición virtual del altavoz) y similar. La información de la configuración de reproducción puede ser introducida por el usuario, puede guardarse anticipadamente, o puede recibirse de otro dispositivo.

La información del modo de salida (OM) es la información de un modo de salida. Por ejemplo, la información del modo de salida (OM) puede comprender la información que indica cuántas señales se utilizan para la salida. Esta información que indica cuántas señales se utilizan para la salida puede corresponder o a un modo de salida mono, o a un modo de salida estéreo, o a un modo de salida multicanal y similares. Mientras tanto, la información del modo de salida (OM) puede ser idéntica al número de altavoces de la información de mezcla (MXI). Si la información del modo de salida (OM) se guarda anticipadamente, está basada en la información del dispositivo. Si la información del modo de salida (OM) es introducida por el usuario, se basa en la información de la entrada del usuario. En este caso, la información de la entrada del usuario puede incluirse en la información de mezcla (MXI).

La unidad de generación de información 120 genera o una información de procesamiento de reducción de señal (DPI) o una información multicanal (MI) utilizando la información de objeto (OI) y la información de mezcla (MXI), según el modo de salida. En este caso, el modo de salida se basa en la información de modo de salida (OM) anteriormente descrita. Si el modo de salida es una salida mono o una señal estéreo, la unidad de generación de información 120 genera la información de procesamiento de submezcla (DPI). Si el modo de salida es una salida multicanal, la unidad de generación de información 120 genera la información multicanal (MI). En este caso, la información de procesamiento de submezcla (DPI) es la información para procesar una señal de submezcla (DMX), los detalles de la cual se describirán más adelante. La información multicanal (MI) es la información para someter a mezclado ascendente una señal de submezcla (DMX) y puede comprender información de nivel de canal, información de correlación de canal y similar.

Si el modo de salida es una salida mono o una salida estéreo, sólo se genera información de procesamiento de reducción de muestra (DPI). Esto se debe a que la unidad de procesamiento de submezcla 130 puede generar una señal mono en dominio temporal o una señal estéreo en dominio temporal. Mientras tanto si el modo de salida es una salida multicanal, se genera la información multicanal (MI). Esto se debe a que el decodificador de multicanal 140 puede generar una señal multicanal en el caso de que la señal de entrada sea una señal mono.

La unidad de procesamiento de submezcla 130 genera una señal de salida mono o una señal de salida estéreo utilizando la información de procesamiento de submezcla (DPI) y la submezcla mono (DMX). En este caso, la información de procesamiento de submezcla (DPI) es la información para procesar la señal de submezcla (DMX) y sirve para controlar ganancias y/o pannings de objetos contenidos en la señal de submezcla.

Mientras tanto, la señal de salida mono o señal de salida estéreo corresponde a la señal de dominio temporal y puede comprender una señal PCM. En el caso de la señal de salida mono, la configuración detallada de la unidad de procesamiento de submezcla 130 se describirá con referencia a la figura 2. En el caso de la señal de salida estéreo, la configuración detallada de la unidad de procesamiento de submezcla 130 se describirá con referencia la figura 3.

Además, la información de procesamiento de submezcla (DPI) pude comprender un parámetro binaural. En este caso, el parámetro binaural es el parámetro para el efecto 3D y puede ser la información generada por la unidad de generación de información 120 utilizando información de objeto (OI), información de mezcla (MXI) y parámetros HRTF. En el caso de que la información de procesamiento de submezcla (DPI) comprenda el parámetro binaural, la unidad de procesamiento de submezcla 130 puede emitir una señal binaural. Se describirá más adelante una forma de realización para generar una señal binaural con referencia a las figuras 4 a 6.

Si se recibe una señal de submezcla estéreo r en lugar de una señal de submezcla (no representada en el dibujo), el procesamiento para modificar una diafonía de la señal de submezcla sólo se realiza preferentemente a que se genere una señal de salida de dominio temporal. La señal de submezcla procesada puede tratarse de nuevo mediante el decodificador de multicanal 140. No obstante, la presente invención no está limitada por este procesamiento.

Si el modo de salida es el modo de salida multicanal, el decodificador de multicanal 140 genera una señal multicanal sometiendo a mezclado ascendente a la submezcla (DMX) utilizando la información multicanal. El decodificador de multicanal 140 puede implementarse conforme a la norma de MPEG Surround (IS)/IEC 23003-1, la cual no limita la presente invención.

La figura 2 es un diagrama de bloques detallado para un primer ejemplo de la unidad de procesamiento de submezcla representada en la figura 1, que es una forma de realización para generar una señal de salida mono. La figura 3 es un diagrama de bloques detallado para un segundo ejemplo de la unidad de procesamiento de submezcla representada en la figura 1, que es un ejemplo para la generación de una señal de salida estéreo.

Con referencia a la figura 2, la unidad de procesamiento de submezcla 130A comprende una unidad de descomposición en subbandas 132A, una unidad de procesamiento M2M 134A y una unidad de sintetización de subbandas 136A. La unidad de procesamiento de submezcla 130A genera una señal de salida mono a partir de una señal de submezcla mono.

La unidad de descomposición en subbandas 132A genera una señal de subbanda descomponiendo una señal de submezcla mono (DMX). La unidad de descomposición en subbandas 132A se implementa con un banco de filtros híbrido y la señal de subbanda puede corresponder a una señal en un dominio QMF híbrido. La unidad de procesamiento 134A procesa la señal de subbanda utilizando la información de procesamiento de submezcla (DPI). En este caso, M2M es una abreviación de mono-a-mono. La unidad de procesamiento M2M 134A puede utilizar un correlador para procesar la señal de subbanda. La unidad de sintetización de subbanda 136A genera una señal de salida mono en dominio temporal sintetizando la señal de subbanda procesada. Además, la unidad de sintetización de subbanda 136A puede implementarse con un banco de filtros híbrido.

Con referencia a la figura 3, la unidad de procesamiento de submezcla 132B comprende una unidad de descomposición en subbandas 132B, una unidad de procesamiento 134B, una primera unidad de sintetización de subbanda 136B y una segunda unidad de sintetización de subbanda 138B, La unidad de procesamiento de submezcla 130B recibe una señal de submezcla mono y a continuación genera una salida estéreo.

Al igual que la unidad de descomposición en subbandas 132A anterior representada en la figura 2, la unidad de descomposición en subbandas 132B genera una señal de subbanda descomponiendo una señal de submezcla mono (DMX). Análogamente, la unidad de descomposición en subbandas 132B puede implementarse con un banco de filtros híbrido.

La unidad de procesamiento M2S 134B genera dos señales de subbanda (primera señal de subbanda y segunda señal de subbanda) procesando la señal de subbanda utilizando la información de procesamiento de submezcla (DPI) y un decorrelador 135B. En este caso M2S es una abreviación de mono-a-estéreo. Si se utiliza el decorrelador 135B, es posible aumentar el efecto estéreo disminuyendo la correlación entre los canales derecho e izquierdo.

Mientras tanto, el decorrelador 135B asigna la señal de subbanda introducida desde la unidad de descomposición en subbandas 132B en una primera señal de subbanda y a continuación puede emitir una señal generada decorrelando la primera señal de subbanda como segunda señal de subbanda, lo cual no limita la presente invención.

La primera unidad de sintetización de subbandas 136B sintetiza la primera señal de subbanda, y la segunda unidad de sintetización de subbandas 138B sintetiza la segunda señal de subbanda, generando una señal de salida estéreo en dominio temporal.

Por lo tanto, en la descripción anterior se describe una forma de realización de una salida mono/estéreo a través de la unidad de procesamiento de submezcla cuando se ha introducido una submezcla mono. En la descripción siguiente, se describe un caso de generación de una seña binaural.

2. Generación de una señal binaural

La figura 4 es un diagrama de bloques para procesar una señal de audio según una forma de realización de la presente invención para generar una señal binaural. La figura 5 es un diagrama de bloques detallado de la unidad de procesamiento de submezcla representada en la figura 4. La figura 6 es un diagrama de bloques de un aparato para procesar una señal de audio según otra forma de realización de la presente invención para generar una señal binaural.

Se describe una forma de realización para generar una señal binaural con referencia a las figuras 4 y 5. Con referencia a la figura 6, se describe otra forma de realización para generar una señal binaural.

Con referencia a la figura 4, el aparato de procesamiento de señales de audio 200 comprende un demultiplexador 210, una unidad de generación de información 220 y una unidad de procesamiento de submezcla 230. En este caso, al igual que con el demultiplexador 110 anteriormente descrito con referencia a la figura 1, el demultiplexador 210 extrae información de objeto (OI) de un flujo de bits y puede extraer además una submezcla (DMX) del flujo de bits. En este caso, la señal de submezcla puede ser una señal mono o una señal estéreo.

La unidad de generación de información 220 genera información de procesamiento de la submezcla que contiene un parámetro binaural utilizando la información de objeto (OI), información de mezcla (MXI) e información HRTF. En este caso, la información HRTF puede ser información extraída de HRTF DB. Y, el parámetro binaural es el parámetro extraído para proporcionar el efecto 3D virtual.

La unidad de procesamiento de la submezcla 230 emite una señal binaural utilizando información de procesamiento de la submezcla (DPI) que comprende el parámetro binaural. A continuación se describe la configuración detallada

de la unidad de procesamiento de la submezcla 230 con referencia a la figura 5.

Con referencia a la figura 5, la unidad de procesamiento de la submezcla 230 A comprende una unidad de descomposición en subbandas 232A, una unidad de procesamiento binaural 234A y una unidad de sintetización de subbandas 236A. La unidad de descomposición en subbandas 232A genera una o dos señales de subbanda descomponiendo una señal de submezcla. La unidad de procesamiento binaural 3234A procesa la señal de subbanda o las dos señales de subbanda utilizando información de procesamiento de la submezcla (DPI) que contiene un parámetro binaural. La unidad de sintetización de las subbandas 236A genera una señal de salida binaural en dominio temporal sintetizando la señal de subbanda o las dos señales de subbanda.

Con referencia a la figura 6, el aparato de procesamiento de señales de audio 300 comprende un demultiplexador 310 y una unidad de generación de información 320. El aparato de procesamiento de señales de audio 300 puede comprender además un decodificador de multicanal 330.

El demultiplexador 310 extrae información del objeto (OI) de un flujo de bits y puede extraer además, del flujo de bits, una señal de submezcla (DMX). La unidad de generación de información 320 genera información multicanal (MI) utilizando la información del objeto (OI) e información de mezcla (MXI) . En este caso, la información multicanal (MI) es la información para someter a mezclado ascendente a la señal de submezcla (DMX) y comprende, por ejemplo, parámetros espaciales con información del nivel del canal e información de la correlación de canal. La unidad de generación de información 320 genera un parámetro binaural utilizando parámetros HRTF extraídos de HRTF DB. El parámetro binaural es el parámetro para proporcionar el efecto 3D y puede comprender el propio parámetro HRTF. El parámetro binaural es un valor invariable en el tiempo y puede presentar una característica dinámica.

Si la señal de submezcla es una señal mono, la información multicanal (MI) puede comprender a demás, información de ganancia (ADG). En este caso, la información de ganancia (ADG) es el parámetro para ajustar una ganancia de submezcla y puede utilizarse para controlar una ganancia para un objeto específico. En el caso de una salida binaural, es necesario sobremuestrear o submuestrear para el objeto. Es preferible utilizar la información de ganancia (ADG). Si el decodificador de multicanal 330 sigue la norma MPEG Surround y la información multicanal (MI) necesita ser configurada conforme a la sintaxis MPEG surround, es posible utilizar la información de ganancia (ADG) estableciendo 'bsArbitraryDownmix=1'.

Si la señal de submezcla es una señal estéreo, el aparato de procesamiento de señales de audio 300 puede comprender, además, una unidad de procesamiento de la submezcla (no representada en el dibujo) para el repanning de los canales derecho e izquierdo de la señal de submezcla estéreo. No obstante, en el rendering binaural puede generarse un término cruzado de los canales derecho e izquierdo mediante la selección de parámetros HRTF. Por lo tanto, no resulta esencial una operación en la unidad de procesamiento de submezcla (no representada en los dibujos). Si la señal de submezcla es estéreo y la información multicanal (MI) sigue la norma MPEG Surround, es preferible fijar el modo de configuración 5-2-5. Y, se emite preferentemente poniendo en derivación solamente el canal delantero izquierdo y el canal delantero derecho. Además, el parámetro binaural puede transferirse de modo que los trayectos desde los canales delanteros derecho e izquierdo a las salidas derecha e izquierda (cuatro conjuntos de parámetros en total) presenten valores válidos mientras que el resto de los valores son cero.

El decodificador de multicanal 330 genera una salida binaural desde la señal de submezcla utilizando la información multicanal (MI) y el parámetro binaural. En particular, el decodificador de multicanal 330 puede generar una salida binaural aplicando una combinación del parámetro espaciales comprendido en la información multicanal y el parámetro binaural para la señal de submezcla.

En la descripción anterior, se describen las formas de realización para generar una salida binaural. Conforme a la primera forma de realización, si una salida binaural se genera directamente a través de una unidad de procesamiento de submezcla, no es necesario efectuar un complicado sistema de decodificador de multicanal. Por lo tanto, puede reducirse la complejidad. Conforme a la segunda forma de realización, si se utiliza un decodificador de multicanal, es posible utilizar una función del decodificador de multicanal.

3. Control de objeto independiente (modo karaoke/modo a capella)

En la siguiente descripción, se describe una técnica para controlar un objeto independiente o un objeto de fondo recibiendo una submezcla mono.

La figura 7 representa un diagrama de bloques de un aparato para procesar una señal de audio según una forma de realización de la presente invención para controlar un objeto independiente, y la figura 8 es un diagrama de bloques de un aparato para procesar una señal de audio según otra forma de realización de la presente invención para controlar un objeto independiente.

Con referencia a la figura 7, un decodificador de multicanal 410 de un aparato de codificación de señales de audio

400 recibe una pluralidad de señales de canal y entonces genera una submezcla mono (DMXm) y un flujo de bits multicanal. En este caso, la pluralidad de señales de canal son objetos de fondo multicanal (MBO).

Por ejemplo, el objeto de fondo multicanal (MBO) puede comprender una pluralidad de señales de instrumento que configuran música de fondo. Sin embargo, es imposible saber el número de señales fuente (por ejemplo señales de instrumento) comprendidas. Y, son incontrolables mediante la señal fuente. Aunque el objeto de fondo puede ser sometido a submezcla en un canal estéreo, la presente invención pretende describir un objeto de fondo sometido a submezcla en una señal mono solamente.

El codificador de objetos 420 genera una submezcla mono (DMX) sometiendo a submezcla un objeto de fondo mono (DMXm) y por lo menos una señal de objeto (objN) y también genera un flujo de bits de información de objeto. En este caso, la por lo menos una señal de objeto (o una señal basada en el objeto) es un objeto independiente y puede designarse como un objeto en primer plano (FGO). Por ejemplo, si un objeto de fondo es acompañamiento, un objeto independiente (FGO) puede corresponder a una señal vocal principal. Obviamente, si existen dos objetos independientes, pueden corresponder respetivamente a la señal vocal del cantante 1 y la señal vocal del cantante 2. Y, el codificador de objetos 420 puede generar, además, información residual.

El codificador de objetos 420 puede generar información residual en el curso de la submezcla del objeto de fondo mono (DMXm) y de la señal de objeto (objN) (es decir, objeto independiente). Esta información residual puede ser utilizada por un decodificador para extraer un objeto independiente (u objeto de fondo) de la señal de submezcla.

Un transcodificador de objetos 510 de un aparato de decodificación de señales de audio 500 extrae por lo menos un objeto independiente o un objeto de fondo de la submezcla (DMX) utilizando información de objeto mejorado (por ejemplo información residual), según la información de selección de modo (MSI) comprendida en la información de mezcla (MXI).

La información de selección de modo (MSI) comprende la información que indica si ha sido seleccionado un modo para controlar un objeto de fondo y por lo menos un objeto independiente. Además, la información de selección de modo (MSI) puede comprender la información que indica que un modo prescrito corresponde a uno de los modos siguientes: un modo normal, un modo para controlar un objeto de fondo, y un modo para controlar por lo menos un objeto independiente. Por ejemplo, si un objeto de fondo es música de fondo, un modo para controlar el objeto de fondo puede corresponder a modo "capella" (o, modo solo). Por ejemplo, si un objeto independiente es vocal, el modo para controlar por lo menos un objeto independiente puede corresponder al modo karaoke. En otras palabras, la información de selección de modo puede ser la información que indica si ha sido seleccionado uno de los modos normales modo "a capella" y modo karaoke. Además, en caso de modo "a capella" o modo karaoke, puede incluirse además información del ajuste de ganancia. En resumen, si la información de selección de modo (MS) es modo "a capella" o modo karaoke, se extrae por lo menos un objeto independiente o un objeto de fondo de la submezcla (DMX). En caso de modo normal, la señal de submezcla puede someterse a derivación.

Si se extrae un objeto independiente, el transcodificador de objetos 510 genera un submezcla mono mezclada mezclando por lo menos un objeto independiente y un objeto de fondo utilizando información de objeto (OI), información de mezcla (MI) y similar. En este caso, la información de objeto (OI) es la información extraída del flujo de bits de información de objeto y puede ser idéntica a la descrita en la descripción anterior. Y, la información de mezcla (MXI) puede ser la información para ajustar una ganancia de objeto y/o panning.

Mientras tanto, el transcodificador de objeto 510 genera información multicanal (MI) utilizando el flujo de bits multicanal y/o el flujo de bits de información de objeto. La información multicanal (MI) puede proveerse para controlar el objeto de fondo o el por lo menos un objeto independiente. En este caso, la información multicanal puede comprender por lo menos información multicanal para controlar el objeto de fondo o la segunda información multicanal para controlar el por lo menos un objeto independiente.

Y, el decodificador de multicanal 520 genera una señal de salida de submezcla mono mezclada utilizando información multicanal (MI) o submezcla mono derivada.

La figura 8 es un diagrama de otra forma de realización para la generación de un objeto independiente.

Con referencia a la figura 8, la unidad de procesamiento de señales de audio 600 recibe una submezcla mono (DMX). El aparato de procesamiento de señales de audio 600 comprende una unidad de procesamiento de submezcla 610, un decodificador de multicanal 620, un módulo OTN 630 y una unidad de rendering 640.

El aparato de procesamiento de señales de audio 600 determina si introducir o no la señal de submezcla en el módulo OTN 630, según la información de selección de modo (MSI). En este caso, la información de selección de modo puede ser idéntica a la información de selección de modo anterior descrita con referencia a la figura 7.

Si el modo actual es un modo para controlar el objeto de fondo (MBO) o por lo menos un objeto independiente (FGO) según la información de selección de modo, la señal de submezcla puede ser introducida en el módulo OTN

630. Si el modo actual es un modo normal según la información de selección de modo, la señal de submezcla elude el módulo 530 pero es introducida en la unidad de procesamiento de submezcla 610 o en el decodificador de multicanal 620 según el modo de salida. En este caso, el modo de salida es idéntico a la información de modo de salida (OM) descrito con referencia a la figura 1 y puede comprender el número de altavoces de salida.

En el caso de que el modo de salida sea un modo de salida mono/estéreo/binaural, la submezcla es procesada por la unidad de procesamiento de submezcla 610. En este caso, la unidad de procesamiento de submezcla 610 puede ser el elemento que desempeña la misma función que la unidad de procesamiento anterior 130/130A/130B descrita con referencia a la figura 1/figura 2/figura 3.

En el caso de que el modo salida sea un modo multicanal, el decodificador de multicanal 620 genera una salida multicanal desde la submezcla mono (DMX). Análogamente, el decodificador de multicanal 620 puede ser el elemento que desempeña la misma función que el decodificador de multicanal anterior 140 descrito con referencia a la figura 1.

Mientras tanto, si la señal de submezcla mono es introducida en el módulo OTN 630 según la información de selección de modo (MSI), el módulo OTN 630 extrae un objeto de fondo mono (MBO) y por lo menos un señal de objeto independiente (FGO) de la señal de submezcla. En este caso, OTN es una abreviación de uno a n. Si existe una señal de objeto independiente, el módulo OTN puede presentar estructura OTT (uno a dos). Si existen dos señales de objeto independientes, el módulo OTN puede presentar estructura OTT (uno a tres). Si existen (N-1) señales de objeto independientes, el módulo OTN puede presentar estructura OTN.

El módulo OTN 630 puede utilizar información del objeto (OI) e información del objeto mejorada (EOI). En este caso, la información del objeto mejorada (EOI) puede ser una señal residual generada en el curso de submezcla de un objeto de fondo y un objeto independiente.

Y la unidad de rendering 640 genera una señal de canal de salida mediante rendering de la información de fondo (MBO) y del objeto independiente (FGO) utilizando información de mezcla (MXI). En este caso, la información de mezcla (MXI) comprende la información para controlar el objeto de fondo y/o la información para controlar el objeto independiente. Mientras tanto, puede generarse información multicanal (MI) basándose en la información del objeto (OI) y la información de mezcla (MXI). En este caso, la señal del canal de salida se introduce en un decodificador de multicanal (no representado en el dibujo) y puede ser sometida a mezclado ascendente basándose en la información multicanal.

La figura 9 es un diagrama de bloques de un aparato para procesar una señal de audio según una primera forma de realización de la presente invención para procesar un objeto mejorado, la figura 10 es un diagrama de bloques de un aparato para procesar una señal de audio según una segunda forma de realización de la presente invención para procesar un objeto mejorado, y la figura 11 y la figura 12 son diagramas de bloques de un aparato para procesar una señal de audio según una tercera forma de realización de la presente invención para procesar un objeto mejorado.

La primera forma de realización se refiere a una submezcla mono y a un objeto mono. La segunda forma de realización se refiere a una submezcla mono y a un objeto estéreo. Y, la tercera forma de realización se refiere a un caso que abarca los dos casos anteriores de la primera y la segunda formas de realización.

Con referencia a la figura 9, un codificador de información de objeto mejorado 710 de un aparato de codificación de señales de audio 700A genera información de objeto mejorado (EOP_x1) a partir de una señal de audio mezclada, que es una señal mono, y una señal de objeto (obj_x1). En este caso, cuando se genera una señal utilizando dos señales, el codificador de información de objeto mejorado 710 puede implementarse como un módulo de codificación OTT (uno a dos). En este caso. la información de objeto mejorado (EOP_x1) puede ser una señal residual. Y, el codificador de información de objeto mejorado 710 genera información de objeto (OP_x1) correspondiente al módulo OTT.

Un decodificador de información de objeto mejorado 810 de un aparato de decodificación de señales de audio 800A genera una señal de salida (obj_x1') correspondiente a datos de remezcla adicionales utilizando la información de objeto mejorado (EOP_x1) y la señal de audio mezclada.

Con referencia a la figura 10, un aparato de codificación de señales de audio comprende un primer codificador de información de objeto mejorado 710B y un segundo codificador de información de objeto mejorado 720B. Y, un aparato de decodificación de señales de audio 800B comprende un primer decodificador de información de objeto mejorado 820B y un segundo decodificador de información de objeto mejorado 810B.

El primer codificador de información de objeto mejorado 710B genera un objeto combinado y primera información de objeto mejorado (EOP_L1) combinando dos señales de objeto (obj_x1, obj_x2) conjuntamente. En este caso, las dos señales de objeto pueden comprender una señal de objeto estéreo, es decir, una señal del canal izquierdo del objeto y una señal del canal derecho del objeto. En el curso de la generación del objeto combinado se genera primera información de objeto (OP_L1).

El segundo codificador de información de objeto mejorado 720B genera segunda información de objeto mejorado (EOP_L0) y segunda información de objeto (OP_L0) utilizando una señal de audio mezclada, que es una señal mono, y el objeto combinado.

De este modo, se genera una señal final a través de las dos etapas anteriores. Como que cada uno de los primer y segundo codificadores de información de objeto mejorado 710B y 720B genera una señal a partir de dos señales, puede implementarse como un módulo OTT (uno a dos).

El aparato de decodificaión de señales de audio 800B realiza un proceso inverso al del aparato de codificación de señales de audio 700B.

Concretamente, el decodificador de la segunda información de objeto mejorado 810B genera un objeto combinado utilizando la segunda información de objeto mejorado (EOP_L0) y la señal de audio mezclada. En este caso la señal de audio además puede extraerse.

Y, el primer decodificador de información de objeto mejorado 820B genera dos objetos (obj_x1', obj_x2'), que son datos remezclados adicionales, a partir del objeto combinado utilizando la primera información de objeto mejorado (EOP_L1).

La figura 11 y la figura 12 muestran la estructura combinada de la primera y la segunda formas de realización. Con referencia a la figura 11, si un objeto mejorado se cambia a mono o estéreo según la presencia o no presencia de operación de estructura de árbol 5-1-5 ó 5-2-5 del codificador de multicanal 705C, la señal de submezcla se cambia a señal mono o señal estéreo.

Con referencia a la figura 11 y la figura 12, en el caso de que el objeto mejorado sea una señal mono, no operan el primer codificador de información de objeto mejorado 710 y el primer decodificador de información de objeto mejorado 820C. Las funciones de los elementos son idénticas respectivamente a las de igual designación descritas con referencia a la figura 10.

Mientras tanto, en el caso de que la señal de submezcla sea mono, el segundo codificador de información de objeto mejorado 720C y el segundo decodificador de información de objeto mejorado 810C preferentemente operan como un codificador OTT y un decodificador OTT respectivamente. En el caso de que la señal de submezcla sea estéreo, el segundo codificador de información de objeto mejorado 720C y el segundo decodificador de información de objeto mejorado 810C pueden operar como un codificador TTT y un decodificador TIT respectivamente.

Según la presente invención, el procedimiento de procesamiento de señales de audio anteriormente descrito puede implementarse en medios con un programa grabado en forma de códigos legibles por ordenador. Los medios legibles por ordenador comprenden todas las clases de dispositivos en los cuales se guardan datos legibles por ordenador. Los medios legibles por ordenador comprenden ROM, RAM, CE-ROM, cintas magnéticas, discos flexibles, dispositivos de memoria de datos ópticos, y similares, por ejemplo también pueden comprender implementaciones de tipo onda portadora (por ejemplo transmisión via internet). Además el flujo de bits generado por el procedimiento de codificación se guarda en un soporte legible por ordenador o puede transmitirse por medio de una red de comunicación por cable/inalámbrica.

Aplicabilidad industrial

En consecuencia, la presente invención es aplicable para la codificación y decodificación de señales de audio.

Aunque aquí se ha descrito e ilustrado la presente invención con referencia a formas de realización preferidas de la misma, resultará obvio para los expertos en la técnica que pueden realizarse diversas modificaciones y variaciones sin apartarse del ámbito de la invención. Así, el propósito es que la presente invención abarque las modificaciones y variaciones de la invención comprendidas en el ámbito de las reivindicaciones adjuntas y sus equivalentes.

Claims

REIVINDICACIONES

1. Procedimiento para procesar una señal de audio, que comprende:

5 recibir información de modo de salida;

recibir una señal de submezcla que incluye por lo menos una señal de objeto;

recibir información de objeto extraída cuando la señal de submezcla es generada;

recibir información de mezcla para controlar la señal de objeto;

generar información de procesamiento de la submezcla utilizando la información de objeto y la información de mezcla si la información del modo de salida recibida indica una salida mono;

15 generar información multicanal utilizando la información de objeto y la información de mezcla si la información del modo recibida indica una salida multicanal;

si la información de procesamiento de la submezcla es generada, generar una primera señal de salida aplicando la información de procesamiento de la submezcla a la señal de submezcla, controlando la información de procesamiento de la submezcla la ganancia y/o el panning de dicha por lo menos una señal de objeto; y

si la información multicanal es generada, generar una segunda señal de salida mediante el mezclado ascendente de la señal de submezcla utilizando la información multicanal; 25 en el que:

la señal de submezcla y la primera señal de salida son una señal mono;

la segunda señal de salida es una señal de audio multicanal, y

la información multicanal incluye por lo menos una de entre la información de nivel del canal y la información de correlación de canal.

35 2. Procedimiento según la reivindicación 1, en el que la señal de submezcla, la primera señal de salida y la segunda señal de salida corresponden a una señal en dominio temporal.
3. Procedimiento según la reivindicación 1, en el que la generación de la primera señal de salida comprende: generar una señal de subbanda mediante la descomposición de la señal de submezcla; procesar la señal de subbanda mediante la utilización de la información de procesamiento de la submezcla; y generar la primera señal de salida mediante la sintetización de la señal de subbanda.
4.

Procedimiento según la reivindicación 1, en el que la información del modo de salida es determinada según el número de altavoces, y en el que el número de altavoces está basado en una de entre la información de mezcla y la información del dispositivo almacenadas en un decodificador.
5.

Procedimiento según la reivindicación 1, en el que la información de mezcla es generada basándose por lo menos en una de entre la información de posición de objeto, la información de ganancia de objeto y la información de la configuración de reproducción.
6.

Aparato para procesar una señal de audio, que comprende:

55 un demultiplexador (110) configurado para recibir una señal de submezcla en el dominio temporal que incluye por lo menos una señal de objeto y para recibir información de objeto recibida extraída cuando la señal de submezcla es generada;

una unidad de generación de información (120) configurada para:

recibir información del modo de salida; recibir información de mezcla para controlar la señal de objeto; generar información de procesamiento de submezcla utilizando la información de objeto y la información de

65 mezcla si la información del modo de salida recibida indica una salida mono; y generar información multicanal utilizando la información de objeto y la información de mezcla si la información del modo de salida recibida indica

una salida multicanal;

una unidad de procesamiento de la submezcla (130) configurada para, si la información de procesamiento de submezcla es generada, generar una primera señal de salida mediante la aplicación de la información de 5 procesamiento de la submezcla a la señal de submezcla, controlando la información de procesamiento de la submezcla la ganancia y/o el panning de dicha por lo menos una señal de objeto; y

un decodificador de multicanal (140) configurado para, si la información multicanal es generada, generar una segunda señal de salida mediante el mezclado ascendente de la señal de submezcla utilizando la información multicanal,

en el que:

la señal de submezcla y la primera señal de salida son señales mono; 15 la segunda señal de salida es una señal de audio multicanal; y

la información multicanal incluye por lo menos una de entre la información de nivel de canal y la información de correlación de canal.
7.

Aparato según la reivindicación 6, en el que la señal de submezcla, la primera señal de salida y la segunda señal de salida corresponden a una señal en un dominio temporal.
8.

Aparato según la reivindicación 6, en el que la unidad de procesamiento de submezcla comprende:

25 una unidad de descomposición en subbandas (132A) configurada para generar una señal de subbanda descomponiendo la señal de submezcla;

una unidad de procesamiento mono a mono (134A) configurada para procesar la señal de subbanda utilizando la información de procesamiento de submezcla; y

una unidad de sintetización de subbandas (136A) configurada para generar la primera señal de salida mediante la sintetización de la señal de subbanda.

35 9. Aparato según la reivindicación 6, en el que la información del modo de salida es determinada según el número de altavoces, y en el que el número de altavoces está basado en una de entre la información de mezcla y la información del dispositivo almacenadas en el aparato.
10.

Aparato según la reivindicación 6, en el que la información de mezcla es generada basándose por lo menos en una de entre la información de la posición de objeto, la información de ganancia del objeto y la información de la configuración de reproducción.
11.

Soporte de grabación legible por ordenador que comprende un programa almacenado en el mismo, estando el

programa previsto para ejecutar un procedimiento para procesar señales de audio, comprendiendo dicho 45 procedimiento:

recibir información de modo de salida;

recibir una señal de submezcla que incluye por lo menos una señal de objeto;

recibir información de objeto extraída cuando la señal de submezcla es generada;

recibir información de mezcla para controlar la señal de objeto;

55 generar información de procesamiento de la submezcla utilizando la información de objeto y la información de mezcla si la información del modo de salida recibida indica una salida mono;

generar información multicanal utilizando la información de objeto y la información de mezcla si la información del modo recibida indica una salida multicanal;

si la información de procesamiento de la submezcla es generada, generar una primera señal de salida aplicando la información de procesamiento de la submezcla a la señal de submezcla, controlando la información de procesamiento de la submezcla la ganancia y/o el panning de dicha por lo menos una señal de objeto; y

65 si la información multicanal es generada, generar una segunda señal de salida mediante el mezclado ascendente de la señal de submezcla utilizando la información multicanal;

en el que:

la señal de submezcla y la primera señal de salida son una señal mono, y 5 la segunda señal de salida es una señal de audio multicanal, y

la información multicanal incluye por lo menos una de entre la información de nivel del canal y la información de correlación de canal. 10