ES2340796T3

ES2340796T3 - Dispositivo y metodo para generar una señal estereofonica codificada de una pieza de audio o flujo de datos de audio.

Info

Publication number: ES2340796T3
Application number: ES06707184T
Authority: ES
Inventors: Jan Plogsties; Harald Mundt; Harald Popp
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2005-03-04
Filing date: 2006-02-22
Publication date: 2010-06-09
Anticipated expiration: 2026-02-22
Also published as: RU2376726C2; CN101133680A; EP2094031A3; TWI322630B; EP1854334A1; PL1854334T3; TW200701823A; IL185452A0; MX2007010636A; DE102005010057A1; KR20070100838A; WO2006094635A1; US20070297616A1; BRPI0608036A2; CA2599969A1; DE502006006444D1; US8553895B2; AU2006222285A1; KR100928311B1; JP4987736B2

Abstract

Dispositivo para generar una señal estereofónica codificada de una pieza de audio o un flujo de datos de audio con un primer canal estereofónico y un segundo canal estereofónico a partir de una representación multicanal de la pieza de audio o el flujo de datos de audio, que presenta información acerca de más de dos multicanales, con las características siguientes: un medio (11) para proporcionar los más de dos multicanales a partir de la representación multicanal; un medio (12) para la realización de un procesamiento de señal de auricular para generar una señal estereofónica no codificada con un primer canal (10a) estereofónico no codificado y un segundo canal (10b) estereofónico no codificado, estando configurado el medio (12) para la realización para evaluar cada multicanal con una primera función de filtro (HiL) derivada de una posición virtual de un altavoz para reproducir el multicanal y una primera posición virtual de oído de un oyente, para el primer canal estereofónico y con una segunda función de filtro (HiR) derivada de una posición virtual del altavoz y una segunda posición virtual de oído del oyente, para el segundo canal estereofónico, para generar un primer canal evaluado y un segundo canal evaluado para cada multicanal, siendo diferentes las dos posiciones virtuales de oído del oyente, para sumar (22) los primeros canales evaluados para obtener el primer canal (10a) estereofónico no codificado y para sumar (23) los segundos canales evaluados para obtener el segundo canal (10b) estereofónico no codificado; para utilizar la primera función de filtro (HiL) que considera el sonido directo, las reflexiones y la reverberación difusa, y la segunda función de filtro (HiR) que considera el sonido directo, las reflexiones y la reverberación difusa, y un codificador (13) estereofónico para codificar el primer canal (10a) estereofónico no codificado y el segundo canal (10b) estereofónico no codificado para obtener la señal (14) estereofónica codificada, estando configurado el codificador estereofónico de tal manera que una tasa de transmisión de datos requerida para transmitir la señal estereofónica codificada es menor que una tasa de transmisión de datos requerida para transmitir la señal estereofónica no codificada.

Description

Dispositivo y método para generar una señal estereofónica codificada de una pieza de audio o flujo de datos de audio.

La presente invención se refiere a la tecnología de audio multicanal y, en particular, a aplicaciones de audio multicanal en relación a tecnologías de auricular.

La publicación de la AES "MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio", J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer, C. Spenger, mayo de 2004, Berlín, describe la codificación eficaz respecto a la tasa de bits de una señal multicanal, que puede decodificarse con decodificadores estereofónicos de MP3.

Las solicitudes de patente internacional WO 99/49574 y WO 99/14983 dan a conocer técnicas de procesamiento de señal de audio para activar un par de altavoces de auricular dispuestos de manera opuesta para que un usuario obtenga una percepción espacial de la escena de audio a través de los dos auriculares, que no sólo es una representación estereofónica sino una representación multicanal. De esta manera, el oyente obtiene, a través de sus auriculares, una percepción espacial de una pieza de audio que en el mejor de los casos es igual que su percepción espacial, si el usuario estuviera en un espacio de reproducción que por ejemplo estuviera equipado con un sistema de audio 5.1. Para este propósito, para cada altavoz de auricular, se le suministra a cada canal de la pieza de audio multicanal o el flujo de datos de audio multicanal, como se ilustra en la figura 2, un filtro separado, después de lo cual se suman los respectivos canales filtrados correspondientes entre sí, como se ilustrará posteriormente.

En el lado izquierdo en la figura 2, se encuentran las entradas 20 multicanal que representan en conjunto una representación multicanal de la pieza de audio o del flujo de datos de audio. Tal escenario se muestra esquemáticamente por ejemplo en la figura 10. La figura 10 muestra un espacio 200 de reproducción en el que está dispuesto un denominado sistema de audio 5.1. El sistema de audio 5.1 comprende un altavoz 201 central, un altavoz 202 frontal-izquierdo, un altavoz 203 frontal-derecho, un altavoz 204 posterior-izquierdo y un altavoz 205 posterior-derecho. Un sistema de audio 5.1 tiene un altavoz 206 de graves adicional que también se denomina canal de mejora de frecuencia baja. En el denominado "punto óptimo" del espacio 200 de reproducción, se encuentra un oyente 207 que lleva unos auriculares 208 que presentan un altavoz 209 de auricular izquierdo y un altavoz 210 de auricular derecho.

El medio de procesamiento mostrado en la figura 2 está configurado ahora para filtrar cada canal 1, 2, 3 de las entradas 20 multicanal con un filtro H_{iL} que describe el canal de sonido proveniente del altavoz hacia el altavoz 209 izquierdo en la figura 10 y para filtrar adicionalmente el mismo canal con un filtro H_{iR} que representa el sonido de uno de los cinco altavoces para el oído derecho o hacia el altavoz 210 derecho del auricular 208.

Si, por ejemplo, el canal 1 en la figura 2 fuera el canal frontal-izquierdo emitido por el altavoz 202 en la figura 10, el filtro H_{iL} representaría el canal indicado por una línea 212 discontinua, en tanto que el filtro H_{1R} reproduciría el canal representado por una línea 213 discontinua. Como se indica a modo de ejemplo en la figura 10 por una línea 214 discontinua, el altavoz 209 de auricular izquierdo no sólo recibe el sonido directo, sino también reflexiones primarias en un margen del espacio de reproducción y, por supuesto, también reflexiones posteriores expresadas en una reverberación difusa.

Tal representación de filtro se ilustra en la figura 11. En particular, la figura 11 muestra un ejemplo esquemático de una respuesta de impulso de un filtro, por ejemplo, del filtro H_{1L} de la figura 2. El sonido directo ilustrado en la figura 11 por la línea 212 se representa mediante un pico al inicio del filtro, en tanto que las reflexiones primarias, como se representan por ejemplo en la figura 10 mediante 214, se reproducen por una región central que tiene varios picos menores (discretos) en la figura 11. La reverberación difusa ya no se descompone entonces normalmente según picos individuales, ya que el sonido del altavoz 202 se refleja en principio con una frecuencia arbitraria, disminuyendo por supuesto la energía adicionalmente con cada reflexión y distancia de propagación adicional, como se ilustra por la energía que disminuye en la sección posterior que en la figura 11 se denomina "reverberación difusa".

Cada filtro mostrado en la figura 2 comprende de esta manera una respuesta de impulso de filtro que tiene aproximadamente un desarrollo como se muestra por la ilustración esquemática de respuesta de impulso de la figura 11. Es obvio que la respuesta individual de impulso de filtro dependerá del espacio de reproducción, la colocación de los altavoces, las posibles características de atenuación en el espacio de reproducción, debidas por ejemplo a varias personas presentes o a los muebles en el espacio de reproducción, etc. y también de manera ideal de las características de los altavoces 201 a 206 individuales.

El hecho de que las señales de todos los altavoces se superpongan en el oído del oyente 207 se ilustra por los sumadores 22 y 23 en la figura 2. De esta manera, cada canal se filtra con un filtro correspondiente para el oído izquierdo para después simplemente sumar las señales emitidas por los filtros destinadas al oído izquierdo para obtener la señal de salida del auricular para el oído izquierdo L. De manera análoga, se realiza una sumación mediante el sumador 23 para el oído derecho o el altavoz 210 del auricular derecho en la figura 10 para obtener la señal de salida del auricular para el oído derecho mediante la superposición de todas las señales de altavoz filtradas con un filtro correspondiente para el oído derecho.

Debido al hecho de que, aparte del sonido directo, también existen reflexiones primarias y, en particular, una reverberación difusa, la cual es particularmente significativa para la percepción del espacio, para que el tono no suene sintético o "seco" sino que le dé al oyente la impresión de que realmente se encuentra sentado en una sala de conciertos con sus características acústicas, todas las respuestas de impulso de los filtros 21 individuales serán de longitudes considerables. La convolución de cada multicanal individual de la representación multicanal con dos filtros ya da como resultado por tanto una tarea de cálculo considerable. Ya que se requieren dos filtros para cada multicanal individual, concretamente uno para el oído izquierdo y otro para el oído derecho, cuando el canal de altavoz de graves también se trata de manera separada, se requiere una cantidad total de 12 filtros diferentes entre sí para una reproducción de auricular de una representación multicanal 5.1. Todos los filtros tienen, como es evidente en la figura 11, una respuesta de impulso muy larga para poder considerar no sólo el sonido directo sino también las reflexiones primarias y la reverberación difusa, que realmente confiere a una pieza de audio la reproducción correcta de sonido y una buena impresión espacial.

Por tanto, para poner en práctica el concepto conocido, aparte de un reproductor 220 multicanal, como se muestra en la figura 10, se requiere un procesamiento 222 virtual de sonido muy complicado, que suministra las señales para los dos altavoces 209 y 210 representados por líneas 224 y 226 en la figura 10.

Los sistemas de auricular para generar un sonido de auricular multicanal son por tanto complicados, voluminosos y caros, lo que se debe a la elevada potencia de cálculo, a la elevada demanda de corriente para la elevada potencia de cálculo requerida y a la elevada demanda de memoria de trabajo para las evaluaciones a realizar con la respuesta de impulso y al gran volumen o los elementos caros relacionados con ello para el reproductor. Las aplicaciones de este tipo están relacionadas de esta manera a las tarjetas de sonido de PC domésticas o tarjetas de sonido de ordenadores portátiles o también sistemas estereofónicos domésticos.

En particular, el sonido multicanal de auricular permanece inaccesible para el mercado continuamente creciente de reproductores móviles, como por ejemplo, los reproductores de CD portátiles o, en particular, los reproductores de hardware, ya que los requerimientos de cálculo para filtrar los multicanales con por ejemplo 12 filtros diferentes no pueden realizarse en este segmento de precios ni con respecto a los recursos del procesador ni con respecto al consumo de corriente de los aparatos que normalmente funcionan con baterías. En este caso se trata de un segmento de precios en el extremo inferior (más bajo) de la escala. Sin embargo, precisamente este segmento de precios es muy interesante desde el punto de vista económico debido al gran número de piezas.

La publicación posterior EP 1 768 451 A1 da a conocer un dispositivo para codificar una señal acústica y un dispositivo para decodificar una señal acústica. Una tabla de coeficientes contiene coeficientes en forma de una matriz con dos filas y n columnas, simulando los coeficientes características de transferencia relacionada con la cabeza que deben utilizarse cuando ha de reproducirse una señal. En una primera unidad de salida de señal se convierte una señal de dominio de frecuencia de N canales en una señal de mezcla descendente de dos canales, concretamente según la tabla de coeficientes. Además existe una segunda unidad de salida de señal para generar información auxiliar, que han de utilizarse para reconstruir sólo las señales de canal basándose en una señal de mezcla descendente de dos canales, por lo que se hace posible filtrar la señal de mezcla descendente según una función de transmisión deseada. Un decodificador reproduce la señal multicanal original mediante la reproducción de la información espacial original de señal multicanal, que entonces se utiliza para la reconstrucción de la señal multicanal.

El objetivo de la presente invención es proporcionar un concepto de procesamiento de señal eficaz que también permita una reproducción de auricular de calidad multicanal en aparatos de reproducción simples.

Este objetivo se logra mediante un dispositivo para generar una señal estereofónica codificada según la reivindicación 1 o mediante un método para generar una señal estereofónica codificada según la reivindicación 10 o mediante un programa informático según la reivindicación 11.

La presente invención se basa en el conocimiento de que el sonido de auricular multicanal atractivo y de alta calidad puede ponerse a disposición de todos los reproductores disponibles, tales como, por ejemplo, reproductores de CD o reproductores de hardware, porque una representación multicanal de una pieza de audio o un flujo de datos de audio, esto es, por ejemplo, una representación 5.1 de una pieza de audio, se somete fuera de un reproductor de hardware, es decir, por ejemplo en un ordenador de un proveedor con una elevada potencia de cálculo, a un procesamiento de señal de auricular. Sin embargo, según la invención, el resultado del procesamiento de señal de auricular, no se reproduce simplemente sino que se suministra a un codificador estereofónico de audio típico que entonces genera una señal estereofónica codificada a partir del canal de auricular izquierdo y el canal de auricular derecho.

Entonces esta señal estereofónica codificada, como cualquier otra señal estereofónica codificada que no presenta una representación multicanal, puede suministrase al reproductor de hardware o, por ejemplo, a un reproductor de CD portátil en forma de un CD. El reproductor proporcionará entonces al usuario un sonido multicanal de auricular sin tener que añadir ningún recurso o medio adicional a dispositivos ya existentes. Según la invención, el resultado del procesamiento de señal de auricular, es decir, la señal de auricular izquierdo y la del derecho, no se reproducen en un auricular, como en el estado de la técnica, sino que se codifica y se emite como datos estereofónicos
codificados.

\newpage

Una emisión de este tipo puede ser una memorización, una transmisión o algo similar. Un archivo de este tipo con datos estereofónicos codificados puede suministrase entonces fácilmente a cualquier reproductor diseñado para la reproducción estereofónica, sin que el usuario tenga que realizar algún cambio en su aparato.

El concepto según la invención de generar una señal estereofónica codificada a partir del resultado del procesamiento de señal de auricular permite de esta manera que la representación multicanal que proporciona una calidad considerablemente mejorada y más real al usuario, también pueda emplearse en todos los reproductores de hardware simples y ampliamente difundidos y en el futuro, aún más ampliamente difundidos.

En un ejemplo de realización preferido de la presente invención, se parte de una representación multicanal codificada, es decir, una representación paramétrica que presenta un o normalmente dos canales base y que además presenta datos paramétricos para generar los multicanales de la representación multicanal basándose en los canales base y los datos paramétricos. Ya que se prefiere un método basado en el dominio de frecuencia para la decodificación multicanal, según la invención el procesamiento de señal de auricular no se realiza en el dominio de tiempo mediante la convolución de la señal de tiempo con la respuesta de impulso, sino en el dominio de frecuencia mediante la multiplicación con la función de transmisión de filtro.

Esto permite ahorrar al menos una transformación inversa antes del procesamiento de señal de auricular y es particularmente ventajoso cuando el codificador estereofónico posterior también funciona en el dominio de frecuencia, de tal manera que entonces, sin tener que recurrir nunca al dominio de tiempo, la codificación estereofónica de la señal estereofónica de auricular, también puede llevarse a cabo sin recurrir al dominio de tiempo. El procesamiento de la representación multicanal hasta la señal estereofónica codificada, sin insertar un dominio de tiempo o por al menos un número reducido de transformaciones, es interesante no sólo con respecto a la eficacia del tiempo de cálculo, sino que pone un límite a la pérdida de calidad ya que menos etapas de procesamiento introducen también menos artefactos en la señal de audio.

En particular en los métodos basados en bloques que cuantifican considerando un umbral de enmascaramiento psicoacústico, como se prefiere para el codificador estereofónico, es importante evitar el mayor número de artefactos de decodificación en serie posible.

En un ejemplo de realización particularmente preferido de la presente invención, se utiliza una representación BCC con uno o preferiblemente dos canales base como representación multicanal. Ya que el método BCC funciona en el dominio de frecuencia, los multicanales no se transforman a dominio de tiempo después de su síntesis, como sucede normalmente en el decodificador BCC. En su lugar, se utiliza la representación espectral de los multicanales en forma de bloques y se somete al procesamiento de señal de auricular. Para ello, se utilizan las funciones de transmisión de los filtros, es decir, las transformadas de Fourier de las respuestas de impulso, para realizar una multiplicación entre la representación espectral de los multicanales y las funciones de transmisión de filtro. Mientras que las respuestas de impulso de los filtros sean respecto al tiempo más largas que un bloque de componentes espectrales en la salida del decodificador BCC, se prefiere un procesamiento de filtro por bloques en el que las respuestas de impulso de los filtros se separan en el dominio de tiempo y se transforman por bloques para a continuación realizar las ponderaciones de los espectros correspondientes requeridas para tales mediciones, como se describe, por ejemplo, en el documento WO 94/01933.

Ejemplos de realización preferidos de la presente invención se explican en detalle a continuación haciendo referencia a los dibujos adjuntos. Muestran:

la figura 1 un diagrama de bloques del dispositivo según la invención para generar una señal estereofónica codificada;

la figura 2 una ilustración detallada de una implementación del procesamiento de señal de auricular de la figura 1;

la figura 3 un codificador de estereofonía asociada conocido para generar datos de canal e información multicanal paramétrica;

la figura 4 una ilustración de un esquema para determinar los parámetros ICLD, ICTD e ICC para una codificación/decodificación BBC;

la figura 5 una ilustración de un diagrama de bloques de una cadena de codificador/decodificador BCC;

la figura 6 un diagrama de bloques de una implementación del bloque de síntesis BCC de la figura 5;

la figura 7 una conexión en cascada entre un decodificador multicanal y el procesamiento de señal de auricular sin transformación al dominio de tiempo;

la figura 8 una conexión en cascada entre el procesamiento de señal de auricular y un codificador estereofónico sin transformación al dominio de tiempo;

la figura 9 un diagrama de bloques esquemático de un codificador estereofónico preferido;

la figura 10 una ilustración esquemática de un escenario de reproducción para determinar las funciones de filtro de la figura 2;

la figura 11 una ilustración del principio de una respuesta de impulso esperada de un filtro determinado según la figura 10.

La figura 1 muestra un diagrama de bloques esquemático de un dispositivo según la invención para generar una señal estereofónica codificada de una pieza de audio o un flujo de datos de audio. La señal estereofónica comprende, de una forma no codificada, un primer canal 10a estereofónico no codificado y un segundo canal 10b estereofónico no codificado y se genera a partir de una representación multicanal de la pieza de audio o el flujo de datos de audio, presentando la representación multicanal información acerca de más de dos multicanales. Como se explicará posteriormente, la representación multicanal puede encontrarse en forma codificada o no codificada. Si la representación multicanal se encuentra en una forma no codificada, entonces comprenderá tres o más multicanales. En un escenario de aplicación preferido, la representación multicanal comprende cinco canales y un canal de altavoz de graves.

Sin embargo, si la representación multicanal se encuentra en una forma codificada, entonces esta forma codificada comprende normalmente uno o varios canales base así como parámetros para sintetizar los tres o más multicanales a partir del uno o dos canales base. De esta manera un decodificador 11 multicanal es un ejemplo de un medio para proporcionar los más de dos multicanales a partir de la representación multicanal. Sin embargo, si la representación multicanal ya se encuentra en una forma no codificada, es decir, por ejemplo, en forma de 5+1 canales PCM, entonces el medio para proporcionar corresponde a un terminal de entrada para un medio 12 para realizar un procesamiento de señal de auricular, para generar la señal estereofónica no codificada con el primer canal 10a estereofónico no codificado y el segundo canal 10b estereofónico no codificado.

Preferiblemente, el medio 12 para realizar el procesamiento de señal de auricular está configurado para evaluar los multicanales de la representación multicanal en cada caso con una primera función de filtro para el primer canal estereofónico y con una segunda función de filtro para el segundo canal estereofónico y para sumar los multicanales respectivos evaluados para obtener el primer canal estereofónico no codificado y el segundo canal estereofónico no codificado, como se ilustra mediante la figura 2. Aguas abajo del medio 12 para realizar el procesamiento de señal de auricular está dispuesto un codificador 13 estereofónico que está configurado para codificar el primer canal 10a estereofónico no codificado y el segundo canal 10b estereofónico no codificado para obtener la señal estereofónica codificada en una salida 14 del codificador 13 estereofónico. El codificador estereofónico realiza una reducción en la tasa de transmisión de datos de tal manera que una tasa de transmisión de datos requerida para transmitir la señal estereofónica codificada es menor que una tasa de transmisión de datos requerida para transmitir la señal estereofónica no codificada.

Según la invención, se logra por tanto un concepto que permite suministrar un tono de varios canales, que también se denomina "envolvente", a través de reproductores simples, tales como, por ejemplo, reproductores de hardware, a auriculares estereofónicos.

La sumación de determinados canales puede formarse por ejemplo como simple procesamiento de señal de auricular para obtener los canales de salida para los datos estereofónicos. Los métodos mejorados funcionan con algoritmos más complejos que a su vez logran una mejor calidad de reproducción.

Debe mencionarse que el concepto según la invención permite que las etapas de cálculo intenso para la decodificación multicanal y para la realización del procesamiento de señal de auricular no se lleven a cabo en el propio reproductor sino que se realicen externamente. El resultado del concepto según la invención es un archivo estereofónico codificado que, por ejemplo, es un archivo MP3, un archivo AAC, un archivo HE-AAC, o algún otro archivo estereofónico.

En otros ejemplos de realización, la decodificación multicanal, el procesamiento de señal de auricular y la codificación estereofónica pueden realizarse en diferentes aparatos ya que los datos de salida o los datos de entrada de los bloques individuales pueden portarse fácilmente y generarse y almacenarse de una forma normalizada.

A continuación, con referencia a la figura 7 se muestra una forma de realización preferida de la presente invención en la que el decodificador 11 multicanal presenta un banco de filtros o una función FFT de tal manera que la representación multicanal se proporciona en el dominio de frecuencia. En particular, los multicanales individuales se generan como bloques de valores espectrales para cada canal. Según la invención, el procesamiento de señal de auricular no se realiza entonces en el dominio de tiempo mediante circunvolución de los canales temporales con las respuestas de impulso de filtro, sino que se realiza una multiplicación de la representación del dominio de frecuencia de los multicanales con una representación espectral de la respuesta de impulso de filtro. Una señal estereofónica no codificada se logra entonces en la salida del procesamiento de señal de auricular que, sin embargo, no se encuentra en el dominio de tiempo sino que comprende un canal estereofónico izquierdo y uno derecho, dándose un canal estereofónico de este tipo como secuencia de bloques de valores espectrales, representando cada bloque de valores espectrales un espectro a corto plazo del canal estereofónico.

En el ejemplo de realización mostrado en la figura 8, al bloque 12 de procesamiento de señal de auricular se le suministran en el lado de entrada datos o bien de dominio de tiempo o bien de dominio de frecuencia. En el lado de salida, los canales estereofónicos no codificados se generan en el dominio de frecuencia, es decir, de nuevo como secuencia de bloques de valores espectrales. Como codificador 13 estereofónico se prefiere en este caso un codificador estereofónico basado en transformaciones, es decir, que procesa valores espectrales sin que entre el procesamiento 12 de señal de auricular y el codificador 13 estereofónico sea necesaria una conversión frecuencia/tiempo y una conversión tiempo/frecuencia posterior. En el lado de salida, el codificador 13 estereofónico proporciona entonces un archivo con la señal estereofónica codificada que además de la información secundaria comprende una forma codificada de valores espectrales.

En un ejemplo de realización particularmente preferido de la presente invención, en el transcurso de la representación multicanal en la entrada del bloque 11 de la figura 1 hasta el archivo estereofónico codificado en la salida 14 del medio de la figura 1 se realiza un procesamiento de dominio de frecuencia continuo, sin que tenga que tener lugar una conversión al dominio de tiempo y dado el caso de nuevo una conversión al dominio de frecuencia. Cuando se utiliza un codificador MP3 o un codificador AAC como codificador estereofónico, se prefiere convertir el espectro de Fourier en la salida del bloque de procesamiento de señal de auricular en un espectro MDCT. De esta manera se asegura según la invención que la información de fase requerida en una forma precisa para la convolución/evaluación de los canales en el bloque de procesamiento de señal de auricular se convierta en la representación MDCT que no funciona de manera tan correcta respecto a la fase, de modo que para el codificador estereofónico, en contraste con un codificador MP3 normal o un codificador AAC normal no se requieren medios para convertir el dominio de tiempo al dominio de frecuencia, es decir, al espectro MDCT.

La figura 9 muestra un diagrama de bloques general para un codificador estereofónico preferido. El codificador estereofónico comprende en el lado de entrada, un módulo 15 de estereofonía asociada que preferiblemente determina de manera adaptativa si una codificación estereofónica común, por ejemplo en forma de una codificación central/lateral proporciona una mayor ganancia de codificación que un procesamiento separado de los canales izquierdo y derecho. El módulo 15 de estereofonía asociada puede estar configurado además para realizar una codificación estereofónica de intensidad, proporcionando una codificación estereofónica de intensidad, en particular con mayores frecuencias, una ganancia de codificación considerable sin que surjan artefactos audibles. La salida del módulo 15 de estereofonía asociada se procesa entonces adicionalmente utilizando otras medidas de reducción de redundancia diferentes, tales como, por ejemplo, una filtración TNS, sustitución de ruido, etc., para entonces suministrar los resultados a un cuantificador 16 que logra una cuantificación de los valores espectrales utilizando un umbral de enmascaramiento psicoacústico. El tamaño de paso del cuantificador se selecciona a este respecto de tal manera que el ruido introducido por la cuantificación permanece por debajo del umbral de enmascaramiento psicoacústico, de tal manera que se logra una reducción de la tasa de transmisión de datos sin que las distorsiones introducidas por la cuantificación con pérdida sean audibles. Aguas abajo del cuantificador 16 está dispuesto un codificador 17 de entropía que realiza una codificación de entropía sin pérdida de los valores espectrales cuantificados. En la salida del codificador de entropía se encuentra entonces la señal estereofónica codificada que además de los valores espectrales codificados por entropía, comprende información secundaria requerida para la decodificación.

A continuación se hará referencia a implementaciones preferidas del decodificador multicanal o a representaciones multicanal preferidas mediante las figuras 3 a 6.

Así, existen en la técnica muchas técnicas para reducir la cantidad de datos requeridos para transmitir una señal de audio multicanal. Tales técnicas se denominan técnicas de estereofonía asociada. Para este fin se hace referencia a la figura 3 que muestra un dispositivo 60 de estereofonía asociada. Este dispositivo puede ser un dispositivo que implemente, por ejemplo, la técnica de intensidad estereofónica (IS) o la técnica de codificación de punto de referencia binaural (BCC). Un aparato de este tipo recibe en general como señal de entrada al menos dos canales CH1, CH2,..., CHn y emite un solo canal portador e información multicanal paramétrica. Los datos paramétricos se definen de manera que pueda calcularse una aproximación de un canal original (CH1, CH2,..., CHn) en un decodificador.

Normalmente, el canal portador comprenderá valores de muestreo de subbanda, coeficientes espectrales, valores de muestreo de dominio de tiempo, etc., que proporcionan una representación relativamente fina de la señal subyacente, mientras que los datos paramétricos no comprenden tales valores de muestreo o coeficientes espectrales, sino parámetros de control para controlar un determinado algoritmo de reconstrucción, tal como, por ejemplo, ponderación por multiplicación, desplazamiento de tiempo, desplazamiento de frecuencia, etc. La información multicanal paramétrica comprende de esta manera una representación relativamente aproximada de la señal o del canal asociado. Expresado en números, la cantidad de datos requeridos por un canal portador asciende a aproximadamente de 60 a 70 kbits/s, mientras que la cantidad de datos requeridos por la información secundaria paramétrica para un canal se encuentra en el intervalo de 1,5 a 2,5 kbits/s. Debe mencionarse que los números anteriores se aplican a datos comprimidos. Por supuesto un canal de CD no comprimido requiere aproximadamente diez veces las tasas de transmisión de datos. Un ejemplo de datos paramétricos son los factores de ajuste a escala conocidos, información de intensidad estereofónica o parámetros BCC, como se describirá más adelante.

La técnica de codificación de intensidad estereofónica se describe en la Edición AES 3799 titulada "Intensity Stereo Coding", J. Herre, K.H. Brandenburg, D. Lederer, febrero de 1994, Ámsterdam. En general, el concepto de intensidad estereofónica se basa en una transformación de eje principal que debe aplicarse a los datos de los dos canales de audio estereofónicos. Si la mayoría de los puntos de datos se concentra alrededor del primer eje principal, puede lograrse una ganancia de codificación al girar ambas señales un determinado ángulo antes de llevar a cabo la codificación. Sin embargo, esto no siempre se da para técnicas de reproducción estereofónicas reales. Por ello esta técnica se modifica en el sentido en que la segunda componente ortogonal se excluye de la transmisión en el flujo de bits. De esta manera, las señales reconstruidas para el canal izquierdo y el derecho consisten en versiones ponderadas o ajustadas a escala de manera diferente de la misma señal transmitida. Aún así, las señales reconstruidas difieren en su amplitud, sin embargo, son idénticas con respecto a su información de fase. Sin embargo, las curvas envolventes de tiempo de energía de ambos canales de audio originales se mantienen por medio de la operación de ajuste a escala selectiva que normalmente funciona de manera selectiva respecto a la frecuencia. Esto corresponde a la percepción humana del sonido a altas frecuencias donde la información espacial dominante se determina por las curvas envolventes de energía.

Además, en implementaciones prácticas, la señal transmitida, es decir, el canal portador, se genera a partir de la señal de sumación del canal izquierdo y el canal derecho en lugar de de la rotación de ambas componentes. Además este procesamiento, es decir, la generación de los parámetros de intensidad estereofónica para realizar las operaciones de ajuste a escala, se realiza de una manera selectiva respecto a la frecuencia, es decir, independientemente para cada banda de factor de ajuste a escala, es decir, para cada fracción de frecuencia del codificador. Preferiblemente, se combinan ambos canales para formar un canal combinado o "portador" y además del canal combinado, la información de intensidad estereofónica. La información de intensidad estereofónica depende de la energía del primer canal, la energía del segundo canal o la energía del canal combinado.

La técnica BCC se describe en el documento de la Convención AES 5574 "Binaural Cue Coding applied to stereo and multichannel audio compression", T. Faller, F. Baumgarte, mayo de 2002, Munich. En la codificación BCC, se convierten varios canales de entrada de audio en una representación espectral, concretamente utilizando una transformación basada en DFT con ventanas que se solapan. El espectro resultante se divide en secciones que no se solapan, de las que cada una tiene un índice. Cada fracción tiene un ancho de banda que es proporcional al ancho de banda rectangular equivalente (ERB). Las diferencias de nivel entre canales (ICLD; ICLD = Inter Channel Level Differences) y las diferencias de tiempo entre canales (ICTD; ICTD = Inter Channel Time Differences) se determinan para cada fracción y para cada trama k. Las ICLD e ICTD se cuantifican y codifican para alcanzar finalmente un flujo de bits BCC como información secundaria. Las diferencias de nivel entre canales y las diferencias de tiempo entre canales se dan para cada canal con respecto a un canal de referencia. Entonces, se calculan los parámetros según fórmulas predeterminadas que dependen de las fracciones determinadas de la señal que va a procesarse.

En el lado del decodificador, el decodificador recibe normalmente una señal monofónica y el flujo de bits BCC. La señal monofónica se transforma al dominio de frecuencia y se introduce en un bloque de síntesis espacial que también recibe valores decodificados ICLD e ICTD. En el bloque de síntesis espacial, se utilizan los parámetros BCC (ICLD e ICTD) para realizar una operación de ponderación de la señal monofónica, para sintetizar las señales multicanal que, después de una conversión frecuencia/tiempo, representan una reconstrucción de la señal de audio multicanal original.

En el caso de BCC, el módulo 60 de estereofonía asociada es eficaz para emitir la información en el lado del canal de tal manera que los datos paramétricos del canal sean parámetros ICLD o ICTD cuantificados y codificados, utilizándose uno de los canales originales como canal de referencia para codificar la información secundaria del canal.

Normalmente, la señal portadora se forma a partir de la suma de los canales originales participantes.

Evidentemente las técnicas anteriores proporcionan únicamente una representación monofónica para un decodificador que puede procesar únicamente el canal portador, pero que no puede procesar los datos paramétricos para generar una o varias aproximaciones de más de un canal de entrada.

La técnica BCC también se describe en las publicaciones de patente estadounidenses US 2003/0219130 A1, US 2003/0026441 A1 y US 2003/0035553 A1. Adicionalmente, se hace referencia a la publicación especializada "Binaural Cue Coding. Part II: Schemes and Applications", T Faller y F. Baumgarte, IEEE Trans. On Audio and Speech Proc., vol. 11, n.º 6, noviembre de 2003.

A continuación se representa en detalle un esquema BCC típico para codificación de audio multicanal, concretamente con referencia a las figuras 4 a 6.

La figura 5 muestra un esquema BCC de este tipo para codificar/transmitir señales de audio multicanal. La señal de entrada de audio multicanal en una entrada 110 de un codificador 112 BCC se mezcla de manera descendente en un denominado bloque 114 de mezcla descendente. En este ejemplo, la señal multicanal original en la entrada 110 es una señal envolvente de 5 canales con un canal izquierdo frontal, un canal derecho frontal, un canal envolvente izquierdo, un canal envolvente derecho y un canal central. En el ejemplo de realización preferido de la presente invención el bloque 114 de mezcla descendente genera una señal de sumación mediante una simple adición de estos cinco canales para dar una señal monofónica.

En la técnica se conocen otros esquemas de mezcla descendente, de tal manera que utilizando una señal de entrada multicanal se obtienen un canal de mezcla descendente con un canal único.

Este canal único se emite a una línea 115 de señal de sumación. La información secundaria obtenida del bloque 116 de análisis BCC se emite a una línea 117 de información secundaria.

Las diferencias de nivel entre canales (ICLD) y las diferencias de tiempo entre canales (ICTD) se calculan en el bloque de análisis BCC, como se ha ilustrado arriba. Ahora, el bloque 116 de análisis BCC también puede calcular valores de correlación entre canales (valores ICC). La señal de sumación y la información secundaria se transmiten a un decodificador 120 BCC en un formato cuantificado y codificado. El decodificador BCC divide la señal de sumación transmitida en un número de subbandas y realiza ajustes a escala, retardos y otras etapas de procesamiento para proporcionar las subbandas de los canales de audio multicanal que van a emitirse. Este procesamiento se realiza de tal manera que los parámetros ICLD, ICTD e ICC (puntos de referencia) de una señal multicanal reconstruida en la salida 121 coinciden con los puntos de referencia correspondientes para la señal multicanal original en la entrada 110 en el codificador 112 BCC. Para este propósito, el decodificador 120 BCC comprende un bloque 122 de síntesis BCC y un bloque 123 de procesamiento de información secundaria.

A continuación, se ilustra la configuración interna del bloque 122 de síntesis BCC con referencia a la figura 6. La señal de sumación en la línea 115 se suministra a una unidad de conversión tiempo/frecuencia o banco 125 de filtros FB. En la salida del bloque 125 existe un número N de señales de subbanda o, en un caso extremo, un bloque de coeficientes espectrales cuando el banco 125 de filtros de audio realiza una transformación 1:1, es decir, una transformación que genera N coeficientes espectrales a partir de N valores de muestreo de dominio de tiempo.

El bloque 122 de síntesis BCC comprende además una etapa 126 de retardo, una etapa 127 de modificación de nivel, una etapa 128 de procesamiento de correlación y una etapa 129 de banco de filtros inversos IFB. En la salida de la etapa 129, la señal de audio multicanal reconstruida con por ejemplo cinco canales en el caso de un sistema envolvente de 5 canales, puede emitirse a un conjunto de altavoces 124, como se ilustra en la figura 5 o la figura 4.

La señal de entrada sn se convierte al dominio de frecuencia o al dominio de banco de filtros por medio del elemento 125. La señal emitida por el elemento 125 se copia de tal manera que se obtienen varias versiones de la misma señal, como se ilustra por el nodo 130 de copia. El número de versiones de la señal original es igual que el número de canales de salida en la señal de salida. Entonces, cada versión de la señal original en el nodo 130 se somete a un determinado retardo d_{1}, d_{2}, ..., d_{i}, ..., d_{N}. Los parámetros de retardo se calculan mediante el bloque 123 de procesamiento de información secundaria en la figura 5 y se derivan de las diferencias de tiempo entre canales como se calcularon por el bloque 116 de análisis BCC de la figura 5.

Lo mismo se aplica a los parámetros de multiplicación a_{1}, a_{2}, ..., a_{i}, ..., a_{N}, que también se calculan por el bloque 123 de procesamiento de información secundaria basándose en las diferencias de nivel entre canales como se calcularon por el bloque 116 de análisis BCC.

Los parámetros ICC calculados por el bloque 116 de análisis BCC se utilizan para controlar la funcionalidad del bloque 128 de manera que se obtienen determinadas correlaciones entre las señales retardadas y las de nivel manipulado en las salidas del bloque 128. Se indica en este caso que el orden de las etapas 126, 127, 128 puede diferir del orden mostrado en la figura 6.

Se indica que en un procesamiento en forma de cuadros de la señal de audio, el análisis BCC también se realiza en forma de cuadros, es decir, variable en el tiempo, y que se obtiene además un análisis BCC de frecuencia, como se puede observar mediante la división del banco de filtros de la figura 6. Esto significa que los parámetros BCC se obtienen para cada banda espectral. Esto también significa que en el caso de que el banco 125 de filtros de audio descomponga la señal de entrada en, por ejemplo, 32 señales paso banda, el bloque de análisis BCC obtiene un conjunto de parámetros BCC para cada una de las 32 bandas. Por supuesto, el bloque 122 de síntesis BCC de la figura 5, que se ilustra en más detalle en la figura 6, realiza una reconstrucción que también se basa en las 32 bandas mencionadas a modo de ejemplo.

A continuación con referencia a la figura 4 se representa un escenario utilizado para determinar parámetros BCC individuales. Normalmente, los parámetros ICLD, ICTD e ICC pueden definirse entre pares de canales. Sin embargo, se prefiere que los parámetros ICLD e ICTD se determinen entre un canal de referencia y los demás canales. Esto se ilustra en la figura 4A.

Los parámetros ICC pueden definirse de varias maneras diferentes. En general, los parámetros ICC pueden determinarse en el codificador entre todos los pares de canales posibles, como se ilustra en la figura 4B. Sin embargo, se ha sugerido calcular únicamente los parámetros ICC entre los dos canales más fuertes en un momento, como se ilustra en la figura 4C, que muestra un ejemplo en el que en un momento se calcula un parámetro ICC entre los canales 1 y 2 y en otro momento, se calcula un parámetro ICC entre los canales 1 y 5. Entonces el decodificador sintetiza la correlación entre canales entre los canales más fuertes en el decodificador y utiliza determinadas reglas heurísticas para calcular y sintetizar la coherencia entre canales para los pares de canales restantes.

Con respecto al cálculo de, por ejemplo, los parámetros de multiplicación a_{1}, a_{N} basándose en los parámetros ICLD transmitidos, se hace referencia al documento de la Convención AES n.º 5574. Los parámetros ICLD representan una distribución de energía de una señal original de varios canales. Sin perder la generalidad, se prefiere, como se muestra en la figura 4A, tomar cuatro parámetros ICLD que representan la diferencia de energía entre los canales respectivos y el canal izquierdo frontal. En el bloque 122 de procesamiento de información secundaria, los parámetros de multiplicación a_{1}, ..., a_{N} se derivan de los parámetros ICLD de tal manera que la energía total de todos los canales de salida reconstruidos es la misma (o proporcional a la energía de la señal de sumación transmitida).

En el ejemplo de realización mostrado en la figura 7, se prescinde de la conversión frecuencia/tiempo obtenida por los bancos 129 de filtros inversos IFB de la figura 6. En su lugar, se utilizan las representaciones espectrales de los canales individuales en la entrada de estos bancos de filtros inversos y se suministran al dispositivo de procesamiento de señal de auricular de la figura 7 para realizar la evaluación de los multicanales individuales con los dos filtros respectivos por multicanal sin una transformación frecuencia/tiempo adicional.

Con respecto a un procesamiento completo que tiene lugar en el dominio de frecuencia, se indica que entonces el decodificador multicanal, es decir, por ejemplo, el banco 125 de filtros de la figura 6 y el codificador estereofónico deben tener la misma resolución tiempo/frecuencia. Además se prefiere utilizar el mismo banco de filtros, lo que también es particularmente ventajoso en la medida en que se requiere únicamente un solo banco de filtros para el procesamiento completo, como se ilustra en la figura 1. En este caso, el resultado es un procesamiento particularmente eficaz ya que no tienen que calcularse la transformación en el decodificador multicanal y en el codificador estereofónico.

Los datos de entrada o los datos de salida en el concepto según la invención se codifican por tanto preferiblemente en el dominio de frecuencia por medio de transformación/banco de filtros y se codifican según especificaciones psicoacústicas aprovechando efectos de enmascaramiento, debiendo existir en particular en el decodificador una representación espectral de las señales. Ejemplos de esto son los archivos MP3, archivos AAC o archivos AC3. Sin embargo, los datos de entrada o los datos de salida también pueden codificarse formando la suma y la diferencia, como es el caso de los denominados métodos de matriz. Ejemplos de esto son el Dolby ProLogic, Logic7 o Circle Surround. Los datos de, en particular, la representación multicanal pueden codificarse adicionalmente con métodos paramétricos, como es el caso del MP3 Surround, basándose este método en la técnica BCC.

Dependiendo de las circunstancias, el método según la invención para la generación puede implementarse en hardware o en software. La implementación puede realizarse en un medio de almacenamiento digital, en particular un disquete o CD con señales de control legibles electrónicamente, que puedan actuar conjuntamente con un sistema informático programable de manera que se lleve a cabo el método. En general, la invención también se basa en un producto de programa informático con un código de programa almacenado en un soporte legible mediante una máquina para realizar un método según la invención cuando el producto de programa informático se ejecuta en un ordenador. Dicho de otro modo, la invención también puede realizarse por tanto como un programa informático con un código de programa para realizar el método cuando el programa informático se ejecuta en un ordenador.

Claims

1. Dispositivo para generar una señal estereofónica codificada de una pieza de audio o un flujo de datos de audio con un primer canal estereofónico y un segundo canal estereofónico a partir de una representación multicanal de la pieza de audio o el flujo de datos de audio, que presenta información acerca de más de dos multicanales, con las características siguientes:

: un medio (11) para proporcionar los más de dos multicanales a partir de la representación multicanal;

: un medio (12) para la realización de un procesamiento de señal de auricular para generar una señal estereofónica no codificada con un primer canal (10a) estereofónico no codificado y un segundo canal (10b) estereofónico no codificado, estando configurado el medio (12) para la realización

: para evaluar cada multicanal con una primera función de filtro (H_{iL}) derivada de una posición virtual de un altavoz para reproducir el multicanal y una primera posición virtual de oído de un oyente, para el primer canal estereofónico y con una segunda función de filtro (H_{iR}) derivada de una posición virtual del altavoz y una segunda posición virtual de oído del oyente, para el segundo canal estereofónico, para generar un primer canal evaluado y un segundo canal evaluado para cada multicanal, siendo diferentes las dos posiciones virtuales de oído del oyente,

: para sumar (22) los primeros canales evaluados para obtener el primer canal (10a) estereofónico no codificado y

: para sumar (23) los segundos canales evaluados para obtener el segundo canal (10b) estereofónico no codificado;

: para utilizar la primera función de filtro (H_{iL}) que considera el sonido directo, las reflexiones y la reverberación difusa, y la segunda función de filtro (H_{iR}) que considera el sonido directo, las reflexiones y la reverberación difusa, y

: un codificador (13) estereofónico para codificar el primer canal (10a) estereofónico no codificado y el segundo canal (10b) estereofónico no codificado para obtener la señal (14) estereofónica codificada, estando configurado el codificador estereofónico de tal manera que una tasa de transmisión de datos requerida para transmitir la señal estereofónica codificada es menor que una tasa de transmisión de datos requerida para transmitir la señal estereofónica no codificada.

2. Dispositivo según la reivindicación 1, en el que la primera y la segunda función de filtro corresponden a una respuesta de impulso de filtro que presenta un pico en un valor pequeño de tiempo, que representa el sonido directo, varios picos menores en valores de tiempo medios, que representan las reflexiones, y una región continua, que ya no se descompone según picos individuales y que representa la reverberación difusa.

3. Dispositivo según una de las reivindicaciones anteriores,

en el que la representación multicanal presenta uno o varios canales base así como información paramétrica para calcular los multicanales a partir de uno o varios canales base, y

en el que el medio (11) para proporcionar está configurado para calcular los al menos tres multicanales a partir del uno o los varios canales base y la información paramétrica.

4. Dispositivo según la reivindicación 3,

en el que el medio (11) para proporcionar está configurado para suministrar, en el lado de salida, una representación de dominio de frecuencia en bloques para cada multicanal, y

en el que el medio (12) para la realización está configurado para evaluar la representación de dominio de frecuencia en bloques con una representación de dominio de frecuencia de la primera y la segunda función de filtro.

5. Dispositivo según una de las reivindicaciones anteriores,

en el que el medio (12) para la realización está configurado para suministrar una representación de dominio de frecuencia en bloques del primer canal estereofónico no codificado y el segundo canal estereofónico no codificado, y

en el que el codificador (13) estereofónico es un codificador basado en transformación y está configurado además para procesar la representación de dominio de frecuencia en bloques del primer canal estereofónico no codificado y el segundo canal estereofónico no codificado sin una conversión de la representación de dominio de frecuencia en una representación temporal.

6. Dispositivo según una de las reivindicaciones anteriores,

en el que el codificador (13) estereofónico está configurado para realizar una codificación (15) estereofónica común del primer y el segundo canal estereofónico.

7. Dispositivo según una de las reivindicaciones anteriores,

en el que el codificador (13) estereofónico está configurado para cuantificar (16) un bloque de valores espectrales utilizando un umbral de enmascaramiento psicoacústico y someterlo a codificación (17) de entropía para obtener la señal estereofónica codificada.

8. Dispositivo según una de las reivindicaciones anteriores,

en el que el medio (11) para proporcionar está configurado como decodificador BCC.

\vskip1.000000\baselineskip

9. Dispositivo según una de las reivindicaciones anteriores,

en el que el medio (11) para proporcionar está configurado como decodificador multicanal que presenta un banco de filtros con varias salidas,

en el que el medio (12) para la realización está configurado para evaluar señales en las salidas del banco de filtros con la primera y la segunda función de filtro, y

en el que el codificador (13) estereofónico está configurado para cuantificar (16) el primer canal estereofónico no codificado existente en el dominio de frecuencia y el segundo canal estereofónico no codificado existente en el dominio de frecuencia y someterlo a una codificación (17) de entropía para obtener la señal estereofónica codificada.

10. Método para generar una señal estereofónica codificada de una pieza de audio o un flujo de datos de audio con un primer canal estereofónico y un segundo canal estereofónico a partir de una representación multicanal de la pieza de audio o el flujo de datos de audio que presenta información acerca de más de dos multicanales, con las etapas siguientes:

: proporcionar (11) los más de dos multicanales a partir de la representación multicanal;

: realizar (12) un procesamiento de señal de auricular para generar una señal estereofónica no codificada con un primer canal (10a) estereofónico no codificado y un segundo canal (10b) estereofónico no codificado, presentando la etapa de realización (12) las etapas siguientes:

: evaluar cada multicanal con una primera función de filtro (H_{iL}) derivada de una posición virtual de un altavoz para reproducir el multicanal y una primera posición virtual de oído de un oyente, para el primer canal estereofónico y con una segunda función de filtro (H_{iR}) derivada de una posición virtual del altavoz y una segunda posición virtual de oído del oyente, para el segundo canal estereofónico, para generar un primer canal evaluado y un segundo canal evaluado para cada multicanal, siendo diferentes las dos posiciones virtuales de oído del oyente,

: sumar (22) los primeros canales evaluados para obtener el primer canal (10a) estereofónico no codificado, y

: sumar (23) los segundos canales evaluados para obtener el segundo canal (10b) estereofónico no codificado;

: utilizar la primera función de filtro (H_{iL}) que considera el sonido directo, las reflexiones y la reverberación difusa, y la segunda función de filtro (H_{iR}) que considera el sonido directo, las reflexiones y la reverberación difusa; y

: codificar (13) de manera estereofónica el primer canal (10a) estereofónico no codificado y el segundo canal (10b) estereofónico no codificado para obtener la señal (14) estereofónica codificada,

realizándose la etapa de codificar de manera estereofónica de tal manera que una tasa de transmisión de datos requerida para transmitir la señal estereofónica codificada es menor que una tasa de transmisión de datos requerida para transmitir la señal estereofónica no codificada.

11. Programa informático con un código de programa para realizar el método para generar una señal estereofónica codificada según la reivindicación 10, cuando el programa informático se ejecuta en un ordenador.