ES2340796T3 - Dispositivo y metodo para generar una señal estereofonica codificada de una pieza de audio o flujo de datos de audio. - Google Patents
Dispositivo y metodo para generar una señal estereofonica codificada de una pieza de audio o flujo de datos de audio. Download PDFInfo
- Publication number
- ES2340796T3 ES2340796T3 ES06707184T ES06707184T ES2340796T3 ES 2340796 T3 ES2340796 T3 ES 2340796T3 ES 06707184 T ES06707184 T ES 06707184T ES 06707184 T ES06707184 T ES 06707184T ES 2340796 T3 ES2340796 T3 ES 2340796T3
- Authority
- ES
- Spain
- Prior art keywords
- stereo
- channel
- signal
- multichannel
- uncoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Catalysts (AREA)
Abstract
Dispositivo para generar una señal estereofónica codificada de una pieza de audio o un flujo de datos de audio con un primer canal estereofónico y un segundo canal estereofónico a partir de una representación multicanal de la pieza de audio o el flujo de datos de audio, que presenta información acerca de más de dos multicanales, con las características siguientes: un medio (11) para proporcionar los más de dos multicanales a partir de la representación multicanal; un medio (12) para la realización de un procesamiento de señal de auricular para generar una señal estereofónica no codificada con un primer canal (10a) estereofónico no codificado y un segundo canal (10b) estereofónico no codificado, estando configurado el medio (12) para la realización para evaluar cada multicanal con una primera función de filtro (HiL) derivada de una posición virtual de un altavoz para reproducir el multicanal y una primera posición virtual de oído de un oyente, para el primer canal estereofónico y con una segunda función de filtro (HiR) derivada de una posición virtual del altavoz y una segunda posición virtual de oído del oyente, para el segundo canal estereofónico, para generar un primer canal evaluado y un segundo canal evaluado para cada multicanal, siendo diferentes las dos posiciones virtuales de oído del oyente, para sumar (22) los primeros canales evaluados para obtener el primer canal (10a) estereofónico no codificado y para sumar (23) los segundos canales evaluados para obtener el segundo canal (10b) estereofónico no codificado; para utilizar la primera función de filtro (HiL) que considera el sonido directo, las reflexiones y la reverberación difusa, y la segunda función de filtro (HiR) que considera el sonido directo, las reflexiones y la reverberación difusa, y un codificador (13) estereofónico para codificar el primer canal (10a) estereofónico no codificado y el segundo canal (10b) estereofónico no codificado para obtener la señal (14) estereofónica codificada, estando configurado el codificador estereofónico de tal manera que una tasa de transmisión de datos requerida para transmitir la señal estereofónica codificada es menor que una tasa de transmisión de datos requerida para transmitir la señal estereofónica no codificada.
Description
Dispositivo y método para generar una señal
estereofónica codificada de una pieza de audio o flujo de datos de
audio.
La presente invención se refiere a la tecnología
de audio multicanal y, en particular, a aplicaciones de audio
multicanal en relación a tecnologías de auricular.
La publicación de la AES "MP3 Surround:
Efficient and Compatible Coding of Multi-Channel
Audio", J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer,
C. Spenger, mayo de 2004, Berlín, describe la codificación eficaz
respecto a la tasa de bits de una señal multicanal, que puede
decodificarse con decodificadores estereofónicos de MP3.
Las solicitudes de patente internacional WO
99/49574 y WO 99/14983 dan a conocer técnicas de procesamiento de
señal de audio para activar un par de altavoces de auricular
dispuestos de manera opuesta para que un usuario obtenga una
percepción espacial de la escena de audio a través de los dos
auriculares, que no sólo es una representación estereofónica sino
una representación multicanal. De esta manera, el oyente obtiene, a
través de sus auriculares, una percepción espacial de una pieza de
audio que en el mejor de los casos es igual que su percepción
espacial, si el usuario estuviera en un espacio de reproducción que
por ejemplo estuviera equipado con un sistema de audio 5.1. Para
este propósito, para cada altavoz de auricular, se le suministra a
cada canal de la pieza de audio multicanal o el flujo de datos de
audio multicanal, como se ilustra en la figura 2, un filtro
separado, después de lo cual se suman los respectivos canales
filtrados correspondientes entre sí, como se ilustrará
posteriormente.
En el lado izquierdo en la figura 2, se
encuentran las entradas 20 multicanal que representan en conjunto
una representación multicanal de la pieza de audio o del flujo de
datos de audio. Tal escenario se muestra esquemáticamente por
ejemplo en la figura 10. La figura 10 muestra un espacio 200 de
reproducción en el que está dispuesto un denominado sistema de
audio 5.1. El sistema de audio 5.1 comprende un altavoz 201 central,
un altavoz 202 frontal-izquierdo, un altavoz 203
frontal-derecho, un altavoz 204
posterior-izquierdo y un altavoz 205
posterior-derecho. Un sistema de audio 5.1 tiene un
altavoz 206 de graves adicional que también se denomina canal de
mejora de frecuencia baja. En el denominado "punto óptimo" del
espacio 200 de reproducción, se encuentra un oyente 207 que lleva
unos auriculares 208 que presentan un altavoz 209 de auricular
izquierdo y un altavoz 210 de auricular derecho.
El medio de procesamiento mostrado en la figura
2 está configurado ahora para filtrar cada canal 1, 2, 3 de las
entradas 20 multicanal con un filtro H_{iL} que describe el canal
de sonido proveniente del altavoz hacia el altavoz 209 izquierdo en
la figura 10 y para filtrar adicionalmente el mismo canal con un
filtro H_{iR} que representa el sonido de uno de los cinco
altavoces para el oído derecho o hacia el altavoz 210 derecho del
auricular 208.
Si, por ejemplo, el canal 1 en la figura 2 fuera
el canal frontal-izquierdo emitido por el altavoz
202 en la figura 10, el filtro H_{iL} representaría el canal
indicado por una línea 212 discontinua, en tanto que el filtro
H_{1R} reproduciría el canal representado por una línea 213
discontinua. Como se indica a modo de ejemplo en la figura 10 por
una línea 214 discontinua, el altavoz 209 de auricular izquierdo no
sólo recibe el sonido directo, sino también reflexiones primarias
en un margen del espacio de reproducción y, por supuesto, también
reflexiones posteriores expresadas en una reverberación difusa.
Tal representación de filtro se ilustra en la
figura 11. En particular, la figura 11 muestra un ejemplo
esquemático de una respuesta de impulso de un filtro, por ejemplo,
del filtro H_{1L} de la figura 2. El sonido directo ilustrado en
la figura 11 por la línea 212 se representa mediante un pico al
inicio del filtro, en tanto que las reflexiones primarias, como se
representan por ejemplo en la figura 10 mediante 214, se reproducen
por una región central que tiene varios picos menores (discretos)
en la figura 11. La reverberación difusa ya no se descompone
entonces normalmente según picos individuales, ya que el sonido del
altavoz 202 se refleja en principio con una frecuencia arbitraria,
disminuyendo por supuesto la energía adicionalmente con cada
reflexión y distancia de propagación adicional, como se ilustra por
la energía que disminuye en la sección posterior que en la figura
11 se denomina "reverberación difusa".
Cada filtro mostrado en la figura 2 comprende de
esta manera una respuesta de impulso de filtro que tiene
aproximadamente un desarrollo como se muestra por la ilustración
esquemática de respuesta de impulso de la figura 11. Es obvio que
la respuesta individual de impulso de filtro dependerá del espacio
de reproducción, la colocación de los altavoces, las posibles
características de atenuación en el espacio de reproducción,
debidas por ejemplo a varias personas presentes o a los muebles en
el espacio de reproducción, etc. y también de manera ideal de las
características de los altavoces 201 a 206 individuales.
El hecho de que las señales de todos los
altavoces se superpongan en el oído del oyente 207 se ilustra por
los sumadores 22 y 23 en la figura 2. De esta manera, cada canal se
filtra con un filtro correspondiente para el oído izquierdo para
después simplemente sumar las señales emitidas por los filtros
destinadas al oído izquierdo para obtener la señal de salida del
auricular para el oído izquierdo L. De manera análoga, se realiza
una sumación mediante el sumador 23 para el oído derecho o el
altavoz 210 del auricular derecho en la figura 10 para obtener la
señal de salida del auricular para el oído derecho mediante la
superposición de todas las señales de altavoz filtradas con un
filtro correspondiente para el oído derecho.
Debido al hecho de que, aparte del sonido
directo, también existen reflexiones primarias y, en particular,
una reverberación difusa, la cual es particularmente significativa
para la percepción del espacio, para que el tono no suene sintético
o "seco" sino que le dé al oyente la impresión de que realmente
se encuentra sentado en una sala de conciertos con sus
características acústicas, todas las respuestas de impulso de los
filtros 21 individuales serán de longitudes considerables. La
convolución de cada multicanal individual de la representación
multicanal con dos filtros ya da como resultado por tanto una tarea
de cálculo considerable. Ya que se requieren dos filtros para cada
multicanal individual, concretamente uno para el oído izquierdo y
otro para el oído derecho, cuando el canal de altavoz de graves
también se trata de manera separada, se requiere una cantidad total
de 12 filtros diferentes entre sí para una reproducción de auricular
de una representación multicanal 5.1. Todos los filtros tienen,
como es evidente en la figura 11, una respuesta de impulso muy larga
para poder considerar no sólo el sonido directo sino también las
reflexiones primarias y la reverberación difusa, que realmente
confiere a una pieza de audio la reproducción correcta de sonido y
una buena impresión espacial.
Por tanto, para poner en práctica el concepto
conocido, aparte de un reproductor 220 multicanal, como se muestra
en la figura 10, se requiere un procesamiento 222 virtual de sonido
muy complicado, que suministra las señales para los dos altavoces
209 y 210 representados por líneas 224 y 226 en la figura 10.
Los sistemas de auricular para generar un sonido
de auricular multicanal son por tanto complicados, voluminosos y
caros, lo que se debe a la elevada potencia de cálculo, a la elevada
demanda de corriente para la elevada potencia de cálculo requerida
y a la elevada demanda de memoria de trabajo para las evaluaciones a
realizar con la respuesta de impulso y al gran volumen o los
elementos caros relacionados con ello para el reproductor. Las
aplicaciones de este tipo están relacionadas de esta manera a las
tarjetas de sonido de PC domésticas o tarjetas de sonido de
ordenadores portátiles o también sistemas estereofónicos
domésticos.
En particular, el sonido multicanal de auricular
permanece inaccesible para el mercado continuamente creciente de
reproductores móviles, como por ejemplo, los reproductores de CD
portátiles o, en particular, los reproductores de hardware, ya que
los requerimientos de cálculo para filtrar los multicanales con por
ejemplo 12 filtros diferentes no pueden realizarse en este segmento
de precios ni con respecto a los recursos del procesador ni con
respecto al consumo de corriente de los aparatos que normalmente
funcionan con baterías. En este caso se trata de un segmento de
precios en el extremo inferior (más bajo) de la escala. Sin embargo,
precisamente este segmento de precios es muy interesante desde el
punto de vista económico debido al gran número de piezas.
La publicación posterior EP 1 768 451 A1 da a
conocer un dispositivo para codificar una señal acústica y un
dispositivo para decodificar una señal acústica. Una tabla de
coeficientes contiene coeficientes en forma de una matriz con dos
filas y n columnas, simulando los coeficientes características de
transferencia relacionada con la cabeza que deben utilizarse cuando
ha de reproducirse una señal. En una primera unidad de salida de
señal se convierte una señal de dominio de frecuencia de N canales
en una señal de mezcla descendente de dos canales, concretamente
según la tabla de coeficientes. Además existe una segunda unidad de
salida de señal para generar información auxiliar, que han de
utilizarse para reconstruir sólo las señales de canal basándose en
una señal de mezcla descendente de dos canales, por lo que se hace
posible filtrar la señal de mezcla descendente según una función de
transmisión deseada. Un decodificador reproduce la señal multicanal
original mediante la reproducción de la información espacial
original de señal multicanal, que entonces se utiliza para la
reconstrucción de la señal multicanal.
El objetivo de la presente invención es
proporcionar un concepto de procesamiento de señal eficaz que
también permita una reproducción de auricular de calidad multicanal
en aparatos de reproducción simples.
Este objetivo se logra mediante un dispositivo
para generar una señal estereofónica codificada según la
reivindicación 1 o mediante un método para generar una señal
estereofónica codificada según la reivindicación 10 o mediante un
programa informático según la reivindicación 11.
La presente invención se basa en el conocimiento
de que el sonido de auricular multicanal atractivo y de alta
calidad puede ponerse a disposición de todos los reproductores
disponibles, tales como, por ejemplo, reproductores de CD o
reproductores de hardware, porque una representación multicanal de
una pieza de audio o un flujo de datos de audio, esto es, por
ejemplo, una representación 5.1 de una pieza de audio, se somete
fuera de un reproductor de hardware, es decir, por ejemplo en un
ordenador de un proveedor con una elevada potencia de cálculo, a un
procesamiento de señal de auricular. Sin embargo, según la
invención, el resultado del procesamiento de señal de auricular, no
se reproduce simplemente sino que se suministra a un codificador
estereofónico de audio típico que entonces genera una señal
estereofónica codificada a partir del canal de auricular izquierdo
y el canal de auricular derecho.
Entonces esta señal estereofónica codificada,
como cualquier otra señal estereofónica codificada que no presenta
una representación multicanal, puede suministrase al reproductor de
hardware o, por ejemplo, a un reproductor de CD portátil en forma
de un CD. El reproductor proporcionará entonces al usuario un sonido
multicanal de auricular sin tener que añadir ningún recurso o medio
adicional a dispositivos ya existentes. Según la invención, el
resultado del procesamiento de señal de auricular, es decir, la
señal de auricular izquierdo y la del derecho, no se reproducen en
un auricular, como en el estado de la técnica, sino que se codifica
y se emite como datos estereofónicos
codificados.
codificados.
\newpage
Una emisión de este tipo puede ser una
memorización, una transmisión o algo similar. Un archivo de este
tipo con datos estereofónicos codificados puede suministrase
entonces fácilmente a cualquier reproductor diseñado para la
reproducción estereofónica, sin que el usuario tenga que realizar
algún cambio en su aparato.
El concepto según la invención de generar una
señal estereofónica codificada a partir del resultado del
procesamiento de señal de auricular permite de esta manera que la
representación multicanal que proporciona una calidad
considerablemente mejorada y más real al usuario, también pueda
emplearse en todos los reproductores de hardware simples y
ampliamente difundidos y en el futuro, aún más ampliamente
difundidos.
En un ejemplo de realización preferido de la
presente invención, se parte de una representación multicanal
codificada, es decir, una representación paramétrica que presenta un
o normalmente dos canales base y que además presenta datos
paramétricos para generar los multicanales de la representación
multicanal basándose en los canales base y los datos paramétricos.
Ya que se prefiere un método basado en el dominio de frecuencia
para la decodificación multicanal, según la invención el
procesamiento de señal de auricular no se realiza en el dominio de
tiempo mediante la convolución de la señal de tiempo con la
respuesta de impulso, sino en el dominio de frecuencia mediante la
multiplicación con la función de transmisión de filtro.
Esto permite ahorrar al menos una transformación
inversa antes del procesamiento de señal de auricular y es
particularmente ventajoso cuando el codificador estereofónico
posterior también funciona en el dominio de frecuencia, de tal
manera que entonces, sin tener que recurrir nunca al dominio de
tiempo, la codificación estereofónica de la señal estereofónica de
auricular, también puede llevarse a cabo sin recurrir al dominio de
tiempo. El procesamiento de la representación multicanal hasta la
señal estereofónica codificada, sin insertar un dominio de tiempo o
por al menos un número reducido de transformaciones, es interesante
no sólo con respecto a la eficacia del tiempo de cálculo, sino que
pone un límite a la pérdida de calidad ya que menos etapas de
procesamiento introducen también menos artefactos en la señal de
audio.
En particular en los métodos basados en bloques
que cuantifican considerando un umbral de enmascaramiento
psicoacústico, como se prefiere para el codificador estereofónico,
es importante evitar el mayor número de artefactos de
decodificación en serie posible.
En un ejemplo de realización particularmente
preferido de la presente invención, se utiliza una representación
BCC con uno o preferiblemente dos canales base como representación
multicanal. Ya que el método BCC funciona en el dominio de
frecuencia, los multicanales no se transforman a dominio de tiempo
después de su síntesis, como sucede normalmente en el decodificador
BCC. En su lugar, se utiliza la representación espectral de los
multicanales en forma de bloques y se somete al procesamiento de
señal de auricular. Para ello, se utilizan las funciones de
transmisión de los filtros, es decir, las transformadas de Fourier
de las respuestas de impulso, para realizar una multiplicación
entre la representación espectral de los multicanales y las
funciones de transmisión de filtro. Mientras que las respuestas de
impulso de los filtros sean respecto al tiempo más largas que un
bloque de componentes espectrales en la salida del decodificador
BCC, se prefiere un procesamiento de filtro por bloques en el que
las respuestas de impulso de los filtros se separan en el dominio de
tiempo y se transforman por bloques para a continuación realizar
las ponderaciones de los espectros correspondientes requeridas para
tales mediciones, como se describe, por ejemplo, en el documento WO
94/01933.
Ejemplos de realización preferidos de la
presente invención se explican en detalle a continuación haciendo
referencia a los dibujos adjuntos. Muestran:
la figura 1 un diagrama de bloques del
dispositivo según la invención para generar una señal estereofónica
codificada;
la figura 2 una ilustración detallada de una
implementación del procesamiento de señal de auricular de la figura
1;
la figura 3 un codificador de estereofonía
asociada conocido para generar datos de canal e información
multicanal paramétrica;
la figura 4 una ilustración de un esquema para
determinar los parámetros ICLD, ICTD e ICC para una
codificación/decodificación BBC;
la figura 5 una ilustración de un diagrama de
bloques de una cadena de codificador/decodificador BCC;
la figura 6 un diagrama de bloques de una
implementación del bloque de síntesis BCC de la figura 5;
la figura 7 una conexión en cascada entre un
decodificador multicanal y el procesamiento de señal de auricular
sin transformación al dominio de tiempo;
la figura 8 una conexión en cascada entre el
procesamiento de señal de auricular y un codificador estereofónico
sin transformación al dominio de tiempo;
la figura 9 un diagrama de bloques esquemático
de un codificador estereofónico preferido;
la figura 10 una ilustración esquemática de un
escenario de reproducción para determinar las funciones de filtro
de la figura 2;
la figura 11 una ilustración del principio de
una respuesta de impulso esperada de un filtro determinado según la
figura 10.
La figura 1 muestra un diagrama de bloques
esquemático de un dispositivo según la invención para generar una
señal estereofónica codificada de una pieza de audio o un flujo de
datos de audio. La señal estereofónica comprende, de una forma no
codificada, un primer canal 10a estereofónico no codificado y un
segundo canal 10b estereofónico no codificado y se genera a partir
de una representación multicanal de la pieza de audio o el flujo de
datos de audio, presentando la representación multicanal información
acerca de más de dos multicanales. Como se explicará
posteriormente, la representación multicanal puede encontrarse en
forma codificada o no codificada. Si la representación multicanal
se encuentra en una forma no codificada, entonces comprenderá tres
o más multicanales. En un escenario de aplicación preferido, la
representación multicanal comprende cinco canales y un canal de
altavoz de graves.
Sin embargo, si la representación multicanal se
encuentra en una forma codificada, entonces esta forma codificada
comprende normalmente uno o varios canales base así como parámetros
para sintetizar los tres o más multicanales a partir del uno o dos
canales base. De esta manera un decodificador 11 multicanal es un
ejemplo de un medio para proporcionar los más de dos multicanales a
partir de la representación multicanal. Sin embargo, si la
representación multicanal ya se encuentra en una forma no
codificada, es decir, por ejemplo, en forma de 5+1 canales PCM,
entonces el medio para proporcionar corresponde a un terminal de
entrada para un medio 12 para realizar un procesamiento de señal de
auricular, para generar la señal estereofónica no codificada con el
primer canal 10a estereofónico no codificado y el segundo canal 10b
estereofónico no codificado.
Preferiblemente, el medio 12 para realizar el
procesamiento de señal de auricular está configurado para evaluar
los multicanales de la representación multicanal en cada caso con
una primera función de filtro para el primer canal estereofónico y
con una segunda función de filtro para el segundo canal
estereofónico y para sumar los multicanales respectivos evaluados
para obtener el primer canal estereofónico no codificado y el
segundo canal estereofónico no codificado, como se ilustra mediante
la figura 2. Aguas abajo del medio 12 para realizar el
procesamiento de señal de auricular está dispuesto un codificador 13
estereofónico que está configurado para codificar el primer canal
10a estereofónico no codificado y el segundo canal 10b estereofónico
no codificado para obtener la señal estereofónica codificada en una
salida 14 del codificador 13 estereofónico. El codificador
estereofónico realiza una reducción en la tasa de transmisión de
datos de tal manera que una tasa de transmisión de datos requerida
para transmitir la señal estereofónica codificada es menor que una
tasa de transmisión de datos requerida para transmitir la señal
estereofónica no codificada.
Según la invención, se logra por tanto un
concepto que permite suministrar un tono de varios canales, que
también se denomina "envolvente", a través de reproductores
simples, tales como, por ejemplo, reproductores de hardware, a
auriculares estereofónicos.
La sumación de determinados canales puede
formarse por ejemplo como simple procesamiento de señal de auricular
para obtener los canales de salida para los datos estereofónicos.
Los métodos mejorados funcionan con algoritmos más complejos que a
su vez logran una mejor calidad de reproducción.
Debe mencionarse que el concepto según la
invención permite que las etapas de cálculo intenso para la
decodificación multicanal y para la realización del procesamiento
de señal de auricular no se lleven a cabo en el propio reproductor
sino que se realicen externamente. El resultado del concepto según
la invención es un archivo estereofónico codificado que, por
ejemplo, es un archivo MP3, un archivo AAC, un archivo
HE-AAC, o algún otro archivo estereofónico.
En otros ejemplos de realización, la
decodificación multicanal, el procesamiento de señal de auricular y
la codificación estereofónica pueden realizarse en diferentes
aparatos ya que los datos de salida o los datos de entrada de los
bloques individuales pueden portarse fácilmente y generarse y
almacenarse de una forma normalizada.
A continuación, con referencia a la figura 7 se
muestra una forma de realización preferida de la presente invención
en la que el decodificador 11 multicanal presenta un banco de
filtros o una función FFT de tal manera que la representación
multicanal se proporciona en el dominio de frecuencia. En
particular, los multicanales individuales se generan como bloques
de valores espectrales para cada canal. Según la invención, el
procesamiento de señal de auricular no se realiza entonces en el
dominio de tiempo mediante circunvolución de los canales temporales
con las respuestas de impulso de filtro, sino que se realiza una
multiplicación de la representación del dominio de frecuencia de
los multicanales con una representación espectral de la respuesta de
impulso de filtro. Una señal estereofónica no codificada se logra
entonces en la salida del procesamiento de señal de auricular que,
sin embargo, no se encuentra en el dominio de tiempo sino que
comprende un canal estereofónico izquierdo y uno derecho, dándose
un canal estereofónico de este tipo como secuencia de bloques de
valores espectrales, representando cada bloque de valores
espectrales un espectro a corto plazo del canal estereofónico.
En el ejemplo de realización mostrado en la
figura 8, al bloque 12 de procesamiento de señal de auricular se le
suministran en el lado de entrada datos o bien de dominio de tiempo
o bien de dominio de frecuencia. En el lado de salida, los canales
estereofónicos no codificados se generan en el dominio de
frecuencia, es decir, de nuevo como secuencia de bloques de valores
espectrales. Como codificador 13 estereofónico se prefiere en este
caso un codificador estereofónico basado en transformaciones, es
decir, que procesa valores espectrales sin que entre el
procesamiento 12 de señal de auricular y el codificador 13
estereofónico sea necesaria una conversión frecuencia/tiempo y una
conversión tiempo/frecuencia posterior. En el lado de salida, el
codificador 13 estereofónico proporciona entonces un archivo con la
señal estereofónica codificada que además de la información
secundaria comprende una forma codificada de valores
espectrales.
En un ejemplo de realización particularmente
preferido de la presente invención, en el transcurso de la
representación multicanal en la entrada del bloque 11 de la figura
1 hasta el archivo estereofónico codificado en la salida 14 del
medio de la figura 1 se realiza un procesamiento de dominio de
frecuencia continuo, sin que tenga que tener lugar una conversión
al dominio de tiempo y dado el caso de nuevo una conversión al
dominio de frecuencia. Cuando se utiliza un codificador MP3 o un
codificador AAC como codificador estereofónico, se prefiere
convertir el espectro de Fourier en la salida del bloque de
procesamiento de señal de auricular en un espectro MDCT. De esta
manera se asegura según la invención que la información de fase
requerida en una forma precisa para la convolución/evaluación de
los canales en el bloque de procesamiento de señal de auricular se
convierta en la representación MDCT que no funciona de manera tan
correcta respecto a la fase, de modo que para el codificador
estereofónico, en contraste con un codificador MP3 normal o un
codificador AAC normal no se requieren medios para convertir el
dominio de tiempo al dominio de frecuencia, es decir, al espectro
MDCT.
La figura 9 muestra un diagrama de bloques
general para un codificador estereofónico preferido. El codificador
estereofónico comprende en el lado de entrada, un módulo 15 de
estereofonía asociada que preferiblemente determina de manera
adaptativa si una codificación estereofónica común, por ejemplo en
forma de una codificación central/lateral proporciona una mayor
ganancia de codificación que un procesamiento separado de los
canales izquierdo y derecho. El módulo 15 de estereofonía asociada
puede estar configurado además para realizar una codificación
estereofónica de intensidad, proporcionando una codificación
estereofónica de intensidad, en particular con mayores frecuencias,
una ganancia de codificación considerable sin que surjan artefactos
audibles. La salida del módulo 15 de estereofonía asociada se
procesa entonces adicionalmente utilizando otras medidas de
reducción de redundancia diferentes, tales como, por ejemplo, una
filtración TNS, sustitución de ruido, etc., para entonces
suministrar los resultados a un cuantificador 16 que logra una
cuantificación de los valores espectrales utilizando un umbral de
enmascaramiento psicoacústico. El tamaño de paso del cuantificador
se selecciona a este respecto de tal manera que el ruido
introducido por la cuantificación permanece por debajo del umbral de
enmascaramiento psicoacústico, de tal manera que se logra una
reducción de la tasa de transmisión de datos sin que las
distorsiones introducidas por la cuantificación con pérdida sean
audibles. Aguas abajo del cuantificador 16 está dispuesto un
codificador 17 de entropía que realiza una codificación de entropía
sin pérdida de los valores espectrales cuantificados. En la salida
del codificador de entropía se encuentra entonces la señal
estereofónica codificada que además de los valores espectrales
codificados por entropía, comprende información secundaria requerida
para la decodificación.
A continuación se hará referencia a
implementaciones preferidas del decodificador multicanal o a
representaciones multicanal preferidas mediante las figuras 3 a
6.
Así, existen en la técnica muchas técnicas para
reducir la cantidad de datos requeridos para transmitir una señal
de audio multicanal. Tales técnicas se denominan técnicas de
estereofonía asociada. Para este fin se hace referencia a la figura
3 que muestra un dispositivo 60 de estereofonía asociada. Este
dispositivo puede ser un dispositivo que implemente, por ejemplo,
la técnica de intensidad estereofónica (IS) o la técnica de
codificación de punto de referencia binaural (BCC). Un aparato de
este tipo recibe en general como señal de entrada al menos dos
canales CH1, CH2,..., CHn y emite un solo canal portador e
información multicanal paramétrica. Los datos paramétricos se
definen de manera que pueda calcularse una aproximación de un canal
original (CH1, CH2,..., CHn) en un decodificador.
Normalmente, el canal portador comprenderá
valores de muestreo de subbanda, coeficientes espectrales, valores
de muestreo de dominio de tiempo, etc., que proporcionan una
representación relativamente fina de la señal subyacente, mientras
que los datos paramétricos no comprenden tales valores de muestreo o
coeficientes espectrales, sino parámetros de control para controlar
un determinado algoritmo de reconstrucción, tal como, por ejemplo,
ponderación por multiplicación, desplazamiento de tiempo,
desplazamiento de frecuencia, etc. La información multicanal
paramétrica comprende de esta manera una representación
relativamente aproximada de la señal o del canal asociado.
Expresado en números, la cantidad de datos requeridos por un canal
portador asciende a aproximadamente de 60 a 70 kbits/s, mientras
que la cantidad de datos requeridos por la información secundaria
paramétrica para un canal se encuentra en el intervalo de 1,5 a 2,5
kbits/s. Debe mencionarse que los números anteriores se aplican a
datos comprimidos. Por supuesto un canal de CD no comprimido
requiere aproximadamente diez veces las tasas de transmisión de
datos. Un ejemplo de datos paramétricos son los factores de ajuste
a escala conocidos, información de intensidad estereofónica o
parámetros BCC, como se describirá más adelante.
La técnica de codificación de intensidad
estereofónica se describe en la Edición AES 3799 titulada
"Intensity Stereo Coding", J. Herre, K.H. Brandenburg, D.
Lederer, febrero de 1994, Ámsterdam. En general, el concepto de
intensidad estereofónica se basa en una transformación de eje
principal que debe aplicarse a los datos de los dos canales de
audio estereofónicos. Si la mayoría de los puntos de datos se
concentra alrededor del primer eje principal, puede lograrse una
ganancia de codificación al girar ambas señales un determinado
ángulo antes de llevar a cabo la codificación. Sin embargo, esto no
siempre se da para técnicas de reproducción estereofónicas reales.
Por ello esta técnica se modifica en el sentido en que la segunda
componente ortogonal se excluye de la transmisión en el flujo de
bits. De esta manera, las señales reconstruidas para el canal
izquierdo y el derecho consisten en versiones ponderadas o
ajustadas a escala de manera diferente de la misma señal
transmitida. Aún así, las señales reconstruidas difieren en su
amplitud, sin embargo, son idénticas con respecto a su información
de fase. Sin embargo, las curvas envolventes de tiempo de energía de
ambos canales de audio originales se mantienen por medio de la
operación de ajuste a escala selectiva que normalmente funciona de
manera selectiva respecto a la frecuencia. Esto corresponde a la
percepción humana del sonido a altas frecuencias donde la
información espacial dominante se determina por las curvas
envolventes de energía.
Además, en implementaciones prácticas, la señal
transmitida, es decir, el canal portador, se genera a partir de la
señal de sumación del canal izquierdo y el canal derecho en lugar de
de la rotación de ambas componentes. Además este procesamiento, es
decir, la generación de los parámetros de intensidad estereofónica
para realizar las operaciones de ajuste a escala, se realiza de una
manera selectiva respecto a la frecuencia, es decir,
independientemente para cada banda de factor de ajuste a escala, es
decir, para cada fracción de frecuencia del codificador.
Preferiblemente, se combinan ambos canales para formar un canal
combinado o "portador" y además del canal combinado, la
información de intensidad estereofónica. La información de
intensidad estereofónica depende de la energía del primer canal, la
energía del segundo canal o la energía del canal combinado.
La técnica BCC se describe en el documento de la
Convención AES 5574 "Binaural Cue Coding applied to stereo and
multichannel audio compression", T. Faller, F. Baumgarte, mayo de
2002, Munich. En la codificación BCC, se convierten varios canales
de entrada de audio en una representación espectral, concretamente
utilizando una transformación basada en DFT con ventanas que se
solapan. El espectro resultante se divide en secciones que no se
solapan, de las que cada una tiene un índice. Cada fracción tiene un
ancho de banda que es proporcional al ancho de banda rectangular
equivalente (ERB). Las diferencias de nivel entre canales (ICLD;
ICLD = Inter Channel Level Differences) y las diferencias de
tiempo entre canales (ICTD; ICTD = Inter Channel Time
Differences) se determinan para cada fracción y para cada trama
k. Las ICLD e ICTD se cuantifican y codifican para alcanzar
finalmente un flujo de bits BCC como información secundaria. Las
diferencias de nivel entre canales y las diferencias de tiempo
entre canales se dan para cada canal con respecto a un canal de
referencia. Entonces, se calculan los parámetros según fórmulas
predeterminadas que dependen de las fracciones determinadas de la
señal que va a procesarse.
En el lado del decodificador, el decodificador
recibe normalmente una señal monofónica y el flujo de bits BCC. La
señal monofónica se transforma al dominio de frecuencia y se
introduce en un bloque de síntesis espacial que también recibe
valores decodificados ICLD e ICTD. En el bloque de síntesis
espacial, se utilizan los parámetros BCC (ICLD e ICTD) para
realizar una operación de ponderación de la señal monofónica, para
sintetizar las señales multicanal que, después de una conversión
frecuencia/tiempo, representan una reconstrucción de la señal de
audio multicanal original.
En el caso de BCC, el módulo 60 de estereofonía
asociada es eficaz para emitir la información en el lado del canal
de tal manera que los datos paramétricos del canal sean parámetros
ICLD o ICTD cuantificados y codificados, utilizándose uno de los
canales originales como canal de referencia para codificar la
información secundaria del canal.
Normalmente, la señal portadora se forma a
partir de la suma de los canales originales participantes.
Evidentemente las técnicas anteriores
proporcionan únicamente una representación monofónica para un
decodificador que puede procesar únicamente el canal portador, pero
que no puede procesar los datos paramétricos para generar una o
varias aproximaciones de más de un canal de entrada.
La técnica BCC también se describe en las
publicaciones de patente estadounidenses US 2003/0219130 A1, US
2003/0026441 A1 y US 2003/0035553 A1. Adicionalmente, se hace
referencia a la publicación especializada "Binaural Cue Coding.
Part II: Schemes and Applications", T Faller y F. Baumgarte, IEEE
Trans. On Audio and Speech Proc., vol. 11, n.º 6, noviembre de
2003.
A continuación se representa en detalle un
esquema BCC típico para codificación de audio multicanal,
concretamente con referencia a las figuras 4 a 6.
La figura 5 muestra un esquema BCC de este tipo
para codificar/transmitir señales de audio multicanal. La señal de
entrada de audio multicanal en una entrada 110 de un codificador 112
BCC se mezcla de manera descendente en un denominado bloque 114 de
mezcla descendente. En este ejemplo, la señal multicanal original en
la entrada 110 es una señal envolvente de 5 canales con un canal
izquierdo frontal, un canal derecho frontal, un canal envolvente
izquierdo, un canal envolvente derecho y un canal central. En el
ejemplo de realización preferido de la presente invención el bloque
114 de mezcla descendente genera una señal de sumación mediante una
simple adición de estos cinco canales para dar una señal
monofónica.
En la técnica se conocen otros esquemas de
mezcla descendente, de tal manera que utilizando una señal de
entrada multicanal se obtienen un canal de mezcla descendente con
un canal único.
Este canal único se emite a una línea 115 de
señal de sumación. La información secundaria obtenida del bloque
116 de análisis BCC se emite a una línea 117 de información
secundaria.
Las diferencias de nivel entre canales (ICLD) y
las diferencias de tiempo entre canales (ICTD) se calculan en el
bloque de análisis BCC, como se ha ilustrado arriba. Ahora, el
bloque 116 de análisis BCC también puede calcular valores de
correlación entre canales (valores ICC). La señal de sumación y la
información secundaria se transmiten a un decodificador 120 BCC en
un formato cuantificado y codificado. El decodificador BCC divide
la señal de sumación transmitida en un número de subbandas y realiza
ajustes a escala, retardos y otras etapas de procesamiento para
proporcionar las subbandas de los canales de audio multicanal que
van a emitirse. Este procesamiento se realiza de tal manera que los
parámetros ICLD, ICTD e ICC (puntos de referencia) de una señal
multicanal reconstruida en la salida 121 coinciden con los puntos de
referencia correspondientes para la señal multicanal original en la
entrada 110 en el codificador 112 BCC. Para este propósito, el
decodificador 120 BCC comprende un bloque 122 de síntesis BCC y un
bloque 123 de procesamiento de información secundaria.
A continuación, se ilustra la configuración
interna del bloque 122 de síntesis BCC con referencia a la figura
6. La señal de sumación en la línea 115 se suministra a una unidad
de conversión tiempo/frecuencia o banco 125 de filtros FB. En la
salida del bloque 125 existe un número N de señales de subbanda o,
en un caso extremo, un bloque de coeficientes espectrales cuando el
banco 125 de filtros de audio realiza una transformación 1:1, es
decir, una transformación que genera N coeficientes espectrales a
partir de N valores de muestreo de dominio de tiempo.
El bloque 122 de síntesis BCC comprende además
una etapa 126 de retardo, una etapa 127 de modificación de nivel,
una etapa 128 de procesamiento de correlación y una etapa 129 de
banco de filtros inversos IFB. En la salida de la etapa 129, la
señal de audio multicanal reconstruida con por ejemplo cinco canales
en el caso de un sistema envolvente de 5 canales, puede emitirse a
un conjunto de altavoces 124, como se ilustra en la figura 5 o la
figura 4.
La señal de entrada sn se convierte al dominio
de frecuencia o al dominio de banco de filtros por medio del
elemento 125. La señal emitida por el elemento 125 se copia de tal
manera que se obtienen varias versiones de la misma señal, como se
ilustra por el nodo 130 de copia. El número de versiones de la señal
original es igual que el número de canales de salida en la señal de
salida. Entonces, cada versión de la señal original en el nodo 130
se somete a un determinado retardo d_{1}, d_{2}, ..., d_{i},
..., d_{N}. Los parámetros de retardo se calculan mediante el
bloque 123 de procesamiento de información secundaria en la figura 5
y se derivan de las diferencias de tiempo entre canales como se
calcularon por el bloque 116 de análisis BCC de la figura 5.
Lo mismo se aplica a los parámetros de
multiplicación a_{1}, a_{2}, ..., a_{i}, ..., a_{N}, que
también se calculan por el bloque 123 de procesamiento de
información secundaria basándose en las diferencias de nivel entre
canales como se calcularon por el bloque 116 de análisis BCC.
Los parámetros ICC calculados por el bloque 116
de análisis BCC se utilizan para controlar la funcionalidad del
bloque 128 de manera que se obtienen determinadas correlaciones
entre las señales retardadas y las de nivel manipulado en las
salidas del bloque 128. Se indica en este caso que el orden de las
etapas 126, 127, 128 puede diferir del orden mostrado en la figura
6.
Se indica que en un procesamiento en forma de
cuadros de la señal de audio, el análisis BCC también se realiza en
forma de cuadros, es decir, variable en el tiempo, y que se obtiene
además un análisis BCC de frecuencia, como se puede observar
mediante la división del banco de filtros de la figura 6. Esto
significa que los parámetros BCC se obtienen para cada banda
espectral. Esto también significa que en el caso de que el banco 125
de filtros de audio descomponga la señal de entrada en, por
ejemplo, 32 señales paso banda, el bloque de análisis BCC obtiene
un conjunto de parámetros BCC para cada una de las 32 bandas. Por
supuesto, el bloque 122 de síntesis BCC de la figura 5, que se
ilustra en más detalle en la figura 6, realiza una reconstrucción
que también se basa en las 32 bandas mencionadas a modo de
ejemplo.
A continuación con referencia a la figura 4 se
representa un escenario utilizado para determinar parámetros BCC
individuales. Normalmente, los parámetros ICLD, ICTD e ICC pueden
definirse entre pares de canales. Sin embargo, se prefiere que los
parámetros ICLD e ICTD se determinen entre un canal de referencia y
los demás canales. Esto se ilustra en la figura 4A.
Los parámetros ICC pueden definirse de varias
maneras diferentes. En general, los parámetros ICC pueden
determinarse en el codificador entre todos los pares de canales
posibles, como se ilustra en la figura 4B. Sin embargo, se ha
sugerido calcular únicamente los parámetros ICC entre los dos
canales más fuertes en un momento, como se ilustra en la figura 4C,
que muestra un ejemplo en el que en un momento se calcula un
parámetro ICC entre los canales 1 y 2 y en otro momento, se calcula
un parámetro ICC entre los canales 1 y 5. Entonces el decodificador
sintetiza la correlación entre canales entre los canales más fuertes
en el decodificador y utiliza determinadas reglas heurísticas para
calcular y sintetizar la coherencia entre canales para los pares de
canales restantes.
Con respecto al cálculo de, por ejemplo, los
parámetros de multiplicación a_{1}, a_{N} basándose en los
parámetros ICLD transmitidos, se hace referencia al documento de la
Convención AES n.º 5574. Los parámetros ICLD representan una
distribución de energía de una señal original de varios canales. Sin
perder la generalidad, se prefiere, como se muestra en la figura
4A, tomar cuatro parámetros ICLD que representan la diferencia de
energía entre los canales respectivos y el canal izquierdo frontal.
En el bloque 122 de procesamiento de información secundaria, los
parámetros de multiplicación a_{1}, ..., a_{N} se derivan de los
parámetros ICLD de tal manera que la energía total de todos los
canales de salida reconstruidos es la misma (o proporcional a la
energía de la señal de sumación transmitida).
En el ejemplo de realización mostrado en la
figura 7, se prescinde de la conversión frecuencia/tiempo obtenida
por los bancos 129 de filtros inversos IFB de la figura 6. En su
lugar, se utilizan las representaciones espectrales de los canales
individuales en la entrada de estos bancos de filtros inversos y se
suministran al dispositivo de procesamiento de señal de auricular
de la figura 7 para realizar la evaluación de los multicanales
individuales con los dos filtros respectivos por multicanal sin una
transformación frecuencia/tiempo adicional.
Con respecto a un procesamiento completo que
tiene lugar en el dominio de frecuencia, se indica que entonces el
decodificador multicanal, es decir, por ejemplo, el banco 125 de
filtros de la figura 6 y el codificador estereofónico deben tener
la misma resolución tiempo/frecuencia. Además se prefiere utilizar
el mismo banco de filtros, lo que también es particularmente
ventajoso en la medida en que se requiere únicamente un solo banco
de filtros para el procesamiento completo, como se ilustra en la
figura 1. En este caso, el resultado es un procesamiento
particularmente eficaz ya que no tienen que calcularse la
transformación en el decodificador multicanal y en el codificador
estereofónico.
Los datos de entrada o los datos de salida en el
concepto según la invención se codifican por tanto preferiblemente
en el dominio de frecuencia por medio de transformación/banco de
filtros y se codifican según especificaciones psicoacústicas
aprovechando efectos de enmascaramiento, debiendo existir en
particular en el decodificador una representación espectral de las
señales. Ejemplos de esto son los archivos MP3, archivos AAC o
archivos AC3. Sin embargo, los datos de entrada o los datos de
salida también pueden codificarse formando la suma y la diferencia,
como es el caso de los denominados métodos de matriz. Ejemplos de
esto son el Dolby ProLogic, Logic7 o Circle Surround. Los datos de,
en particular, la representación multicanal pueden codificarse
adicionalmente con métodos paramétricos, como es el caso del MP3
Surround, basándose este método en la técnica BCC.
Dependiendo de las circunstancias, el método
según la invención para la generación puede implementarse en
hardware o en software. La implementación puede realizarse en un
medio de almacenamiento digital, en particular un disquete o CD con
señales de control legibles electrónicamente, que puedan actuar
conjuntamente con un sistema informático programable de manera que
se lleve a cabo el método. En general, la invención también se basa
en un producto de programa informático con un código de programa
almacenado en un soporte legible mediante una máquina para realizar
un método según la invención cuando el producto de programa
informático se ejecuta en un ordenador. Dicho de otro modo, la
invención también puede realizarse por tanto como un programa
informático con un código de programa para realizar el método cuando
el programa informático se ejecuta en un ordenador.
Claims (11)
1. Dispositivo para generar una señal
estereofónica codificada de una pieza de audio o un flujo de datos
de audio con un primer canal estereofónico y un segundo canal
estereofónico a partir de una representación multicanal de la pieza
de audio o el flujo de datos de audio, que presenta información
acerca de más de dos multicanales, con las características
siguientes:
- un medio (11) para proporcionar los más de dos multicanales a partir de la representación multicanal;
- un medio (12) para la realización de un procesamiento de señal de auricular para generar una señal estereofónica no codificada con un primer canal (10a) estereofónico no codificado y un segundo canal (10b) estereofónico no codificado, estando configurado el medio (12) para la realización
- para evaluar cada multicanal con una primera función de filtro (H_{iL}) derivada de una posición virtual de un altavoz para reproducir el multicanal y una primera posición virtual de oído de un oyente, para el primer canal estereofónico y con una segunda función de filtro (H_{iR}) derivada de una posición virtual del altavoz y una segunda posición virtual de oído del oyente, para el segundo canal estereofónico, para generar un primer canal evaluado y un segundo canal evaluado para cada multicanal, siendo diferentes las dos posiciones virtuales de oído del oyente,
- para sumar (22) los primeros canales evaluados para obtener el primer canal (10a) estereofónico no codificado y
- para sumar (23) los segundos canales evaluados para obtener el segundo canal (10b) estereofónico no codificado;
- para utilizar la primera función de filtro (H_{iL}) que considera el sonido directo, las reflexiones y la reverberación difusa, y la segunda función de filtro (H_{iR}) que considera el sonido directo, las reflexiones y la reverberación difusa, y
- un codificador (13) estereofónico para codificar el primer canal (10a) estereofónico no codificado y el segundo canal (10b) estereofónico no codificado para obtener la señal (14) estereofónica codificada, estando configurado el codificador estereofónico de tal manera que una tasa de transmisión de datos requerida para transmitir la señal estereofónica codificada es menor que una tasa de transmisión de datos requerida para transmitir la señal estereofónica no codificada.
2. Dispositivo según la reivindicación 1, en el
que la primera y la segunda función de filtro corresponden a una
respuesta de impulso de filtro que presenta un pico en un valor
pequeño de tiempo, que representa el sonido directo, varios picos
menores en valores de tiempo medios, que representan las
reflexiones, y una región continua, que ya no se descompone según
picos individuales y que representa la reverberación difusa.
3. Dispositivo según una de las reivindicaciones
anteriores,
en el que la representación multicanal presenta
uno o varios canales base así como información paramétrica para
calcular los multicanales a partir de uno o varios canales base,
y
en el que el medio (11) para proporcionar está
configurado para calcular los al menos tres multicanales a partir
del uno o los varios canales base y la información paramétrica.
4. Dispositivo según la reivindicación 3,
en el que el medio (11) para proporcionar está
configurado para suministrar, en el lado de salida, una
representación de dominio de frecuencia en bloques para cada
multicanal, y
en el que el medio (12) para la realización está
configurado para evaluar la representación de dominio de frecuencia
en bloques con una representación de dominio de frecuencia de la
primera y la segunda función de filtro.
5. Dispositivo según una de las reivindicaciones
anteriores,
en el que el medio (12) para la realización está
configurado para suministrar una representación de dominio de
frecuencia en bloques del primer canal estereofónico no codificado y
el segundo canal estereofónico no codificado, y
en el que el codificador (13) estereofónico es
un codificador basado en transformación y está configurado además
para procesar la representación de dominio de frecuencia en bloques
del primer canal estereofónico no codificado y el segundo canal
estereofónico no codificado sin una conversión de la representación
de dominio de frecuencia en una representación temporal.
6. Dispositivo según una de las reivindicaciones
anteriores,
en el que el codificador (13) estereofónico está
configurado para realizar una codificación (15) estereofónica común
del primer y el segundo canal estereofónico.
7. Dispositivo según una de las reivindicaciones
anteriores,
en el que el codificador (13) estereofónico está
configurado para cuantificar (16) un bloque de valores espectrales
utilizando un umbral de enmascaramiento psicoacústico y someterlo a
codificación (17) de entropía para obtener la señal estereofónica
codificada.
8. Dispositivo según una de las reivindicaciones
anteriores,
en el que el medio (11) para proporcionar está
configurado como decodificador BCC.
\vskip1.000000\baselineskip
9. Dispositivo según una de las reivindicaciones
anteriores,
en el que el medio (11) para proporcionar está
configurado como decodificador multicanal que presenta un banco de
filtros con varias salidas,
en el que el medio (12) para la realización está
configurado para evaluar señales en las salidas del banco de
filtros con la primera y la segunda función de filtro, y
en el que el codificador (13) estereofónico está
configurado para cuantificar (16) el primer canal estereofónico no
codificado existente en el dominio de frecuencia y el segundo canal
estereofónico no codificado existente en el dominio de frecuencia y
someterlo a una codificación (17) de entropía para obtener la señal
estereofónica codificada.
10. Método para generar una señal estereofónica
codificada de una pieza de audio o un flujo de datos de audio con
un primer canal estereofónico y un segundo canal estereofónico a
partir de una representación multicanal de la pieza de audio o el
flujo de datos de audio que presenta información acerca de más de
dos multicanales, con las etapas siguientes:
- proporcionar (11) los más de dos multicanales a partir de la representación multicanal;
- realizar (12) un procesamiento de señal de auricular para generar una señal estereofónica no codificada con un primer canal (10a) estereofónico no codificado y un segundo canal (10b) estereofónico no codificado, presentando la etapa de realización (12) las etapas siguientes:
- evaluar cada multicanal con una primera función de filtro (H_{iL}) derivada de una posición virtual de un altavoz para reproducir el multicanal y una primera posición virtual de oído de un oyente, para el primer canal estereofónico y con una segunda función de filtro (H_{iR}) derivada de una posición virtual del altavoz y una segunda posición virtual de oído del oyente, para el segundo canal estereofónico, para generar un primer canal evaluado y un segundo canal evaluado para cada multicanal, siendo diferentes las dos posiciones virtuales de oído del oyente,
- sumar (22) los primeros canales evaluados para obtener el primer canal (10a) estereofónico no codificado, y
- sumar (23) los segundos canales evaluados para obtener el segundo canal (10b) estereofónico no codificado;
- utilizar la primera función de filtro (H_{iL}) que considera el sonido directo, las reflexiones y la reverberación difusa, y la segunda función de filtro (H_{iR}) que considera el sonido directo, las reflexiones y la reverberación difusa; y
- codificar (13) de manera estereofónica el primer canal (10a) estereofónico no codificado y el segundo canal (10b) estereofónico no codificado para obtener la señal (14) estereofónica codificada,
realizándose la etapa de codificar de manera
estereofónica de tal manera que una tasa de transmisión de datos
requerida para transmitir la señal estereofónica codificada es menor
que una tasa de transmisión de datos requerida para transmitir la
señal estereofónica no codificada.
11. Programa informático con un código de
programa para realizar el método para generar una señal
estereofónica codificada según la reivindicación 10, cuando el
programa informático se ejecuta en un ordenador.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102005010057A DE102005010057A1 (de) | 2005-03-04 | 2005-03-04 | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms |
DE102005010057 | 2005-03-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2340796T3 true ES2340796T3 (es) | 2010-06-09 |
Family
ID=36649539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES06707184T Active ES2340796T3 (es) | 2005-03-04 | 2006-02-22 | Dispositivo y metodo para generar una señal estereofonica codificada de una pieza de audio o flujo de datos de audio. |
Country Status (20)
Country | Link |
---|---|
US (1) | US8553895B2 (es) |
EP (2) | EP1854334B1 (es) |
JP (1) | JP4987736B2 (es) |
KR (1) | KR100928311B1 (es) |
CN (1) | CN101133680B (es) |
AT (1) | ATE461591T1 (es) |
AU (1) | AU2006222285B2 (es) |
BR (1) | BRPI0608036B1 (es) |
CA (1) | CA2599969C (es) |
DE (2) | DE102005010057A1 (es) |
ES (1) | ES2340796T3 (es) |
HK (1) | HK1111855A1 (es) |
IL (1) | IL185452A (es) |
MX (1) | MX2007010636A (es) |
MY (1) | MY140741A (es) |
NO (1) | NO339958B1 (es) |
PL (1) | PL1854334T3 (es) |
RU (1) | RU2376726C2 (es) |
TW (1) | TWI322630B (es) |
WO (1) | WO2006094635A1 (es) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005010057A1 (de) * | 2005-03-04 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms |
US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
KR101499785B1 (ko) | 2008-10-23 | 2015-03-09 | 삼성전자주식회사 | 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법 |
ES2643163T3 (es) | 2010-12-03 | 2017-11-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para codificación de audio espacial basada en geometría |
WO2012150482A1 (en) * | 2011-05-04 | 2012-11-08 | Nokia Corporation | Encoding of stereophonic signals |
FR2976759B1 (fr) * | 2011-06-16 | 2013-08-09 | Jean Luc Haurais | Procede de traitement d'un signal audio pour une restitution amelioree. |
JP6007474B2 (ja) * | 2011-10-07 | 2016-10-12 | ソニー株式会社 | 音声信号処理装置、音声信号処理方法、プログラムおよび記録媒体 |
WO2013108164A1 (en) * | 2012-01-17 | 2013-07-25 | Koninklijke Philips N.V. | Multi-channel audio rendering |
US9602927B2 (en) * | 2012-02-13 | 2017-03-21 | Conexant Systems, Inc. | Speaker and room virtualization using headphones |
KR20140017338A (ko) * | 2012-07-31 | 2014-02-11 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 장치 및 방법 |
JP6160072B2 (ja) * | 2012-12-06 | 2017-07-12 | 富士通株式会社 | オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置 |
WO2014111765A1 (en) | 2013-01-15 | 2014-07-24 | Koninklijke Philips N.V. | Binaural audio processing |
WO2014111829A1 (en) * | 2013-01-17 | 2014-07-24 | Koninklijke Philips N.V. | Binaural audio processing |
EP2757559A1 (en) | 2013-01-22 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation |
CN108810793B (zh) | 2013-04-19 | 2020-12-15 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
CN108806704B (zh) | 2013-04-19 | 2023-06-06 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
US9412385B2 (en) * | 2013-05-28 | 2016-08-09 | Qualcomm Incorporated | Performing spatial masking with respect to spherical harmonic coefficients |
US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
TWI671734B (zh) | 2013-09-12 | 2019-09-11 | 瑞典商杜比國際公司 | 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統 |
BR112016008817B1 (pt) | 2013-10-21 | 2022-03-22 | Dolby International Ab | Método para reconstruir um sinal de áudio de n canais, sistema de decodificação de áudio, método para codificar um sinal de áudio de n canais e sistema de codificação de áudio |
WO2016141023A1 (en) * | 2015-03-03 | 2016-09-09 | Dolby Laboratories Licensing Corporation | Enhancement of spatial audio signals by modulated decorrelation |
EP3067885A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
JP6797187B2 (ja) | 2015-08-25 | 2020-12-09 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ・デコーダおよびデコード方法 |
TWI577194B (zh) * | 2015-10-22 | 2017-04-01 | 山衛科技股份有限公司 | 環境音源辨識系統及其環境音源辨識之方法 |
EP3208800A1 (en) | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
US10187740B2 (en) * | 2016-09-23 | 2019-01-22 | Apple Inc. | Producing headphone driver signals in a digital audio signal processing binaural rendering environment |
EP3530007A1 (en) * | 2016-10-19 | 2019-08-28 | Audible Reality Inc. | System for and method of generating an audio image |
US11523239B2 (en) | 2019-07-22 | 2022-12-06 | Hisense Visual Technology Co., Ltd. | Display apparatus and method for processing audio |
CN112261545A (zh) * | 2019-07-22 | 2021-01-22 | 海信视像科技股份有限公司 | 显示装置 |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US602349A (en) * | 1898-04-12 | Abrading mechanism | ||
US5632005A (en) | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
JPH04240896A (ja) * | 1991-01-25 | 1992-08-28 | Fujitsu Ten Ltd | 音場制御装置 |
FR2688371B1 (fr) | 1992-03-03 | 1997-05-23 | France Telecom | Procede et systeme de spatialisation artificielle de signaux audio-numeriques. |
US5703999A (en) | 1992-05-25 | 1997-12-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels |
WO1994001933A1 (en) | 1992-07-07 | 1994-01-20 | Lake Dsp Pty. Limited | Digital filter having high accuracy and efficiency |
DE4236989C2 (de) | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
JPH06269097A (ja) * | 1993-03-11 | 1994-09-22 | Sony Corp | 音響装置 |
US5488665A (en) | 1993-11-23 | 1996-01-30 | At&T Corp. | Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels |
JP3404837B2 (ja) * | 1993-12-07 | 2003-05-12 | ソニー株式会社 | 多層符号化装置 |
US5659619A (en) * | 1994-05-11 | 1997-08-19 | Aureal Semiconductor, Inc. | Three-dimensional virtual audio display employing reduced complexity imaging filters |
US5982903A (en) * | 1995-09-26 | 1999-11-09 | Nippon Telegraph And Telephone Corporation | Method for construction of transfer function table for virtual sound localization, memory with the transfer function table recorded therein, and acoustic signal editing scheme using the transfer function table |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5742689A (en) * | 1996-01-04 | 1998-04-21 | Virtual Listening Systems, Inc. | Method and device for processing a multichannel signal for use with a headphone |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
JP3948752B2 (ja) * | 1996-04-10 | 2007-07-25 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複数情報信号符号化用符号化装置 |
KR20010030608A (ko) | 1997-09-16 | 2001-04-16 | 레이크 테크놀로지 리미티드 | 청취자 주변의 음원의 공간화를 향상시키기 위한 스테레오헤드폰 디바이스에서의 필터링 효과의 이용 |
WO1999049574A1 (en) | 1998-03-25 | 1999-09-30 | Lake Technology Limited | Audio signal processing method and apparatus |
AUPP271598A0 (en) * | 1998-03-31 | 1998-04-23 | Lake Dsp Pty Limited | Headtracked processing for headtracked playback of audio signals |
CN1065400C (zh) | 1998-09-01 | 2001-05-02 | 国家科学技术委员会高技术研究发展中心 | 兼容ac-3和mpeg-2的音频编解码器 |
CN1119805C (zh) * | 1998-09-02 | 2003-08-27 | 松下电器产业株式会社 | 信号处理装置 |
DE19932062A1 (de) | 1999-07-12 | 2001-01-18 | Bosch Gmbh Robert | Verfahren zur Aufbereitung von quellcodierten Audiodaten sowie Sender und Empfänger hierzu |
JP2001100792A (ja) * | 1999-09-28 | 2001-04-13 | Sanyo Electric Co Ltd | 符号化方法、符号化装置およびそれを備える通信システム |
JP3335605B2 (ja) * | 2000-03-13 | 2002-10-21 | 日本電信電話株式会社 | ステレオ信号符号化方法 |
JP3616307B2 (ja) * | 2000-05-22 | 2005-02-02 | 日本電信電話株式会社 | 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体 |
JP2002191099A (ja) * | 2000-09-26 | 2002-07-05 | Matsushita Electric Ind Co Ltd | 信号処理装置 |
JP3228474B2 (ja) * | 2001-01-18 | 2001-11-12 | 日本ビクター株式会社 | 音声符号化装置及び音声復号化方法 |
JP2002262385A (ja) * | 2001-02-27 | 2002-09-13 | Victor Co Of Japan Ltd | 音像定位信号の生成方法、及び音像定位信号生成装置 |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US20030035553A1 (en) | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
JP2003009296A (ja) * | 2001-06-22 | 2003-01-10 | Matsushita Electric Ind Co Ltd | 音響処理装置および音響処理方法 |
BRPI0308148A2 (pt) * | 2002-04-05 | 2016-06-21 | Koninkl Philips Electronics Nv | métodos e aparelhos para codificar n sinais de entrada e para decodificar dados codificados representativos de n sinais, formato de sinal, e, portador de gravação |
US8498422B2 (en) * | 2002-04-22 | 2013-07-30 | Koninklijke Philips N.V. | Parametric multi-channel audio representation |
KR100522593B1 (ko) | 2002-07-08 | 2005-10-19 | 삼성전자주식회사 | 다채널 입체음향 사운드 생성방법 및 장치 |
JP4322207B2 (ja) * | 2002-07-12 | 2009-08-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化方法 |
KR20040027015A (ko) * | 2002-09-27 | 2004-04-01 | (주)엑스파미디어 | 스트리밍시 오디오의 대역폭을 줄이기 위하여 몰입형오디오를 이용한 새로운 다운믹싱 기법 |
JP4084990B2 (ja) * | 2002-11-19 | 2008-04-30 | 株式会社ケンウッド | エンコード装置、デコード装置、エンコード方法およびデコード方法 |
JP4369140B2 (ja) | 2003-02-17 | 2009-11-18 | パナソニック株式会社 | オーディオ高能率符号化装置、オーディオ高能率符号化方法、オーディオ高能率符号化プログラム及びその記録媒体 |
FR2851879A1 (fr) * | 2003-02-27 | 2004-09-03 | France Telecom | Procede de traitement de donnees sonores compressees, pour spatialisation. |
JP2004309921A (ja) * | 2003-04-09 | 2004-11-04 | Sony Corp | 符号化装置、符号化方法及びプログラム |
US7949141B2 (en) * | 2003-11-12 | 2011-05-24 | Dolby Laboratories Licensing Corporation | Processing audio signals with head related transfer function filters and a reverberator |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US20050276430A1 (en) * | 2004-05-28 | 2005-12-15 | Microsoft Corporation | Fast headphone virtualization |
US20050273324A1 (en) * | 2004-06-08 | 2005-12-08 | Expamedia, Inc. | System for providing audio data and providing method thereof |
JP2005352396A (ja) * | 2004-06-14 | 2005-12-22 | Matsushita Electric Ind Co Ltd | 音響信号符号化装置および音響信号復号装置 |
DE102005010057A1 (de) * | 2005-03-04 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms |
-
2005
- 2005-03-04 DE DE102005010057A patent/DE102005010057A1/de not_active Withdrawn
-
2006
- 2006-02-22 CA CA2599969A patent/CA2599969C/en active Active
- 2006-02-22 EP EP06707184A patent/EP1854334B1/de active Active
- 2006-02-22 ES ES06707184T patent/ES2340796T3/es active Active
- 2006-02-22 DE DE502006006444T patent/DE502006006444D1/de active Active
- 2006-02-22 KR KR1020077020085A patent/KR100928311B1/ko active IP Right Grant
- 2006-02-22 CN CN2006800070351A patent/CN101133680B/zh active Active
- 2006-02-22 JP JP2007557373A patent/JP4987736B2/ja active Active
- 2006-02-22 AT AT06707184T patent/ATE461591T1/de active
- 2006-02-22 BR BRPI0608036-7A patent/BRPI0608036B1/pt active IP Right Grant
- 2006-02-22 EP EP09006142.5A patent/EP2094031A3/de not_active Ceased
- 2006-02-22 MX MX2007010636A patent/MX2007010636A/es active IP Right Grant
- 2006-02-22 PL PL06707184T patent/PL1854334T3/pl unknown
- 2006-02-22 RU RU2007136792/09A patent/RU2376726C2/ru active
- 2006-02-22 AU AU2006222285A patent/AU2006222285B2/en active Active
- 2006-02-22 WO PCT/EP2006/001622 patent/WO2006094635A1/de active Application Filing
- 2006-02-24 MY MYPI20060803A patent/MY140741A/en unknown
- 2006-03-02 TW TW095106978A patent/TWI322630B/zh active
-
2007
- 2007-08-17 US US11/840,273 patent/US8553895B2/en active Active
- 2007-08-22 IL IL185452A patent/IL185452A/en active IP Right Grant
- 2007-10-03 NO NO20075004A patent/NO339958B1/no unknown
-
2008
- 2008-06-03 HK HK08106174.7A patent/HK1111855A1/xx unknown
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2340796T3 (es) | Dispositivo y metodo para generar una señal estereofonica codificada de una pieza de audio o flujo de datos de audio. | |
JP5698189B2 (ja) | オーディオ符号化 | |
ES2339888T3 (es) | Codificacion y decodificacion de audio. | |
TWI334736B (en) | Apparatus and method for generating a level parameter, apparatus and method for generating a multi-channel representation and a storage media stored parameter representation | |
US7583805B2 (en) | Late reverberation-based synthesis of auditory scenes | |
NO345265B1 (no) | Kompatibel flerkanal-koding/dekoding | |
IL184340A (en) | Compact side information for parametric coding of spatial audio | |
Vilkamo | Spatial sound reproduction with frequency band processing of b-format audio signals | |
Vilkamo | Tilaäänen toistaminen B-formaattiäänisignaaleista taajuuskaistaprosessoinnin avulla |