ES2307160T3 - Codificador multicanal. - Google Patents
Codificador multicanal. Download PDFInfo
- Publication number
- ES2307160T3 ES2307160T3 ES05718568T ES05718568T ES2307160T3 ES 2307160 T3 ES2307160 T3 ES 2307160T3 ES 05718568 T ES05718568 T ES 05718568T ES 05718568 T ES05718568 T ES 05718568T ES 2307160 T3 ES2307160 T3 ES 2307160T3
- Authority
- ES
- Spain
- Prior art keywords
- channels
- signals
- signal
- input
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
Abstract
Codificador (10; 600) multicanal dispuesto para procesar señales (300, 310, 320, 330, 340; 300, 310, 610, 620, 330, 340) de entrada transportadas en N canales de entrada para generar señales (480, 490) de salida correspondientes transportadas en M canales de salida junto con datos (450) paramétricos de modo que M y N son enteros y N es mayor que M, incluyendo el codificador: (a) un elemento de downmix para realizar downmix sobre las señales de entrada para generar señales de salida correspondientes; y (b) un analizador para procesar las señales de entrada o bien durante el downmix o como un proceso independiente, pudiendo operarse dicho analizador para generar dichos datos paramétricos complementarios a las señales de salida, describiendo dichos datos paramétricos diferencias mutuas entre los N canales de señal de entrada para permitir sustancialmente la regeneración durante la descodificación de uno o más de los N canales de señal de entrada a partir de los M canales de señal de salida, estando dichas señales de salida en una forma compatible para la reproducción en descodificadores que prevén N o menos de N canales de salida para permitir compatibilidad hacia atrás; caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por: (Ver fórmula) donde un símbolo * representa un conjugado complejo, donde C[k] representa la muestra k de la señal C de canal central; D[k] representa la muestra k de la señal D derecha, I[k] representa la muestra k de la señal I izquierda y epsilon representa un peso que determina una intensidad de la señal central en el downmix de dos canales.
Description
Codificador multicanal.
La presente invención se refiere a codificadores
multicanal, por ejemplo codificadores de audio multicanal que
utilizan descripciones paramétricas de audio espacial. Además, la
invención se refiere también a procedimientos de procesamiento de
señales, por ejemplo señales de audio espaciales, en tales
codificadores multicanal. Además, la invención se refiere a
descodificadores que pueden operarse para descodificar señales
generadas por tales codificadores multicanal.
La grabación y la reproducción de audio ha
progresado en los últimos años desde formato de canal único
monoaural a formato estéreo de doble canal y más recientemente a
formato multicanal, por ejemplo formato de audio de cinco canales
tal como se utiliza frecuentemente en sistemas de cine en casa. La
introducción de soportes de datos de disco compacto de super audio
(SACD, Super Audio Compact Disk) y disco versátil digital
(DVD, Digital Versatile Disc) ha dado como resultado que tal
reproducción de audio de cinco canales cobre interés al mismo
tiempo. Muchos usuarios actualmente disponen de equipos que pueden
proporcionar reproducción de audio de cinco canales en sus hogares;
de manera correspondiente, cada vez se dispone más de contenido de
programa de audio de cinco canales en soportes de datos adecuados,
por ejemplo los tipos de soportes de datos SACD y DVD antes
mencionados. Debido al interés creciente en contenido de programa
multicanal, una codificación más eficaz de contenido de programa de
audio multicanal está convirtiéndose en un tema importante, por
ejemplo para proporcionar uno o más de calidad mejorada, tiempo de
reproducción más largo o incluso más canales.
Un ejemplo de un codificador multicanal se
presenta en Faller. C et al. "Binaural Cue Coding: A Novel
and Efficient Representation of Spatial Audio", Audio Engineering
Society Convention Paper, Nueva York, NY, EE.UU., 10 de mayo de
2002, páginas 1841-1844, XP001153972.
Se conocen codificadores que pueden representar
información de audio espacial tal como para contenido de programa
de audio por medio de descriptores paramétricos. Por ejemplo, en una
solicitud de patente PCT internacional publicada número
PCT/IB2003/002858 (WO 2004/008805), se describe la codificación de
una señal de audio multicanal incluyendo al menos una primera
componente de señal (IF), una segunda componente de señal (RF) y una
tercera componente de señal (DF). Esta codificación utiliza un
procedimiento que comprende etapas de:
(a) codificar las componentes de señal primera y
segunda utilizando un primer codificador paramétrico para generar
una primera señal (I) codificada y un primer conjunto de parámetros
(P2) de codificación;
(b) codificar la primera señal (I) codificada y
una señal (D) adicional utilizando un segundo codificador
paramétrico para generar una segunda señal (T) codificada y un
segundo conjunto de parámetros (P1) de codificación en el que la
señal (D) adicional se deriva de al menos la tercera componente (DF)
de señal; y
(c) representar la señal de audio multicanal al
menos mediante una señal (T) codificada resultante derivada de al
menos la segunda señal (T) codificada, el primer conjunto de
parámetros (P2) de codificación y el segundo conjunto de parámetros
(P1) de codificación.
Las descripciones paramétricas de señales de
audio han cobrado interés en los últimos años debido a que se ha
mostrado que transmitir parámetros cuantificados que describen
señales de audio requiere capacidad de transmisión pequeña
relativa. Estos parámetros cuantificados pueden recibirse y
procesarse en descodificadores para regenerar señales de audio
perceptivamente que no difieran significativamente de sus señales de
audio originales.
Los codificadores multicanal contemporáneos
generan datos codificados de salida a una tasa de bits que se
ajusta a escala sustancialmente de manera lineal con un número de
canales de audio transportados en los datos codificados de salida.
Tal característica hace que la inclusión de canales adicionales sea
problemática debido a que la duración de reproducción para una
capacidad de almacenamiento de soporte de datos o representación de
calidad de audio dadas tendría que sacrificarse en consecuencia para
adaptarse a más canales.
Un objeto de la presente invención es prever un
codificador multicanal que puede operarse para proporcionar
codificación más eficaz de contenido de datos multicanal, por
ejemplo contenido de datos de audio multicanal.
Los inventores han observado que, mediante el
uso de procedimientos de codificación apropiados, los datos
codificados de salida pueden transportar información correspondiente
a, por ejemplo, contenido de programa de audio de cinco canales,
mientras que se utiliza una tasa de bits requerida convencionalmente
para transportar contenido de programa de audio de dos canales,
concretamente estéreo.
\global\parskip0.900000\baselineskip
Así, según un primer aspecto de la presente
invención, se proporciona un codificador multicanal dispuesto para
procesar señales de entrada transportadas en N canales de entrada
para generar señales de salida correspondientes transportadas en M
canales de salida junto con datos paramétricos de modo que M y N son
enteros y N es mayor que M, incluyendo el codificador:
- (a)
- un elemento de downmix para realizar downmix sobre las señales de entrada para generar señales de salida correspondientes; y
- (b)
- un analizador para procesar las señales de entrada o bien durante el downmix o como un proceso independiente, pudiendo operarse dicho analizador para generar dichos datos paramétricos complementarios a las señales de salida, describiendo dichos datos paramétricos diferencias mutuas entre los N canales de señal de entrada para permitir sustancialmente la regeneración durante la descodificación de uno o más de los N canales de señal de entrada desde los M canales de señal de salida, estando dichas señales de salida en una forma compatible para la reproducción en descodificadores que prevén N o menos de N canales de salida para permitir compatibilidad hacia atrás; caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por:
- donde C[k] representa la muestra k de la señal C de canal central; D[k] representa la muestra k de la señal D derecha, I[k] representa la muestra k de la señal I izquierda y \varepsilon representa un peso que determina una intensidad de la señal central en el downmix de dos canales.
La invención es ventajosa porque el codificador
multicanal puede codificar más eficazmente señales de entrada
multicanal en un flujo de salida que, por ejemplo, puede hacerse que
sea compatible con un aparato de reproducción estéreo de dos
canales.
Tal compatibilidad hacia atrás del codificador
con los tipos anteriores de descodificador correspondiente se
proporciona de tres maneras:
(a) las señales de salida sobre las que se ha
realizado downmix procedentes del codificador se generan de tal
manera que la reproducción de estas señales, concretamente sin
procesamiento ni descodificación adicional, da como resultado una
imagen espacial que es una buena aproximación de, por ejemplo, una
imagen espacial de 5 canales, dadas las limitaciones de un número
limitado correspondiente de altavoces. Esta propiedad garantiza
compatibilidad de reproducción hacia atrás;
(b) parámetros espaciales asociados con las
señales sobre las que se ha realizado downmix se colocan en la
parte de datos auxiliar del flujo de bits. Un descodificador que no
puede descodificar la parte de datos auxiliar todavía podrá
descodificar la señal transmitida. Esta propiedad garantiza
compatibilidad de descodificación hacia atrás; y
(c) parámetros almacenados en la parte auxiliar
del flujo de bits y la estructura del decodificador se formulan de
modo que un descodificador paramétrico puede regenerar señales de 2,
3 y 4 canales apropiadas. Esta propiedad proporciona flexibilidad
en cuanto al sistema de reproducción utilizado, y por tanto
proporciona compatibilidad hacia atrás con sistemas de 2, 3 y 4
canales.
Preferiblemente, en el codificador, el
analizador incluye medios de procesamiento para convertir las
señales de entrada por medio de transformación de un dominio
temporal a un dominio de frecuencia y para procesar estas señales
de entrada transformadas para generar los datos paramétricos.
Procesar las señales de entrada en un dominio de frecuencia es
beneficioso para proporcionar una codificación eficaz dentro del
codificador. Más preferiblemente, en el codificador, al menos uno
del elemento de downmix y el analizador están dispuestos para
procesar las señales de entrada como una secuencia de baldosas de
tiempo-frecuencia para generar las señales de
entrada.
Preferiblemente, en el codificador, las baldosas
se obtienen por transformación de ventanas de análisis superpuestas
entre sí. Tal superposición permite una mejor continuidad y de ese
modo reducir los artefactos de codificación cuando las señales de
salida se descodifican posteriormente para regenerar una
representación de señales de entrada.
Preferiblemente, el codificador incluye un
codificador para procesar las señales de entrada para generar M
canales de datos de audio intermedios para su inclusión en las M
señales de salida, estando dispuesto el analizador para emitir
información de salida en los datos paramétricos referente a al menos
uno de:
- (a)
- relaciones de potencia de señal de entrada entre canales o diferencias de nivel logarítmico;
\global\parskip1.000000\baselineskip
- (b)
- coherencia entre canales entre las señales de entrada;
- (c)
- una relación de potencia entre las señales de entrada de uno o más canales y una suma de potencias de las señales de entrada de uno o más canales; y
- (d)
- diferencias de fase o diferencias de tiempo entre pares de señales.
Más preferiblemente, las diferencias de fase en
(d) son diferencias de fase promedio.
Preferiblemente, en el codificador, el cálculo
de al menos una de estas diferencias de fase, los datos de
coherencia y la relación de potencia va seguida de un análisis de
componente principal (PCA, Principal Component Analysis) y/o
alineamiento de fase entre canales para generar las señales de
salida.
Preferiblemente, para proporcionar una semejanza
más próxima a las señales de entrada originales cuando los datos de
entrada se regeneran, en el codificador, al menos una de las señales
de entrada transportadas en los N canales corresponde a un canal de
efectos.
Preferiblemente, el codificador está adaptado
para generar las señales de salida en una forma adecuada para la
reproducción utilizando sistemas de reproducción convencionales.
Según un segundo aspecto de la invención, se
proporciona un procedimiento de codificación de señales de entrada
transportadas en N canales de entrada en un codificador multicanal
para generar señales de salida correspondientes transportadas en M
canales de salida junto con datos paramétricos de modo que M y N son
enteros y N es mayor que M, incluyendo el procedimiento las etapas
de:
- (a)
- realizar downmix sobre las señales de entrada para generar señales de salida correspondientes; y
- (b)
- procesar en un analizador las señales de entrada o bien cuando esté realizándose un downmix o bien por separado, proporcionando dicho procesamiento dichos datos paramétricos complementarios a las señales de salida, describiendo dichos datos paramétricos diferencias mutuas entre los N canales de datos de entrada para permitir sustancialmente la regeneración de los N canales de señal de entrada desde los M canales de señal de salida, estando dichas señales de salida en una forma compatible para la reproducción en descodificadores que prevén N o menos de N canales de salida; caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por:
- donde C[k] representa la muestra k de la señal C de canal central; D[k] representa la muestra k de la señal D derecha, I[k] representa la muestra k de la señal I izquierda y \varepsilon representa un peso que determina una intensidad de la señal central en el downmix de dos canales.
Preferiblemente, el procedimiento está adaptado
para codificar señales de entrada correspondientes a 5 canales y
generar las señales de salida y datos paramétricos en una forma
compatible con uno o más de descodificadores estéreo de 2 canales,
descodificadores de 3 canales y descodificadores de 4 canales.
Preferiblemente, en el procedimiento, el
procesamiento incluye convertir las señales de entrada por medio de
transformación de un dominio temporal a un dominio de
frecuencia.
Preferiblemente, en el procedimiento, al menos
una de las señales de entrada se procesa como una secuencia de
baldosas de tiempo-frecuencia para generar las
señales de salida.
Preferiblemente, en el procedimiento, las
baldosas corresponden a ventanas de análisis superpuestas entre
sí.
Preferiblemente, el procedimiento incluye una
etapa de utilizar un codificador para procesar las señales de
entrada para generar M canales de datos de audio intermedios para su
inclusión en las señales de salida, estando dispuesto el
codificador para emitir información en los datos paramétricos
referida a al menos uno de:
- (a)
- relaciones de potencia de señal de entrada entre canales o diferencias de nivel logarítmico;
- (b)
- coherencia entre canales entre las señales de entrada;
- (c)
- una relación de potencia entre las señales de entrada de uno o más canales y una suma de potencias de las señales de entrada de uno o más canales; y
- (d)
- diferencias de fase o diferencias de tiempo entre pares de señales.
Más preferiblemente, las diferencias de fase en
(d) son diferencias de fase promedio.
Preferiblemente, en el procedimiento, el cálculo
de al menos una de las diferencias de nivel, los datos de
coherencia y las relaciones de potencia viene seguida de un análisis
de componente principal y/o alineamiento de fase para generar las N
señales de salida.
Preferiblemente, en el procedimiento, al menos
una de las señales de entrada transportadas en los N canales
corresponde a un canal de efectos.
Según un tercer aspecto de la invención, se
proporciona contenido de datos codificados almacenado en un soporte
de datos, generándose dicho contenido de datos utilizando el
procedimiento según el segundo aspecto de la invención.
Según un cuarto aspecto de la invención, se
proporciona un descodificador que puede operarse para descodificar
datos de salida codificados generados por un codificador según el
primer aspecto de la invención, comprendiendo dichos datos de
salida codificados que comprenden M canales y datos paramétricos
asociados generados a partir de señales de entrada de N canales de
modo que M<N donde M y N son enteros, incluyendo el
descodificador un procesador:
- (a)
- para recibir los datos de salida codificados y convertirlos de un dominio de tiempo a un dominio de frecuencia;
- (b)
- para aplicar los datos paramétricos en el dominio de frecuencia para extraer contenido de los M canales para regenerar a partir de los M canales contenido de datos regenerado correspondiente a señales de entrada de uno o más de N canales no incluidos directamente en u omitidos de los datos de salida codificados; y
- (c)
- para procesar el contenido de datos regenerado para emitir una o más de las señales de entrada regeneradas de N canales en una o más salidas del descodificador;
caracterizado por los datos paramétricos que
comprenden al menos un parámetro que describe una potencia de una
señal de canal central con respecto a una potencia de una señal de
canal derecho y una señal de canal izquierdo para un downmix de dos
canales de la señal de canal central, la señal de canal derecho y la
señal de canal izquierdo; viniendo dado el al menos un parámetro
por:
donde C[k] representa la
muestra k de la señal C de canal central; D[k] representa la
muestra k de la señal D derecha, I[k] representa la muestra
k de la señal I izquierda y \varepsilon representa un peso que
determina una intensidad de la señal central en el downmix de dos
canales. Preferiblemente, en el descodificador, el procesador puede
operarse para aplicar un filtro de decorrelación pasa todo para
obtener versiones decorrelacionadas de señales para su uso en la
regeneración de dichas una o más señales de entrada de N canales en
el
descodificador.
Preferiblemente, en el descodificador, el
procesador puede operarse para aplicar rotación de codificador
inversa para señales de los M canales y versiones decorrelacionadas
de las mismas en sus componentes constituyentes para regenerar
dicha una o más señales de entrada de N canales en el
descodificador.
Debe observarse que las características de la
invención son susceptibles de combinarse en cualquier combinación
sin apartarse del alcance de la invención, que se define en las
reivindicaciones.
A continuación se describirán realizaciones de
la invención, únicamente a modo de ejemplo, con referencia a los
siguientes diagramas en los que:
la figura 1 es un diagrama esquemático de un
primer codificador multicanal según la invención;
la figura 2 es un diagrama esquemático de un
segundo codificador multicanal según la invención que incluye la
provisión de efectos, por ejemplo efectos de baja frecuencia, y
la figura 3 es un diagrama esquemático de un
descodificador multicanal según la invención, siendo el
descodificador complementario a los codificadores de las figuras 1
y 2 y que puede descodificar datos de salida proporcionados desde
dichos codificadores.
\vskip1.000000\baselineskip
Para mejorar la codificación ejecutada dentro de
un codificador multicanal dotado de N canales de datos de entrada y
dispuesto para codificar los datos de entrada para generar un flujo
de datos de salida codificados correspondiente, los inventores han
previsto que el codificador pueda operarse beneficiosamente:
(a) para realizar downmix sobre los datos de
entrada de los N canales en M canales de modo que M<N; y
(b) para generar una cantidad relativamente
pequeña de datos de sobrecarga paramétricos para combinarse con
datos de los M canales cuando se genera el flujo de datos de salida,
estando dispuestos los datos paramétricos para permitir la
reconstrucción de datos correspondientes a los N canales en un
descodificador posterior al que se suministra el flujo de datos de
salida.
Por ejemplo, el codificador multicanal es
preferiblemente un codificador de cinco canales, concretamente N=5.
El codificador de cinco canales se configura para realizar downmix
sobre datos correspondientes a cinco canales de entrada para
generar dos canales de datos intermedios, concretamente M=2. Además,
el codificador de cinco canales puede operarse para generar datos
de sobrecarga paramétricos asociados para combinarse con datos de
los dos canales para generar el flujo de datos de salida, siendo
suficientes los datos paramétricos para permitir que el
descodificador reconstruya una representación de los cinco canales
de entrada. El descodificador es beneficioso porque puede ser
compatible hacia atrás para soportar situaciones en las que N=2, 3,
4, concretamente compatible hacia atrás con situaciones de salida
de 2 canales, 3 canales y 4 canales.
En una realización preferida de la invención,
puede operarse un codificador para procesar N canales de datos de
entrada. Los N canales de datos de entrada preferiblemente
corresponden a un canal de datos de audio central, un canal de
datos de audio frontal izquierdo, un canal de datos de audio trasero
izquierdo, un canal de datos de audio frontal derecho y un canal de
datos de audio trasero derecho; tales cinco canales pueden crear una
distribución de sonido tridimensional aparente apropiada para la
reproducción de contenido de programa de tipo de cine en casa. Se
realiza el downmix sobre los N canales de datos de entrada en dos
canales de datos de audio intermedios, por ejemplo codificados
utilizando un codificador de audio estéreo contemporáneo. El
codificador emplea beneficiosamente un análisis de componente
principal y/o alineamiento de fase de los canales de datos frontal
izquierdo y trasero izquierdo. El codificador también está dispuesto
para emplear un análisis de componente principal independiente y/o
alineamiento de fase en los canales de entrada frontal derecho y
trasero derecho. Además, el codificador puede operarse para generar
datos de sobrecarga paramétricos que incluyen información referente
a lo siguiente:
(a) diferencias de nivel entre canales entre los
canales de datos frontal izquierdo y trasero izquierdo;
(b) diferencias de nivel entre canales entre los
canales de datos frontal derecho y trasero derecho;
(c) datos de coherencia entre canales referentes
a los canales frontal izquierdo y trasero izquierdo;
(d) datos de coherencia entre canales referentes
a los canales de datos frontal izquierdo y trasero izquierdo; y
(e) una relación de potencia entre el canal de
datos central y una suma de potencias de los canales de datos
frontal izquierdo, trasero izquierdo, frontal derecho y trasero
derecho.
\vskip1.000000\baselineskip
Los dos canales de datos intermedios y los datos
de sobrecarga paramétricos se combinan para generar datos de salida
codificados a partir del codificador. Opcionalmente, los datos
relativos a diferencias de fase entre canales y preferiblemente
diferencias de fase globales entre los canales de datos frontal
izquierdo y trasero izquierdo por un lado, y canales de datos
frontal derecho y trasero derecho por otro lado, se incluyen en los
datos de salida codificados del codificador. El análisis paramétrico
realizado en (a) a (e) con respecto a esta realización de ejemplo
de la invención preferiblemente implica análisis temporal y de
frecuencia; más preferiblemente, el análisis se realiza por medio
de baldosas de tiempo-frecuencia tal como se
aclarará posteriormente.
La operación del codificador en la realización
preferida de la invención se describirá a continuación con mayor
detalle en términos de sus funciones matemáticas asociadas con
referencia a la figura 1 cuyas partes y señales se definen según se
proporcionan en la tabla 1.
En la figura 1, se muestra un codificador
indicado en general por 10. El codificador 10 comprende canales 20,
30, 40 de entrada primero, segundo y tercero respectivamente. Las
señales 380, 400, 440 de salida, concretamente II, IC e ID, de
estos tres canales 20, 30, 40 respectivamente se acoplan a una
unidad 200 de extracción de parámetros y mezclado. La unidad 200 de
extracción comprende señales 460, 470 de presalida derecha e
izquierda asociadas, concretamente PD_{sal}, PI_{sal}, que
están conectadas a una unidad 210 OLA y transformada inversa para
generar señales 480, 490 de salida derecha e izquierda codificadas,
concretamente D_{sal}, I_{sal}, respectivamente.
El primer canal 20 incluye una unidad 100 de
transformada y segmento para recibir señales 300, 310 de entrada
frontal izquierda y trasera izquierda respectivamente, concretamente
S_{fi}, S_{ti}. Señales 350, 360 transformadas frontal
izquierda y trasera izquierda correspondientes, concretamente
TS_{fi}, TS_{ti} se acoplan a una unidad 130 de downmix del
canal 20, y también a una unidad 110 de análisis de parámetros del
canal 20. Una primera señal 370 de conjunto de parámetros,
concretamente PS1, se acopla a una entrada de la unidad 120 de
conversión de vector de parámetro a downmix cuya salida
correspondiente se acopla a la unidad 130 de downmix.
El segundo canal 30 incluye una unidad 140 de
transformada y segmento dispuesta para recibir una señal 320 de
entrada central, concretamente S_{c}. La señal 400 intermedia
central, concretamente IC, se acopla desde la unidad 140 de
transformada a la unidad 200 de extracción de parámetros según se
describió anteriormente.
El tercer canal 40 incluye una unidad 150 de
transformada y segmento para recibir señales 330, 340 de entrada
frontal derecha y trasera derecha respectivamente, concretamente
S_{fd}, S_{td}. Señales 410, 420 transformadas frontal derecha
y trasera derecha correspondientes, concretamente TS_{fd},
TS_{td} se acoplan a una unidad 180 de downmix del canal 40, y
también a una unidad 160 de análisis de parámetros del canal 40. Una
señal 430 de segundo conjunto de parámetros, concretamente PS2, se
acopla a una entrada de la unidad 170 de conversión de vector de
parámetro a downmix cuya salida correspondiente se acopla a la
unidad 180 de downmix.
La unidad 200 de extracción de parámetros se
dispone para recibir la señal 380, 400, 440 desde los canales 20,
30, 40 para generar la salida 450 de tercer conjunto de parámetros,
concretamente PS3, así como las señales 470, 460 de presalida,
concretamente PD_{sal}, PI_{sal} para la unidad 210 OLA.
El codificador 10 es susceptible de
implementarse en hardware dedicado. Alternativamente, el codificador
10 puede basarse en hardware informático dispuesto para ejecutar
software para implementar funciones de procesamiento del
codificador 10. Como alternativa adicional, el codificador 10 puede
implementarse mediante una combinación de hardware dedicado
acoplado a hardware informático que opera bajo el control de
software.
A continuación se describirá el funcionamiento
del codificador 10 con referencia a la figura 1. Las señales
S_{fi}[n], S_{fi}[n], S_{fd}[n], S_{td}[n], S_{c}[n], describen formas de onda temporales discretas para señales de audio frontal izquierda, trasera izquierda, frontal derecha, trasera derecha y central respectivamente. En los canales 20, 30, 40, estas cinco señales se segmentan utilizando una segmentación común, preferiblemente utilizando ventanas de análisis superpuestas. Posteriormente, cada segmento se convierte de un dominio temporal a un dominio de frecuencia utilizando una transformada compleja, por ejemplo una transformada de Fourier o un tipo equivalente de transformada; alternativamente, pueden emplearse estructuras de banco de filtros complejas, por ejemplo implementadas utilizando al menos uno de hardware o simuladas en software, para obtener baldosas de tiempo/frecuencia. Tal procesamiento de señal da como resultado representaciones segmentadas subbanda de las señales de entrada en el dominio de frecuencia representadas por I_{f}[k], I_{t}[k], D_{f}[k], D_{t}[k], C[k] en las que un parámetro k representa un índice de frecuencia, I representa izquierda, D representa derecha, f representa frontal, t representa trasero y C representa central.
S_{fi}[n], S_{fi}[n], S_{fd}[n], S_{td}[n], S_{c}[n], describen formas de onda temporales discretas para señales de audio frontal izquierda, trasera izquierda, frontal derecha, trasera derecha y central respectivamente. En los canales 20, 30, 40, estas cinco señales se segmentan utilizando una segmentación común, preferiblemente utilizando ventanas de análisis superpuestas. Posteriormente, cada segmento se convierte de un dominio temporal a un dominio de frecuencia utilizando una transformada compleja, por ejemplo una transformada de Fourier o un tipo equivalente de transformada; alternativamente, pueden emplearse estructuras de banco de filtros complejas, por ejemplo implementadas utilizando al menos uno de hardware o simuladas en software, para obtener baldosas de tiempo/frecuencia. Tal procesamiento de señal da como resultado representaciones segmentadas subbanda de las señales de entrada en el dominio de frecuencia representadas por I_{f}[k], I_{t}[k], D_{f}[k], D_{t}[k], C[k] en las que un parámetro k representa un índice de frecuencia, I representa izquierda, D representa derecha, f representa frontal, t representa trasero y C representa central.
En la unidad 200 de extracción de parámetros, el
procesamiento de datos se ejecuta en una primera etapa para estimar
parámetros relevantes entre señales frontal izquierda y trasera
izquierda. Estos parámetros incluyen una diferencia de nivel
IID_{I}, una diferencia de fase IPD_{I} y una coherencia
ICC_{I}. Preferiblemente, la diferencia de fase IPD_{I}
corresponde a una diferencia de fase promedio. Además, estos
parámetros IID_{I}, IPD_{I} e ICC_{I} se calculan según se
proporciona en las ecuaciones 1 a 3 (ec. 1 a 3):
\vskip1.000000\baselineskip
Donde un símbolo * representa un conjugado
complejo.
El proceso descrito por las ecuaciones 1 a 3 se
repite también para las señales frontal derecha y trasera derecha,
dando como resultado tal procesamiento parámetros correspondientes
IID_{D}, IPD_{D} e ICC_{D} referentes a la diferencia de
nivel, diferencia de fase y coherencia respectivamente.
En la unidad 120 de conversión de vector
parámetro a downmix, el procesamiento de datos se ejecuta en una
segunda etapa para calcular pesos complejos para el downmix sobre
las dos señales frontal izquierda I_{f} y trasera izquierda
I_{t}. En la realización preferida, el vector de downmix enviado a
la unidad 130 de downmix se dispone para maximizar la energía de la
señal Y[k] de downmix aplicando una rotación \alpha del
espacio de señal de entrada y/o alineamiento de fase complejo.
El downmix se aplica según lo siguiente. Las dos
señales I_{f} e I_{t} se rotan para obtener una señal
Y[k] dominante y una señal Q[k] residual
correspondiente utilizando un ángulo \alpha de rotación que
maximiza la energía de la señal Y[k] dominante según se
representa mediante la ecuación 4 (Ec. 4):
donde un ángulo OFD_{I}
representa un ángulo de rotación de fase global, mientras que la
diferencia de fase IFD_{I} se calcula para garantizar una
alineación de fase máxima de las dos señales I_{f}, I_{t}. El
ángulo de rotación puede calcularse a partir de los parámetros
extraídos utilizando las ecuaciones 5 y 6 (Ec. 5 y
6):
donde
La señal Q[k] de la ecuación 4 se
descarta posteriormente en la unidad 200 de extracción de parámetro,
la señal Y[k] se ajusta a escala mediante un escalar \beta
para obtener la señal I[k] de modo que la señal I[k]
tiene una potencia similar a la de la señal Q[k] más la
potencia de la señal Y[k]; en otras palabras, la señal
Q[k] se descarta mientras que una pérdida correspondiente en
potencia de señal que surge se compensa ajustando a escala la señal
Y[k]. El escalar \beta puede calcularse utilizando las
ecuaciones 7 y 8 (Ec. 7 y 8):
\vskip1.000000\baselineskip
donde
\vskip1.000000\baselineskip
Las etapas primera y segunda también se repiten
para los pares de señal frontal derecha y trasera derecha, dando
como resultado la generación de la señal D[k]
correspondiente. Debe observarse también que el uso de rotación PCA
puede sortearse utilizando un valor fijo para el ángulo \alpha de
rotación.
Una tercera etapa de procesamiento ejecutada
dentro del codificador 10 implica mezclar la señal central
C[k] en ambas de las señales I[k] y D[k] dando
como resultado la generación de las señales 470, 460 de presalida
respectivamente, concretamente PI_{sal}, PD_{sal}. Tal mezclado
se ejecuta según la ecuación 9 (Ec.9):
donde un parámetro \varepsilon
representa un peso que determina la intensidad de la señal
C[k] en el mezclado asociado con la ecuación 9, por ejemplo
\varepsilon=0,707 normalmente. Preferiblemente, combinaciones
respectivas de I, C y D se alinean en términos de fase, de otro modo
se produciría cancelación de
fase.
Un parámetro IID_{C} que describe la potencia
de señal C con respecto a la potencia de señales I y D puede
calcularse a partir de la ecuación 10 (Ec. 10):
\vskip1.000000\baselineskip
El proceso anterior que comprende las etapas
primera, segunda y tercera mencionadas anteriormente se repite en
el codificador 10 para cada baldosa de tiempo/frecuencia.
Las señales PI_{sal}[k] y
PD_{sal}[k] se transforman posteriormente en el codificador
a un dominio temporal y se combinan con segmentos previos
utilizando un tipo de suma superposición-adición
para generar las señales 490, 480 de salida anteriormente
mencionadas respectivamente, en concreto I_{sal}, D_{sal}.
Los datos de salida del codificador 10 son
susceptibles de comunicarse por medio de una red de comunicación,
por ejemplo a través de Internet u otra red de emisión similar.
Alternativamente, o adicionalmente, los datos de
salida pueden transportarse por medio de un soporte de datos, por
ejemplo un disco de datos óptico DVD u otro tipo similar de medio de
transporte de datos.
Los datos de salida del codificador 10 pueden
descodificarse en descodificadores compatibles con el codificador
10, por ejemplo en un descodificador indicado en general por 800 en
la figura 3. El descodificador 800 incluye una unidad 810 de
procesamiento de datos para someter a las señales 480, 490 de salida
y los datos 370, 430, 450, 690 de parámetros asociados recibidos de
los codificadores 10, 600 a diversas operaciones matemáticas para
generar señales de salida descodificadas correspondientes (DOP,
Decoded Output Signal).
Para proporcionar compatibilidad hacia atrás,
tales descodificadores pueden ser al menos uno de aparato estéreo,
de 3 canales y de 5 canales. En un descodificador de tipo estéreo
compatible con el codificador 10, en concreto donde el
descodificador 800 incluye sólo dos salidas descodificadas para DOP,
el descodificador de tipo estéreo que tiene dos canales de
reproducción, las señales D_{sal}, I_{sal} proporcionadas desde
el codificador 10 se reproducen en el descodificador de tipo
estéreo sobre dos canales de reproducción sin realizarse
procesamiento adicional.
En un descodificador de 3 canales compatible con
el codificador 10, el descodificador que tiene tres canales de
reproducción, en concreto donde el descodificador 800 incluye tres
salidas descodificadas para DOP, las dos señales D_{sal},
I_{sal}, por ejemplo leídas de un soporte de datos tal como un
disco óptico DVD, se segmentan y a continuación se transforman al
dominio de frecuencia anteriormente mencionado. Señales I[k],
D[k] y C[k] recreadas correspondientes se derivan
entonces utilizando las ecuaciones 11 a 16 (Ec. 11 a 16):
\vskip1.000000\baselineskip
donde
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Las señales de audio de tres canales para
apreciación del usuario se derivan entonces a partir de señales
I[k], D[k] y C[k] de una manera similar a la
descrita anteriormente.
En un descodificador de cinco canales compatible
con el codificador 10, concretamente el descodificador 800 que
proporciona cinco salidas descodificadas, se emplea una
reconstrucción de reproducción de tres canales según se describe
anteriormente dando como resultado la regeneración de las señales
I[k], D[k] y C[k] en el descodificador. En el
descodificador de cinco canales, se ejecuta una etapa adicional que
implica dividir la señal I[k] en sus componentes
constituyentes, concretamente una componente frontal izquierda
I_{f}[k] y una componente trasera izquierda
I_{t}[k]; de manera similar, la señal D[k] también
se divide en sus componentes constituyentes, en concreto una
componente frontal derecha D_{f}[k] y una componente
trasera derecha D_{t}[k]. Tal división de señal utiliza
una operación de rotación de codificador inversa complementaria a la
rotación realizada en el codificador 10 tal como se describió
anteriormente. La señal Y[k] dominante y la señal Q[k]
residual requeridas para la rotación inversa se derivan en el
descodificador de cinco vías utilizando las ecuaciones 17 y 18 (ec.
17 y 18):
donde
para la que el parámetro se define
previamente en la ecuación 8 (Ec. 8) anteriormente. En la ecuación
17, H[k] representa un filtro de decorrelación pasa todo
para obtener una versión decorrelacionada de la señal I[k].
Posteriormente, las señales I_{f}[k] e I_{t}[k] se
generan utilizando una función de rotación de codificador inversa
tal como se describe mediante la ecuación 19 (Ec.
19):
Un procesamiento similar se aplica también para
componentes de canal derechas.
En un descodificador de cuatro canales
compatible con el codificador 10, el descodificador de cuatro
canales puede operarse para descodificar en primer lugar cinco
canales de una manera similar a la empleada en el descodificador de
cinco canales anteriormente mencionado para generar cinco señales de
audio S_{if}, S_{it}, S_{df}, S_{dt} y S_{c}. A partir de
entonces, el mezclado simple se produce según las ecuaciones 20 y 21
(Ec. 20, 21) para generar señales de audio frontal izquierda y
frontal derecha S_{if, \ reproducción}, S_{df, \ reproducción}
para apreciación del usuario:
donde un coeficiente
q=0,707.
El coeficiente q garantiza para el
descodificador de 4 canales que la potencia total de las componentes
de señal central es sustancialmente constante, independientemente
de reproducir a través de un altavoz único central o como una
fuente aparente fantasma de sonido para el usuario creada por los
altavoces izquierdo frontal y derecho frontal acoplados al
descodificador de cuatro canales.
Se apreciará que las realizaciones de la
invención descritas anteriormente son susceptibles de modificarse
sin apartarse del alcance de la invención según se define mediante
las reivindicaciones adjuntas.
Los inventores han identificado que el
codificador 10 no soporta codificación de un canal de efectos (LFE),
por ejemplo un canal de efectos de baja frecuencia. Tal canal LFE
es beneficioso, por ejemplo, para transportar información de
efectos de sonido tales como información de efecto de trueno o
información de sonido de explosión que acompaña de manera
beneficiosa a información visual presentada simultáneamente a
usuarios en, por ejemplo, un sistema de cine en casa. Así, los
inventores han observado en una realización de la presente invención
que es beneficioso modificar el codificador 10 para mejorar su
segundo canal 30 y de ese modo generar un codificador tal como se
representa en la figura 2 y se indica en la misma en general por
600. Opcionalmente, el canal LFE tiene un ancho de banda de
frecuencia relativamente restringido de sustancialmente 120 Hz
aunque anchos de banda relativamente superiores selectivos también
pueden adaptarse.
El codificador 600 es en general similar al
codificador 10 excepto en que el segundo canal 30 del codificador
600 está dotado de una unidad 630 de análisis de parámetros, una
unidad 640 de vector de parámetro a downmix y una unidad 650 de
downmix conectadas de una manera similar a componentes
correspondientes de los canales 20, 40 primero y tercero
respectivamente; el canal 30 del codificador 600 puede operarse para
emitir un cuarto conjunto 690 de parámetros, en concreto PS4.
Además, el segundo canal 30 del codificador 600 incluye una entrada
610 de efectos de baja frecuencia (lfe) para recibir una señal
S_{lfe} de efectos de baja frecuencia, y también una entrada 620
para recibir la señal S_{C} central anteriormente mencionada.
Preferiblemente, el procesamiento de la señal S_{lfe} se limita a
un ancho de banda de frecuencia de 120 Hz desde frecuencias de
subaudio hacia arriba y por tanto potencialmente adecuadas para
accionar contemporáneamente altavoces de tipo de graves. Sin
embargo, realizaciones de la invención son susceptibles de
implementarse con el segundo canal 30 que tiene un ancho de banda
muy superior a 120 Hz, por ejemplo para proporcionar información de
señal de alta frecuencia correspondiente a sonidos a modo de
impulso.
La inclusión de información de efectos de baja
frecuencia en la salida del codificador 600 requiere el uso de
parámetros adicionales en comparación con el codificador 10. Una
señal presentada a la entrada 610 se analiza en el codificador 600
para determinar parámetros representativos correspondientes que se
analizan basándose en una baldosa de tiempo/frecuencia de manera
similar a otras señales de audio anteriormente mencionadas
procesadas a través del codificador 10. Codificadores
correspondientes se disponen preferiblemente para incluir
características adicionales para descodificar la información de
baja frecuencia para regenerar, por ejemplo, una señal adecuada
para amplificación para accionar altavoces de graves de audio en
sistemas de cine en casa.
En las reivindicaciones adjuntas, números de
referencia y otros símbolos incluidos dentro de paréntesis se
incluyen para ayudar en la comprensión de las reivindicaciones y no
están previstos para limitar el alcance de las reivindicaciones de
ningún modo.
Expresiones tales como "comprende",
"incluye", "incorpora", "contiene" "es",
"está" y "tiene" deben interpretarse de una manera no
exclusiva cuando se interpreta la descripción y sus reivindicaciones
asociadas, en concreto interpretarse para permitir que otros
elementos o componentes que no se definen explícitamente también
estén presentes. La referencia al singular también debe
interpretarse como una referencia al plural y viceversa.
Claims (25)
1. Codificador (10; 600) multicanal dispuesto
para procesar señales (300, 310, 320, 330, 340; 300, 310, 610, 620,
330, 340) de entrada transportadas en N canales de entrada para
generar señales (480, 490) de salida correspondientes transportadas
en M canales de salida junto con datos (450) paramétricos de modo
que M y N son enteros y N es mayor que M, incluyendo el
codificador:
(a) un elemento de downmix para realizar downmix
sobre las señales de entrada para generar señales de salida
correspondientes; y
(b) un analizador para procesar las señales de
entrada o bien durante el downmix o como un proceso independiente,
pudiendo operarse dicho analizador para generar dichos datos
paramétricos complementarios a las señales de salida, describiendo
dichos datos paramétricos diferencias mutuas entre los N canales de
señal de entrada para permitir sustancialmente la regeneración
durante la descodificación de uno o más de los N canales de señal
de entrada a partir de los M canales de señal de salida, estando
dichas señales de salida en una forma compatible para la
reproducción en descodificadores que prevén N o menos de N canales
de salida para permitir compatibilidad hacia atrás;
caracterizado por los datos paramétricos que comprenden al
menos un parámetro que describe una potencia de una señal de canal
central con respecto a una potencia de una señal de canal derecho y
una señal de canal izquierdo para un downmix de dos canales de la
señal de canal central, la señal de canal derecho y la señal de
canal izquierdo; viniendo dado el al menos un parámetro por:
donde un símbolo * representa un
conjugado
complejo,
donde C[k] representa la muestra k de la
señal C de canal central; D[k] representa la muestra k de la
señal D derecha, I[k] representa la muestra k de la señal I
izquierda y \varepsilon representa un peso que determina una
intensidad de la señal central en el downmix de dos canales.
2. Codificador según la reivindicación 1, en el
que el codificador es un codificador de 5 canales dispuesto para
generar las señales de salida y datos paramétricos en una forma
compatible con al menos uno de descodificadores estéreo de 2
canales, descodificadores de 3 canales y descodificadores de 4
canales correspondientes.
3. Codificador según la reivindicación 1, en el
que el analizador incluye medios de procesamiento para convertir
las señales de entrada por medio de transformación de un dominio
temporal a un dominio de frecuencia y para procesar estas señales
de entrada transformadas para generar los datos paramétricos.
4. Codificador según la reivindicación 3, en el
que al menos uno del elemento de downmix y el analizador están
dispuestos para procesar las señales de entrada como una secuencia
de baldosas de tiempo-frecuencia para generar las
señales de entrada.
5. Codificador según la reivindicación 4, en el
que las baldosas se obtienen por transformación de ventanas de
análisis superpuestas entre sí.
6. Codificador según la reivindicación 1, que
incluye un codificador para procesar las señales de entrada para
generar M canales de datos de audio intermedios para su inclusión en
las M señales de salida, estando dispuesto el analizador para
emitir información en los datos paramétricos referida a al menos uno
de:
(a) relaciones de potencia de señal de entrada
entre canales o diferencias de nivel logarítmico;
(b) coherencia entre canales entre las señales
de entrada;
(c) una relación de potencia entre las señales
de entrada de uno o más canales y una suma de potencias de las
señales de entrada de uno o más canales; y
(d) diferencias de fase o diferencias de tiempo
entre pares de señales.
7. Codificador según la reivindicación 6, en el
que en dicha fase (d) las diferencias son diferencias de fase
promedio.
8. Codificador según la reivindicación 6, en el
que el cálculo de al menos uno de las diferencias de fase, datos de
coherencia y las relaciones de potencia viene seguida de un análisis
de componente principal (PCA) y/o alineamiento de fase entre
canales para generar las N señales de salida.
9. Codificador según la reivindicación 1, en el
que al menos una de las señales de entrada transportadas en los N
canales corresponde a un canal de efectos.
10. Codificador según la reivindicación 1,
adaptado para generar las señales de salida en una forma adecuada
para reproducción utilizando sistemas de reproducción
convencionales.
11. Procedimiento de codificación de señales de
entrada transportadas en N canales de entrada en un codificador
multicanal para generar señales de salida correspondientes
transportadas en M canales de salida junto con datos paramétricos
de modo que M y N son enteros y N es mayor que M, incluyendo el
procedimiento las etapas de:
(a) realizar downmix sobre las señales de
entrada para generar señales de salida correspondientes; y
(b) procesar en un analizador las señales de
entrada cuando está realizándose downmix sobre ellas o por separado,
proporcionando dicho procesamiento dichos datos paramétricos
complementarios a las señales de salida, describiendo dichos datos
paramétricos diferencias mutuas entre los N canales de señales de
entrada para permitir sustancialmente la regeneración de los N
canales de señal de entrada a partir de los M canales de señal de
salida durante la descodificación, estando dichas señales de salida
en una forma compatible para la reproducción en descodificadores
que prevén N o menos de N canales; caracterizado por los
datos paramétricos que comprenden al menos un parámetro que
describe una potencia de una señal de canal central con respecto a
una potencia de una señal de canal derecho y una señal de canal
izquierdo para un downmix de dos canales de la señal de canal
central, la señal de canal derecho y la señal de canal izquierdo;
viniendo dado el al menos un parámetro por:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde un símbolo * representa un
conjugado
complejo,
donde C[k] representa la muestra k de la
señal C de canal central; D[k] representa la muestra k de la
señal D derecha, I[k] representa la muestra k de la señal I
izquierda y \varepsilon representa un peso que determina una
intensidad de la señal central en el downmix de dos canales.
12. Procedimiento según la reivindicación 11,
adaptado para codificar señales de entrada correspondientes a 5
canales y generar las señales de salida y datos paramétricos en una
forma compatible con uno o más de descodificadores estéreo de 2
canales, descodificadores de 3 canales y descodificadores de 4
canales correspondientes.
13. Procedimiento según la reivindicación 11, en
el que dicho procesamiento incluye convertir las señales de entrada
por medio de transformación de un dominio temporal a un dominio de
frecuencia.
14. Procedimiento según la reivindicación 13, en
el que al menos una de las señales de entrada se procesa para como
una secuencia de baldosas de tiempo-frecuencia para
generar las señales de salida.
15. Procedimiento según la reivindicación 14, en
el que las baldosas corresponden a ventanas de análisis superpuestas
entre sí.
16. Procedimiento según la reivindicación 11,
incluyendo el procedimiento una etapa de utilizar un codificador
para procesar las señales de entrada para generar M canales de datos
de audio intermedios para su inclusión en las señales de salida,
estando dispuesto el codificador para emitir información en los
datos paramétricos referida a al menos uno de:
(a) relaciones de potencia de señal de entrada
entre canales o diferencias de nivel logarítmico;
(b) coherencia entre canales entre las señales
de entrada;
(c) una relación de potencia entre las señales
de entrada de uno o más canales y una suma de potencias de las
señales de entrada de uno o más canales; y
(d) diferencias de fase o diferencias de tiempo
entre pares de señales.
17. Procedimiento según la reivindicación 16, en
el que las diferencias de potencia son diferencias de potencia
promedio.
18. Procedimiento según la reivindicación 16, en
el que el cálculo de al menos uno de la diferencia de fase, los
datos de coherencia y la relación de potencia viene seguido de un
análisis de componente principal (PCA) y/o alineamiento de fase
entre canales para generar las señales de salida.
19. Procedimiento según la reivindicación 11, en
el que al menos una de las señales de entrada transportadas en los
N canales corresponde a un canal de efectos.
20. Contenido de datos codificados que se genera
utilizando el procedimiento según la reivindicación 11.
21. Soporte de datos en el que se almacenan
datos codificados según la reivindicación 20.
22. Descodificador (800) que puede operarse para
descodificar datos (370, 430, 450, 480, 490, 690) de salida
generados por un codificador (10; 600) según la reivindicación 1,
comprendiendo dichos datos (370, 430, 450, 480, 490, 690) de salida
codificados M canales (480, 490) y datos (370, 430, 450, 690)
paramétricos asociados generados a partir de señales de entrada de
N canales de modo que M<N donde M y N son enteros, incluyendo el
descodificador (800) un procesador (810):
(a) para recibir los datos (370, 430, 450, 460,
490, 690) de salida codificados y convertirlos de un dominio de
tiempo a un dominio de frecuencia;
(b) para aplicar los datos paramétricos en el
dominio de frecuencia para extraer contenido de los M canales para
regenerar a partir de los M canales contenido de datos regenerado
correspondiente a señales de entrada de uno o más de N canales no
directamente incluidos en u omitidos de los datos de salida
codificados; y
(c) para procesar el contenido de datos
regenerado para emitir una o más de las señales de entrada
regeneradas de N canales en una o más salidas del descodificador;
caracterizado por los datos paramétricos que comprenden al
menos un parámetro que describe una potencia de una señal de canal
central con respecto a una potencia de una señal de canal derecho y
una señal de canal izquierdo para un downmix de dos canales de la
señal de canal central, la señal de canal derecho y la señal de
canal izquierdo; viniendo dado el al menos un parámetro por:
donde un símbolo * representa un
conjugado
complejo,
donde C[k] representa la muestra k de la
señal C de canal central; D[k] representa la muestra k de la
señal D derecha, I[k] representa la muestra k de la señal I
izquierda y \varepsilon representa un peso que determina una
intensidad de la señal central en el downmix de dos canales.
23. Descodificador (800) según la reivindicación
22, en el que dicho procesador (810) puede operarse para aplicar un
filtro de decorrelación pasa todo para obtener versiones
decorrelacionadas de señales para su uso en la regeneración de dicha
una o más señales de entrada de N canales en el descodificador.
24. Descodificador (800) según la reivindicación
23, en el que el procesador puede operarse para aplicar rotación de
codificador inversa para dividir señales de los M canales y
versiones decorrelacionadas de las mismas en sus componentes
constituyentes para regenerar dicha una o más señales de entrada de
N canales en el descodificador.
25. Descodificador (800) según la reivindicación
24, en el que dicho descodificador (800) puede operarse para
generar su una o más salidas (1300 a 1340) de descodificador
únicamente a partir de dichos datos (450, 480, 490) de salida
codificados recibidos en el descodificador (800).
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04101405 | 2004-04-05 | ||
EP04101405 | 2004-04-05 | ||
EP04102863 | 2004-06-22 | ||
EP04102863 | 2004-06-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2307160T3 true ES2307160T3 (es) | 2008-11-16 |
Family
ID=34962299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05718568T Active ES2307160T3 (es) | 2004-04-05 | 2005-03-25 | Codificador multicanal. |
Country Status (14)
Country | Link |
---|---|
US (1) | US7602922B2 (es) |
EP (1) | EP1735774B1 (es) |
JP (2) | JP5032977B2 (es) |
KR (1) | KR101158698B1 (es) |
CN (1) | CN102122509B (es) |
AT (1) | ATE395686T1 (es) |
BR (1) | BRPI0509113B8 (es) |
DE (1) | DE602005006777D1 (es) |
ES (1) | ES2307160T3 (es) |
MX (1) | MXPA06011361A (es) |
PL (1) | PL1735774T3 (es) |
RU (1) | RU2390857C2 (es) |
TW (1) | TWI393119B (es) |
WO (1) | WO2005098821A2 (es) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
MXPA06011397A (es) | 2004-04-05 | 2006-12-20 | Koninkl Philips Electronics Nv | Metodo, dispositivo, aparato codificador, aparato decodificador y sistema de audio. |
WO2006008697A1 (en) * | 2004-07-14 | 2006-01-26 | Koninklijke Philips Electronics N.V. | Audio channel conversion |
EP1858006B1 (en) * | 2005-03-25 | 2017-01-25 | Panasonic Intellectual Property Corporation of America | Sound encoding device and sound encoding method |
US7840401B2 (en) * | 2005-10-24 | 2010-11-23 | Lg Electronics Inc. | Removing time delays in signal paths |
KR100888474B1 (ko) | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
JP2009524099A (ja) * | 2006-01-18 | 2009-06-25 | エルジー エレクトロニクス インコーポレイティド | 符号化/復号化装置及び方法 |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
US7953604B2 (en) | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
KR100904438B1 (ko) | 2006-02-23 | 2009-06-24 | 엘지전자 주식회사 | 오디오 신호의 처리 방법 및 장치 |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8600740B2 (en) | 2008-01-28 | 2013-12-03 | Qualcomm Incorporated | Systems, methods and apparatus for context descriptor transmission |
EP2293292B1 (en) * | 2008-06-19 | 2013-06-05 | Panasonic Corporation | Quantizing apparatus, quantizing method and encoding apparatus |
KR101428487B1 (ko) * | 2008-07-11 | 2014-08-08 | 삼성전자주식회사 | 멀티 채널 부호화 및 복호화 방법 및 장치 |
KR101108061B1 (ko) * | 2008-09-25 | 2012-01-25 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치 |
US8258849B2 (en) | 2008-09-25 | 2012-09-04 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
WO2010036059A2 (en) | 2008-09-25 | 2010-04-01 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
US8346380B2 (en) | 2008-09-25 | 2013-01-01 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
EP2345027B1 (en) * | 2008-10-10 | 2018-04-18 | Telefonaktiebolaget LM Ericsson (publ) | Energy-conserving multi-channel audio coding and decoding |
JP5163545B2 (ja) | 2009-03-05 | 2013-03-13 | 富士通株式会社 | オーディオ復号装置及びオーディオ復号方法 |
US8000485B2 (en) * | 2009-06-01 | 2011-08-16 | Dts, Inc. | Virtual audio processing for loudspeaker or headphone playback |
KR101710113B1 (ko) * | 2009-10-23 | 2017-02-27 | 삼성전자주식회사 | 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법 |
EP2323130A1 (en) | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
US8942989B2 (en) | 2009-12-28 | 2015-01-27 | Panasonic Intellectual Property Corporation Of America | Speech coding of principal-component channels for deleting redundant inter-channel parameters |
EP2369861B1 (en) * | 2010-03-25 | 2016-07-27 | Nxp B.V. | Multi-channel audio signal processing |
JP5604933B2 (ja) * | 2010-03-30 | 2014-10-15 | 富士通株式会社 | ダウンミクス装置およびダウンミクス方法 |
ES2706490T3 (es) | 2010-08-25 | 2019-03-29 | Fraunhofer Ges Forschung | Un aparato para la codificación de una señal de audio que tiene una pluralidad de canales |
CN103262158B (zh) | 2010-09-28 | 2015-07-29 | 华为技术有限公司 | 对解码的多声道音频信号或立体声信号进行后处理的装置和方法 |
KR20120132342A (ko) * | 2011-05-25 | 2012-12-05 | 삼성전자주식회사 | 보컬 신호 제거 장치 및 방법 |
CN104428835B (zh) * | 2012-07-09 | 2017-10-31 | 皇家飞利浦有限公司 | 音频信号的编码和解码 |
US9288603B2 (en) * | 2012-07-15 | 2016-03-15 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding |
US9473870B2 (en) | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
KR20140016780A (ko) * | 2012-07-31 | 2014-02-10 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 방법 및 장치 |
ES2653975T3 (es) | 2013-07-22 | 2018-02-09 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de audio multicanal, codificador de audio multicanal, procedimientos, programa informático y representación de audio codificada mediante el uso de una decorrelación de señales de audio renderizadas |
EP2830333A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
KR102063790B1 (ko) * | 2014-09-24 | 2020-01-09 | 한국전자통신연구원 | 데이터 전송을 위한 도선의 수를 감소시키기 위한 데이터 전송 장치 및 그 방법 |
CN105897738B (zh) * | 2016-05-20 | 2017-02-22 | 电子科技大学 | 一种用于多信道环境的实时流编码方法 |
WO2018086946A1 (en) | 2016-11-08 | 2018-05-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder |
KR102615903B1 (ko) * | 2017-04-28 | 2023-12-19 | 디티에스, 인코포레이티드 | 오디오 코더 윈도우 및 변환 구현들 |
CN108009347B (zh) * | 2017-11-30 | 2021-06-22 | 南京理工大学 | 基于同步压缩联合改进广义s变换的时频分析方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK0520068T3 (da) * | 1991-01-08 | 1996-07-15 | Dolby Ray Milton | Koder/dekoder for flerdimensionale lydfelter |
US5982903A (en) * | 1995-09-26 | 1999-11-09 | Nippon Telegraph And Telephone Corporation | Method for construction of transfer function table for virtual sound localization, memory with the transfer function table recorded therein, and acoustic signal editing scheme using the transfer function table |
US5857026A (en) * | 1996-03-26 | 1999-01-05 | Scheiber; Peter | Space-mapping sound system |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
EP1062732B1 (en) * | 1999-01-07 | 2012-05-02 | Koninklijke Philips Electronics N.V. | Efficient coding of side information in a lossless encoder |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
US6480984B1 (en) * | 1999-06-23 | 2002-11-12 | Agere Systems Inc. | Rate (M/N) code encoder, detector, and decoder for control data |
US6208699B1 (en) * | 1999-09-01 | 2001-03-27 | Qualcomm Incorporated | Method and apparatus for detecting zero rate frames in a communications system |
US6970567B1 (en) * | 1999-12-03 | 2005-11-29 | Dolby Laboratories Licensing Corporation | Method and apparatus for deriving at least one audio signal from two or more input audio signals |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
JP2002175097A (ja) * | 2000-12-06 | 2002-06-21 | Yamaha Corp | 音声信号のエンコード/圧縮装置およびデコード/伸長装置 |
TW511340B (en) * | 2000-12-12 | 2002-11-21 | Elan Microelectronics Corp | Method and system for data loss detection and recovery in wireless communication |
US20030014579A1 (en) * | 2001-07-11 | 2003-01-16 | Motorola, Inc | Communication controller and method of transforming information |
AU2002318813B2 (en) * | 2001-07-13 | 2004-04-29 | Matsushita Electric Industrial Co., Ltd. | Audio signal decoding device and audio signal encoding device |
DE60317203T2 (de) * | 2002-07-12 | 2008-08-07 | Koninklijke Philips Electronics N.V. | Audio-kodierung |
JP3778358B2 (ja) * | 2003-05-01 | 2006-05-24 | 日本電信電話株式会社 | 音源分離方法、その装置及びプログラム |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
WO2006103581A1 (en) * | 2005-03-30 | 2006-10-05 | Koninklijke Philips Electronics N.V. | Scalable multi-channel audio coding |
-
2005
- 2005-03-25 MX MXPA06011361A patent/MXPA06011361A/es active IP Right Grant
- 2005-03-25 PL PL05718568T patent/PL1735774T3/pl unknown
- 2005-03-25 RU RU2006139048/09A patent/RU2390857C2/ru active
- 2005-03-25 ES ES05718568T patent/ES2307160T3/es active Active
- 2005-03-25 DE DE602005006777T patent/DE602005006777D1/de active Active
- 2005-03-25 KR KR1020067020276A patent/KR101158698B1/ko active IP Right Grant
- 2005-03-25 JP JP2007506877A patent/JP5032977B2/ja active Active
- 2005-03-25 EP EP05718568A patent/EP1735774B1/en active Active
- 2005-03-25 WO PCT/IB2005/051037 patent/WO2005098821A2/en active IP Right Grant
- 2005-03-25 US US10/599,559 patent/US7602922B2/en active Active
- 2005-03-25 CN CN201110035024.7A patent/CN102122509B/zh active Active
- 2005-03-25 BR BRPI0509113A patent/BRPI0509113B8/pt active IP Right Grant
- 2005-03-25 AT AT05718568T patent/ATE395686T1/de not_active IP Right Cessation
- 2005-04-01 TW TW094110564A patent/TWI393119B/zh active
-
2012
- 2012-04-17 JP JP2012093538A patent/JP5311597B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
KR101158698B1 (ko) | 2012-06-22 |
BRPI0509113A (pt) | 2007-08-28 |
JP2007531913A (ja) | 2007-11-08 |
US20070194952A1 (en) | 2007-08-23 |
JP2012191625A (ja) | 2012-10-04 |
JP5032977B2 (ja) | 2012-09-26 |
US7602922B2 (en) | 2009-10-13 |
DE602005006777D1 (de) | 2008-06-26 |
EP1735774A2 (en) | 2006-12-27 |
TWI393119B (zh) | 2013-04-11 |
KR20070001208A (ko) | 2007-01-03 |
WO2005098821A2 (en) | 2005-10-20 |
PL1735774T3 (pl) | 2008-11-28 |
EP1735774B1 (en) | 2008-05-14 |
MXPA06011361A (es) | 2007-01-16 |
BRPI0509113B8 (pt) | 2018-10-30 |
RU2006139048A (ru) | 2008-05-20 |
CN102122509B (zh) | 2016-03-23 |
WO2005098821A3 (en) | 2006-03-16 |
CN102122509A (zh) | 2011-07-13 |
BRPI0509113B1 (pt) | 2018-08-14 |
ATE395686T1 (de) | 2008-05-15 |
RU2390857C2 (ru) | 2010-05-27 |
TW200614150A (en) | 2006-05-01 |
JP5311597B2 (ja) | 2013-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2307160T3 (es) | Codificador multicanal. | |
US10455344B2 (en) | Compatible multi-channel coding/decoding | |
ES2313646T3 (es) | Codificacion y descodificacion de audio. | |
ES2378734T3 (es) | Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal | |
JP5156386B2 (ja) | 空間音声のパラメトリック符号化のためのコンパクトなサイド情報 | |
JP5118022B2 (ja) | オーディオ信号の符号化/復号化方法及び符号化/復号化装置 | |
JP5883561B2 (ja) | アップミックスを使用した音声符号器 | |
ES2682073T3 (es) | Codificación conjunta paramétrica de fuentes de audio | |
TWI508578B (zh) | 音訊編碼及解碼 | |
RU2409911C2 (ru) | Декодирование бинауральных аудиосигналов | |
JP4685925B2 (ja) | 適応残差オーディオ符号化 | |
JP4939933B2 (ja) | オーディオ信号符号化装置及びオーディオ信号復号化装置 | |
JP6978565B2 (ja) | マルチチャネル・オーディオ・コンテンツの符号化 | |
JP2006323314A (ja) | マルチチャネル音声信号をバイノーラルキュー符号化する装置 | |
BRPI0518507B1 (pt) | Informações auxiliares compactas para a codificação paramétrica de áudio espacial |