ES2313646T3 - Codificacion y descodificacion de audio. - Google Patents
Codificacion y descodificacion de audio. Download PDFInfo
- Publication number
- ES2313646T3 ES2313646T3 ES06727674T ES06727674T ES2313646T3 ES 2313646 T3 ES2313646 T3 ES 2313646T3 ES 06727674 T ES06727674 T ES 06727674T ES 06727674 T ES06727674 T ES 06727674T ES 2313646 T3 ES2313646 T3 ES 2313646T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- data
- channels
- improvement
- improvement data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
Codificador (10) de audio multicanal para codificar una señal de audio de N canales, comprendiendo el codificador (10) de audio multicanal: medios (110) para generar una primera señal de M canales para la señal de audio de N canales, siendo M menor que N; medios (115, 116, 117, 118) para generar primeros datos de mejora para la primera señal de M canales con respecto a la señal de audio de N canales, permitiendo reconstruir la señal de audio de N canales a partir de la primera señal de M canales; medios (121) para generar una segunda señal de M canales para la señal de audio de N canales; medios (123) de mejora para generar segundos datos de mejora para la segunda señal de M canales con respecto a la primera señal de M canales, los segundos datos de mejora comprenden características de la primera señal de M canales que permiten reconstruir al menos parte de la primera señal de M canales; medios para generar (120) una señal de salida codificada que comprende la segunda señal de M canales, los primeros datos de mejora y los segundos datos de mejora; y en el que los medios (123) de mejora están dispuestos para seleccionar dinámicamente entre generar los segundos datos de mejora como datos de mejora absolutos o como datos de mejora relativos con respecto a la segunda señal de M canales.
Description
Codificación y descodificación de audio.
La invención se refiere a codificación y/o
descodificación de audio para señales multicanal.
Una señal de audio multicanal es una señal de
audio que tiene dos o más canales de audio. Ejemplos bien conocidos
de señales de audio multicanal son las señales de audio estéreo de
dos canales y las señales de audio de canal 5.1 que tienen dos
canales de audio delanteros, dos canales de audio traseros, una
señal de audio central y un canal de mejora de bajas frecuencias
(LFE, Low Frequency Enhancement) adicional. Tales señales de
audio de canal 5.1 se utilizan en sistemas de DVD (Digital
Versatile Disc, disco versátil digital) y SACD (Super Audio
Compact Disc, disco compacto de super audio). Debido a la
popularidad creciente de material multicanal, está volviéndose más
importante la codificación eficaz de material multicanal.
En el campo de procesamiento de audio, es bien
conocido convertir un número de canales de audio en otro número de
canales de audio. Tal conversión puede realizarse por diversos
motivos. Por ejemplo, una señal de audio puede convertirse a otro
formato para proporcionar una experiencia al usuario mejorada. Por
ejemplo las grabaciones estéreo tradicionales sólo comprenden dos
canales mientras que los sistemas de audio avanzados modernos
normalmente utilizan cinco o seis canales, como en los populares
sistemas de sonido envolvente 5.1. En consecuencia, los dos canales
estéreo pueden convertirse en cinco o seis canales para aprovechar
completamente el sistema de audio avanzado.
Otro motivo para una conversión de canales es la
eficacia de codificación. Se ha descubierto que por ejemplo las
señales de audio de sonido envolvente pueden codificarse como
señales de audio de canal estéreo combinadas con un flujo de bits
de parámetros que describe las propiedades espaciales multicanal de
la señal de audio. El descodificador puede reproducir las señales
de audio de sonido envolvente con un grado de precisión muy
satisfactorio. De esta manera, pueden obtenerse ahorros sustanciales
de tasa de bits.
Se conoce un sistema de codificación de audio
multicanal 5.1-a-5.1. En este
sistema de codificación de audio conocido se codifica una señal de
audio de entrada 5.1 en y se representa por dos canales de downmix y
parámetros asociados. Las señales de downmix también se denominan
conjuntamente como downmix espacial. En el sistema conocido, el
downmix espacial forma una señal de audio estéreo que tiene una
imagen estéreo, es decir, en cuanto a calidad, comparable con un
downmix ITU fijo de los canales de entrada 5.1. Los usuarios que
tienen sólo equipos estéreo pueden escuchar este downmix estéreo
espacial, mientras que los oyentes con equipos de canal 5.1 pueden
escuchar la reproducción de canal 5.1 que se realiza utilizando este
downmix estéreo espacial y los parámetros asociados. El equipo de
canal 5.1 descodifica/reconstruye la señal de audio de canal 5.1 a
partir del downmix estéreo espacial (es decir la señal de audio
estéreo) y los parámetros asociados.
Sin embargo, un downmix estéreo espacial se
considera a menudo que es de calidad reducida comparado con una
señal estéreo original o una señal estéreo generada explícitamente.
Por ejemplo, los ingenieros de sonido profesionales tienden a
menudo a encontrar el downmix estéreo espacial algo sordo y poco
interesante. Por este motivo, a menudo se genera un downmix estéreo
artístico, que difiere del downmix estéreo espacial. Por ejemplo se
añaden fuentes o reverberación adicionales, se ensancha la imagen
estéreo, etc. Con el fin de que los usuarios puedan disfrutar del
downmix estéreo artístico, este downmix artístico, en lugar del
downmix espacial, puede transmitirse a través de un medio de
transmisión o almacenarse en un medio de almacenamiento. Sin
embargo, puesto que los datos paramétricos para generar la señal 5.1
de la señal estéreo se basan en la señal de downmix original, este
enfoque afecta seriamente a la calidad de la reproducción de señal
de audio de canal 5.1. Específicamente, la señal de audio de canal
5.1 de entrada se codificaba en un downmix estéreo espacial y
parámetros asociados. Sustituyendo el downmix estéreo espacial por
el downmix estéreo artístico, el downmix estéreo espacial ya no
puede estar disponible en el extremo de descodificación del sistema
y no es posible una reconstrucción de alta calidad de la señal de
audio de canal 5.1.
Un posible enfoque para mejorar la calidad de la
señal de audio de canal 5.1 es incluir datos adicionales de la
señal de downmix estéreo espacial. Por ejemplo, además del downmix
estéreo artístico, la señal de downmix estéreo espacial puede
incluirse en el mismo flujo de bits o puede transmitirse en
paralelo. Sin embargo, esto aumenta sustancialmente la tasa de
datos y por tanto los requisitos de almacenamiento o ancho de banda
de comunicación y degradará la calidad para relación de tasa de
datos para una señal multicanal codificada.
Un esquema conocido para realizar downmix sobre
una señal de audio multicanal se da a conocer por HERRE ET
AL: "MP3 Surround: Efficient and Compatible Coding of Multi
Channel Audio" AUDIO ENGINEERING SOCIETY CONVENTION PAPER,
NUEVA YORK, NY, EE.UU, 8 de mayo de 2004
(08-05-2004), páginas
1-14, XP002350798.
Por tanto, sería ventajoso un sistema de
codificación/descodificación mejorado para audio multicanal y en
particular un sistema que permita un rendimiento, calidad y/o
calidad para relación de tasa de datos mejorados.
En consecuencia, la invención según las
reivindicaciones adjuntas busca preferiblemente mitigar, paliar o
eliminar una a más de las desventajas mencionadas anteriormente por
separado o en cualquier combinación.
\newpage
Según un primer aspecto de la invención se
proporciona un codificador de audio multicanal para codificar una
señal de audio de N canales, comprendiendo el codificador de audio
multicanal: medios para generar una primera señal de M canales para
la señal de audio de N canales, siendo M menor que N; medios para
generar primeros datos de mejora para la primera señal de M canales
con respecto a la señal de audio de N canales; medios para generar
una segunda señal de M canales para la señal de audio de N canales;
medios de mejora para generar segundos datos de mejora para la
segunda señal de M canales con respecto a la primera señal de M
canales; medios para generar una señal de salida codificada que
comprende la segunda señal de M canales, los primeros datos de
mejora y los segundos datos de mejora; y en el que los medios de
mejora están dispuestos para seleccionar dinámicamente entre
generar los segundos datos de mejora como datos de mejora absolutos
o como datos de mejora relativos con respecto a la segunda señal de
M canales.
La invención puede permitir una codificación
eficaz de una señal multicanal. En particular, puede conseguirse
una codificación eficaz con una calidad aumentada para relación de
tasa de datos. La invención puede permitir que una señal de M
canales sustituya a otra señal de M canales con impacto reducido
sobre la generación multicanal basándose en datos de mejora con
respecto a la primera señal de M canales. Específicamente, puede
transmitirse un downmix artístico en lugar de un downmix espacial
mientras se permite una recreación multicanal eficaz en un
descodificador basándose en datos de mejora asociados con el downmix
espacial. La selección dinámica de datos de mejora permite un
tamaño reducido significativamente de los datos de mejora y/o una
calidad mejorada de la señal que puede
generarse.
generarse.
Los datos de mejora absolutos describen la
primera señal de M canales sin referirse a la segunda señal de M
canales mientras que los datos de mejora relativos describen la
primera señal de M canales con referencia a la segunda señal de M
canales.
Los medios para generar la primera y/o segunda
señal de M canales pueden generar las señales procesando la señal
de N canales o por ejemplo recibiendo la(s) señal(es)
de M canales desde fuentes internas o externas.
Según una propiedad opcional de la invención,
los medios de mejora están dispuestos para seleccionar entre los
datos de mejora absolutos y los datos de mejora relativos en
respuesta a una característica de la señal de N canales.
Esto puede permitir un rendimiento eficaz y en
particular puede dotar a una señal codificada de calidad mejorada
para relación de tasa de datos. La selección puede realizarse por
ejemplo evaluando uno o más parámetros derivados a partir de una
característica de un segmento de la señal de N canales y
específicamente basándose en uno o más parámetros derivados a
partir de la primera y/o segunda señal de M canales (que pueden
derivarse a partir de la señal de N canales).
Según una propiedad opcional de la invención,
los medios de mejora están dispuestos para seleccionar entre los
datos de mejora absolutos y los datos de mejora relativos en
respuesta a una característica relativa de los datos de mejora
absolutos y los datos de mejora relativos.
Esto puede permitir un rendimiento eficaz y en
particular puede dotar a una señal codificada de calidad mejorada
para relación de tasa de datos. Como alternativa o adicionalmente,
puede permitir una implementación de baja complejidad y/o
eficaz.
Según una propiedad opcional de la invención, la
característica relativa es una energía de señal de los datos de
mejora absolutos con respecto a una energía de señal de los datos de
mejora relativos.
Esto puede permitir un rendimiento eficaz y en
particular puede dotar a una señal codificada de calidad mejorada
para relación de tasa de datos. Como alternativa o adicionalmente,
puede permitir una implementación de baja complejidad y/o eficaz.
Específicamente, los medios de mejora pueden seleccionar el tipo de
datos de mejora que tiene la energía de señal más baja.
Según una propiedad opcional de la invención,
los medios de mejora están dispuestos para dividir la segunda señal
de M canales en bloques de señal y para seleccionar individualmente
entre los datos de mejora absolutos y los datos de mejora relativos
para cada bloque de señal.
Esto puede permitir un rendimiento eficaz y en
particular puede dotar a una señal codificada de calidad mejorada
para relación de tasa de datos. Como alternativa o adicionalmente,
puede permitir una implementación de baja complejidad y/o eficaz.
Los bloques de señal pueden dividirse en el dominio del tiempo y/o
la frecuencia y cada bloque de señal puede comprender
específicamente un grupo de losas de tiempo/frecuencia. La división
en bloques de señal puede aplicarse a la primera señal de M canales
y/o la señal de N canales.
Según una propiedad opcional de la invención,
los medios de mejora están dispuestos para seleccionar entre los
datos de mejora absolutos y los datos de mejora relativos para un
bloque de señal basándose sólo en características asociadas con el
bloque de señal.
Esto puede permitir un rendimiento eficaz y en
particular puede dotar a una señal codificada de calidad mejorada
para relación de tasa de datos. Como alternativa o adicionalmente,
puede permitir una implementación de baja complejidad y/o eficaz.
Específicamente, los medios de mejora pueden seleccionar el tipo de
datos de mejora que tiene la energía de señal más baja.
Según una propiedad opcional de la invención,
los medios de mejora están dispuestos para generar los datos de
mejora como una combinación de los datos de mejora absolutos y los
datos de mejora relativos durante un intervalo de tiempo de
conmutación de una conmutación entre generar los datos de mejora
como datos de mejora absolutos y como datos de mejora
relativos.
Esto puede permitir una conmutación mejorada y
puede reducir en particular los artefactos asociados con la
conmutación. Puede conseguirse una calidad de sonido mejorada. La
combinación durante un intervalo de tiempo de conmutación puede
aplicarse cuando se conmuta desde datos de mejora absolutos a datos
de mejora relativos y/o de datos de mejora relativos a absolutos.
La combinación puede conseguirse utilizando una técnica de
solapamiento y adición.
Según una propiedad opcional de la invención, la
combinación comprende una interpolación entre los datos de mejora
absolutos y los datos de mejora relativos.
Esto puede permitir una implementación práctica
y eficaz con alta calidad. Puede conseguirse una calidad de sonido
mejorada.
Según una propiedad opcional de la invención,
los medios para generar la señal de salida codificada están
dispuestos para incluir datos que indican si se utilizan datos de
mejora relativos o datos de mejora absolutos.
Esto puede permitir un rendimiento eficaz y en
particular puede dotar a una señal codificada de calidad mejorada
para relación de tasa de datos. Como alternativa o adicionalmente,
puede permitir una implementación de baja complejidad y/o eficaz.
Los datos de indicación pueden incluir específicamente una
indicación de selección para cada bloque de señal.
Según una propiedad opcional de la invención,
los segundos datos de mejora comprenden una primera parte de datos
de mejora y una segunda parte de datos de mejora, proporcionando la
segunda parte una representación de calidad superior de la primera
señal de M canales que la primera parte.
Esto puede permitir un rendimiento eficaz y en
particular puede dotar a una señal codificada de calidad mejorada
para relación de tasa de datos. La primera parte puede tener una
tasa de datos inferior que la segunda parte. La segunda parte puede
comprender datos que permiten de manera más precisa que un
descodificador recree la primera señal de M canales.
Según una propiedad opcional de la invención,
los medios de mejora están dispuestos para seleccionar dinámicamente
sólo entre generar la segunda parte como datos de mejora absolutos
o como datos de mejora relativos.
Esto puede permitir un rendimiento eficaz y en
particular puede dotar a una señal codificada de calidad mejorada
para relación de tasa de datos.
Según una propiedad opcional de la invención,
los medios de mejora están dispuestos para generar datos relativos
de la segunda parte con respecto a una señal de referencia generada
aplicando datos de mejora de la primera parte a la primera señal de
M canales.
Esto puede permitir un rendimiento eficaz y en
particular puede dotar a una señal codificada de calidad mejorada
para relación de tasa de datos.
Según otro aspecto de la invención, se
proporciona un descodificador de audio multicanal para descodificar
una señal de audio de N canales, comprendiendo el descodificador de
audio multicanal: medios para recibir una señal de audio codificada
que comprende una primera señal de M canales para la señal de audio
de N canales, siendo M menor que N, primeros datos de mejora para
la expansión multicanal, siendo los primeros datos de mejora con
respecto a una segunda señal de M canales diferente de la primera
señal de M canales; segundos datos de mejora para la primera señal
de M canales con respecto a la segunda señal de M canales,
comprendiendo los segundos datos de mejora datos de mejora
absolutos y datos de mejora relativos con respecto a la primera
señal de M canales, y datos de indicación indicativos de si los
segundos datos de mejora para un bloque de señal son datos de
mejora absolutos o datos de mejora relativos; medios de generación
para generar una señal de expansión multicanal de M canales en
respuesta a la primera señal de M canales y los segundos datos de
mejora; y medios para generar una señal descodificada de N canales
en respuesta a la señal de expansión multicanal de M canales y los
primeros datos de mejora; y en el que los medios de generación están
dispuestos para seleccionar entre aplicar los segundos datos de
mejora como datos de mejora absolutos o datos de mejora relativos en
respuesta a los datos de indicación.
La invención puede permitir una descodificación
de rendimiento alto y eficaz de una señal multicanal. En particular,
puede conseguirse una codificación eficaz de una señal con calidad
mejorada para una tasa de datos dada. La invención también puede
permitir que una señal de M canales sustituya a otra señal de M
canales con impacto reducido sobre la generación multicanal
basándose en datos de mejora con respecto a la primera señal de M
canales. Específicamente, puede transmitirse un downmix artístico en
lugar de un downmix espacial mientras se permite una recreación
multicanal eficaz en el descodificador basándose en datos de mejora
asociados con el downmix espacial.
Los datos de mejora absolutos describen la
segunda señal de M canales sin referirse a la primera señal de M
canales mientras que los datos de mejora relativos describen la
segunda señal de M canales con referencia a la primera señal de M
canales.
Según una propiedad opcional de la invención,
los medios de generación están dispuestos para aplicar los segundos
datos de mejora a la primera señal de M canales en el dominio del
tiempo.
Esto puede permitir un rendimiento eficaz y en
particular puede proporcionar una señal descodificada con calidad
mejorada para una tasa de datos dada. Como alternativa o
adicionalmente, puede permitir una implementación de baja
complejidad y/o eficaz.
Según una propiedad opcional de la invención,
los medios de generación están dispuestos para aplicar los segundos
datos de mejora a la primera señal de M canales en el dominio de la
frecuencia.
Esto puede permitir un rendimiento eficaz y en
particular puede proporcionar una señal descodificada con calidad
mejorada para una tasa de datos dada. Como alternativa o
adicionalmente, puede permitir una implementación de baja
complejidad y/o eficaz.
En particular, en muchas realizaciones, la
aplicación del dominio de la frecuencia puede reducir el número
requerido de transformadas de tiempo a frecuencia. El dominio de la
frecuencia puede ser por ejemplo un dominio de banco de filtros
espejo en cuadratura (QMF, Quadrature Mirror Filterbank) o de
transformada de coseno discreta modificada (MDCT, Modified
Discrete Cosine Transform).
Según una propiedad opcional de la invención,
los segundos datos de mejora comprenden una primera parte de datos
de mejora y una segunda parte de datos de mejora, proporcionando la
segunda parte una representación de calidad superior de la primera
señal de M canales que la primera parte.
Esto puede permitir un rendimiento eficaz y en
particular puede proporcionar una señal descodificada con calidad
mejorada para una tasa de datos dada. Como alternativa o
adicionalmente, puede permitir una implementación de baja
complejidad y/o eficaz. La segunda parte puede comprender datos que
permiten de manera más precisa que un descodificador recree la
primera señal de M canales.
Según una propiedad opcional de la invención,
los medios de generación están dispuestos para seleccionar sólo
entre aplicar segundos datos de mejora de la segunda parte como
datos de mejora absolutos o datos de mejora relativos.
Esto puede permitir un rendimiento eficaz y en
particular puede proporcionar una señal descodificada con calidad
mejorada para una tasa de datos dada. Como alternativa o
adicionalmente, puede permitir una implementación de baja
complejidad y/o eficaz.
Según una propiedad opcional de la invención,
los medios de generación están dispuestos para generar la expansión
multicanal de M canales aplicando datos de mejora relativos de la
segunda parte a una señal generada aplicando datos de mejora de la
primera parte a la primera señal de M canales.
Esto puede permitir un rendimiento eficaz y en
particular puede proporcionar una señal descodificada con calidad
mejorada para una tasa de datos dada. Como alternativa o
adicionalmente, puede permitir una implementación de baja
complejidad y/o eficaz.
Según otro aspecto de la invención, se
proporciona un procedimiento de codificación de una señal de audio
de N canales, comprendiendo el procedimiento: generar una primera
señal de M canales para la señal de audio de N canales, siendo M
menor que N; generar primeros datos de mejora para la primera señal
de M canales con respecto a la señal de audio de N canales; generar
una segunda señal de M canales para la señal de audio de N canales;
generar segundos datos de mejora para la segunda señal de M canales
con respecto a la primera señal de M canales; generar una señal de
salida codificada que comprende la segunda señal de M canales, los
primeros datos de mejora y los segundos datos de mejora; y en el
que la generación de los segundos datos de mejora comprende
seleccionar dinámicamente entre generar los segundos datos de mejora
como datos de mejora absolutos o como datos de mejora relativos con
respecto a la segunda señal de M canales.
Según otro aspecto de la invención, se
proporciona un procedimiento de descodificación de una señal de
audio de N canales, comprendiendo el procedimiento: recibir una
señal de audio codificada que comprende una primera señal de M
canales para la señal de audio de N canales, siendo M menor que N,
primeros datos de mejora para la expansión multicanal, siendo los
primeros datos de mejora con respecto a una segunda señal de M
canales diferente de la primera señal de M canales; segundos datos
de mejora para la primera señal de M canales con respecto a la
segunda señal de M canales, comprendiendo los segundos datos de
mejora datos de mejora absolutos y datos de mejora relativos con
respecto a la primera señal de M canales, y datos de indicación
indicativos de si los segundos datos de mejora para un bloque de
señal son datos de mejora absolutos o datos de mejora relativos;
generar una señal de expansión multicanal de M canales en respuesta
a la primera señal de M canales y los segundos datos de mejora; y
generar una señal descodificada de N canales en respuesta a la señal
de expansión multicanal de M canales y los primeros datos de
mejora; y en el que la generación de la señal de expansión
multicanal de M canales comprende seleccionar entre aplicar los
segundos datos de mejora como datos de mejora absolutos o datos de
mejora relativos en respuesta a los datos de indicación.
Según otro aspecto de la invención, se
proporciona una señal de audio multicanal codificada para una señal
de audio de N canales que comprende: datos de señal de M canales
para la señal de audio de N canales, siendo M menor que N; primeros
datos de mejora para la expansión multicanal, siendo los primeros
datos de mejora con respecto a una segunda señal de M canales
diferente de la primera señal de M canales; segundos datos de
mejora para la primera señal de M canales con respecto a la segunda
señal de M canales, comprendiendo los segundos datos de mejora
datos de mejora absolutos y datos de mejora relativos con respecto a
la primera señal de M canales; y datos de indicación indicativos de
si los segundos datos de mejora para un bloque de señal son datos
de mejora absolutos o datos de mejora relativos.
Según otro aspecto de la invención, se
proporciona un medio de almacenamiento que tiene almacenado en el
mismo una señal tal como se describió anteriormente.
Según otro aspecto de la invención, se
proporciona un transmisor para transmitir una señal de audio
multicanal codificada, comprendiendo el transmisor un codificador
de audio multicanal tal como se describió anteriormente.
Según otro aspecto de la invención, se
proporciona un receptor para recibir una señal de audio multicanal,
comprendiendo el receptor un descodificador de audio multicanal tal
como se describió anteriormente.
Según otro aspecto de la invención, se
proporciona un sistema de transmisión que comprende un transmisor
para transmitir una señal de audio multicanal codificada a través
de un canal de transmisión a un receptor, comprendiendo el
transmisor un codificador de audio multicanal tal como se describió
anteriormente y comprendiendo el receptor un descodificador de
audio multicanal tal como se describió anteriormente.
Según otro aspecto de la invención, se
proporciona un procedimiento de transmisión de una señal de audio
multicanal codificada, comprendiendo el procedimiento codificar una
señal de audio de N canales, en el que la codificación comprende:
generar una primera señal de M canales para la señal de audio de N
canales, siendo M menor que N; generar primeros datos de mejora
para la primera señal de M canales con respecto a la señal de audio
de N canales; generar una segunda señal de M canales para la señal
de audio de N canales; generar segundos datos de mejora para la
segunda señal de M canales con respecto a la primera señal de M
canales; generar una señal de salida codificada que comprende la
segunda señal de M canales, los primeros datos de mejora y los
segundos datos de mejora; y en el que la generación de los segundos
datos de mejora comprende seleccionar dinámicamente entre generar
los segundos datos de mejora como datos de mejora absolutos o como
datos de mejora relativos con respecto a la segunda señal de M
canales.
Según otro aspecto de la invención, se
proporciona un procedimiento de recepción de una señal de audio
multicanal codificada, comprendiendo el procedimiento descodificar
la señal de audio multicanal codificada, comprendiendo la
descodificación recibir la señal de audio multicanal codificada que
comprende una primera señal de M canales para la señal de audio de
N canales, siendo M menor que N, primeros datos de mejora para la
expansión multicanal, siendo los primeros datos de mejora con
respecto a una segunda señal de M canales diferente de la primera
señal de M canales; segundos datos de mejora para la primera señal
de M canales con respecto a la segunda señal de M canales,
comprendiendo los segundos datos de mejora datos de mejora absolutos
y datos de mejora relativos con respecto a la primera señal de M
canales, y datos de indicación indicativos de si los segundos datos
de mejora para un bloque de señal son datos de mejora absolutos o
datos de mejora relativos; generar una señal de expansión
multicanal de M canales en respuesta a la primera señal de M canales
y los segundos datos de mejora; y generar una señal descodificada
de N canales en respuesta a la señal de expansión multicanal de M
canales y los primeros datos de mejora; y en el que la generación de
la señal de expansión multicanal de M canales comprende seleccionar
entre aplicar los segundos datos de mejora como datos de mejora
absolutos o datos de mejora relativos en respuesta a los datos
de
indicación.
indicación.
Según otro aspecto de la invención, se
proporciona un procedimiento de transmisión y recepción de una señal
de audio, comprendiendo el procedimiento: codificar una señal de
audio de N canales, en el que la codificación comprende: generar
una primera señal de M canales para la señal de audio de N canales,
siendo M menor que N, generar primeros datos de mejora para la
primera señal de M canales con respecto a la señal de audio de N
canales, generar una segunda señal de M canales para la señal de
audio de N canales, generar segundos datos de mejora para la
segunda señal de M canales con respecto a la primera señal de M
canales, comprendiendo la generación de los segundos datos de
mejora seleccionar dinámicamente entre generar los segundos datos de
mejora como datos de mejora absolutos o como datos de mejora
relativos con respecto a la segunda señal de M canales que genera
una señal de salida codificada que comprende la segunda señal de M
canales, los primeros datos de mejora y los segundos datos de
mejora; transmitir la señal de salida codificada desde un transmisor
hasta un receptor; recibir, en el receptor, la señal de salida
codificada; descodificar la señal de salida codificada donde la
descodificación comprende: generar una señal de expansión multicanal
de M canales en respuesta a la segunda señal de M canales y los
segundos datos de mejora, comprendiendo la generación de la señal de
expansión multicanal de M canales seleccionar entre aplicar los
segundos datos de mejora como datos de mejora absolutos o datos de
mejora relativos, y generar una señal descodificada de N canales en
respuesta a la señal de expansión multicanal de M canales y los
primeros datos de mejora.
Según otro aspecto de la invención, se
proporciona un producto de programa informático operativo para hacer
que un procesador realice las etapas del procedimiento descrito
anteriormente.
Según otro aspecto de la invención, se
proporciona a grabador de audio multicanal que comprende un
codificador de audio multicanal tal como se describió
anteriormente.
Según otro aspecto de la invención, se
proporciona un reproductor (60) de audio multicanal que comprende un
descodificador de audio multicanal tal como se describió
anteriormente.
Estos y otros aspectos, propiedades, y ventajas
de la invención resultarán evidentes a partir de y se aclararán con
referencia a la(s) realización/realizaciones descritas a
continuación en el presente documento.
Se describirán realizaciones de la invención,
sólo a modo de ejemplo, con referencia a los dibujos, en los
que:
La figura 1 muestra un diagrama de bloques de un
codificador de audio multicanal según algunas realizaciones de la
invención;
La figura 2 muestra un diagrama de bloques de un
descodificador de audio multicanal según algunas realizaciones de
la invención;
La figura 3 muestra un diagrama de bloques de un
sistema de transmisión según algunas realizaciones de la
invención;
La figura 4 muestra un diagrama de bloques de un
reproductor/grabador de audio multicanal según algunas realizaciones
de la invención;
La figura 5 muestra un diagrama de bloques de un
codificador de audio multicanal según algunas realizaciones de la
invención;
La figura 6 muestra un diagrama de bloques de un
generador de datos de mejora según algunas realizaciones de la
invención;
La figura 7 muestra un diagrama de bloques de un
descodificador de audio multicanal según algunas realizaciones de
la invención;
La figura 8 muestra un diagrama de bloques de
elementos de un descodificador de audio multicanal;
La figura 9 muestra un diagrama de bloques de
elementos de un descodificador de audio multicanal según algunas
realizaciones de la invención;
La figura 10 muestra un diagrama de bloques de
elementos de un descodificador de audio multicanal según algunas
realizaciones de la invención; y
La figura 11 muestra un diagrama de bloques de
elementos de un descodificador de audio multicanal según algunas
realizaciones de la invención.
La siguiente descripción se centra en
realizaciones de la invención aplicables a un codificador 5.1 a 2
y/o un descodificador 2 a 5.1. Sin embargo, se apreciará que la
invención no está limitada a esta aplicación.
La figura 1 muestra un diagrama de bloques de
una realización de un codificador 10 de audio multicanal según
algunas realizaciones de la invención. Este codificador 10 de audio
multicanal está dispuesto para codificar N señales 101 de audio en
M señales 102 de audio y datos 104, 105 paramétricos asociados. En
este caso, M y N son enteros, con N > M y M \geq 1. Un ejemplo
del codificador 10 de audio multicanal es un codificador 5.1 a 2 en
el que N es igual a 6, es decir 5+1 canales, y M es igual a 2. Tal
codificador de audio multicanal codifica una señal de audio de
entrada de canal 5.1 en una señal de audio de salida de 2 canales,
por ejemplo una señal de audio de salida estéreo, y parámetros
asociados. Otros ejemplos del codificador 10 de audio multicanal
son codificadores 5.1 a 1, 6.1 a 2, 6.1 a 1, 7.1 a 2 y 7.1 a 1.
También son posibles codificadores que tienen otros valores para N
y M siempre que N sea mayor que M y siempre que M sea mayor que o
igual a 1.
El codificador 10 comprende una primera unidad
110 de codificación y acoplada a la misma una segunda unidad 120 de
codificación. La primera unidad 110 de codificación recibe las N
señales 101 de audio de entrada y codifica las N señales 101 de
audio en las M señales 102 de audio y primeros datos 104
paramétricos asociados. Las M señales 102 de audio y los primeros
datos 104 paramétricos asociados representan las N señales 101 de
audio. La codificación de las N señales 101 de audio en las M
señales 102 de audio según se realiza por la primera unidad 110
puede también puede denominarse como realización de downmix y las M
señales 102 de audio también pueden denominarse como downmix 102
espacial. La unidad 110 puede ser un codificador de audio multicanal
paramétrico convencional que codifica una señal 101 de audio
multicanal en una señal 102 de audio de downmix mono o estéreo y
parámetros asociados 104. Los parámetros asociados 104 permiten que
un descodificador reconstruya la señal 101 de audio multicanal a
partir de la señal 102 de audio de downmix mono o estéreo. Se
observa que el downmix 102 también puede tener más de dos
canales.
La primera unidad 110 suministra el downmix 102
espacial a la segunda unidad 120. La segunda unidad 120 genera, a
partir del downmix 102 espacial, segundos datos de mejora en la
forma de segundos datos 105 paramétricos asociados. Los segundos
datos 105 paramétricos asociados representan el downmix 102
espacial, es decir estos parámetros 105 comprenden características
o propiedades del downmix 102 espacial que permiten que un
descodificador reconstruya al menos parte del downmix 102 espacial,
por ejemplo sintetizando una señal que se parece al downmix 102
espacial. Los datos paramétricos asociados comprenden los primeros y
segundos datos 104 y 105 paramétricos asociados.
Los segundos datos 105 paramétricos asociados
comprenden parámetros de modificación que permiten una
reconstrucción del downmix 102 espacial a partir de K (=M) señales
103 de audio adicionales. De esta manera, un descodificador puede
realizar una reconstrucción incluso mejor del downmix 102 espacial.
Esta reconstrucción puede realizarse basándose en un downmix 103
alternativo, es decir las K señales 103 de audio adicionales, tal
como un downmix artístico. Un descodificador puede aplicar los
parámetros de modificación a la señal 103 de downmix alternativo de
modo que se parezca más al downmix 102 espacial.
La segunda unidad 120 puede recibir en sus
entradas el downmix 103 alternativo. El downmix 103 alternativo
puede recibirse desde una fuente externa al codificador 10 (tal como
se muestra en la figura 1) o, como alternativa, el downmix 103
alternativo puede generarse dentro del codificador 10 (no mostrado),
por ejemplo a partir de las N señales 101 de audio. La segunda
unidad 120 puede comparar al menos parte del downmix 102 espacial
con el downmix 103 alternativo y generar parámetros 105 de
modificación que representan una diferencia entre el downmix 102
espacial y el downmix 103 alternativo, por ejemplo una diferencia
entre una propiedad del downmix 102 espacial y una propiedad del
downmix 103 alternativo. En el ejemplo, el downmix 103 alternativo
es específicamente un downmix artístico asociado con el downmix
espacial.
En el ejemplo, la segunda unidad 120 puede
generar además los parámetros de modificación como valores absolutos
que representan directamente el downmix 102 espacial sin ninguna
referencia al downmix 103 alternativo. Además, la segunda unidad
120 comprende funcionalidad para seleccionar entre los parámetros de
modificación relativos y absolutos para la señal de salida de
codificador. Específicamente, esta selección se realiza
dinámicamente y puede realizarse para bloques de señal individuales
dependiendo de las características de los datos parámetricos y/o la
señal.
Además, la segunda unidad 120 puede comprender
funcionalidad para incluir una indicación de qué parámetros de
modificación (absolutos o relativos) se han utilizado para
diferentes secciones de la señal codificada. Por ejemplo, para cada
bloque de señal, puede incluirse un bit de datos para indicar si se
han incluidos datos paramétricos relativos o absolutos para ese
bloque de señal.
Los parámetros 105 de modificación comprenden
preferiblemente (una diferencia entre) una o más propiedades de
señal estadísticas tales como varianza, covarianza y correlación, o
una relación de estas propiedades, o de la(s) (diferencia
entre la(s)) señal(es) de downmix. Se observa que la
varianza de una señal es equivalente a la energía o potencia de esa
señal. Estas propiedades de señal estadísticas permiten una buena
reconstrucción del downmix espacial.
La figura 2 muestra un diagrama de bloques de
una realización de un descodificador 20 de audio multicanal según
algunas realizaciones de la invención. El descodificador 20 está
dispuesto para descodificar K señales 103 de audio y datos 104, 105
paramétricos asociados en N señales de audio 203. En este caso, K y
N son enteros, con N > K y K \geq 1. Las K señales 103 de
audio, es decir el downmix 103 alternativo, y los datos 104, 105
paramétricos asociados representan las N señales de audio 203, es
decir la señal 203 de audio multicanal. Un ejemplo del
descodificador 20 de audio multicanal es un descodificador 2 a 5.1
en el que N es igual a 6, es decir 5+1 canales, y K es igual a 2.
Tal descodificador de audio multicanal descodifica una señal de
audio de entrada de 2 canales, por ejemplo una señal de audio de
entrada estéreo, y parámetros asociados en una señal de audio de
salida de canal 5.1. Otros ejemplos del descodificador 20 de audio
multicanal son descodificadores 1 a 5.1, 2 a 6.1, 1 a 6.1, 2 a 7.1
y 1 a 7.1. También son posibles descodificadores que tienen otros
valores para N y K siempre que N sea mayor que K y siempre que K
sea mayor que o igual a 1.
El descodificador 20 de audio multicanal
comprende una primera unidad 210 y acoplada a la misma una segunda
unidad 220. La primera unidad 210 recibe el downmix 103 alternativo
y datos de mejora en la forma de parámetros 105 de modificación y
reconstruye M señales 202 de audio adicionales, es decir el downmix
202 espacial o una aproximación del mismo, a partir del downmix 103
alternativo y los parámetros 105 de modificación. En este caso, M
es un entero, con M \geq 1. Los parámetros 105 de modificación
representan el downmix 202 espacial. La primera unidad 210 está
dispuesta específicamente para determinar si los parámetros 105 de
modificación son parámetros de modificación absolutos o relativos y
para aplicar los parámetros en consecuencia. Específicamente, la
primera unidad 210 puede determinar si los parámetros 105 de
modificación para bloques de señal individuales son parámetros
relativos o absolutos basándose en datos explícitos en el flujo de
bits recibido. Por ejemplo, puede incluirse un único bit de datos
para cada bloque de señal que indica si los parámetros son
parámetros de modificación absolutos o relativos en ese bloque de
señal.
La segunda unidad 220 recibe el downmix 202
espacial desde la primera unidad 210 y parámetros de modificación
104. La segunda unidad 220 descodifica el downmix 202 espacial y
parámetros de modificación 104 en la señal 203 de audio multicanal.
La segunda unidad 220 puede ser un descodificador de audio
multicanal paramétrico convencional que descodifica una señal 202
de audio de downmix mono o estéreo y parámetros asociados 104 en
una señal 203 de audio multicanal.
La primera unidad 210 puede estar dispuesta para
determinar si es necesario o deseable reconstruir la señal 202 a
partir de la señal 103 de entrada. Tal reconstrucción puede no ser
aplicable cuando la señal 202 de downmix espacial se suministra a
la primera unidad 210 en lugar del downmix 103 alternativo. La
primera unidad 210 puede determinar esto generando a partir de la
señal 103 de entrada propiedades de señal similares o iguales que
las comprendidas en los parámetros 105 de modificación y comparando
estas propiedades de señal generadas con los parámetros 105 de
modificación. Si esta comparación muestra que las propiedades de
señal generadas son iguales o sustancialmente iguales a los
parámetros 105 de modificación entonces la señal 103 de entrada se
parece suficientemente a la señal 202 de downmix espacial y la
primera unidad 210 puede reenviar la señal 103 de entrada a la
segunda unidad 220. Si la comparación muestra que las propiedades de
señal generadas no son iguales a o sustancialmente iguales a los
parámetros 105 de modificación entonces la señal 103 de entrada no
se parece suficientemente a la señal 202 de downmix espacial y la
primera unidad 210 puede reconstruir/aproximar la señal 202 de
downmix espacial a partir de la señal 103 de entrada y los
parámetros 105 de modificación.
La primera unidad 210 puede generar, a partir
del downmix alternativo, propiedades/parámetros de modificación
adicionales que representan el downmix 103 alternativo. En tal caso,
la primera unidad 210 puede reconstruir el downmix 202 espacial a
partir del downmix 103 alternativo y (una diferencia entre) los
parámetros 105 de modificación y los parámetros de modificación
adicionales.
Los parámetros 105 de modificación y los
parámetros de modificación adicionales, respectivamente, pueden
incluir propiedades estadísticas del downmix 202 espacial y el
downmix 103 alternativo, respectivamente. Estas propiedades
estadísticas tales como varianza, correlación y covarianza, etc.
proporcionan buenas representaciones de las señales a partir de las
que se derivan. Son útiles al reconstruir el downmix 202 espacial,
por ejemplo transformando el downmix alternativo de manera que sus
propiedades asociadas coincidan con las propiedades comprendidas en
los parámetros 105 de modificación.
La figura 3 muestra un diagrama de bloques de
una realización de un sistema 70 de transmisión según algunas
realizaciones de la invención. El sistema 70 de transmisión
comprende un transmisor 40 para transmitir una señal de audio
multicanal codificada a través de un canal 30 de transmisión, por
ejemplo un enlace de comunicación cableado o inalámbrico, a un
receptor 50. El transmisor 40 comprende un codificador 10 de audio
multicanal tal como se describió anteriormente para codificar la
señal 101 de audio multicanal en un downmix 102 espacial y
parámetros 104, 105 asociados. El transmisor 40 comprende además
medios 41 para transmitir una señal de audio multicanal codificada
que comprende los parámetros 104, 105 y el downmix 102 espacial o el
downmix 103 alternativo a través del canal 30 de transmisión al
receptor 50. El receptor 50 comprende medios 51 para recibir la
señal de audio multicanal codificada y un descodificador 20 de audio
multicanal tal como se describió anteriormente para descodificar el
downmix 103 alternativo o el downmix 102 espacial y los parámetros
104, 105 asociados en la señal 203 de audio multicanal.
La figura 4 muestra un diagrama de bloques de
una realización de un reproductor/grabador 60 de audio multicanal
según algunas realizaciones de la invención. El reproductor/grabador
60 de audio comprende un descodificador 20 de audio multicanal y/o
un codificador 10 de audio multicanal según algunas realizaciones de
la invención. El reproductor/grabador 60 de audio puede tener su
propio almacenamiento por ejemplo memoria de estado sólido o disco
duro. El reproductor/grabador 60 de audio también puede facilitar
medios de almacenamiento separables tales como discos DVD
(grabables) o discos CD (grabables). Las señales de audio multicanal
codificadas almacenadas que comprenden un downmix 103 alternativo y
parámetros 104, 105 pueden descodificarse mediante el descodificador
20 y pueden reproducirse mediante el reproductor/grabador 60 de
audio. El codificador 10 puede codificar señales de audio
multicanal para su almacenamiento en los medios de
almacenamiento.
La figura 5 muestra un diagrama de bloques de un
codificador 10 de audio multicanal según algunas realizaciones la
invención. El codificador de la figura 5 puede ser específicamente
el codificador 10 de la figura 1. El codificador 10 comprende una
primera unidad 110 y acoplada a la misma una segunda unidad 120. La
primera unidad 110 recibe una señal 101 de audio multicanal 5.1 que
comprende señales de audio delantera izquierda, trasera izquierda,
delantera derecha, trasera derecha, central y de mejora de bajas
frecuencias lf, lr, rf, rr, co y lfe, respectivamente. La segunda
unidad 120 recibe un downmix 103 estéreo artístico que comprende
señales de audio artística izquierda y artística derecha la y ra,
respectivamente. La señal 101 de audio multicanal y el downmix 103
artístico son señales de audio en el dominio del tiempo. En la
primera y segunda unidades 110 y 120 estas señales 101 y 103 se
segmentan y transforman al domino de
frecuencia-tiempo.
En la primera unidad 110, se derivan datos 104
paramétricos en tres fases. En una primera fase, tres pares de
señales de audio lf y rf, rf y rr, y co y lfe, respectivamente, se
segmentan y las señales segmentadas se transforman al dominio de la
frecuencia en unidades 112, 113, y 114 de segmentación y
transformación, respectivamente. Las representaciones resultantes
en el dominio de la frecuencia de las señales segmentadas se
muestran como señales en el dominio de la frecuencia Lf, Lr, Rf,
Rr, Co y LFE, respectivamente. En una segunda fase, se realiza
downmix sobre tres pared de estas señales en el domino de la
frecuencia Lf y Lr, Rf y Rr, y Co y LFE, respectivamente, en los
elementos 115, 116, y 117 de realización de downmix,
respectivamente, para generar señales de audio mono L, R, y C,
respectivamente y parámetros 141, 142, y 143 asociados,
respectivamente. Los elementos 115, 116, y 117 de realización de
downmix pueden ser codificadores de estéreo paramétrico MPEG4
convencionales. Finalmente, en una tercera fase se realiza downmix
sobre las tres señales de audio mono L, R y C en un elemento 118 de
realización de downmix para obtener downmix 102 estéreo espacial y
parámetros 144 asociados. El downmix 102 espacial comprende las
señales Lo y Ro.
Los datos 141, 142, 143, y 144 paramétricos
están comprendidos en los primeros datos de mejora en la forma de
primeros datos 104 paramétricos asociados. Los datos 104
paramétricos y el downmix 102 espacial representan las señales 101
de entrada 5.1.
En la segunda unidad, la señal 103 de downmix
artístico representada en el dominio del tiempo mediante señales de
audio la y ra, respectivamente, se segmenta en primer lugar en una
unidad 121 de segmentación. La señal 127 de audio segmentada
resultante comprende las señales las y ras, respectivamente. A
continuación, esta señal 127 de audio segmentada se transforma al
dominio de la frecuencia mediante un transformador 122. La señal
126 resultante en el dominio de la frecuencia comprende las señales
La y Ra. Finalmente, la señal 126 en el dominio de la frecuencia,
que es una representación en el dominio de la frecuencia del downmix
103 artístico segmentado, y la representación en el dominio de la
frecuencia del downmix 102 espacial segmentado se suministran a un
generador 123 que genera además (segundos) datos de mejora en la
forma de parámetros 105 de modificación que permiten que un
descodificador modifique/ transforme el downmix 103 artístico de
modo que se parezca más al downmix 102 espacial.
En el ejemplo específico, la señal 127
segmentada en el dominio del tiempo también se proporciona a un
selector 124. Las otras dos entradas para este selector 124 son la
representación en el dominio de la frecuencia del downmix 102
estéreo espacial y una señal 128 de control. La señal 128 de control
determina si el selector 124 ha de emitir el downmix 103 artístico
o el downmix 102 espacial como parte de la señal de audio multicanal
codificada. El downmix 102 espacial puede seleccionarse cuando no
está disponible el downmix artístico. La señal 128 de control puede
ajustarse manualmente o puede generarse automáticamente detectando
la presencia del downmix 103 artístico. La señal 128 de control
puede incluirse en el flujo de bits de parámetros de modo que un
descodificador 20 correspondiente puede hacer uso de esto tal como
se describe posteriormente. Por tanto, el codificador a modo de
ejemplo específico permite que se genere una señal que incluye el
downmix 102 espacial o el downmix 103 artístico.
La señal 102, 103 de salida del selector 124 se
muestra como las señales lo y ro. Si ha de emitirse el downmix 127
estéreo artístico mediante el selector 124 se combinan las señales
en el dominio del tiempo segmentadas las y ras en el selector 124
mediante solapamiento-adición en las señales lo y
ro. Si ha de emitirse el downmix 102 estéreo espacial tal como se
indica mediante la señal 128 de control, el selector 124 transforma
las señales Lo y Ro de nuevo al dominio del tiempo y las combina a
través de solapamiento-adición en las señales lo y
ro. Las señales en el dominio del tiempo lo y ro forman el downmix
estéreo del codificador 10 5.1 a 2.
A continuación se proporciona una descripción
más detallada del generador 123. La función del generador 123 es
determinar segundos datos de mejora y específicamente parámetros de
modificación que describen una transformación del downmix 103
artístico de modo que, en cierto sentido, se parezca el downmix 102
espacial original.
En general, esta transformación puede
describirse como
donde L_{a} y
R_{a} son vectores que comprenden muestras de una losa de
tiempo/frecuencia del canal izquierdo y derecho del downmix 103
artístico, y donde L_{d} y R_{d} son vectores que
comprenden muestras de una losa de tiempo/frecuencia del canal
izquierdo y derecho del downmix artístico modificado, donde
A_{1}, ..., A_{N} comprenden las muestras de una
losa de tiempo/frecuencia de canales auxiliares opcionales, y donde
T es una matriz de transformación. Obsérvese que cualquier vector V
se define como un vector columna. El downmix artístico modificado es
el downmix 103 artístico que se transforma mediante la transformada
de modo que se parece al downmix 102 espacial original. Los
canales
A_{1}, ..., A_{N} auxiliares son en el sistema descrito las señales de downmix espacial o el contenido de baja frecuencia de las mismas.
A_{1}, ..., A_{N} auxiliares son en el sistema descrito las señales de downmix espacial o el contenido de baja frecuencia de las mismas.
La matriz de transformación T (N+2)x2
describe la transformación del downmix 103 artístico y los canales
auxiliares al downmix artístico modificado. La matriz de
transformación T o elementos de la misma están comprendidos
preferiblemente en los parámetros 105 de modificación de modo que un
descodificador 20 puede reconstruir al menos parte de la matriz de
transformación T. Después, el descodificador 20 puede aplicar la
matriz de transformación T al downmix 103 artístico para
reconstruir el downmix 102 espacial (como se describe
posteriormente).
\newpage
Como alternativa, los parámetros 105 de
modificación comprenden propiedades de señal, por ejemplo valores
de energía o potencia y/o valores de correlación, del downmix 102
espacial. El descodificador 20 puede generar tales propiedades de
señal a partir del downmix 103 artístico. Las propiedades de señal
del downmix 102 espacial y el downmix 103 artístico permiten que el
descodificador 20 construya una matriz de transformación T (descrito
posteriormente)
y aplicarla al downmix 103 artístico para reconstruir el downmix 102 espacial (también descrito posteriormente).
y aplicarla al downmix 103 artístico para reconstruir el downmix 102 espacial (también descrito posteriormente).
Específicamente, el generador 123 está dispuesto
para generar tanto datos de modificación relativos como absolutos y
para seleccionar entre estos datos para bloques (o segmentos) de
señal individuales. Por tanto, los parámetros 105 de modificación
para la señal codificada comprenden tanto datos de modificación
absolutos como datos de modificación relativos para diferentes
bloques de señal. A diferencia de los datos de modificación
absolutos, los datos de modificación relativos describen el downmix
102 espacial con respecto al downmix 103 artístico.
Específicamente, los datos de modificación relativos pueden ser
datos diferenciales que permiten modificar muestras de downmix
artístico para corresponder (más) a las muestras de downmix espacial
mientras que los datos de downmix absolutos pueden corresponder
directamente a las muestras de downmix espacial sin ninguna
referencia o dependencia de las muestras de downmix artístico.
Se apreciará que hay varias maneras de modificar
el downmix 103 estéreo artístico para parecerse al downmix 102
estéreo original, incluyendo:
- I.
- Hacer coincidir las formas de onda.
- II.
- Hacer coincidir las propiedades estadísticas:
- a.
- Hacer coincidir la energía o potencia del canal izquierdo y derecho.
- b.
- Hacer coincidir la matriz de covarianza del canal izquierdo y derecho.
- III.
- Obtener la mejor coincidencia posible de la forma de onda bajo la limitación de una coincidencia de energía o potencia del canal izquierdo y derecho.
- IV.
- Mezclar los procedimientos I-III mencionados anteriormente.
Para mayor claridad, los canales A_{1},
..., A_{N} auxiliares de (1) en primer lugar no se
consideran, de modo que la matriz de transformación T puede
escribirse como
y los datos de mejora relativos
pueden por ejemplo generarse según lo
siguiente:
Puede obtenerse una coincidencia de las formas
de onda del downmix 103 artístico y el downmix 102 espacial
expresando tanto la señal izquierda como derecha del downmix
artístico modificado como una combinación lineal de la señal
izquierda y derecha del downmix 103 estéreo artístico:
Entonces, la matriz T de (2) puede escribirse
como:
Una manera de elegir los parámetros \alpha1,
\alpha2, \beta1 y \beta2, es minimizar el cuadrado de la
distancia euclídea entre las señales de downmix espacial L_{s} y
R_{s} y sus estimaciones (es decir las señales de downmix
artístico modificado L_{d} y R_{d}), por tanto
y
Procedimiento II.a: ahora se comenta la
coincidencia de las energías de las señales izquierda y derecha. Las
señales de downmix artístico modificado izquierda y derecha,
denotadas por L_{d} y R_{d} respectivamente, se calculan ahora
como
donde, en el caso de parámetros
reales, \alpha y \beta vienen datos
por
de modo que la matriz de
transformación T puede escribirse
como
Con estas elecciones puede garantizarse que las
señales L_{d} y R_{d}, respectivamente, tienen la misma energía
que las señales L_{s} y R_{s}, respectivamente.
Procedimiento II.b: para hacer coincidir
las matrices de covarianza del downmix 103 estéreo artístico y el
downmix 102 estéreo espacial estas matrices pueden descomponerse
utilizando descomposición en autovalores según lo siguiente:
donde la matriz de covarianza del
downmix 103 estéreo artístico, C_{a}, viene dado
por
\vskip1.000000\baselineskip
U_{a} es una matriz unitaria y S_{a} es una
matriz diagonal. C_{0} es la matriz de covarianza del downmix 102
estéreo espacial, U_{o} es una matriz unitaria y S_{o} es una
matriz diagonal. Cuando se calcula
\vskip1.000000\baselineskip
Se obtienen dos señales L_{aw} y
R_{aw} descorrelacionadas entre sí (debido a la
multiplicación con la matriz U_{a}), señales que tienen energía
unidad (debido a la multiplicación con la matriz S^{-1/2}_{a}).
Calculando:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
primero la matriz de covarianza de
[L_{a} R_{a}] se transforma en una matriz de
covarianza que es igual a la matriz identidad, es decir la matriz
de covarianza de [L_{a} R_{a}]
U_{a}S^{-1/2}_{a}. Aplicar cualquier matriz unitaria arbitraria
U_{r} no cambiará la estructura de covarianza, y aplicar
S^{1/2}_{0}U^{H}_{0} da como resultado una estructura de
covarianza igual que la del downmix 102 estéreo
espacial.
Se definen la matriz S_{0w} y las señales
L_{0w} y R_{0w} según lo siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
La matriz U_{r} puede elegirse de manera que
la mejor coincidencia de forma de onda posible, en cuanto a
distancia euclídea al cuadrado mínima, se obtiene entre las señales
L_{0w} y L_{aw} y las señales R_{0w} y
R_{aw}, donde L_{aw} y R_{aw} vienen
dadas por (11). Con esta elección para U_{r}, puede utilizarse
una coincidencia de forma de onda en el procedimiento
estadístico.
A partir de (12) puede verse que la matriz de
transformación T viene dada por
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Suponiendo (3) los parámetros \alpha_{1},
\alpha_{2}, \beta_{1} y \beta_{2} pueden obtenerse
minimizando (4) y (5) bajo las limitaciones de energía
Para mezclar diferentes procedimientos, posibles
combinaciones incluyen los procedimientos de mezclado II.a y II.b,
o los procedimientos de mezclado II.a y III. Se puede proseguir
según lo siguiente:
a) Si la coincidencia de forma de onda entre
L_{s} y L_{d} y entre R_{s} y
R_{d} que se obtiene cuando se utiliza el procedimiento
II.b/III es buena: utilizar el procedimiento II.b/III.
b) Si la coincidencia de forma de onda es mala,
utilizar el procedimiento II.a.
c) Garantizar una transición gradual entre los
dos procedimientos, mezclando sus matrices de transformación, en
función de la calidad de esta coincidencia de forma de onda.
Esto puede expresarse matemáticamente según lo
siguiente:
utilizando (3) y (2) la matriz de transformación
T puede escribirse en su forma general como
Esta matriz se reescribe utilizando dos
vectores, T_{L} y T_{R}, según lo siguiente
La calidad de la coincidencia de forma de onda
entre L_{s} y L_{d} obtenida mediante o bien el
procedimiento II.b o bien el procedimiento III, se expresa mediante
\gamma_{L}. Se define como
La calidad de la coincidencia de forma de onda
entre R_{s} y R_{d} obtenida utilizando o bien el
procedimiento II.b o bien el procedimiento III, se expresa mediante
\gamma_{R}. Se define como
Tanto \gamma_{L} como \gamma_{R} están
entre 0 y 1. El coeficiente de mezclado del canal izquierdo,
\delta_{L}, y el coeficiente de mezclado del canal derecho,
\delta_{R}, pueden definirse según lo siguiente:
donde \mu_{L,min},
\mu_{L,max}, \mu_{R,min} y \mu_{R,max} son valores entre
0 y 1, \mu_{L,min} < \mu_{L,max} y \mu_{R,min}, <
\mu_{R,max}. La ecuación (20) garantiza que los coeficientes de
mezclado, \delta_{L} y \delta_{R}, estén entre 0 y
1.
Se define la matriz de transformación T del
procedimiento II.a, II.b y III, respectivamente, como T_{e}, que
viene dada por (8), T_{a}, que viene dada por (14), y T_{ce},
respectivamente. Cada matriz de transformación puede dividirse en
dos vectores, de manera similar a la división de T en (17), según lo
siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
La matriz de transformación T para el
procedimiento de mezclado II.a y el procedimiento II.b se obtiene
como
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
La matriz de transformación T para el
procedimiento de mezclado II.a y el procedimiento III se obtiene
como
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Ahora, considerando dos canales auxiliares
correspondientes a dos canales de capa de mejora, la ecuación (1)
anterior puede reescribirse como:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde L_{a},
R_{a} (como anteriormente) contienen las muestras de una
losa de tiempo/frecuencia del canal izquierdo y derecho del downmix
artístico respectivamente, L_{d}, R_{d} contienen
las muestras de una losa de tiempo/frecuencia del canal izquierdo y
derecho del downmix artístico modificado respectivamente y
L_{enh}, R_{enh} contienen las muestras de una
losa de tiempo/frecuencia de las señales de capa de mejora. La
matriz de transformación T' 4x2 escribe por tanto la transformación
del downmix artístico y las señales de capa de mejora al downmix
artístico modificado. En relación con la ecuación (1), los únicos
dos canales auxiliares utilizados son las señales de capa de mejora
L_{enh},
R_{enh}.
En el sistema a modo de ejemplo específico, la
segunda capa de mejora puede contener dos tipos diferentes de
datos:
el primer tipo de datos comprende los parámetros
contenidos en la matriz T de la ecuación (1). Estos parámetros son
en el ejemplo calculado para todo el ancho de banda de señal y
transforman el downmix estéreo artístico de manera que en algún
sentido se parece al downmix espacial. Por tanto, este tipo de
parámetros puede proporcionar un downmix artístico modificado que
se parece más al downmix espacial original pero no permite
(necesariamente) que un descodificador genere exactamente el
downmix espacial. Para cada losa de tiempo/frecuencia sólo se
requieren cuatro parámetros, concretamente se requieren los valores
de T (T11, T12, T21 y T22). Estos parámetros pueden codificarse o
bien de manera absoluta o bien de manera diferencial y el
codificador 10 puede específicamente conmutar dinámicamente entre
la codificación absoluta y la diferencial.
El segundo tipo de datos corresponde al downmix
espacial real y es en el ejemplo específico una representación de
una versión limitada en banda del downmix espacial. Específicamente,
este tipo de datos representa una parte de baja frecuencia del
downmix espacial (por ejemplo frecuencias por debajo de, digamos,
1,7 kHz). Esto hace posible reconstruir de manera muy precisa esta
parte del downmix espacial en el descodificador en lugar de sólo
generar una señal que tiene, por ejemplo, las mismas propiedades
estadísticas (como con la matriz T). Este tipo de datos puede
codificarse de manera absoluta o de manera relativa al downmix
artístico. Específicamente, este tipo de datos puede codificarse de
manera diferencial. Por ejemplo, la matriz de transformación T se
aplica al downmix artístico (véase por ejemplo la ecuación (26)) y
la diferencia de esa señal y el downmix espacial puede
codificarse.
Por tanto, en algunas realizaciones los segundos
datos de mejora se dividen en una primera y una segunda parte de
datos de mejora donde la primera parte describe el downmix espacial
de manera menos precisa que la segunda parte. Normalmente, la tasa
de datos correspondiente de la primera parte de los segundos datos
de mejora es inferior a la de la segunda parte. Los datos de mejora
de la segunda parte de los segundos datos de mejora pueden
referirse a sólo una parte del downmix y específicamente pueden sólo
referirse a una parte de baja frecuencia.
En algunas realizaciones, el generador 123 puede
estar dispuesto para seleccionar entre datos absolutos y relativos
tanto para la primera parte como la segunda parte de los segundos
datos de mejora o bien individualmente o bien en conjunto. En otras
realizaciones, el generador 123 sólo puede seleccionar entre datos
absolutos y relativos para una de las partes de datos.
Específicamente, en las siguientes realizaciones se describirá el
caso en el que la primera parte de los segundos datos de mejora
comprende los parámetros de T mientras que la segunda parte
comprende una representación de baja frecuencia del downmix espacial
y la selección dinámica entre datos absolutos y relativos sólo se
aplica a la segunda parte de los segundos datos de mejora.
Los datos relativos para la segunda parte de los
segundos datos de mejora puede en estas realizaciones por ejemplo
generarse como valores diferenciales con respecto al downmix
artístico después de que se han aplicado los datos de mejora de la
primera parte (es decir como valores diferenciales con respecto al
downmix artístico modificado).
A continuación, se describen realizaciones en
las que el generador 123 selecciona sólo entre datos relativos y
absolutos para la segunda parte de los segundos datos de mejora.
\newpage
En este ejemplo pueden derivarse datos de mejora
absolutos para parte de la primera y la segunda parte de los
segundos datos de mejora para las losas de tiempo/frecuencia
asociadas estableciendo:
donde L_{s},
R_{s} contienen las muestras de una losa de
tiempo/frecuencia del canal izquierdo y derecho del downmix estéreo
espacial respectivamente. Por tanto, en el ejemplo específico, los
datos de mejora absolutos simplemente corresponden a las muestras
de losa de tiempo/frecuencia reales del downmix 102 espacial que
pueden sustituir a las muestras de losa de tiempo/frecuencia
correspondientes del downmix 103
artístico.
Además, para la parte de la primera y la segunda
parte de los segundos datos de mejora, pueden derivarse
específicamente datos de mejora relativos para las losas de
tiempo/frecuencia asociadas como datos diferenciales
estableciendo:
En este caso, los parámetros T_{11}, T_{12},
T_{21} y T_{22} constituyen la matriz T de la ecuación (2):
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
De esta manera, el generador 123 puede generar
tanto datos de mejora absolutos como datos de mejora relativos para
el downmix 103 artístico permitiendo que un descodificador genere un
downmix artístico modificado que se parece más al downmix 102
espacial utilizado para generar los datos de mejora multicanal.
El generador 123 está dispuesto además para
seleccionar entre los datos de mejora absolutos y los datos de
mejora relativos. Esta selección se realiza en el ejemplo específico
para bloques de señal individuales (por ejemplo segmentos
individuales) y se basa en características de las señales dentro de
estos bloques de señal. Específicamente, el generador 123 puede
evaluar características de los datos de mejora absolutos y los datos
de mejora relativos para un bloque de señal dado y puede decidir
qué datos incluir en la capa de mejora para el bloque de señal
dado. Además, el generador 123 puede incluir una indicación de qué
datos se seleccionaron permitiendo de ese modo que el
descodificador aplique los datos de mejora recibidos
correctamente.
En algunas realizaciones, el generador 123 puede
evaluar la codificación para determinar si los datos de mejora
absolutos o los datos de mejora relativos pueden codificarse de la
manera más eficaz (por ejemplo con el menor número de bits para una
precisión dada). Un enfoque de fuerza bruta puede ser codificar
realmente ambos tipos de datos de mejora y comparar el tamaño de
los datos codificados. Sin embargo, este puede ser un enfoque
complejo en algunas realizaciones, y en el codificador 10 a modo de
ejemplo, el generador 123 evalúa la energía de señal de los datos
de mejora absolutos con respecto a la energía de señal de los datos
de mejora relativos y selecciona qué tipo de datos incluir
basándose en una comparación entre los dos.
Específicamente, para codificadores de audio a
menudo es beneficioso, en cuando a la tasa de bits, codificar una
señal con la menor energía posible. En consecuencia, el generador
123 selecciona el tipo de datos de mejora que tiene la energía de
señal más baja. En particular, los datos de mejora relativos se
seleccionan cuando
y de otro modo se seleccionan los
datos de mejora
absolutos.
Un problema con la conmutación entre diferentes
datos de mejora es que pueden producirse algunos artefactos
notables. En el codificador 10 a modo de ejemplo, el generador 123
también comprende funcionalidad para conmutar gradualmente entre
diferentes datos de mejora. Por tanto, en lugar de conmutar
directamente de un tipo de datos de mejora en un bloque de señal a
otro tipo en el siguiente bloque de señal, la conmutación se realiza
de manera gradual de un conjunto de datos al otro.
Por tanto, durante un intervalo de tiempo (que
puede tener una duración de menos o más que un bloque de señal), el
generador 123 genera los datos de mejora como una combinación de los
datos de mejora absolutos y los datos de mejora relativos. La
combinación puede conseguirse por ejemplo mediante una interpolación
entre los diferentes tipos de datos o puede utilizar una técnica de
solapamiento y adición.
Como un ejemplo específico, en lugar de conmutar
de manera brusca entre los diferentes tipos de datos de mejora:
los datos de mejora que se
transmiten pueden generarse
como
donde el valor de \alpha para la
k-ésima trama de datos puede determinarse
como:
donde \alpha_{k} denota el
valor de \alpha en la k-ésima trama y \delta es la velocidad de
adaptación. Un valor de \delta = 0,33 puede proporcionar una
codificación libre de artefactos de manera fiable en muchos
escenarios. Las señales L_{enh} y R_{enh} dadas en
la ecuación (29) pueden obtenerse utilizando interpolación de
parámetros o una técnica de solapamiento y adición y se codifican y
añaden al flujo de bits. Además, la decisión con respecto a datos
de mejora diferenciales o absolutos se incluye en el flujo de bits,
haciendo posible de ese modo que un descodificador derive el mismo
valor para \alpha que se utiliza en el
codificador.
Se apreciará que aunque la descripción se centra
en la utilización de modos diferenciales y absolutos con
codificación (intracanal) de cada uno de estos M canales
individualmente, otras realizaciones pueden utilizar un enfoque de
codificación diferente. Por ejemplo, para M=2, una siguiente etapa
puede ser aplicar por ejemplo codificación M/S (codificación
media/lateral, codificando por tanto la señal de la suma y la
diferencia) cuando se realiza codificación (entre canales) de la
señal estéreo. En muchas realizaciones esto puede ser ventajoso
tanto en el modo diferencial como el absoluto de codificación
(intracanal) de los canales individuales.
Los elementos de la matriz de transformación T'
pueden ser de valor real o de valor complejo. Estos elementos
pueden codificarse en parámetros de modificación según lo siguiente:
aquellos elementos de la matriz de transformación T que son reales
y positivos pueden cuantificarse logarítmicamente, como los
parámetros IID utilizados en estéreo paramétrico MPEG4. Es posible
establecer un límite superior para los valores de los parámetros
para evitar la sobreamplificación de señales pequeñas. Este límite
superior puede o bien ser fijo o bien una función de la correlación
entre el canal izquierdo generado automáticamente y el canal
izquierdo artístico y la correlación entre el canal derecho
generado automáticamente y el canal derecho artístico. De los
elementos de T' que son complejos, la magnitud puede cuantificarse
utilizando parámetros IID, y la fase puede cuantificarse
linealmente. Los elementos de T' que son reales y posiblemente
negativos pueden codificarse tomando el logaritmo del valor
absoluto de un elemento, mientras que se garantiza una distinción
los valores negativos y positivos.
La figura 6 ilustra un ejemplo del generador 123
de la figura 5 con mayor detalle. En el ejemplo, el generador 123
comprende un procesador 145 de bloque de señal que recibe los
downmix 102, 106 espacial y artístico en el dominio de la
frecuencia y divide las señales en bloques de señal. Cada bloque de
señal puede corresponder a un intervalo de tiempo de una duración
predeterminada. En algunas realizaciones, los bloques de señal
pueden como alternativa o adicionalmente dividirse en el dominio de
la frecuencia y por ejemplo los subcanales de transformada pueden
agruparse juntos en diferentes bloques de señal.
El procesador 145 de bloque de señal está
acoplado a un procesador 146 de datos de mejora absolutos que genera
los datos de mejora absolutos para los bloques de señal
individuales tal como se describió anteriormente. Además, el
procesador 145 de bloque de señal está acoplado a un procesador 147
de datos de mejora relativos que genera los datos de mejora
relativos para los bloques de señal individuales tal como se
describió anteriormente. Los datos de mejora relativos y absolutos
se determinan basándose en las características de señal dentro del
bloque de señal y específicamente, los datos de mejora para un grupo
de losas de tiempo/frecuencia dado pueden determinarse basándose
sólo en ese grupo de losas de tiempo/frecuencia.
El procesador 146 de datos de mejora absolutos
está acoplado a un primer procesador 148 de energía de señal que
determina la energía de señal de los datos de mejora absolutos en
cada bloque de señal tal como se describió anteriormente. De manera
similar, el procesador 147 de datos de mejora relativos está
acoplado a un segundo procesador 149 de energía de señal que
determina la energía de señal de los datos de mejora relativos en
cada bloque de señal tal como se describió anteriormente.
Los procesadores 148, 149 de energía de señal
primero y segundo están acoplados a un procesador 150 de selección
que para cada bloque de señal selecciona datos de mejora o bien
absolutos o bien relativos dependiendo de qué tipo tiene la energía
de señal más baja.
El procesador 150 se selección se proporciona a
un procesador 151 de datos de mejora que está acoplado además al
procesador 146 de datos de mejora y al procesador 147 de datos de
mejora relativos. El procesador 151 de selección recibe una señal
de control que indica qué tipo de datos de mejora se ha seleccionado
y en consecuencia genera los datos de mejora como los datos de
mejora seleccionados. Además, el procesador 151 de selección está
dispuesto para realizar una conmutación gradual que incluye una
interpolación entre los parámetros absolutos y relativos durante un
intervalo de tiempo de conmutación.
El procesador 151 de selección está acoplado a
un procesador 152 de codificación que codifica los datos de mejora
según un protocolo dado. Además, el procesador 152 de codificación
codifica datos que indican qué tipo de datos se selecciona en cada
bloque de señal, por ejemplo ajustando un bit para cada bloque de
señal para indicar el tipo de datos. Los datos codificados desde el
procesador 152 de codificación se incluyen en el flujo de bits
codificado generado por el codificador 10.
La figura 7 muestra un diagrama de bloques de
otra realización de un descodificador de audio multicanal según
algunas realizaciones de la invención que puede ser específicamente
el descodificador 20 de audio de la figura 2.
El descodificador 20 comprende una primera
unidad 210 y acoplada a la misma una segunda unidad 220. La primera
unidad 210 recibe señales de downmix lo y ro y parámetros 105 de
modificación como entradas. Las entradas pueden recibirse por
ejemplo como un único flujo de bits desde el codificador 10 de la
figura 1 ó 5. Las señales de downmix lo y ro pueden ser parte de un
downmix 102 espacial o un downmix 103 artístico.
La primera unidad 210 comprende una unidad 211
de segmentación y transformación y una unidad 212 de modificación
de downmix. Las señales de downmix lo y ro, respectivamente, se
segmentan y las señales segmentadas se transforman al dominio de la
frecuencia en la unidad 211 de segmentación y transformación. Las
representaciones resultantes en el dominio de la frecuencia de las
señales de downmix segmentadas se muestran como señales en el
dominio de la frecuencia Lo y Ro, respectivamente. A continuación,
las señales en el dominio de la frecuencia Lo y Ro se procesan en
la unidad 212 de modificación de downmix. La función de esta unidad
212 de modificación de downmix es modificar el downmix de entrada
de tal manera que se parezca al downmix 202 espacial, es decir
reconstruir el downmix 202 espacial a partir del downmix 103
artístico y los parámetros 105 de modificación.
Si el downmix 102 espacial se recibe por el
descodificador 20 la unidad 212 de modificación de downmix no tiene
que modificar las señales de downmix Lo y Ro y estas señales de
downmix Lo y Ro pueden simplemente pasarse a la segunda unidad 220
como señales de downmix Ld y Rd del downmix 202 espacial. Una señal
217 de control puede indicar si existe necesidad de modificación
del downmix de entrada, es decir si el downmix de entrada es un
downmix espacial o un downmix alternativo. La señal 217 de control
puede generarse internamente en el descodificador 20, por ejemplo
analizando el downmix de entrada y los parámetros asociados 105 que
pueden describir propiedades de señal del downmix espacial deseado.
Si el downmix de entrada coincide con las propiedades de señal
deseadas la señal 217 de control puede ajustarse para indicar que no
hay necesidad de modificación. Como alternativa, la señal 217 de
control puede ajustarse manualmente o su ajuste puede recibirse como
parte de la señal de audio multicanal codificada, por ejemplo en
conjunto 105 de parámetros.
Si el codificador 20 recibe el downmix 103
artístico y la señal 217 de control indica que las señales de
downmix recibidas Lo y Ro han de modificarse mediante la unidad 212
de modificación de downmix entonces el descodificador puede operar
de dos maneras, dependiendo de la representación de los parámetros
de modificación recibidos. Si los parámetros representan la
transformación relativa del downmix artístico al downmix espacial
(es decir si los parámetros son datos de mejora relativos), las
variables de transformación se obtienen directamente aplicando los
parámetros de modificación al downmix artístico a la inversa de la
operación realizada en el codificador. En diferentes realizaciones,
esto puede aplicarse por ejemplo a la segunda parte de los segundos
datos de mejora.
Por otro lado, si los parámetros transmitidos
representan propiedades absolutas del downmix espacial, el
descodificador puede sustituir directamente las muestras de downmix
artístico por las muestras de downmix espacial. Por ejemplo, si la
segunda parte de los segundos datos de mejora consiste simplemente
en las muestras de losa de tiempo/frecuencia del downmix espacial,
el descodificador puede sustituir directamente las muestras de losa
de tiempo/frecuencia correspondientes del downmix artístico por
estas. Se apreciará que también es posible que el descodificador
calcule primero las propiedades correspondientes del downmix
artístico transmitido realmente. Utilizando esta información
(parámetros transmitidos y propiedades calculadas del downmix
artístico transmitido), las variables de transformación se
determinan entonces de modo que describen la transformada de
(propiedades de) el downmix artístico transmitido a (propiedades
de) el downmix espacial. Para ser más específicos, la matriz de
transformación T puede determinarse utilizando o bien el
procedimiento II.a o bien el II.b (ligeramente modificado) que se
describieron anteriormente.
El procedimiento II.a puede utilizarse si se
transmiten energías absolutas en la primera parte de los segundos
datos de mejora. Los parámetros transmitidos (absolutos), E_{Ls} y
E_{Rs}, representan la energía de la señal izquierda y derecha
del downmix espacial respectivamente y vienen dados por
Las energías del downmix transmitido, E_{DLs}
y E_{Drs}, se calculan en el descodificador. Utilizando estas
variables se pueden calcular los parámetros \alpha y \beta de
(7), según lo siguiente
La matriz de transformación T viene dada por
Específicamente, la unidad 212 de modificación
de downmix comprende funcionalidad para extraer el downmix
artístico y los parámetros 105 de modificación del flujo de bits
recibido. El downmix artístico se divide en bloques de señal
(correspondientes a los bloques de señal utilizados por el
descodificador). Para cada bloque de señal la unidad 212 de
modificación de downmix evalúa la indicación de datos recibida del
flujo de bits para determinar si se proporcionan segundos datos de
mejora relativos o absolutos para la primera y para la segunda
parte para este bloque de señal. La unidad 212 de modificación de
downmix aplica entonces la primera y la segunda parte de los
segundos datos de mejora como datos de mejora absolutos o datos de
mejora relativos en respuesta a los datos de indicación.
Se ha descubierto que puede conseguirse una baja
complejidad pero con alto rendimiento cuando los elementos de la
matriz de transformación T_{12} y T_{21} se ajustan a cero. A
continuación, se describen algunas implementaciones específicas de
la unidad 212 de modificación de downmix con esta restricción. Sin
embargo, se apreciará que las implementaciones pueden ampliarse
fácilmente al caso cuando T_{12} y/o T_{21} son diferentes a
cero.
En el caso en el que no se transmiten datos de
mejora de la segunda parte de los segundos datos de mejora para la
señal de downmix artístico, la primera unidad 210 puede
implementarse tal como se muestra en figura 8. Los canales de
downmix estéreo en el dominio del tiempo, lo y ro, primero se
segmentan y transforman al dominio de la frecuencia mediante una
transformación QMF, dando como resultado las señales L_{a} y
R_{a}, que representan una losa de tiempo/frecuencia del downmix
estéreo artístico. A continuación, estas señales se transforman
utilizando la matriz de transformación T, dando como resultado las
señales T_{11}L_{a} y T_{22}R_{a}.
Se apreciará que los datos de mejora pueden
generarse y aplicarse en el domino del tiempo y/o la frecuencia.
Por tanto, es posible incluir los datos de mejora codificados en el
dominio del tiempo (L_{enh}, R_{enh}) en el flujo de bits. Sin
embargo, en algunas aplicaciones puede ser ventajoso incluir los
datos de mejora codificados en el dominio de la frecuencia en lugar
de los datos de mejora en el dominio del tiempo. Por ejemplo, en
muchos codificadores los datos de mejora se generan en el dominio de
la frecuencia para losas de tiempo/frecuencia y para generar la
señal en el dominio del tiempo, se requiere una transformación de
dominio de frecuencia a tiempo en el codificador. Además, para
aplicar tales datos de mejora, el descodificador convierte los datos
del dominio del tiempo al dominio de la frecuencia. Las
conversiones de dominio pueden reducirse por tanto incluyendo los
datos de mejora en el dominio de la frecuencia.
En algunas realizaciones, pueden utilizarse
diferentes conversiones de tiempo a frecuencia para generar el
downmix artístico y los datos de mejora. Por ejemplo, la
codificación del downmix artístico puede utilizar una transformada
QMF mientras que los datos de mejora utilizan una transformada MDCT.
En este caso, los datos de mejora puede incluirse en el domino de
la frecuencia (MDCT) y puede realizarse una transformada
directamente entre los dos dominios de frecuencia mediante la
unidad 212 de modificación de downmix tal como se ilustra en la
figura 9.
En el ejemplo, la matriz de transformación T*
puede ser simplemente la matriz de transformación T de la ecuación
(2). Sin embargo, para reducir los artefactos de conmutación T*
puede corresponder a la matriz de transformación T de la ecuación
(2) pero modificada para una conmutación gradual. Específicamente,
la matriz T* puede incluir el factor \alpha según se determina
mediante la ecuación (30), donde la decisión con respecto a datos de
mejora absolutos o relativos se recupera del flujo de bits. Este
esquema se utiliza para esas bandas de bloques de señal/frecuencia
en las que están presentes los datos de capa de mejora de la segunda
parte de los segundos datos de mejora y de otro modo puede
utilizarse el enfoque de la figura 8.
Si los datos de mejora (L_{enh}, R_{enh}) se
proporcionan en el dominio del tiempo, puede utilizarse un enfoque
similar al de la figura 9 tal como se ilustra en la figura 10. Sin
embargo, en este caso la transformación de frecuencia a frecuencia
transformación se sustituye por una transformación de tiempo a
frecuencia que puede ser específicamente mediante una transformada
de tiempo a QMF cuando se utilizan transformadas QMF para codificar
el downmix artístico. Por tanto, en este ejemplo, los datos de
mejora se aplican en el dominio de la frecuencia.
En muchas realizaciones, puede utilizarse una
implementación de descodificador para los datos de mejora en el
dominio del tiempo que sólo utilice una transformada de domino de
tiempo a frecuencia en la primera unidad 210.
Específicamente, pueden utilizarse los
siguientes parámetros de datos de mejora diferenciales:
siempre que la matriz T, dada por
la ecuación (27), sea no singular (por tanto exista su inversa).
Ahora la ecuación (1) puede cambiarse
a:
La figura 11 ilustra una implementación eficaz
de la unidad 212 de modificación de downmix para los datos de
mejora en el dominio del tiempo basándose en las ecuaciones (34) y
(35) que se proporcionan. Para mayor claridad, T_{12} y T_{21}
de la matriz T se ajustan a cero. En comparación con la
implementación de la figura 10, sólo se requiere una transformada
de dominio de tiempo a QMF por la implementación de la figura
11.
Por tanto, tal como se describió anteriormente
la unidad 212 de modificación de downmix genera una señal 202 que
se parece mucho al downmix espacial utilizado para los datos de
mejora multicanal. Esto puede utilizarse de manera efectiva por la
segunda unidad 220 para ampliar la señal de audio de dos canales a
una señal multicanal de sonido envolvente completa. Además,
seleccionando de manera dinámica y flexible el tipo de datos de
mejora más apropiado (relativos o absolutos) para cada bloque de
señal, se consigue una codificación sustancialmente más eficaz y se
consigue una codificación/descodificación multicanal con una calidad
mejorada para relación de tasa de datos.
La segunda unidad 220 puede ser un
descodificador multicanal 2 a 5.1 convencional que descodifica el
downmix 202 espacial reconstruido y los datos 104 paramétricos
asociados en una señal 203 de salida de canal 5.1. Tal como se
describió anteriormente, los datos 104 paramétricos comprenden datos
141, 142, 143 y 144 paramétricos. La segunda unidad 220 realiza el
procesamiento inverso de la primera unidad 110 en el codificador 10.
La segunda unidad 220 comprende un elemento 221 de realización de
upmix, que convierte el downmix 202 estéreo y los parámetros 144
asociados en tres señales de audio mono L, R y C. A continuación,
cada una de las señales de audio mono L, R y C, respectivamente, se
descorrelaciona en los descorrelacionadores 222, 225 y 228,
respectivamente. Después de ello, una matriz 223 de mezclado
transforma la señal de audio mono L, su homóloga descorrelacionada
y parámetros 141 asociados en señales Lf y Lr. De manera similar,
una matriz 226 de mezclado transforma la señal de audio mono R, su
homóloga descorrelacionada y parámetros 142 asociados en señales Rf
y Rr, y una matriz de 229 de mezclado transforma la señal de audio
mono C, su homóloga descorrelacionada y parámetros 143 asociados en
señales Co y LFE. Finalmente, se transforman los tres pares de
señales en el dominio de la frecuencia segmentadas Lf y Lr, Rf y
Rf, Co y LFE, respectivamente, al dominio del tiempo y se combinan
mediante solapamiento-adición en transformadores
224, 227 y 230 inversos, respectivamente para obtener tres pares de
señales de salida lf y lr, rf y rr, y co y lfe, respectivamente. Las
señales de salida lf, lr, rf, rr, co y lfe forman la señal 203 de
audio multicanal descodificada.
El codificador 10 de audio multicanal y el
descodificador 20 de audio multicanal pueden implementarse por
medio de hardware digital o por medio de software que se ejecuta
mediante un procesador de señal digital o mediante un
microprocesador de propósito general.
Se apreciará que la descripción anterior ha
descrito para mayor claridad realizaciones de la invención con
referencia a diferentes procesadores y unidades funcionales. Sin
embargo, será evidente que puede utilizarse cualquier distribución
adecuada de funcionalidad entre diferentes procesadores o unidades
funcionales sin restarle valor a la invención. Por ejemplo, la
funcionalidad ilustrada que va a realizarse mediante procesadores o
controladores separados puede realizarse mediante el mismo
procesador o controladores. Por tanto, las referencias a unidades
funcionales específicas sólo deben verse como referencias a medios
adecuados para proporcionar la funcionalidad descrita en lugar de
indicativas de una organización o estructura lógica o física
estricta.
La invención puede implementarse de cualquier
forma adecuada incluyendo hardware, software, firmware o cualquier
combinación de éstos. La invención puede implementarse de manera
opcional al menos parcialmente como software informático que se
ejecuta en uno o más procesadores de datos y/o procesadores de señal
digital. Los elementos y componentes de una realización de la
invención pueden implementarse de manera física, funcional y lógica
de cualquier manera adecuada. De hecho la funcionalidad puede
implementarse en una única unidad, en una pluralidad de unidades o
como parte de otras unidades funcionales. Como tal, la invención
puede implementarse en una única unidad o puede distribuirse física
y funcionalmente entre diferentes unidades y procesadores.
Aunque la presente invención se ha descrito en
conexión con algunas realizaciones, no está prevista para limitarse
a la forma específica expuesta en el presente documento. En su
lugar, el alcance de la presente invención está limitado sólo por
las reivindicaciones adjuntas. Adicionalmente, aunque puede aparecer
una propiedad descrita en conexión con realizaciones particulares,
un experto en la técnica reconocería que diversas propiedades de
las realizaciones descritas pueden combinarse según la invención. En
las reivindicaciones, la expresión que comprende no excluye la
presencia de otros elementos o etapas.
Además, aunque se enumeran de manera individual,
pueden implementarse una pluralidad de medios, elementos o etapas
de método mediante por ejemplo una única unidad o procesador.
Adicionalmente, aunque pueden incluirse propiedades individuales en
diferentes reivindicaciones, estas pueden posiblemente combinarse de
manera ventajosa, y la inclusión en diferentes reivindicaciones no
implica que no sea factible y/o ventajosa una combinación de
propiedades. También la inclusión de una propiedad en una categoría
de reivindicaciones no implica una limitación para esta categoría
sino que indica que la propiedad es igualmente aplicable a otras
categorías de reivindicaciones según sea apropiado. Además, el
orden de las propiedades en las reivindicaciones no implica ningún
orden específico en el que deban trabajarse las propiedades y en
particular el orden de etapas individuales en una reivindicación de
procedimiento no implica que las etapas deban realizarse en este
orden. En su lugar, las etapas pueden realizarse en cualquier orden
adecuado. Además, referencias singulares no excluyen una pluralidad.
Por tanto, referencias a "uno", "una", "primero",
"segundo" etc. no excluyen una pluralidad. En las
reivindicaciones se proporcionan símbolos de referencia meramente
como un ejemplo clarificador y no deben interpretarse como
limitativos del alcance de las reivindicaciones en modo alguno.
Claims (31)
1. Codificador (10) de audio multicanal para
codificar una señal de audio de N canales, comprendiendo el
codificador (10) de audio multicanal:
medios (110) para generar una primera señal de M
canales para la señal de audio de N canales, siendo M menor que
N;
medios (115, 116, 117, 118) para generar
primeros datos de mejora para la primera señal de M canales con
respecto a la señal de audio de N canales, permitiendo reconstruir
la señal de audio de N canales a partir de la primera señal de M
canales;
medios (121) para generar una segunda señal de M
canales para la señal de audio de N canales;
medios (123) de mejora para generar segundos
datos de mejora para la segunda señal de M canales con respecto a
la primera señal de M canales, los segundos datos de mejora
comprenden características de la primera señal de M canales que
permiten reconstruir al menos parte de la primera señal de M
canales;
medios para generar (120) una señal de salida
codificada que comprende la segunda señal de M canales, los
primeros datos de mejora y los segundos datos de mejora; y
en el que los medios (123) de mejora están
dispuestos para seleccionar dinámicamente entre generar los segundos
datos de mejora como datos de mejora absolutos o como datos de
mejora relativos con respecto a la segunda señal de M canales.
2. Codificador (10) de audio multicanal según la
reivindicación 1, en el que los medios (123) de mejora están
dispuestos para seleccionar entre los datos de mejora absolutos y
los datos de mejora relativos en respuesta a una característica de
la señal de N canales.
3. Codificador (10) de audio multicanal según la
reivindicación 1, en el que los medios (123) de mejora están
dispuestos para seleccionar entre los datos de mejora absolutos y
los datos de mejora relativos en respuesta a una característica
relativa de los datos de mejora absolutos y los datos de mejora
relativos.
4. Codificador (10) de audio multicanal según la
reivindicación 1, en el que la característica relativa es una
energía de señal de los datos de mejora absolutos con respecto a una
energía de señal de los datos de mejora relativos.
5. Codificador (10) de audio multicanal según la
reivindicación 1, en el que los medios (123) de mejora están
dispuestos para dividir la segunda señal de M canales en bloques de
señal y para seleccionar individualmente entre los datos de mejora
absolutos y los datos de mejora relativos para cada bloque de
señal.
6. Codificador (10) de audio multicanal según la
reivindicación 5, en el que los medios (123) de mejora están
dispuestos para seleccionar entre los datos de mejora absolutos y
los datos de mejora relativos para un bloque de señal basándose
sólo en características asociadas con el bloque de señal.
7. Codificador (10) de audio multicanal según la
reivindicación 1, en el que los medios (123) de mejora están
dispuestos para generar los datos de mejora como una combinación de
los datos de mejora absolutos y los datos de mejora relativos
durante un intervalo de tiempo de conmutación de una conmutación
entre generar los datos de mejora como datos de mejora absolutos y
como datos de mejora relativos.
8. Codificador (10) de audio multicanal según la
reivindicación 7, en el que la combinación comprende una
interpolación entre los datos de mejora absolutos y los datos de
mejora relativos.
9. Codificador (10) de audio multicanal según la
reivindicación 1, en el que los medios para generar (120) la señal
de salida codificada están dispuestos para incluir datos que indican
si se utilizan datos de mejora relativos o datos de mejora
absolutos.
10. Codificador (10) de audio multicanal según
la reivindicación 1, en el que los segundos datos de mejora
comprenden una primera parte de datos de mejora y una segunda parte
de datos de mejora, proporcionando la segunda parte una
representación de calidad superior de la primera señal de M canales
que la primera parte.
11. Codificador (10) de audio multicanal según
la reivindicación 10, en el que los medios (123) de mejora están
dispuestos para seleccionar dinámicamente sólo entre generar la
segunda parte como datos de mejora absolutos o como datos de mejora
relativos.
12. Codificador (10) de audio multicanal según
la reivindicación 10, en el que los medios (123) de mejora están
dispuestos para generar datos relativos de la segunda parte con
respecto a una señal de referencia generada aplicando datos de
mejora de la primera parte a la primera señal de M canales.
13. Descodificador (20) de audio multicanal para
descodificar una señal de audio de N canales, comprendiendo el
descodificador (20) de audio multicanal:
medios (210) para recibir una señal de audio
codificada que comprende:
una primera señal de M canales para la señal de
audio de N canales, siendo M menor que N,
primeros datos de mejora para la expansión
multicanal, siendo los primeros datos de mejora con respecto a una
segunda señal de M canales diferente de la primera señal de M
canales;
segundos datos de mejora para la primera señal
de M canales con respecto a la segunda señal de M canales,
comprendiendo los segundos datos de mejora datos de mejora absolutos
y datos de mejora relativos con respecto a la primera señal de M
canales, y
datos de indicación indicativos de si los
segundos datos de mejora para un bloque de señal son datos de mejora
absolutos o datos de mejora relativos;
medios (212) de generación para generar una
señal de expansión multicanal de M canales en respuesta a la primera
señal de M canales y los segundos datos de mejora; y
medios (220) para generar una señal
descodificada de N canales en respuesta a la señal de expansión
multicanal de M canales y los primeros datos de mejora; y en el que
los medios (212) de generación están dispuestos para seleccionar
entre aplicar los segundos datos de mejora como datos de mejora
absolutos o datos de mejora relativos en respuesta a los datos de
indicación.
14. Descodificador (20) de audio multicanal
según la reivindicación 13, en el que los medios (212) de generación
están dispuestos para aplicar los segundos datos de mejora a la
primera señal de M canales en el dominio del tiempo.
15. Descodificador (20) de audio multicanal
según la reivindicación 13, en el que los medios (212) de generación
están dispuestos para aplicar los segundos datos de mejora a la
primera señal de M canales en el dominio de la frecuencia.
16. Descodificador de audio multicanal (10)
según la reivindicación 13, en el que los segundos datos de mejora
comprenden una primera parte de datos de mejora y una segunda parte
de datos de mejora, proporcionando la segunda parte una
representación de calidad superior de la primera señal de M canales
que la primera parte.
17. Descodificador (20) de audio multicanal
según la reivindicación 13, en el que los medios (212) de generación
están dispuestos para seleccionar sólo entre aplicar segundos datos
de mejora de la segunda parte como datos de mejora absolutos o
datos de mejora relativos.
18. Descodificador (20) de audio multicanal
según la reivindicación 13, en el que los medios (212) de generación
están dispuestos para generar la expansión multicanal de M canales
aplicando datos de mejora relativos de la segunda parte a una señal
generada aplicando datos de mejora de la primera parte a la primera
señal de M canales.
19. Procedimiento de codificación de una señal
de audio de N canales, comprendiendo el procedimiento:
generar una primera señal de M canales para la
señal de audio de N canales, siendo M menor que N;
generar primeros datos de mejora para la primera
señal de M canales con respecto a la señal de audio de N canales,
permitiendo reconstruir la señal de audio de N canales a partir de
la primera señal de M canales;
generar una segunda señal de M canales para la
señal de audio de N canales;
generar segundos datos de mejora para la segunda
señal de M canales con respecto a la primera señal de M canales,
los segundos datos de mejora comprenden características de la
primera señal de M canales que permiten reconstruir al menos parte
de la primera señal de M canales;
generar una señal de salida codificada que
comprende la segunda señal de M canales, los primeros datos de
mejora y los segundos datos de mejora; y
en el que la generación de los segundos datos de
mejora comprende seleccionar dinámicamente entre generar los
segundos datos de mejora como datos de mejora absolutos o como datos
de mejora relativos con respecto a la segunda señal de M
canales.
20. Procedimiento de descodificación de una
señal de audio de N canales, comprendiendo el procedimiento: recibir
una señal de audio codificada que comprende:
una primera señal de M canales para la señal de
audio de N canales, siendo M menor que N,
primeros datos de mejora para la expansión
multicanal, siendo los primeros datos de mejora con respecto a una
segunda señal de M canales diferente de la primera señal de M
canales; segundos datos de mejora para la primera señal de M
canales con respecto a la segunda señal de M canales, comprendiendo
los segundos datos de mejora datos de mejora absolutos y datos de
mejora relativos con respecto a la primera señal de M canales,
y
datos de indicación indicativos de si los
segundos datos de mejora para un bloque de señal son datos de mejora
absolutos o datos de mejora relativos;
generar una señal de expansión multicanal de M
canales en respuesta a la primera señal de M canales y los segundos
datos de mejora; y
generar una señal descodificada de N canales en
respuesta a la señal de expansión multicanal de M canales y los
primeros datos de mejora; y en el que la generación de la señal de
expansión multicanal de M canales comprende seleccionar entre
aplicar los segundos datos de mejora como datos de mejora absolutos
o datos de mejora relativos en respuesta a los datos de
indicación.
21. Señal de audio multicanal codificada para
una señal de audio de N canales que comprende:
unos primeros datos de señal de M canales para
la señal de audio de N canales, siendo M menor que N;
primeros datos de mejora para la expansión
multicanal, siendo los primeros datos de mejora con respecto a una
segunda señal de M canales diferente de la primera señal de M
canales, permitiendo reconstruir la señal de audio de N canales a
partir de la primera señal de M canales;
segundos datos de mejora para la primera señal
de M canales con respecto a la segunda señal de M canales, los
segundos datos de mejora comprenden características de la primera
señal de M canales que permiten reconstruir al menos parte de la
primera señal de M canales, comprendiendo los segundos datos de
mejora datos de mejora absolutos y datos de mejora relativos con
respecto a la primera señal de M canales; y
datos de indicación indicativos de si los
segundos datos de mejora para un bloque de señal son datos de mejora
absolutos o datos de mejora relativos.
22. Medio de almacenamiento que tiene almacenado
en el mismo una señal según la reivindicación 21.
23. Transmisor (40) para transmitir una señal de
audio multicanal codificada, comprendiendo el transmisor (40) un
codificador (10) de audio multicanal según la reivindicación 1.
24. Receptor (50) para recibir una señal de
audio multicanal, comprendiendo el receptor (50) un descodificador
(20) de audio multicanal según la reivindicación 13.
25. Sistema (70) de transmisión que comprende un
transmisor (40) para transmitir una señal de audio multicanal
codificada a través de un canal (30) de transmisión a un receptor
(50), comprendiendo el transmisor (40) un codificador (10) de audio
multicanal según la reivindicación 1 y comprendiendo el receptor un
descodificador (20) de audio multicanal según la reivindicación
13.
26. Procedimiento de transmisión de una señal de
audio multicanal codificada, comprendiendo el procedimiento
codificar una señal de audio de N canales según la reivindicación
19.
27. Procedimiento de recepción de una señal de
audio multicanal codificada, comprendiendo el procedimiento
descodificar la señal de audio multicanal codificada, comprendiendo
la descodificación:
recibir la señal de audio multicanal codificada
según la reivindicación 21;
generar una señal de expansión multicanal de M
canales en respuesta a la primera señal de M canales y los segundos
datos de mejora; y
generar una señal descodificada de N canales en
respuesta a la señal de expansión multicanal de M canales y los
primeros datos de mejora; y en el que la generación de la señal de
expansión multicanal de M canales comprende seleccionar entre
aplicar los segundos datos de mejora como datos de mejora absolutos
o datos de mejora relativos en respuesta a los datos de
indicación.
28. Procedimiento de transmisión y recepción de
una señal de audio, comprendiendo el procedimiento un procedimiento
de transmisión de una señal de audio multicanal codificada según la
reivindicación 26;
transmitir la señal de salida codificada desde
un transmisor hasta un receptor;
recibir, en el receptor, la señal de salida
codificada;
descodificar la señal de salida codificada donde
la descodificación comprende:
generar una señal de expansión multicanal de M
canales en respuesta a la segunda señal de M canales y los segundos
datos de mejora, comprendiendo la generación de la señal de
expansión multicanal de M canales seleccionar entre aplicar los
segundos datos de mejora como datos de mejora absolutos o datos de
mejora relativos, y
generar una señal descodificada de N canales en
respuesta a la señal de expansión multicanal de M canales y los
primeros datos de mejora.
29. Producto de programa informático operativo
para hacer que un procesador realice las etapas del procedimiento
según una cualquiera de las reivindicaciones 19, 20, 26, 27 y
28.
30. Grabador (6) de audio multicanal que
comprende un codificador (10) de audio multicanal según la
reivindicación 1.
31. Reproductor (60) de audio multicanal que
comprende un descodificador (20) de audio multicanal según la
reivindicación 13.
Applications Claiming Priority (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP05102515 | 2005-03-30 | ||
| EP05102515 | 2005-03-30 | ||
| EP05103085 | 2005-04-18 | ||
| EP05103085 | 2005-04-18 | ||
| EP06100245 | 2006-01-11 | ||
| EP06100245 | 2006-01-11 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2313646T3 true ES2313646T3 (es) | 2009-03-01 |
Family
ID=36607294
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES06727674T Expired - Lifetime ES2313646T3 (es) | 2005-03-30 | 2006-03-16 | Codificacion y descodificacion de audio. |
Country Status (11)
| Country | Link |
|---|---|
| US (1) | US7840411B2 (es) |
| EP (1) | EP1866913B1 (es) |
| JP (1) | JP5106383B2 (es) |
| KR (2) | KR20130079627A (es) |
| CN (2) | CN101151658B (es) |
| AT (1) | ATE406651T1 (es) |
| BR (1) | BRPI0608756B1 (es) |
| DE (1) | DE602006002501D1 (es) |
| ES (1) | ES2313646T3 (es) |
| MX (1) | MX2007011995A (es) |
| WO (1) | WO2006103586A1 (es) |
Families Citing this family (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| BRPI0516201A (pt) * | 2004-09-28 | 2008-08-26 | Matsushita Electric Industrial Co Ltd | aparelho de codificação escalonável e método de codificação escalonável |
| DE602006011600D1 (de) * | 2005-04-28 | 2010-02-25 | Panasonic Corp | Audiocodierungseinrichtung und audiocodierungsverfahren |
| KR101259203B1 (ko) * | 2005-04-28 | 2013-04-29 | 파나소닉 주식회사 | 음성 부호화 장치와 음성 부호화 방법, 무선 통신 이동국 장치 및 무선 통신 기지국 장치 |
| US7461106B2 (en) * | 2006-09-12 | 2008-12-02 | Motorola, Inc. | Apparatus and method for low complexity combinatorial coding of signals |
| EP2052548B1 (en) * | 2006-12-12 | 2012-02-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
| US8576096B2 (en) * | 2007-10-11 | 2013-11-05 | Motorola Mobility Llc | Apparatus and method for low complexity combinatorial coding of signals |
| US8209190B2 (en) * | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
| US20090234642A1 (en) * | 2008-03-13 | 2009-09-17 | Motorola, Inc. | Method and Apparatus for Low Complexity Combinatorial Coding of Signals |
| US8639519B2 (en) * | 2008-04-09 | 2014-01-28 | Motorola Mobility Llc | Method and apparatus for selective signal coding based on core encoder performance |
| CN101809656B (zh) | 2008-07-29 | 2013-03-13 | 松下电器产业株式会社 | 音响编码装置、音响解码装置、音响编码解码装置及会议系统 |
| US8200496B2 (en) * | 2008-12-29 | 2012-06-12 | Motorola Mobility, Inc. | Audio signal decoder and method for producing a scaled reconstructed audio signal |
| US8175888B2 (en) | 2008-12-29 | 2012-05-08 | Motorola Mobility, Inc. | Enhanced layered gain factor balancing within a multiple-channel audio coding system |
| US8140342B2 (en) * | 2008-12-29 | 2012-03-20 | Motorola Mobility, Inc. | Selective scaling mask computation based on peak detection |
| US8219408B2 (en) * | 2008-12-29 | 2012-07-10 | Motorola Mobility, Inc. | Audio signal decoder and method for producing a scaled reconstructed audio signal |
| BR122019023877B1 (pt) | 2009-03-17 | 2021-08-17 | Dolby International Ab | Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo |
| US8428936B2 (en) * | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
| US8423355B2 (en) * | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
| JP5957446B2 (ja) * | 2010-06-02 | 2016-07-27 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 音響処理システム及び方法 |
| MX2013011131A (es) | 2011-03-28 | 2013-10-30 | Dolby Lab Licensing Corp | Transformada con complejidad reducida para canal de efectos de baja frecuencia. |
| CN102802112B (zh) * | 2011-05-24 | 2014-08-13 | 鸿富锦精密工业(深圳)有限公司 | 具有音频文件格式转换功能的电子装置 |
| US9129600B2 (en) | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
| TWI546799B (zh) | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
| EP2830048A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
| EP2830047A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
| EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
| EP2830051A3 (en) * | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
| EP2830333A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals |
| EP3022949B1 (en) | 2013-07-22 | 2017-10-18 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
| CN103413553B (zh) | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
| US9067135B2 (en) * | 2013-10-07 | 2015-06-30 | Voyetra Turtle Beach, Inc. | Method and system for dynamic control of game audio based on audio analysis |
| EP2879408A1 (en) | 2013-11-28 | 2015-06-03 | Thomson Licensing | Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition |
| CN105206278A (zh) * | 2014-06-23 | 2015-12-30 | 张军 | 一种基于流水线的三维音频编码加速方法 |
| JP6629739B2 (ja) * | 2014-09-01 | 2020-01-15 | ソニーセミコンダクタソリューションズ株式会社 | 音声処理装置 |
| US12387734B2 (en) | 2019-07-08 | 2025-08-12 | Voiceage Corporation | Method and system for coding metadata in audio streams and for flexible intra-object and inter-object bitrate adaptation |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19628293C1 (de) * | 1996-07-12 | 1997-12-11 | Fraunhofer Ges Forschung | Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion |
| SG54379A1 (en) * | 1996-10-24 | 1998-11-16 | Sgs Thomson Microelectronics A | Audio decoder with an adaptive frequency domain downmixer |
| US5946352A (en) | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
| US6122619A (en) * | 1998-06-17 | 2000-09-19 | Lsi Logic Corporation | Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor |
| US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
| SE519985C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
| ES2255678T3 (es) * | 2002-02-18 | 2006-07-01 | Koninklijke Philips Electronics N.V. | Codificacion de audio parametrica. |
| KR100981694B1 (ko) * | 2002-04-10 | 2010-09-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 스테레오 신호들의 코딩 |
| JP4322207B2 (ja) * | 2002-07-12 | 2009-08-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化方法 |
| KR100528325B1 (ko) * | 2002-12-18 | 2005-11-15 | 삼성전자주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치 |
| US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
| US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
| SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
| US7391870B2 (en) * | 2004-07-09 | 2008-06-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Apparatus and method for generating a multi-channel output signal |
| WO2006008683A1 (en) * | 2004-07-14 | 2006-01-26 | Koninklijke Philips Electronics N.V. | Method, device, encoder apparatus, decoder apparatus and audio system |
| TWI393121B (zh) * | 2004-08-25 | 2013-04-11 | 杜比實驗室特許公司 | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
| SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
| US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
| US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
| EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
| US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
-
2006
- 2006-03-16 ES ES06727674T patent/ES2313646T3/es not_active Expired - Lifetime
- 2006-03-16 CN CN2006800102009A patent/CN101151658B/zh not_active Expired - Lifetime
- 2006-03-16 MX MX2007011995A patent/MX2007011995A/es active IP Right Grant
- 2006-03-16 US US11/909,742 patent/US7840411B2/en active Active
- 2006-03-16 WO PCT/IB2006/050826 patent/WO2006103586A1/en not_active Ceased
- 2006-03-16 EP EP06727674A patent/EP1866913B1/en not_active Expired - Lifetime
- 2006-03-16 JP JP2008503634A patent/JP5106383B2/ja not_active Expired - Lifetime
- 2006-03-16 DE DE602006002501T patent/DE602006002501D1/de not_active Expired - Lifetime
- 2006-03-16 KR KR1020137014310A patent/KR20130079627A/ko not_active Withdrawn
- 2006-03-16 CN CN2006800106527A patent/CN101151660B/zh not_active Expired - Lifetime
- 2006-03-16 BR BRPI0608756-6A patent/BRPI0608756B1/pt active IP Right Grant
- 2006-03-16 KR KR1020077025145A patent/KR101346120B1/ko not_active Expired - Lifetime
- 2006-03-16 AT AT06727674T patent/ATE406651T1/de not_active IP Right Cessation
Also Published As
| Publication number | Publication date |
|---|---|
| EP1866913A1 (en) | 2007-12-19 |
| EP1866913B1 (en) | 2008-08-27 |
| WO2006103586A1 (en) | 2006-10-05 |
| KR101346120B1 (ko) | 2014-01-02 |
| DE602006002501D1 (de) | 2008-10-09 |
| MX2007011995A (es) | 2007-12-07 |
| CN101151658A (zh) | 2008-03-26 |
| KR20070116174A (ko) | 2007-12-06 |
| ATE406651T1 (de) | 2008-09-15 |
| CN101151658B (zh) | 2011-07-06 |
| US7840411B2 (en) | 2010-11-23 |
| US20100153118A1 (en) | 2010-06-17 |
| JP5106383B2 (ja) | 2012-12-26 |
| CN101151660A (zh) | 2008-03-26 |
| JP2008535015A (ja) | 2008-08-28 |
| KR20130079627A (ko) | 2013-07-10 |
| CN101151660B (zh) | 2011-10-19 |
| BRPI0608756A2 (pt) | 2011-03-15 |
| BRPI0608756B1 (pt) | 2019-06-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2313646T3 (es) | Codificacion y descodificacion de audio. | |
| US10455344B2 (en) | Compatible multi-channel coding/decoding | |
| RU2411594C2 (ru) | Кодирование и декодирование аудио | |
| ES2307160T3 (es) | Codificador multicanal. | |
| ES2682073T3 (es) | Codificación conjunta paramétrica de fuentes de audio | |
| ES2454670T3 (es) | Generación de una señal multicanal codificada y decodificación de una señal multicanal codificada | |
| ES2398573T3 (es) | Número reducido de decodificación de canales | |
| ES2376889T3 (es) | Generación de mezclas descendentes espaciales a partir de representaciones paramétricas de señales multicanal | |
| JP4772279B2 (ja) | オーディオ信号のマルチチャネル/キュー符号化/復号化 | |
| JP4589962B2 (ja) | レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法 | |
| US20080052089A1 (en) | Acoustic Signal Encoding Device and Acoustic Signal Decoding Device | |
| HK1144043B (en) | Method for generating multi-channel audio signal representation |