ES2306235T3 - Codificacion de audio multicanal compatible estereo. - Google Patents
Codificacion de audio multicanal compatible estereo. Download PDFInfo
- Publication number
- ES2306235T3 ES2306235T3 ES05798859T ES05798859T ES2306235T3 ES 2306235 T3 ES2306235 T3 ES 2306235T3 ES 05798859 T ES05798859 T ES 05798859T ES 05798859 T ES05798859 T ES 05798859T ES 2306235 T3 ES2306235 T3 ES 2306235T3
- Authority
- ES
- Spain
- Prior art keywords
- parameters
- spatial
- stereo
- signal
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 58
- 230000005236 sound signal Effects 0.000 claims description 40
- 230000005540 biological transmission Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 239000003607 modifier Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001010 compromised effect Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 241000282693 Cercopithecidae Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transceivers (AREA)
Abstract
Descodificador (200) de audio multicanal para procesar una representación (202) paramétrica, en el que la representación (202) paramétrica comprende un parámetro (206) de estéreo que describe propiedades espaciales de un downmix estéreo de la señal multicanal e información sobre uno o más parámetros (204) espaciales que describen propiedades espaciales de una señal multicanal, dependiendo la información sobre uno o más parámetros espaciales del parámetro de estéreo, en el que la información sobre el uno o más parámetros (204) espaciales y el parámetro (206) de estéreo, cuando se combinan utilizando una regla de combinación, da como resultado uno o más parámetros (210) espaciales, comprendiendo el descodificador: un reconstructor (208) de parámetros para combinar el parámetro (206) de estéreo y la información sobre el uno o más parámetros (204) espaciales utilizando la regla de combinación para obtener el uno o más parámetros (210) espaciales.
Description
Codificación de audio multicanal compatible
estéreo.
La presente invención se refiere a codificación
de audio multicanal y en particular a un concepto de generación y
utilización de una representación paramétrica de una señal de audio
multicanal que es totalmente compatible hacia atrás para entornos
de reproducción de estéreo paramétrico.
La presente invención se refiere a codificación
de representaciones multicanal de señales de audio utilizando
parámetros de audio espacial de una manera que es compatible con
codificación de señales estéreo de 2 canales utilizando parámetros
de estéreo paramétrico. La presente invención enseña nuevos métodos
para codificación eficaz tanto de parámetros de audio espacial como
de parámetros de estéreo paramétrico y para embeber los parámetros
codificados en un flujo de bits de una manera compatible hacia
atrás. En particular su objetivo es minimizar la tasa de bits
global para los parámetros de estéreo paramétrico y audio espacial
en el flujo de bits compatible hacia atrás sin comprometer la
calidad del estéreo descodificado o señal de audio multicanal.
Cuando una calidad ligeramente comprometida de la señal estéreo
descodificada es aceptable, puede reducirse aún más la tasa de bits
global.
Últimamente, las técnicas de reproducción de
audio multicanal están volviéndose cada vez más importantes.
Teniendo como objetivo una transmisión eficaz de señales de audio
multicanal que presentan 5 o más canales de audio separados, se han
desarrollado varias maneras de comprimir una señal multicanal o
estéreo. Enfoques recientes para la codificación paramétrica de
señales de audio multicanal (estéreo paramétrico (PS, parametric
stereo), codificación de indicación binaural (BCC, Binaural
Cue Coding) etc.) representan una señal de audio multicanal por
medio de una señal de downmix (podría ser monofónica o comprender
varios canales) e información lateral paramétrica, también
denominada "indicaciones espaciales", caracterizando su fase de
sonido espacial percibida.
Un dispositivo de codificación multicanal recibe
en general, como entrada, al menos dos canales, y emite uno o más
canales portadores y datos paramétricos. Los datos paramétricos se
obtienen de tal manera que, en un descodificador, puede calcularse
una aproximación de la señal multicanal original. Normalmente,
el(los) canal (canales) portador(es) incluirá(n)
muestras de subbanda, coeficientes espectrales, muestras de dominio
de tiempo, etc., que proporcionan una representación
comparativamente precisa de la señal subyacentes, mientras que los
datos paramétricos no incluyen tales muestras de coeficientes
espectrales sino que incluyen parámetros de control para controlar
un cierto algoritmo de reconstrucción en su lugar. Tal
reconstrucción podría comprender ponderación por multiplicación,
desplazamiento de tiempo, desplazamiento de frecuencia,
desplazamiento de fase, etc. Por tanto, los datos paramétricos,
incluyen sólo una representación comparativamente imprecisa de la
señal o el canal asociado.
La técnica de codificación de indicación
binaural (BCC) se describe en varias publicaciones, como en
"Binaural Cue Coding applied to Stereo and
Multi-Channel Audio Compression", C. Faller,
F. Baumgarte, artículo de convención AES 5574, mayo de 2002,
Munich, en las 2 publicaciones de ICASSP "Estimation of
auditory spatial cues for binaural cue coding", y
"Binaural Cue Coding: a normal an efficient representation of
spatial audio", ambas escritas por C. Faller y F. Baumgarte,
Orlando, FL, mayo de 2002.
En la codificación BCC, varios canales de
entrada de audio se convierten en una representación espectral
utilizando una transformada basada en DFT (transformada discreta de
Fourier, Discrete Fourier Transform) con ventanas
superpuestas. El espectro uniforme resultante se divide entonces en
particiones no superpuestas. Cada partición presenta un ancho de
banda proporcional al ancho de banda rectangular equivalente (ERB,
equivalent rectangular bandwidth). Entonces, se estiman
parámetros espaciales denominados ICLD (diferencia de nivel entre
canales, Inter-Channel Level Difference) e
ICTD (diferencia de tiempo entre canales,
Inter-Channel Time Difference) para cada
partición. El parámetro ICLD describe una diferencia de nivel entre
dos canales y el parámetro ICTD describe la diferencia de tiempo
(desfase) entre dos señales de diferentes canales. Las diferencias
de nivel y las diferencias de tiempo se dan normalmente para cada
canal con respecto a un canal de referencia. Tras la obtención de
estos parámetros, los parámetros se cuantifican y finalmente se
codifican para su transmisión.
Aunque los parámetros ICLD e ICTD representan
los parámetros de localización de fuente de sonido más importantes,
puede mejorarse una representación espacial utilizando estos
parámetros introduciendo parámetros adicionales.
Una técnica relacionada, denominada "estéreo
paramétrico" describe la codificación paramétrica de una señal
estéreo de dos canales basándose en una señal mono transmitida más
información lateral de parámetros. Se introducen tres tipos de
parámetros espaciales, denominados diferencia de intensidad entre
canales (IID, inter-channel intensity
difference), diferencias de fase entre canales (IPD,
inter-channel phase differences) y coherencia
entre canales (IC, inter-channel coherence).
La extensión del conjunto de parámetros espaciales con un parámetro
de coherencia (parámetro de correlación) permite una parametrización
de la "difusividad" espacial o "compacidad" espacial
percibidas de la fase de sonido. El estéreo paramétrico se describe
con más detalle en: "Parametric Coding of stereo
audio", J.'Breebaart, S. van de Par, A. Kohlrausch, E.
Schuijers (2005) Eurasip, J. Applied Signal Proc. 9, páginas 1305 a
1322)'', en "High-Quality Parametric Spatial
Audio Coding at Low Bitrates", J. Breebaart, S. van de Par,
A. Kohlrausch, E. Schuijers, 116ª convención AES, preimpresión
6072, Berlín, mayo de 2004, y en "Low Complexity Parametric
Stereo Coding", E. Schuijers, J. Breebaart, H. Purnhagen, J.
Engdegard, 116ª convención AES, preimpresión 6073, Berlín, mayo de
2004.
Tal como se mencionó anteriormente, últimamente
se han desarrollado sistemas para codificación de estéreo
paramétrico así como para codificación de audio espacial. Como en
estéreo paramétrico se representa una señal de audio estéreo de dos
canales por medio de una señal de audio de downmix mono e
información lateral adicional que lleva parámetros de estéreo
(véase PCT/SE02/01372 "Efficient and scalable Parametric Stereo
Coding for Low Bitrate Audio Coding Applications"), un
descodificador de estéreo legado reconstruye una señal estéreo de
dos canales a partir de la señal mono y la información lateral.
En esquemas de codificación de audio espacial,
se representa una señal de audio envolvente multicanal por medio de
una señal de audio de downmix estéreo o mono e información lateral
adicional que lleva parámetros de audio espacial. Un ejemplo
ampliamente conocido es la configuración de canales 5.1 utilizada
para sistemas de entretenimiento para el hogar.
Un descodificador de audio espacial legado
reconstruye la señal multicanal 5.1 basándose en la señal mono o
estéreo y los parámetros espaciales de audio adicionales.
Normalmente las señales de downmix empleadas en
sistemas de codificación de audio espacial o estéreo paramétrico se
codifican adicionalmente, utilizando técnicas de codificación de
audio perceptiva de baja tasa de bits (tal como MPEG AAC) para
reducir adicionalmente el ancho de banda de transmisión requerido
para la transmisión de los diferentes tipos de señales. Además, la
señal de downmix se combina normalmente con la información lateral
de audio espacial o de estéreo paramétrico en un flujo de bits de
una manera que garantiza la compatibilidad hacia atrás con
descodificadores legados, es decir, con descodificadores que no
están operativos para procesar los parámetros de audio espacial o
estéreo paramétrico. De esta manera, un descodificador de audio
legado sólo reconstruye la señal de downmix estéreo o mono
transmitida. Cuando se utiliza un descodificador que implementa
estéreo paramétrico o codificación de audio espacial, el
descodificador también recuperará la información lateral embebida
en el flujo de bits y reconstruirá la señal completa envolvente de
canales 5.1 o estéreo de dos canales.
Cuando se utiliza codificación de audio espacial
basándose en una señal de downmix mono es deseable además aumentar
la compatibilidad hacia atrás proporcionando una señal de tal manera
que no sólo un descodificador de audio perceptivo legado pueda
obtener la señal de downmix mono, sino que adicionalmente sea
posible para un descodificador de estéreo paramétrico que no
soporta descodificación de audio espacial una descodificación de
estéreo paramétrico de tal flujo de bits. Para conseguir este
objetivo, es necesario incluir ambas informaciones, la información
lateral de estéreo paramétrico y la información lateral de audio
espacial en el flujo de bits. Este enfoque obvio lleva a una
cantidad indeseablemente alta de información lateral dentro del
flujo de bits. Esto significaría para un escenario en el que tiene
que mantenerse una tasa de bits máxima total para transmitir la
señal mono y la información lateral, que un aumento en la
información lateral llevaría a menos tasa de datos disponible para
el downmix mono codificado de manera perceptiva, lo que obviamente
reduce la calidad de audio de la señal de downmix mono
descodificada.
Otro enfoque de la técnica anterior de incluir
simultáneamente tanto los parámetros de audio espacial y de estéreo
paramétrico como la información lateral, requiere un conjunto de
parámetros de audio espacial que están estructurados de tal manera
que un subconjunto de estos parámetros permite reconstruir una señal
estéreo de dos canales a partir de la señal de downmix mono. Este
subconjunto se embebe como información lateral paramétrica dentro
del flujo de bits de una manera compatible con flujos de bits de
estéreo paramétrico, mientras que los parámetros de audio espacial
restantes que no pertenecen al subconjunto se embeben en información
lateral de audio espacial en el flujo de bits compatible con
codificadores de audio espacial. En el lado del descodificador, un
descodificador que implementa sólo estéreo paramétrico reconstruirá
una señal estéreo de dos canales basándose en el subconjunto de
parámetros que están embebidos como información lateral de estéreo
paramétrico. Por otro lado, un descodificador que implementa audio
espacial recuperará el subconjunto de estéreo paramétrico y los
parámetros de audio espacial restantes. Con este conjunto completo
de parámetros espaciales, puede reconstruirse la señal
multicanal.
Sin embargo, este enfoque presenta la desventaja
de que compromete la calidad de audio de o bien la reconstrucción
de estéreo paramétrico compatible hacia atrás o bien la
reconstrucción multicanal. Esto es evidente, puesto que en el
primer caso, el subconjunto de parámetros que también se utilizan
como parámetros de audio espacial describe la interrelación entre
dos canales de una señal 5.1. La elección más natural sería el canal
izquierdo frontal (l) y el derecho frontal (r), lo que, sin
embargo, puede diferir sustancialmente de los valores correctos
para la relación de los canales izquierdo (l0) y derecho (r0) de un
downmix estéreo. En el segundo caso, los valores correctos de un
downmix estéreo forman dicho subconjunto, lo que significa que se
utilizan para describir una interrelación entre el canal izquierdo
frontal y el derecho frontal de una señal envolvente multicanal.
Esto, sin embargo, puede llevar a una imperfección significativa de
la reconstrucción de audio espacial debido a la cuantificación de
los parámetros, que se requiere con el fin de embeberlos en el flujo
de bits de una manera compatible multicanal.
Es el objeto de la presente invención
proporcionar un concepto para crear y utilizar una representación
paramétrica de una señal de audio multicanal que permita una
representación más eficaz que apenas comprometa la calidad de una
reconstrucción de estéreo paramétrico o la calidad de una
reconstrucción de audio espacial.
Este objeto se consigue mediante un
descodificador de audio multicanal según la reivindicación 1 o un
codificador de audio según la reivindicación 11.
\newpage
La presente invención se basa en el
descubrimiento de que puede obtenerse eficazmente una representación
paramétrica de una señal de audio multicanal que presenta
parámetros adecuados para utilizarse junto con una señal de downmix
monofónico de una manera compatible hacia atrás cuando se utiliza un
combinador de parámetros para generar la representación paramétrica
combinando un conjunto de parámetros espaciales y un parámetro de
estéreo dando como resultado una representación paramétrica que
presenta un parámetro de estéreo utilizable por el descodificador y
una información sobre el conjunto de parámetros espaciales que
representa, junto con el parámetro de estéreo utilizable por el
descodificador, el conjunto de parámetros espaciales.
Utilizando una interrelación entre los
parámetros espaciales y los parámetros de estéreo que están
describiendo un downmix estéreo de la misma señal multicanal de
audio descrita también por los parámetros espaciales, se puede
predecir de manera ventajosa un subconjunto de los parámetros
espaciales basándose en los parámetros de estéreo paramétrico.
Puesto que la señal estéreo de dos canales
descrita por los parámetros de estéreo representa alguna forma de
una downmix estéreo de la señal multicanal 5.1, hay dependencias
entre los parámetros de estéreo del sistema de estéreo paramétrico
y los parámetros espaciales del sistema de codificación de audio
espacial, tal como se mencionó anteriormente. La presente invención
utiliza estos parámetros de estéreo en combinación con un
subconjunto de los parámetros de audio espacial para predecir los
valores de los parámetros de audio espacial restantes no incluidos
en dicho subconjunto. Entonces, sólo es necesario transmitir la
diferencia entre los valores predicho y real de los parámetros de
audio espacial que no están en el subconjunto. La entropía de esta
diferencia (es decir el error de predicción) es normalmente inferior
a la entropía del propio parámetro real. Esto puede utilizarse por
un sistema que emplea la presente invención y algún tipo de
codificación de entropía posterior. Tal sistema requiere menos tasa
de bits de información lateral para los parámetros de estéreo
paramétrico y audio espacial que un sistema que simplemente
embebería todos los parámetros de manera independiente. Ha de
observarse que al mismo tiempo, tal sistema que emplea la presente
invención no compromete ni la calidad de la reconstrucción de
estéreo paramétrico ni la calidad de la reconstrucción de audio
espacial.
Como el objetivo es proporcionar una
representación paramétrica que sea compatible hacia atrás con
descodificaciones de estéreo paramétrico; se prefiere que los
parámetros correctos que representan el downmix estéreo se utilicen
para no comprometer la calidad de la señal estéreo de dos canales
reconstruida a partir de un descodificador de estéreo paramétrico.
Sin embargo, en una realización alternativa de la presente
invención, se emplea una pequeña modificación de los parámetros de
estéreo paramétrico en el codificador, basándose en los parámetros
espaciales estimados, con el fin de mejorar el rendimiento de la
predicción de parámetros para los parámetros de audio espacial.
Está claro que esta modificación de los parámetros de estéreo
paramétrico (PS) lleva a calidad ligeramente reducida de la señal
estéreo reconstruida por un descodificador que sólo implementa
descodificación de estéreo paramétrico. Mediante esta realización
de la presente invención, la calidad de la señal de audio espacial
reconstruida permanece no afectada por la modificación de parámetros
PS, mientras que se reduce la tasa de bits global requerida para la
información lateral espacial y de PS embebida en un flujo de bits
compatible.
En una realización preferida de la presente
invención, se utiliza un codificador para obtener una representación
paramétrica de una señal de audio multicanal que genera un flujo de
bits, en la que se embeben parámetros de audio espacial así como
parámetros de estéreo paramétrico de un downmix estéreo de la señal
multicanal de una manera compatible completamente hacia atrás. Es
decir, un descodificador de estéreo paramétrico que puede procesar
sólo parámetros de estéreo paramétrico, podrá reconstruir una señal
estéreo de alta calidad utilizando los parámetros de estéreo
paramétrico. Además, el codificador de la invención sustituye
algunos de los parámetros espaciales por una representación
diferencial de los parámetros espaciales reales y una predicción
del parámetro espacial, mientras que la predicción del parámetro
espacial se basa en los parámetros de estéreo y en un conjunto de
los parámetros de audio espacial no sustituidos. Puesto que tanto la
representación de parámetros de audio espacial como los parámetros
de representación de estéreo paramétrico describen diferencias de
nivel y correlación entre pares de canales, existe una interrelación
entre los parámetros de audio espacial y los parámetros de estéreo,
puesto que ambos se obtienen a partir de la misma base de datos, es
decir la señal multicanal. Por lo tanto, utilizando la diferencia
entre la predicción y el valor real para la transmisión, puede
ahorrarse tasa de bits, puesto que las diferencias normalmente
presentan una entropía que es mucho menor que la entropía del
parámetro de audio espacial subyacente. Cuando la predicción es
perfecta, la diferencia de la predicción y el valor real es
obviamente cero, lo que significa que como representación de los
parámetros espaciales sustituidos sólo tienen que transmitirse o
almacenarse valores cero dentro de la representación paramétrica,
que es lo más ventajoso cuando se realizan etapas de codificación de
entropía adicionales sobre la representación, tal como es
normalmente el caso.
Utilizando el concepto descrito anteriormente,
un codificación o descodificador de la invención presenta la
ventaja obvia de que a pesar de la transmisión compatible hacia
atrás de parámetros de audio espacial y estéreo paramétrico sin
pérdida de precisión, puede disminuirse la tasa de bits en
comparación con un escenario en el que los parámetros de audio
espacial y los parámetros estéreo paramétrico se transmiten
simplemente de manera independiente dentro de un flujo de bits.
En una realización adicional de la presente
invención, se aplica un pequeño cambio a los parámetros de estéreo
paramétrico antes de la predicción de los parámetros espaciales y la
transmisión de los parámetros espaciales alterados. Esto presenta
la gran ventaja de que puede mejorarse la estabilidad de la
predicción mediante un pequeño cambio de los parámetros de estéreo
paramétrico y, por lo tanto, puede disminuirse adicionalmente la
tasa de bits global. El coste es una pequeña degradación en la
calidad de un upmix estéreo reconstruido utilizando los parámetros
de estéreo modificados, puesto que los parámetros de estéreo
paramétrico realmente óptimos se cambian dentro del proceso de
codificación.
En una realización adicional de la presente
invención, un codificador de audio de la invención comprende un
elemento de downmix espacial para generar una señal monofónica a
partir de una señal multicanal introducida en el codificador. La
señal monofónica se comprime adicionalmente mediante un codificador
de audio, utilizando por ejemplo compresión de audio perceptiva,
para disminuir adicionalmente la tasa de transmisión que la señal
de downmix monofónico utiliza durante la transmisión. Un generador
de flujo de bits genera finalmente un flujo de bits para combinar
la señal mono, los parámetros de audio espacial y los parámetros de
estéreo paramétrico en un único flujo de bits compatible estéreo
paramétrico.
En una realización adicional de la presente
invención, un codificador o descodificador paramétrico comprende
una unidad de control, permitiendo una disminución adicional de la
tasa de bits requerida. Esto se consigue comparando la tasa de bits
que necesita la representación diferencial de los parámetros
espaciales generada utilizando la diferencia del parámetro espacial
real y una predicción del mismo con la tasa de bits necesaria para
codificar directamente los parámetros espaciales. La codificación se
realiza por medio de un procedimiento de codificación de dos
etapas, que comprende en primer lugar, la codificación diferencial
del tiempo y/o la frecuencia de cada parámetro individualmente, y
una codificación de entropía posterior (utilizando por ejemplo un
codificador Huffman, un codificador aritmético o un codificador de
segmentos en blanco (run-length)). Este
proceso aprovecha la predictabilidad (o redundancia) para cada
parámetro basándose en su propia historia (comparado con la
predicción a través de conjuntos de parámetros tal como se describió
anteriormente). En los casos en los que la codificación predictiva
diferencial da como resultado una tasa de bits superior, puede
ahorrarse tasa de bits adicional transmitiendo directamente los
parámetros espaciales para tramas de tiempo dadas. La decisión,
cuya estrategia se eligió, puede o bien transmitirse dentro del
flujo de bits que va a procesarse en el lado del descodificador o
bien el descodificador puede decidir sin notificación qué estrategia
se había utilizado originariamente aplicando algoritmos de
detección apropiados.
Tal como ya se mencionó, una señal generada
según la presente invención presenta la gran ventaja de ser
compatible hacia atrás para un descodificador de estéreo
paramétrico y además albergar la información requerida para la
reproducción de una señal (envolvente) espacial completa cuando se
transmite a un descodificador de la invención.
Por lo tanto, un descodificador de la invención
que recibe los parámetros de estéreo paramétrico y los parámetros
de audio espacial puede reconstruir un conjunto completo de
parámetros espaciales aplicando la misma predicción y
transformación inversa de los parámetros de audio espacial
transmitidos de manera diferencial para obtener el conjunto
completo de parámetros de audio espacial que representan la
propiedad espacial de una señal multicanal a partir de un flujo de
bits de la invención.
Dicho de otro modo, la regla de combinación
utilizada para combinar los parámetros de estéreo paramétrico y los
parámetros de audio espacial recibidos para reconstruir un conjunto
completo de parámetros espaciales es la inversa de la regla
aplicada en un lado de codificador. En el caso de codificación
diferencial tal como se mencionó anteriormente, esto significaría
que en primer lugar se calcula la predicción del parámetro deseado
utilizando uno o más de los parámetros de estéreo paramétrico y uno
o más de los parámetros de audio espacial recibidos. Entonces se
calcula la suma entre el valor predicho y el valor transmitido,
siendo esta suma el parámetro deseado del conjunto completo de
parámetros espaciales.
En una realización adicional de la presente
invención, un descodificador de la invención puede reconstruir
también una representación estéreo de la señal multicanal utilizando
los parámetros de estéreo paramétrico de alta calidad. Esto
presenta la gran ventaja de que puede configurarse un descodificador
de la invención según las necesidades, es decir, cuando sólo esté
disponible un entorno sólo de reproducción estéreo, puede
reproducirse una señal estéreo de alta calidad mediante un
descodificador de la invención, mientras que, cuando esté a mano un
entorno de reproducción multicanal, la representación multicanal de
la señal puede reproducirse para permitir la escucha agradable para
sonido envolvente.
En una realización adicional de la presente
invención, un codificador de la invención está comprendido dentro
de un transmisor o grabador de audio, permitiendo el almacenamiento
o la transmisión con ahorro de tasa de bits de una señal de audio,
que puede reproducirse con excelente calidad o bien como una señal
estéreo o bien como señal envolvente completa.
En una realización adicional de la presente
invención, un descodificador de la invención está comprendido
dentro de un receptor o reproductor de audio, permitiendo recibir o
reproducir señales utilizando diferentes configuraciones de
altavoces, en la que la señal de audio puede reproducirse en la
representación que mejor se ajusta al entorno de reproducción
existente.
En resumen, la presente invención comprende las
siguientes propiedades ventajosas:
- codificación compatible de señales de audio
multicanal, que incluye,
en el lado del codificador, someter a downmix la
señal multicanal para dar una representación de un canal,
en el lado del codificador dada dicha señal
multicanal, definición de los parámetros que representan la señal
multicanal,
en el lado del codificador dada dicha señal
multicanal, definición de los parámetros que representan un downmix
estéreo de la señal multicanal,
en el lado del codificador, embeber ambos
conjuntos de parámetros de una manera eficaz en tasa de bits y
compatible hacia atrás en un flujo de bits,
en el lado del descodificador, extraer los
parámetros embebidos de un flujo de bits,
en el lado del descodificador, reconstruir los
parámetros que representan una señal multicanal a partir de los
parámetros extraídos del flujo de bits,
en el lado del descodificador, reconstruir las
señales de salida multicanal dados los parámetros reconstruidos a
partir de los datos del flujo de bits, y dicha señal sometida a
downmix;
- embeber los parámetros que representan un
downmix estéreo en el flujo de bits, de tal manera que puede
descodificarse mediante un método de descodificación (legado) que
sólo soporta descodificación de estéreo paramétrico;
- dividir el conjunto de parámetros que
representan la señal multicanal en un primer subconjunto y un
segundo subconjunto;
- predecir los valores en dicho primer
subconjunto de parámetros basándose en dicho segundo subconjunto de
parámetros y basándose en los parámetros que representan un downmix
estéreo de la señal multicanal;
- un mecanismo de control que selecciona
automáticamente si el primer subconjunto de parámetros se codifica
directamente o si sólo se codifican las diferencias con respecto a
los valores de parámetros predichos;
- modificación de los parámetros que representan
un downmix estéreo, en la que tanto los parámetros originales que
representan la señal multicanal como los parámetros originales que
representan el downmix estéreo se utilizan como base para obtener
los parámetros modificados;
- una tabla de consulta que se utiliza para
encontrar dichos valores de parámetros predichos;
- una función polinómica que se utiliza para
encontrar dichos valores de parámetros predichos;
- una función matemática obtenida a partir del
método empleado para generar el downmix estéreo que se utiliza para
encontrar dichos valores de parámetros predichos.
\vskip1.000000\baselineskip
A continuación se describen realizaciones
preferidas de la presente invención haciendo referencia a los
dibujos adjuntos, en los que
la figura 1 muestra un diagrama de bloques de un
codificador de la invención;
la figura 2 muestra un flujo de bits generado
según la presente invención;
la figura 3 muestra una realización adicional de
un codificador de la invención;
la figura 4 muestra detalles del codificador de
la invención de la figura 3;
la figura 5 muestra un descodificador de la
invención;
la figura 6 muestra una realización preferida de
un descodificador multicanal de la invención;
la figura 7 muestra detalles del descodificador
multicanal de la figura 6;
la figura 8 ilustra la compatibilidad hacia
atrás de una señal de la invención;
la figura 9 muestra un transmisor o grabador de
audio que presenta un codificador de la invención;
la figura 10 muestra un receptor o reproductor
de audio que presenta un descodificador multicanal de la invención;
y
la figura 11 muestra un sistema de
transmisión.
\vskip1.000000\baselineskip
Las realizaciones descritas a continuación son
meramente ilustrativas para los principios de la presente invención
para codificación compatible de estéreo paramétrico mejorada de
audio espacial. Se entiende que para otros expertos en la técnica
serán evidentes modificaciones y variaciones de las disposiciones y
los detalles descritos en el presente documento. Por lo tanto, se
pretende quedar limitado sólo por el alcance de las reivindicaciones
de patente siguientes y no por los detalles específicos presentados
a modo de descripción y explicación de las realizaciones en el
presente documento.
La figura 1 muestra un codificador 10 de la
invención para obtener una representación 12 paramétrica de una
señal de audio multicanal. El codificador 10 comprende un calculador
14 de parámetros espaciales, un calculador 16 de parámetros de
estéreo y un combinador 18 de parámetros.
El calculador 14 de parámetros espaciales
calcula un conjunto de parámetros 20 espaciales que describen las
propiedades especiales de una señal multicanal. El calculador 16 de
parámetros de estéreo calcula parámetros 22 de estéreo que
describen propiedades espaciales de un downmix estéreo de la señal
multicanal. El conjunto de parámetros 20 espaciales y los
parámetros 22 de estéreo se transfieren al combinador 18 de
parámetros para obtener la representación 12 paramétrica, que
comprende un parámetro 24 de estéreo utilizable por el
descodificador y una información sobre el conjunto de parámetros 26
espaciales.
La figura 2 muestra un ejemplo para un flujo de
bits compatible hacia atrás que es la representación paramétrica de
una señal de audio multicanal según se produce mediante un
codificador de la invención según la figura 1. El flujo de bits
comprende una sección 30 de parámetros de estéreo y una sección 32
de parámetros espaciales. La sección 30 de parámetros de estéreo
presenta una cabecera 34 de estéreo al comienzo de la sección 30 de
parámetros de estéreo, seguida por dos parámetros 36a y 36b de
estéreo utilizables por el descodificador, que se utilizarían por
un descodificador de estéreo paramétrico para reconstruir la señal
estéreo. Un descodificador que pueda procesar parámetros de estéreo
paramétrico sólo identificaría los parámetros 36a y 36b de estéreo
paramétrico por la información comprendida en la cabecera 34 de
estéreo.
La sección 32 de audio espacial comienza con una
cabecera 38 espacial y comprende cuatro parámetros 40a a 40d de
audio espacial. Un descodificador multicanal según la presente
invención utilizaría los parámetros 40a a 40d espaciales
identificándolos con la ayuda de la cabecera 38 espacial así como
los parámetros 36a y 36b de estéreo tal como se identifican por la
cabecera 34 de estéreo. Tal como se indica en la figura 2, el
parámetro 40a espacial consume menos tasa de bits que los parámetros
40b a 40d espaciales. En el ejemplo mostrado en la figura 2, el
parámetro 40a espacial se representa por la diferencia del parámetro
espacial original subyacente, y un parámetro espacial predicho
obtenido utilizando uno o más de los parámetros 36a o 36b de
estéreo y uno o más de los parámetros 40b a 40d de audio espacial.
Por lo tanto, un descodificador multicanal de la invención
necesitaría utilizar tanto los parámetros 36a y 36b de estéreo como
los parámetros 40b a 40d espaciales para reconstruir el parámetro
espacial que subyace a la información sobre el parámetro 40a
espacial que se transmite en el flujo de bits.
La figura 3 muestra una realización preferida de
un codificador 52 de la invención para obtener una representación
paramétrica de una señal 50 de audio multicanal, que presenta tres
canales, un canal izquierdo l, un canal derecho r y un canal
central c.
El codificador 52 de la invención comprende un
elemento 54 de downmix espacial, un estimador 56 de parámetros
espaciales, un elemento 58 de downmix estéreo, un estimador 60 de
parámetros de estéreo paramétrico, un codificador 62 de audio, un
combinador 64 de parámetros (bloque de codificación de unión) y un
calculador 66 de flujo de bits (multiplexor).
El elemento 54 de downmix espacial, el estimador
56 de parámetros espaciales y el elemento 58 de downmix estéreo
reciben como una entrada la señal 50 multicanal. El elemento 54 de
downmix espacial crea una señal 68 de downmix monofónico a partir
de la señal 50 multicanal, el estimador 56 de parámetros espaciales
obtiene parámetros 70 espaciales que describen propiedades
espaciales de la señal multicanal, y el elemento 58 de downmix
estéreo crea una señal 72 de downmix estéreo a partir de la señal
50 multicanal.
La señal 72 de downmix estéreo se introduce al
estimador 60 de parámetros de estéreo paramétrico, que obtiene
parámetros 74 de estéreo a partir de la señal de downmix estéreo que
describen propiedades espaciales de la señal 72 de downmix estéreo.
La señal 68 de downmix monofónico se introduce en el codificador 62
de audio que obtiene un flujo 76 de bits de audio que representa la
señal 68 de downmix monofónico por medio de codificación,
utilizando por ejemplo técnicas de codificación de audio perceptiva.
El combinador 64 de parámetros recibe como una entrada los
parámetros 70 espaciales así como los parámetros 74 de estéreo
paramétrico y obtiene como una salida parámetros 78 de estéreo
utilizables por el descodificador (información lateral de estéreo
paramétrico) e información sobre los parámetros 80 espaciales
(información lateral espacial) sustituyendo conjuntos de parámetros
espaciales por la diferencia de una predicción de los parámetros
espaciales y los propios parámetros espaciales. Esto se describirá
con más detalle mediante la siguiente figura.
El calculador 66 de flujo de bits recibe
finalmente como una entrada el flujo 76 de bits de audio, la
información sobre el conjunto de parámetros 80 espaciales y los
parámetros 78 de estéreo utilizables por el descodificador y
combina dicha entrada en un flujo 82 de bits compatible estéreo
paramétrico que podría comprender por ejemplo segmentos de
parámetros tal como se detalla en la figura 2.
El calculador 66 de flujo de bits puede ser un
simple multiplexor. Sin embargo, también pueden implementarse otros
medios para combinar las tres entradas en un flujo de bits
compatible para obtener un flujo de bits según la presente
invención.
Dicho de otro modo, la figura 3 ilustra un
codificador que toma una señal de audio multicanal, que comprende
los canales l, r, y c, como entrada y genera un flujo de bits
compatible que permite la descodificación mediante un
descodificador espacial así como descodificación compatible hacia
atrás mediante un descodificador PS. El downmix espacial toma la
señal multicanal l, r, c y genera una señal de downmix mono m. Esta
señal puede codificarse entonces mediante un codificador de audio
perceptivo opcional para producir un flujo de bits de audio
compacto que representa la señal mono. La estimación de parámetros
espaciales toma la señal multicanal l, r, c como entrada y genera
un conjunto de parámetros espaciales cuantificados. Estos parámetros
pueden estar en función del tiempo y de la frecuencia. El downmix a
estéreo produce un downmix l0, r0 estéreo de 2 canales de la señal
multicanal, por ejemplo utilizando las ecuaciones de downmix
ITU-R o enfoques alternativos. La estimación de
parámetros de estéreo paramétrico (PS) toma este downmix estéreo
como entrada y genera un conjunto de parámetros PS cuantificados,
que pueden estar en función del tiempo y de la frecuencia. El bloque
de codificación de unión toma tanto el parámetro espacial como el
parámetro PS como entrada y produce la información lateral de
estéreo paramétrico (información lateral PS) y la información
lateral espacial. Finalmente, un multiplexor toma el flujo de bits
de audio y los flujos de bits de información lateral tanto espacial
como PS como entrada y embebe la información lateral de tal manera
en el flujo de bits que es posible la descodificación compatible
hacia atrás mediante un descodificador legado (que implementa sólo
PS).
La figura 4 detalla el combinador 64 de
parámetros mostrado en la figura 3. El combinador 64 de parámetros
presenta un divisor 90 de parámetros, un modificador 92 de
parámetros de estéreo paramétrico, un predictor 94 de parámetros
espaciales, un combinador 96, una unidad 98 de control, un
ensamblador 100 de parámetros espaciales y un primer codificador
102 diferencial, un segundo codificador 104 diferencial, un tercer
codificador 106a diferencial y un cuarto codificador 106b
diferencial.
El combinador 64 de parámetros recibe como
entrada parámetros 70 espaciales y los parámetros 74 de estéreo
paramétrico. Los parámetros 74 de estéreo paramétrico se introducen
en el modificador 92 de parámetros de estéreo paramétrico en una
primera entrada del mismo, y los parámetros 70 espaciales se
introducen en el modificador 92 de parámetros de estéreo
paramétrico en una segunda entrada.
Los parámetros 70 espaciales se introducen
además en el divisor 90 de parámetros. El modificador 92 de
parámetros de estéreo paramétrico es un dispositivo opcional, que
puede utilizarse para obtener parámetros 110 de estéreo utilizables
por el descodificador modificando los parámetros 74 de estéreo
paramétrico utilizando información de los parámetros 70
espaciales.
El divisor 90 de parámetros divide los
parámetros 70 espaciales en un primer subconjunto 112 de los
parámetros espaciales y en un segundo subconjunto 114 de los
parámetros espaciales, donde el primer subconjunto 112 es el
subconjunto de los parámetros espaciales que pueden sustituirse por
una predicción diferencial dentro la representación paramétrica
final de la señal multicanal.
Como la predicción de los parámetros dentro del
primer subconjunto se realiza utilizando los parámetros 110 de
estéreo utilizables por el descodificador y el segundo subconjunto
114 de los parámetros espaciales, tanto los parámetros 110
utilizables por el descodificador como el segundo subconjunto 114 de
parámetros espaciales se introducen en el predictor 94 de
parámetros espaciales. El predictor 94 de parámetros espaciales
obtiene parámetros 116 predichos utilizando los parámetros 110 de
estéreo paramétrico utilizables por el descodificador y el segundo
subconjunto 114 de los parámetros espaciales. Los parámetros 116
predichos son una predicción de los parámetros del primer
subconjunto 112 y han de compararse con los parámetros del primer
subconjunto 112.
Por lo tanto, se calcula la diferencia de los
parámetros 116 predichos y el primer subconjunto 112 de parámetros
para cada parámetro mediante el combinador 96, que es tal que
obtiene parámetros 118 de diferencia. El primer subconjunto 112 de
parámetros se introduce en el tercer codificador 106a diferencial
que codifica de manera diferencial el primer subconjunto de
parámetros aplicando codificación diferencial o bien en tiempo o
bien en frecuencia. Los parámetros 118 diferenciales se introducen
en el cuarto codificador 106b diferencial.
Según la realización preferida de la presente
invención mostrada en la figura 4, la representación codificada de
manera diferencial del primer subconjunto 112 se compara con la
representación codificada de manera diferencial de los parámetros
118 diferenciales mediante la unidad 98 de control para estimar qué
representación requiere más bits dentro de un flujo de bits. La
unidad 98 de control controla un conmutador 120, para suministrar
esa representación del primer subconjunto 112 al ensamblador 100 de
parámetros espaciales que requiere menos bits, mientras que la
información cuya representación se utilizó se transfiere
adicionalmente desde la unidad 98 de control al ensamblador 100 de
parámetros espaciales.
El segundo subconjunto 114 de los parámetros
espaciales también se codifica de manera diferencial mediante el
segundo codificador 104 diferencial, y la representación codificada
de manera diferencial del segundo subconjunto 114 se introduce en
el ensamblador 100 de parámetros espaciales, que es tal que tiene la
información completa sobre los parámetros 70 espaciales. El
ensamblador 100 de parámetros espaciales obtiene finalmente la
información sobre los parámetros 80 espaciales reensamblando las
representaciones del primer subconjunto 112 y el segundo
subconjunto 114 en la información sobre el conjunto de parámetros 80
espaciales que alberga la información completa sobre los parámetros
70 espaciales.
\global\parskip0.900000\baselineskip
La información final sobre el conjunto de
parámetros 80 espaciales, por lo tanto, comprende un segundo
subconjunto de parámetros espaciales que no se modifican a pesar de
una codificación diferencial del mismo y una representación del
primer subconjunto de parámetros espaciales, que puede o bien ser
directamente la representación codificada de manera diferencial del
primer subconjunto 112 o bien una representación codificada de
manera diferencial de parámetros 118 diferenciales, dependiendo de
qué representación requiera menos tasas de bits.
Los parámetros 78 de estéreo paramétrico
utilizables por el descodificador que se obtienen mediante un
combinador 64 de parámetros de la invención, se obtienen mediante
el primer codificador 102 diferencial. El primer codificador 102
diferencial recibe como una entrada los parámetros 110 de estéreo
paramétrico modificados y obtiene los parámetros 78 de estéreo
paramétrico utilizables por el descodificador codificando de manera
diferencial los parámetros 110 de estéreo paramétrico
modificados.
Dicho de otro modo, la figura 4 ilustra el
bloque de codificación de unión que toma tanto el parámetro espacial
como el parámetro PS como entrada y genera tanto la información
lateral espacial como la información lateral PS. Un bloque de
modificación de parámetros PS opcional toma tanto el parámetro
espacial como el parámetro PS como entrada y genera un parámetro PS
modificado. Esto permite conseguir mejor predicción del parámetro
espacial a expensas de comprometer la calidad de la señal estéreo de
2 canales reconstruida a partir del parámetro PS modificado. Si no
se emplea el bloque de modificación de parámetros PS, el parámetro
PS entrante sirve directamente como entrada al bloque de predicción
de parámetros espaciales y a la codificación PS. El conjunto de
parámetros PS (modificados) puede codificarse utilizando
codificación de diferencial de tiempo (dt) o diferencial de
frecuencia (df), es decir, codificación de diferencias de parámetros
posteriores en la dirección del tiempo o la frecuencia
respectivamente, y codificación Huffman, es decir, codificación de
entropía sin pérdidas, con el fin de minimizar el número de bits
requeridos para representar el conjunto de parámetros. El bloque de
división de parámetros separa el conjunto de parámetros espaciales
en un segundo subconjunto que se codifica directamente y un primer
subconjunto complementario que contiene todos los parámetros
restantes y que puede codificarse utilizando predicción de
parámetros. El bloque de predicción de parámetros espaciales toma el
segundo subconjunto del parámetro espacial y el parámetro PS
(modificado) como entrada y calcula valores predichos para el
primer subconjunto del parámetro espacial. Estos valores predichos
se restan entonces de los valores reales de los parámetros
espaciales en el primer subconjunto, dando como resultado un
conjunto de valores de error de predicción.
El segundo subconjunto de parámetros puede
codificarse utilizando codificación de diferencial de tiempo o
frecuencia y codificación Huffman con el fin de minimizar el número
de bits requeridos para representar el subconjunto de parámetros.
El primer subconjunto de parámetros puede codificarse utilizando
codificación de diferencial de tiempo o frecuencia y codificación
Huffman con el fin de minimizar el número de bits requeridos para
representar el subconjunto de parámetros. Los valores de error de
predicción para el primer subconjunto de parámetros pueden
codificarse utilizando codificación de diferencial de tiempo o
frecuencia y codificación Huffman con el fin de minimizar el número
de bits requeridos para representar el subconjunto de parámetros.
Un bloque de control selecciona si el primer subconjunto de
parámetros debería codificarse directamente o si el error de
predicción debería codificarse con el fin de minimizar el número de
bits requeridos para representar el primer subconjunto de
parámetros. Esta selección puede realizarse individualmente para
cada parámetro en el subconjunto. La decisión de selección real
puede o bien transmitirse como información lateral en el flujo de
bits o bien puede basarse en reglas que son parte de la predicción
de parámetros espaciales. En este último caso, esta decisión no
tiene que transmitirse como información lateral. Finalmente, un
multiplexor combina todos los datos codificados para formar la
información lateral espacial.
Para utilizar el concepto inventivo de
codificación o descodificación, son posibles diferentes
implementaciones de la predicción de los parámetros. En general, se
tiene la posibilidad de utilizar una tabla de consulta diseñada de
manera apropiada para obtener una predicción del primer subconjunto
de los parámetros espaciales a partir de los parámetros de estéreo
y el segundo subconjunto de los parámetros espaciales o se podría
aplicar como alternativa una función analítica para obtener los
parámetros predichos basándose en el conocimiento de procesos de
downmix específicos y la manera en que se obtienen los parámetros
espaciales y los parámetros de estéreo. Los siguientes párrafos dan
una visión general de algunos ejemplos específicos para conseguir
una predicción apropiada.
Esta visión general se basa en una señal
multicanal que presenta tres canales,
- l: izquierdo,
- c: central,
- r: derecho,
que ha de considerarse sólo como un
ejemplo. Los principios presentados obviamente se aplican de manera
correspondiente también a otras configuraciones de canales. Por
ejemplo, en caso de una configuración de canales 5.1, el canal
izquierdo frontal y el envolvente izquierdo pueden combinarse
utilizando un módulo de estéreo paramétrico para formar la señal
izquierda (l), el canal derecho frontal y el envolvente derecho
pueden combinarse utilizando un módulo de estéreo paramétrico para
formar la señal derecha (r), y el canal central y el de mejora de
bajas frecuencias pueden combinarse utilizando un módulo de estéreo
paramétrico para formar la señal central
(c).
\global\parskip1.000000\baselineskip
\vskip1.000000\baselineskip
La siguiente descripción trata el bloque de
predicción de parámetros espaciales con más detalle. Los 2 canales
de la señal de downmix estéreo se denotan:
\vskip1.000000\baselineskip
l_{0}: downmix izquierdo,
r_{0}: downmix derecho,
y el downmix mono se denota
m: downmix mono.
\vskip1.000000\baselineskip
El bloque de predicción emite valores predichos
\hat{s}_{1},...,\hat{s}_{K} de los primeros K parámetros
espaciales cuantificados s_{1},...,s_{K} (es decir, un primer
subconjunto de los parámetros espaciales), dados los parámetros
p_{1}, p_{2} PS modificados o no modificados cuantificados y un
segundo subconjunto s_{K+1}, s_{K+2},...,s_{N} de los
parámetros espaciales cuantificados restantes.
En el sentido más general, consiste en una
función tabulada (tabla de consulta)
La señal de diferencia es entonces igual al
error de predicción
Un primer método de diseño es permitir dejar que
F sea una función tabulada o un polinomio multivariable elegido
para minimizar el error de predicción en el sentido de mínimos
cuadrados a lo largo de una gran base de datos de parámetros. Como
alternativa, F puede elegirse para minimizar la tasa de bits
resultante requerida para representar el primer subconjunto de
parámetros espaciales, donde se utiliza una gran base de datos de
parámetros como datos de entrenamiento para encontrar la F óptima
en este sentido. Antes del uso en la unidad de predicción, una
operación de redondeo o cuantificación puede seguir a tal función
tabulada o polinomio con el fin de producir resultados enteros.
Un caso especial importante de esto es el uso de
una predicción lineal si F es un polinomio de grado uno.
Una segunda clase de diseños de predictor son
los que tienen en cuenta la estructura de parámetros reales
utilizada. En la realización preferida de la invención, K=2 y N=4, y
los parámetros transmiten información según:
\vskip1.000000\baselineskip
p_{1}: iid_l0_r0 diferencia de intensidad
entre canales (IID) entre los canales l_{0} y r_{0};
p_{2}: icc_l0_r0 coherencia entre canales o
correlación cruzada (ICC) entre los canales l_{0} y r_{0};
s_{1}: iid_l_r diferencia de intensidad entre
canales (IID) entre los canales l y r;
s_{2}: icc_l_r coherencia entre canales o
correlación cruzada (ICC) entre los canales l y r;
s_{3}: iid_lr_c diferencia de intensidad entre
canales (IID) entre los canales l+r y c;
s_{4}: icc_lr_c coherencia entre canales o
correlación cruzada (ICC) entre los canales l+r y c.
\vskip1.000000\baselineskip
El primer ejemplo de un diseño de este tipo es
un caso especial del diseño de predictor lineal anterior y consiste
simplemente en establecer
Este predictor sencillo tiene la ventaja de que
da como resultado un error de predicción más estable (en lugar de
un error de predicción mínimo) que es bastante adecuado para la
codificación de diferencial de tiempo o diferencial de frecuencia
de dicho error de predicción. Esto se cumple para todos los
predictores como polinomios mencionados anteriormente.
El segundo ejemplo se basa en la suposición de
que el downmix estéreo se produce mediante
con una ganancia de canal central
conocida q, (normalmente 1 ó 1/\sqrt{2}). Todas las señales l, r,
c normalmente son vectores de longitud finita que resultan de un
intervalo de tiempo y frecuencia de muestras de subbanda de un
análisis de banco de filtros modulado complejo de señales de tiempo.
Para vectores complejos x, y, el producto interior complejo y la
norma cuadrada se definen
mediante
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde el asterisco denota
conjugación compleja. Se asume entonces que las versiones lineales y
no cuantificadas de los parámetros IID se obtienen
mediante
Para los parámetros ICC, en el caso de
correlación cruzada, las fórmulas son
En el caso de coherencia, las operaciones de
valor real se sustituyen con operaciones de valor absoluto (magnitud
compleja) en las fórmulas (7).
Suponiendo para mayor simplicidad que
<l,c>=<r,c>=0, se deduce que L_{0}=L+q^{2}C y
R_{0}=R+q^{2}C, lo que puede insertarse en la primera fórmula de
(6). Resolviendo dos ecuaciones con dos incógnitas, se obtienen
entonces las siguientes estimaciones de X=L/C e Y=R/C a partir de
P_{1} y S_{3},
Cuando ambos valores en la fórmula (8) son
positivos, la estimación de S_{1} se forma como \hat{S}_{1} =
\sqrt{\hat{X}/\hat{Y}}. En este caso, los valores de
parámetros lineales requeridos se obtienen descuantificando los
parámetros enteros dados y se obtiene entonces la estimación
\hat{s}_{1} mediante la cuantificación de \hat{S}_{1}.
Cuando es aceptable una calidad ligeramente
comprometida de la señal estéreo descodificada, puede reducirse
adicionalmente la tasa de bits global empleando modificación de los
parámetros de estéreo paramétrico. El objetivo de esta modificación
es conseguir una predicción más estable del primer subconjunto de
parámetros espaciales y error de predicción reducido. Puede
considerarse como un medio para estabilizar los cálculos
anteriores. El caso más extremo de una modificación de parámetros de
este tipo sería utilizar p_{1}'=s_{1}, p_{2}'=s_{2} donde
p_{1}', p_{2}' denotan los parámetros de estéreo paramétrico
modificados. Puesto que esta operación de modificación de
parámetros se lleva a cabo sólo en el lado del codificador, no es
necesario tener cuidado especial en el lado del descodificador.
Un enfoque más general incorpora la potencia
completa y la información de estructura de correlación disponible
en P_{1}, P_{2}, S_{3}, S_{4} a través de las fórmulas (6) y
(7) para obtener estimaciones de S_{1} y S_{2}. Por la
invarianza de escala de los parámetros, no hay pérdida de
generalidad al suponer para fines de cálculo que C=1. Entonces con
las definiciones
surge el siguiente sistema de
ecuaciones:
Las incógnitas de interés para la estimación de
L, R, p y a, b son incógnitas adicionales. Este sistema de
ecuaciones (indeterminado) puede utilizarse como guía para una
multitud de fórmulas de predicción, dependiendo de la selección de
restricciones sobre el par a, b. Por ejemplo, la primera y la
tercera ecuación de (10) implican
por lo que los cálculos que llevan
a las fórmulas (8) corresponden al caso en el que P_{1}^{2}b=a.
De manera más general, un parámetros heurístico \gamma defines
una restricción sobre el par a, b a través de
\gamma=P_{1}^{2}b-a.
Se resalta de nuevo que los esquemas de
predicción anteriores son sólo ejemplos para posibles esquemas de
predicción que pueden implementarse tanto en un lado de codificador
como en un lado de descodificador.
La figura 5 muestra un descodificador 200 de
audio multicanal de la invención para procesar una representación
202 paramétrica.
La representación 202 paramétrica comprende
información sobre un conjunto de parámetros 204 espaciales que
describen las propiedades espaciales de una señal multicanal y
parámetros 206 de estéreo utilizables por el descodificador que
describen propiedades espaciales de un downmix estéreo de la señal
multicanal. El descodificador 200 de audio multicanal de la
invención presenta un reconstructor 208 de parámetros para combinar
los parámetros 206 de estéreo utilizables por el descodificador y
la información sobre el conjunto de parámetros espaciales para
obtener parámetros 210 espaciales.
La figura 6 muestra una realización de un
descodificador 220 de audio multicanal según la presente invención.
El descodificador 220 de audio multicanal presenta un elemento 222
de descomposición (demultiplexor) de flujo de bits, un
descodificador 224 de audio, un reconstructor 226 de parámetros
(descodificador de unión) y un elemento 228 de upmix.
El elemento 222 de descomposición de flujo de
bits recibe un flujo 230 de bits compatible hacia atrás que
comprende un flujo 231 de bits de audio, información sobre un
conjunto de parámetros 232 espaciales y parámetros 234 de estéreo
utilizables por el descodificador (información lateral PS). El
elemento de descomposición de flujo de bits descompone o
demultiplexa el flujo 230 de bits compatible hacia atrás para
obtener el flujo 231 de bits de audio, la información sobre el
conjunto de parámetros 232 espaciales y los parámetros 234 de
estéreo utilizables por el descodificador. El descodificador 224 de
audio recibe el flujo 231 de bits de audio como entrada y obtiene
una señal 236 de downmix monofónico a partir del flujo 231 de bits
de audio.
El reconstructor 226 de parámetros recibe la
información sobre el conjunto de parámetros 232 espaciales y los
parámetros 234 de estéreo utilizables por el descodificador como una
entrada. El reconstructor 226 de parámetros combina la información
sobre el conjunto de parámetros espaciales y los parámetros de
estéreo utilizables por el descodificador para obtener un conjunto
de parámetros 238 espaciales que sirven como una entrada al
elemento 228 de upmix, que recibe además la señal 236 de downmix
monofónico como segunda entrada. Basándose en los parámetros 238
espaciales y en la señal 236 de downmix monofónico, el elemento 228
de upmix obtiene una reconstrucción de una señal 240 multicanal en
su salida.
Por lo tanto, la figura 6 ilustra un
descodificador de audio espacial que toma un flujo de bits
compatible como entrada y genera la señal de audio multicanal, que
comprende los canales l, r, y c. En primer lugar, un demultiplexor
toma el flujo de bits compatible como entrada y lo descompone en un
flujo de bits de audio y la información lateral tanto espacial como
PS. Si se aplicó codificación de audio perceptiva a la señal mono,
un descodificador de audio correspondiente toma el flujo de bits de
audio como entrada y genera la señal de audio mono m descodificada,
sometida a distorsión ya que se introduce mediante el códec de audio
perceptivo. El bloque de descodificación de unión toma la
información lateral tanto espacial como PS como entrada y
reconstruye los parámetros espaciales. Finalmente, la
reconstrucción espacial toma la señal mono m descodificada y los
parámetros espaciales como entrada y reconstruye la señal de audio
multicanal.
La figura 7 da una descripción detallada del
reconstructor 226 de parámetros utilizado por el descodificador 220
de audio multicanal. El reconstructor 226 de parámetros comprende un
desensamblador 250 de parámetros espaciales, una unidad 252 de
control, un predictor 254 de parámetros espaciales, un ensamblador
256 de parámetros espaciales y un primer descodificador 258
diferencial, a segundo descodificador 260 diferencial, un tercer
codificador 262a diferencial, y un cuarto descodificador 262b
diferencial.
El desensamblador 250 de parámetros espaciales
recibe la información sobre el conjunto de parámetros 232 espaciales
como una entrada y obtiene un primer subconjunto 266 y un segundo
subconjunto 268 a partir de la información sobre el conjunto de
parámetros 232 de audio espacial. El primer subconjunto 266
comprende los parámetros que están representados posiblemente por
una representación diferencial predictiva realizada sobre el lado
del codificador, y el segundo subconjunto 268 comprende un
subconjunto de la información sobre el conjunto de parámetros
espaciales que se transmiten no modificados dentro del flujo de
bits.
Además, la unidad 252 de control recibe
opcionalmente información de control desde el desensamblador de
parámetros espaciales, indicando si se ha utilizado una
representación diferencial predictiva durante la codificación o no.
Esta información es opcional en el sentido de que la unidad 252 de
control podría obtener como alternativa, utilizando algoritmos
apropiados, si tal predicción se ha realizado o no sin tener acceso
a un parámetro de indicación.
El segundo subconjunto 268 de parámetros se
introduce en el segundo descodificador 260 diferencial, que
descodifica de manera diferencial el segundo subconjunto para
obtener un segundo subconjunto de parámetros 270 espaciales.
El primer descodificador 258 diferencial recibe
como una entrada los parámetros 234 de estéreo utilizables por el
descodificador, para obtener parámetros 272 de estéreo paramétrico a
partir de la representación codificada. El predictor 254 de
parámetros espaciales opera de la misma manera que su parte
complementaria en el lado del codificador, por lo tanto recibe como
una primera entrada los parámetros 272 de estéreo paramétrico y
como una segunda entrada el segundo subconjunto de parámetros 270
espaciales para obtener parámetros 274 predichos.
La unidad 252 de control controla dos posibles
trayectorias de datos diferentes para el primer subconjunto de la
información sobre el conjunto de parámetros espaciales. Cuando la
unidad 252 de control indica que el primer subconjunto de la
información del conjunto de parámetros espaciales no se ha
transmitido utilizando codificación diferencial predictiva, la
unidad 252 de control conduce los conmutadores 278a y 278b de tal
manera que el primer subconjunto 266 se introduce en el tercer
descodificador 262a diferencial para obtener un primer subconjunto
del conjunto de parámetros 280 espaciales sin aplicar predicción
inversa. El primer subconjunto de parámetros 280 espaciales se
introduce entonces en el ensamblador 256 de parámetros espaciales
en una segunda entrada del mismo.
Sin embargo, si la unidad 252 de control indica
parámetros predichos de manera diferencial, el primer subconjunto
266 de la información del conjunto de parámetros espaciales se
introduce en el cuarto descodificador 262b diferencial para obtener
una representación predicha de manera diferencial del primer
subconjunto 266 en una salida 282 del descodificador diferencial.
Entonces se calcula la suma de la representación diferencial y los
parámetros 274 predichos mediante un sumador 284, invirtiendo por
tanto la operación de predicción diferencial realizada sobre un
lado de codificador. Como resultado, el primer conjunto de
parámetros 280 espaciales está disponible en la segunda entrada del
ensamblador 256 de parámetros espaciales. El ensamblador 256 de
parámetros espaciales combina el primer conjunto de parámetros 280
espaciales y el segundo conjunto de parámetros 270 espaciales para
proporcionar un conjunto completo de parámetros 290 espaciales en su
salida, que es la base de una reconstrucción multicanal de una
señal codificada.
En resumen, la figura 7 ilustra el bloque de
descodificación de unión que toma tanto la información lateral
espacial como la información lateral PS como entrada y reconstruye
el parámetro espacial. Un demultiplexor separa la información
lateral espacial en un segundo subconjunto codificado de parámetro
espacial y un primer subconjunto codificado de parámetro espacial e
información de control. El bloque de descodificación toma el
segundo subconjunto codificado de parámetro espacial como entrada y
reconstruye este subconjunto de parámetros. Esto incluye
descodificación Huffman y descodificación de diferencial de tiempo
(dt) o diferencial de frecuencia en caso de que se emplease tal
codificación en el codificador. El bloque de descodificación toma la
información lateral PS como entrada y reconstruye el parámetro PS
(modificado). El bloque de predicción de parámetros espaciales toma
el segundo subconjunto del parámetro espacial y el parámetro PS
(modificado) como entrada y calcula valores predichos para el
primer subconjunto del parámetro espacial de la misma manera que lo
hace su parte complementaria en el codificador. El bloque de
control determina qué decisión de selección tomó su parte
complementaria, el bloque de control en el codificador. Dependiendo
de esta selección, el primer subconjunto codificado de parámetro
espacial o bien se descodifica directamente o bien se descodifica
teniendo en cuenta la predicción. En ambos casos, esto incluye
descodificación Huffman y descodificación de diferencial de tiempo
o frecuencia en caso de que se emplease tal codificación en el
codificador. En caso de que el bloque de control determinase que no
se utilizó ninguna predicción, la salida del bloque de
descodificación se toma como el primer subconjunto reconstruido de
parámetro espacial. Si no, la salida del bloque de descodificación
contiene los valores de error de predicción que se añaden entonces
a los valores de parámetros predichos según se generan mediante la
predicción de parámetros espaciales con el fin de obtener los
valores originales del primer subconjunto de parámetros espaciales.
Finalmente, el primer y segundo subconjuntos reconstruidos de
parámetros espaciales are funden para formar el conjunto completo
de parámetros espaciales.
La figura 8 ilustra cómo se procesa un flujo de
bits de la invención compatible mediante un descodificador de
estéreo paramétrico legado para obtener un upmix estéreo de una
señal para resaltar la gran ventaja de la completa compatibilidad
hacia atrás del concepto inventivo.
Un descodificador 300 de estéreo paramétrico
recibe un flujo 302 de bits compatible como entrada. El
descodificador 300 de estéreo paramétrico comprende un
demultiplexor 304, un descodificador 306 de audio, un descodificador
308 diferencial y un elemento 310 de upmix. El demultiplexor 304
obtiene un flujo 312 de bits de audio y parámetros 314 de estéreo
paramétrico utilizables por el descodificador a partir del flujo 302
de bits compatible.
Como el descodificador 300 de estéreo
paramétrico no puede operar sobre parámetros de audio espacial, el
demultiplexor 304 simplemente ignora los parámetros de audio
espacial comprendidos dentro del flujo 302 de bits compatible, por
ejemplo saltando campos de cabecera y secciones de datos asociadas
dentro del flujo de bits no conocidas para el descodificador. El
flujo 312 de bits de audio se introduce en el descodificador 306 de
audio que obtiene una señal 316 de downmix monofónico mientras que
los parámetros 314 de estéreo utilizables por el descodificador se
descodifican de manera diferencial mediante el descodificador 308
diferencial para obtener parámetros 318 de estéreo paramétrico. La
señal 316 de downmix monofónico y los parámetros 318 de estéreo
paramétrico se introducen en el elemento 310 de upmix, que obtiene
una señal 320 de upmix estéreo utilizando la señal 316 de downmix
monofónico y los parámetros 318 de estéreo paramétrico.
Dicho de otro modo, la figura 8 ilustra un
descodificador de estéreo paramétrico (PS) que toma un flujo de
bits compatible como entrada y genera una señal de audio estéreo de
2 canales, que comprende los canales l0 y r0. En primer lugar, un
demultiplexor toma el flujo de bits compatible como entrada y lo
descompone en un flujo de bits de audio y la información lateral
PS. Puesto que la información lateral espacial estaba embebida en
el flujo de bits compatible de una manera compatible hacia atrás,
esto no afecta al demultiplexor. Si se aplicó codificación de audio
perceptiva a la señal mono, un descodificador de audio
correspondiente toma el flujo de bits de audio como entrada y
genera la señal de audio mono m descodificada, sometida a distorsión
puesto que se introduce mediante el códec de audio perceptivo. El
bloque de descodificación PS toma la información lateral PS como
entrada y reconstruye el parámetro PS. Esto incluye descodificación
Huffman y descodificación de diferencial de tiempo (dt) o
diferencial de frecuencia (df) en caso de que se emplease tal
codificación en el codificador. Finalmente, la reconstrucción PS
toma la señal mono m descodificada y los parámetros PS como entrada
y reconstruye la señal estéreo de 2 canales.
La figura 9 muestra un transmisor o grabador 330
de audio de la invención que presenta un codificador 10 de audio,
una interfaz 332 de entrada y una interfaz 334 de salida.
Puede suministrarse una señal de audio en la
interfaz 332 de entrada del transmisor/grabador 330. La señal de
audio se codifica mediante un codificador 10 de la invención dentro
del transmisor/grabador y la representación codificada se emite en
la interfaz 334 de salida del transmisor/grabador 330. La
representación codificada puede transmitirse o almacenarse entonces
sobre un medio de almacenamiento.
La figura 10 muestra un receptor o reproductor
340 de audio de la invención, que presenta un descodificador 180 de
audio de la invención, una entrada 342 de flujo de bits y una salida
344 de audio.
Puede introducirse un flujo de bits en la
entrada 342 del receptor/reproductor 340 de audio de la invención.
El flujo de bits se descodifica entonces mediante el descodificador
180 y la señal descodificada se emite o reproduce en la salida 344
del receptor/ reproductor 340 de audio de la invención.
La figura 11 muestra un sistema de transmisión
que comprende un transmisor 330 de la invención y un receptor 340
de la invención.
La entrada de señal de audio en la interfaz 332
de entrada del transmisor 330 se codifica y transfiere desde la
salida 334 del transmisor 330 a la entrada 342 del receptor 340. El
receptor descodifica la señal de audio y reproduce o emite la señal
de audio sobre su salida 344.
Resumiendo el concepto inventivo, se puede decir
que la presente invención se refiere a la codificación de
representaciones multicanal de señales de audio que utiliza
parámetros de audio espacial de una manera que es compatible con la
codificación de señales estéreo de 2 canales que utiliza parámetros
de estéreo paramétrico. La presente invención enseña nuevos métodos
para la codificación eficaz tanto de parámetros de audio espacial
como de parámetros de estéreo paramétrico y para embeber los
parámetros codificados en un flujo de bits de una manera compatible
hacia atrás. En particular, su objetivo es minimizar la tasa de bits
global para los parámetros de estéreo paramétrico y audio espacial
en un flujo de bits compatible hacia atrás sin comprometer la
calidad de la señal multicanal de audio o estéreo descodificada. Sin
embargo, cuando es aceptable una calidad ligeramente comprometida
de la señal estéreo descodificada, la tasa de bits global puede
reducirse adicionalmente.
Aunque los flujos de bits que describen la
compatibilidad hacia atrás de la señal de la invención y la
generación de los mismos no comprenden parámetros que describen la
señal de downmix monofónico, por supuesto tales parámetros puede
incorporarse fácilmente en el flujo de bits mostrado.
Pueden predecirse números arbitrarios de los
parámetros de audio espacial utilizando parámetros de estéreo
paramétrico si se puede obtener una regla apropiada para predecir
los parámetros. Por lo tanto, las reglas de predicción detalladas
dadas anteriormente deben entenderse sólo como ejemplos. Está claro
que otras reglas de predicción pueden llevar al mismo efecto de
ahorro de bits y, por lo tanto, la presente invención no está
limitada de ninguna manera a utilizar una de las reglas de
predicción descritas anteriormente.
Aunque en los ejemplos de los codificadores de
la invención dados existe un elemento 58 de downmix de estéreo
paramétrico que obtiene un downmix estéreo de una señal multicanal,
en implementaciones prácticas, puede omitirse el elemento de
downmix estéreo, si se conoce la regla de downmix y, por lo tanto,
cuando los parámetros de estéreo paramétrico pueden obtenerse
directamente a partir de la señal multicanal.
En las implementaciones dadas, la señal de
downmix monofónico se codifica adicionalmente mediante un
codificador de audio o se descodifica en un lado de descodificador.
La codificación y descodificación es opcional, es decir omitir una
compresión adicional de la señal de downmix monofónico también
proporcionará codificadores y descodificadores de la invención que
incorporan el concepto inventivo.
La unidad de control dentro de los codificadores
y descodificadores de la invención puede omitirse y se puede tomar
una decisión general de representar subconjuntos de parámetros
espaciales mediante parámetros predichos diferenciales con el
provecho de ahorrar la unidad de control y al coste de aceptar una
tasa de bits ligeramente superior para los casos extraños, cuando
la representación predicha diferencial no ahorra tasa de bits de
transmisión.
Aunque, dentro de los ejemplos dados, los
codificadores adicionales aplicados en las trayectorias de señal se
denominan sólo codificadores diferenciales o descodificadores
diferenciales, se entiende que también puede utilizarse cualquier
otro codificador o descodificador apropiado adecuado para comprimir
los parámetros, especialmente una combinación de un descodificador
o codificador diferencial y un descodificador o codificador Huffman.
Tal combinación se utiliza de una manera que, en primer lugar, los
parámetros se codifican de manera diferencial y luego los
parámetros codificados de manera diferencial se codifican según
Huffman, lo que finalmente da como resultado una representación
paramétrica que utiliza tasas de bits inferiores, puesto que la
representación predicha de manera diferencial en general presenta
entropía inferior que los parámetros espaciales subyacentes a los
mismos.
\vskip1.000000\baselineskip
Resumiendo las ideas de la invención, la
presente invención enseña lo siguiente:
En un primer aspecto, un método para la
codificación compatible de señales de audio multicanal,
caracterizado por: en el lado del codificador, someter a downmix la
señal multicanal para dar una representación de un canal; en el
lado del codificador dada dicha señal multicanal, define parámetros
que representan la señal multicanal; en el lado del codificador
dada dicha señal multicanal, definir parámetros que representan un
downmix estéreo de la señal multicanal; en el lado del codificador,
embeber ambos conjuntos de parámetros de una manera compatible
hacia atrás y eficaz en tasa de bits en un flujo de bits; en el lado
del descodificador, extraer los parámetros embebidos de un flujo de
bits; en el lado del descodificador, reconstruir parámetros que
representan una señal multicanal a partir de los parámetros
extraídos del flujo de bits; en el lado del descodificador,
reconstruir las señales de salida multicanal dados los parámetros a
partir de los datos del flujo de bits, y dicha señal sometida a
downmix.
Como un segundo aspecto, un método según el
primer aspecto, caracterizado por embeber los parámetros que
representan un downmix estéreo en el flujo de bits, de tal manera
que pueden descodificarse mediante un método de descodificación
(legado) que sólo soporta descodificación de estéreo
paramétrico.
Como un tercer aspecto, un método según el
primer aspecto, caracterizado por dividir el conjunto de parámetros
que representan la señal multicanal en un primer subconjunto y un
segundo subconjunto.
Como un cuarto aspecto, un método según el
tercer aspecto, caracterizado por una predicción de los valores en
dicho primer subconjunto de parámetros basándose en dicho segundo
subconjunto de parámetros y basándose en los parámetros que
representan un downmix estéreo de la señal multicanal.
Como un quinto aspecto, un método según el
cuarto aspecto, caracterizado por un método de control que
selecciona automáticamente si el primer subconjunto de parámetros
se codifica directamente o si sólo se codifican las diferencias con
respecto a los valores de parámetros predichos.
Como un sexto aspecto, un método según el tercer
aspecto, caracterizado por la modificación de los parámetros que
presentan un downmix estéreo, en el que se utilizan tanto los
parámetros originales que representan la señal multicanal como los
parámetros originales que representan el downmix estéreo como base
para obtener los parámetros modificados.
Como un séptimo aspecto, un método según el
cuarto aspecto, caracterizado por una tabla de consulta que se
utiliza para encontrar dichos valores de parámetros predichos.
Como un octavo aspecto, un método según el
cuarto aspecto, en el que en el cuarto aspecto se utiliza una
función polinómica para encontrar dichos valores de parámetros
predichos.
Como un noveno aspecto, un método según el
cuarto aspecto, caracterizado por una función matemática obtenida a
partir de método empleado para generar el downmix estéreo que se
utiliza para encontrar dichos valores de parámetros predichos.
Como un décimo aspecto, un aparato para
codificar una representación de una señal de audio multicanal,
caracterizado por: medios para someter a downmix la señal
multicanal para dar una representación de un canal; medios para
definir parámetros que representan la señal multicanal; medios para
definir parámetros que representan un downmix estéreo de la señal
multicanal; medios para embeber ambos conjuntos de parámetros de una
manera compatible hacia atrás y eficaz en tasa de bits en un flujo
de bits.
Como un undécimo aspecto, un aparato para
reconstruir una señal multicanal basándose en una señal sometida a
downmix y conjuntos de parámetros correspondientes, caracterizado
por: medios para extraer los conjuntos de parámetros embebidos en
un flujo de bits; medios para reconstruir parámetros que representan
una señal multicanal a partir de los parámetros extraídos del flujo
de bits; medios para reconstruir la señal de salida multicanal dado
el conjunto de parámetros reconstruido a partir de los datos del
flujo de bits, y dicha señal sometida a downmix.
Dependiendo de ciertos requisitos de
implementación de los métodos de la invención, los métodos de la
invención pueden implementarse en hardware o en software. La
implementación puede realizarse utilizando un medio de
almacenamiento digital, en particular un disco, DVD o un CD que
presente señales de control legibles electrónicamente almacenadas
sobre el mismo, que actúe conjuntamente con un sistema informático
programable de tal manera que se realizan los métodos de la
invención. Por lo tanto, en general, la presente invención es un
producto de programa informático con un código de programa
almacenado sobre un portador legible por máquina, estando operativo
el código de programa para realizar los métodos de la invención
cuando el producto de programa informático se ejecuta en un
ordenador. Dicho de otro modo, los métodos de la invención son, por
lo tanto, un programa informático que presenta un código de
programa para realizar al menos uno de los métodos de la invención
cuando el programa informático se ejecuta en un ordenador.
Aunque lo anterior se ha mostrado y descrito en
particular con referencia a realizaciones particulares de la misma,
los expertos en la técnica entenderán que pueden realizarse otros
cambios diversos en la forma y los detalles sin apartarse del
alcance de la misma. Ha de entenderse que pueden realizarse diversos
cambios a la hora de adaptarse a diferentes realizaciones sin
apartarse del alcance de la invención que se define en las
reivindicaciones.
Claims (27)
1. Descodificador (200) de audio multicanal para
procesar una representación (202) paramétrica, en el que la
representación (202) paramétrica comprende un parámetro (206) de
estéreo que describe propiedades espaciales de un downmix estéreo
de la señal multicanal e información sobre uno o más parámetros
(204) espaciales que describen propiedades espaciales de una señal
multicanal, dependiendo la información sobre uno o más parámetros
espaciales del parámetro de estéreo, en el que la información sobre
el uno o más parámetros (204) espaciales y el parámetro (206) de
estéreo, cuando se combinan utilizando una regla de combinación, da
como resultado uno o más parámetros (210) espaciales, comprendiendo
el descodificador:
un reconstructor (208) de parámetros para
combinar el parámetro (206) de estéreo y la información sobre el
uno o más parámetros (204) espaciales utilizando la regla de
combinación para obtener el uno o más parámetros (210)
espaciales.
2. Descodificador (200) de audio multicanal
según la reivindicación 1, en el que la regla de combinación es de
tal manera que la combinación comprende una sustitución de un primer
subconjunto de parámetros de la información sobre el uno o más
parámetros (204) espaciales por parámetros de sustitución obtenidos
combinando el parámetro (206) de estéreo y el primer subconjunto de
los parámetros.
3. Descodificador (200) de audio multicanal
según la reivindicación 2, en el que la regla de combinación es de
tal manera que se obtiene un parámetro de sustitución mediante una
combinación lineal del parámetro correspondiente del primer
subconjunto de parámetros y de una predicción del mismo parámetro,
en el que la predicción se obtiene utilizando parámetros de un
segundo subconjunto de las informaciones sobre el uno o más
parámetros (204) espaciales y el parámetro (206) de estéreo,
combinándolos utilizando una regla de predicción.
4. Descodificador (200) de audio multicanal
según la reivindicación 3, en el que la regla de predicción es de
tal manera que la predicción se obtiene utilizando el parámetro
(206) de estéreo.
5. Descodificador (200) de audio multicanal
según la reivindicación 4, en el que la regla de predicción es de
tal manera que el parámetro (206) de estéreo se utiliza como la
predicción del parámetro espacial.
6. Descodificador (200) de audio multicanal
según una de las reivindicaciones anteriores, en el que el parámetro
(206) de estéreo comprende un primer parámetros P_{1} que
describe una diferencia de intensidad entre los canales del downmix
estéreo y un segundo parámetro P_{2} que describe una correlación
entre los canales del downmix estéreo;
en el que el segundo subconjunto de parámetros
comprende un parámetro S_{3} que describe una diferencia de
intensidad entre una suma de un canal izquierdo y un canal derecho
de la señal multicanal y un canal central de la señal multicanal;
y
en el que la regla de predicción es de tal
manera que un parámetro S_{1} del primer subconjunto de
parámetros, describiendo el parámetro una diferencia de intensidad
entre el canal izquierdo y el canal derecho de la señal multicanal,
se predice mediante un parámetro \hat{S}_{1} de predicción según
las siguientes fórmulas:
donde
7. Descodificador (200; 220) de audio multicanal
según una de las reivindicaciones anteriores, en el que el
reconstructor (226) de parámetros comprende además una unidad (252)
de decisión para decidir si el primer subconjunto de parámetros se
sustituye por parámetros de sustitución o no.
8. Descodificador (200; 220) de audio multicanal
según una de las reivindicaciones anteriores, que comprende además
un elemento (222) de descomposición de flujo de bits para
descomponer una representación del parámetro (234) de estéreo y
representación de la información sobre el uno o más parámetros (232)
espaciales de un flujo (230) de bits, en el que el flujo (230) de
bits es compatible hacia atrás para poder procesarse por
dispositivos de estéreo paramétrico legados.
9. Descodificador (200; 220) de audio multicanal
según la reivindicación 8, que comprende además un descodificador
de entropía y un descodificador (258, 260, 262a, 262b) diferencial
para obtener el parámetro (272) de estéreo y la información sobre
el uno o más parámetros (266, 268) espaciales a partir de la
representación del parámetro (234) de estéreo y de la
representación de la información sobre el uno o más parámetros (232)
espaciales.
10. Descodificador (220) de audio multicanal
según la reivindicación 8 ó 9, en el que el elemento (222) de
descomposición de flujo de bits está operativo además para
descomponer una señal (236) de downmix monofónico del flujo de
bits, siendo la señal (236) de downmix monofónica un downmix
monofónico de la señal multicanal; y
que comprende además un elemento (228) de upmix
para obtener una reconstrucción de la señal (240) multicanal
utilizando la señal (236) de downmix y el uno o más parámetros
(238).
11. Descodificador (220) de audio multicanal
según la reivindicación 10, que comprende además un descodificador
(224) de audio para obtener la señal (236) de downmix monofónico a
partir de una representación codificada de la señal (231) de
downmix monofónico descompuesta del flujo (230) de bits.
12. Codificador (10) para obtener una
representación (12) paramétrica de una señal de audio multicanal,
presentando la representación (12) paramétrica parámetros adecuados
para utilizarse junto con una señal de downmix monofónico,
comprendiendo el codificador (10):
un calculador (14) de parámetros espaciales para
calcular uno o más parámetros (20) espaciales que describen
propiedades espaciales de la señal multicanal;
un calculador (16) de parámetros de estéreo para
calcular un parámetro (22) de estéreo que describe propiedades
espaciales de una señal de downmix estéreo obtenida a partir de la
señal multicanal; y
un combinador (18) de parámetros para generar la
representación (12) paramétrica combinando el uno o más parámetros
(20) espaciales y los parámetros (22) de estéreo utilizando una
regla de combinación, en el que el combinador (18) de parámetros
está operativo para utilizar una regla de combinación que da como
resultado un parámetro (24) de estéreo utilizable por el
descodificador y una información sobre el uno o más parámetros (26)
espaciales, dependiendo la información sobre uno o más parámetros
espaciales del parámetro de estéreo, que representa, junto con el
parámetro (24) de estéreo utilizable por el descodificador, el uno o
más parámetros (20) espaciales.
13. Codificador (10; 52) según la reivindicación
12, en el que el calculador (16) de parámetros de estéreo comprende
además un elemento (58) de downmix estéreo para obtener la señal
(72) de downmix estéreo a partir de la señal (50) multicanal.
14. Codificador (10; 52) según las
reivindicaciones 12 ó 13, que comprende además un elemento (54) de
downmix espacial para obtener la señal (68) de downmix monofónico a
partir de la señal (50) multicanal.
15. Codificador (10; 52) según una de las
reivindicaciones 12 a 14, que comprende además un calculador (66)
de flujo de bits para obtener un flujo (82) de bits que comprende la
representación paramétrica y el downmix monofónico de una manera
que es compatible hacia atrás con descodificadores de estéreo
paramétrico legados.
16. Codificador según la reivindicación 14 ó 15,
en el que el elemento (54) de downmix espacial comprende además un
codificador (62) de audio para la compresión de la señal (68) de
downmix monofónico utilizando una regla de compresión.
17. Método para procesar una representación
paramétrica, en el que la representación paramétrica comprende un
parámetro (206) de estéreo que describe propiedades espaciales de un
downmix estéreo de la señal multicanal e información sobre uno o
más parámetros espaciales que describen propiedades espaciales de
una señal multicanal, dependiendo la información sobre uno o más
parámetros espaciales del parámetro de estéreo, en el que la
información sobre el uno o más parámetros espaciales y los
parámetros de estéreo, cuando se combinan utilizando una regla de
combinación, da como resultado el uno o más parámetros espaciales,
comprendiendo el método:
combinar el parámetro de estéreo y la
información sobre el uno o más parámetros espaciales utilizando la
regla de combinación para obtener el uno o más parámetros
espaciales.
18. Método para obtener una representación
paramétrica de una señal de audio multicanal, presentando la
representación paramétrica parámetros adecuados para utilizarse
junto con una señal de downmix monofónico, comprendiendo el
método:
calcular uno o más parámetros espaciales que
describen propiedades espaciales de la señal multicanal;
calcular un parámetro de estéreo que describe
propiedades espaciales de una señal de downmix estéreo obtenida a
partir de la señal multicanal; y
generar la representación paramétrica combinando
el uno o más parámetros espaciales y el parámetro de estéreo
utilizando una regla de combinación, en el que utilizar la regla de
combinación da como resultado un parámetro de estéreo utilizable
por el descodificador e información sobre el uno o más parámetros
espaciales, dependiendo la información sobre uno o más parámetros
espaciales del parámetro de estéreo, que representa, junto con el
parámetro de estéreo utilizable por el descodificador, el uno o más
parámetros espaciales.
19. Representación paramétrica de una señal de
audio multicanal, presentando la representación paramétrica
parámetros adecuados para utilizarse junto con una señal de downmix
monofónico, en el que la representación paramétrica presenta un
parámetro de estéreo utilizable por el descodificador que describe
propiedades espaciales de un downmix estéreo de la señal multicanal
e información sobre uno o más parámetros espaciales generados
combinando uno o más parámetros espaciales que describen propiedades
espaciales de la señal de audio multicanal y el parámetro de
estéreo, dependiendo la información sobre uno o más parámetros
espaciales del parámetro de estéreo, de tal manera que la
información sobre el uno o más parámetros espaciales representa,
junto con el parámetro de estéreo utilizable por el descodificador,
el uno o más parámetros espaciales.
20. Medio de almacenamiento legible por
ordenador que presenta almacenado sobre el mismo una representación
paramétrica de una señal de audio multicanal según la reivindicación
19.
21. Transmisor o grabador (330) de audio que
presenta un codificador para obtener una representación paramétrica
de una señal de audio multicanal según la reivindicación 12.
22. Receptor o reproductor (340) de audio que
presenta un descodificador (200) de audio multicanal según la
reivindicación 1.
23. Método de transmisión o grabación de audio,
presentando el método un método para obtener una representación
paramétrica de una señal de audio multicanal según la reivindicación
18.
24. Método de recepción o reproducción de audio,
presentando el método un método para procesar una representación
paramétrica según la reivindicación 17.
25. Sistema de transmisión que presenta un
transmisor (330) y un receptor (340);
presentando el transmisor (330) un codificador
para obtener una representación paramétrica de una señal de audio
multicanal según la reivindicación 12; y
presentando el receptor (340) un descodificador
de audio multicanal según la reivindicación 1.
26. Método de transmisión y recepción,
incluyendo el método un método de transmisión que presenta un método
para obtener una representación paramétrica de una señal de audio
multicanal según la reivindicación 18 y un método de recepción, que
presenta un método para procesar una representación paramétrica
según la reivindicación 17.
27. Programa informático para realizar, cuando
se ejecuta en un ordenador, un método según cualquiera de las
reivindicaciones 17, 18, 23, 24 ó 26 de método.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0402650A SE0402650D0 (sv) | 2004-11-02 | 2004-11-02 | Improved parametric stereo compatible coding of spatial audio |
SE0402650 | 2004-11-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2306235T3 true ES2306235T3 (es) | 2008-11-01 |
Family
ID=33448766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05798859T Active ES2306235T3 (es) | 2004-11-02 | 2005-10-31 | Codificacion de audio multicanal compatible estereo. |
Country Status (13)
Country | Link |
---|---|
US (2) | US7916873B2 (es) |
EP (1) | EP1784819B1 (es) |
JP (1) | JP4616349B2 (es) |
KR (1) | KR100936498B1 (es) |
CN (1) | CN101036183B (es) |
AT (1) | ATE393951T1 (es) |
DE (1) | DE602005006424T2 (es) |
ES (1) | ES2306235T3 (es) |
HK (1) | HK1106606A1 (es) |
RU (1) | RU2381570C2 (es) |
SE (1) | SE0402650D0 (es) |
TW (1) | TWI330825B (es) |
WO (1) | WO2006048226A1 (es) |
Families Citing this family (102)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2363116C2 (ru) * | 2002-07-12 | 2009-07-27 | Конинклейке Филипс Электроникс Н.В. | Аудиокодирование |
CA3035175C (en) | 2004-03-01 | 2020-02-25 | Mark Franklin Davis | Reconstructing audio signals with multiple decorrelation techniques |
PL1769491T3 (pl) * | 2004-07-14 | 2010-03-31 | Koninl Philips Electronics Nv | Przekształcanie kanałów audio |
US7945447B2 (en) * | 2004-12-27 | 2011-05-17 | Panasonic Corporation | Sound coding device and sound coding method |
BRPI0519454A2 (pt) * | 2004-12-28 | 2009-01-27 | Matsushita Electric Ind Co Ltd | aparelho de codificaÇço reescalonÁvel e mÉtodo de codificaÇço reescalonÁvel |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
WO2006103581A1 (en) * | 2005-03-30 | 2006-10-05 | Koninklijke Philips Electronics N.V. | Scalable multi-channel audio coding |
EP1905002B1 (en) * | 2005-05-26 | 2013-05-22 | LG Electronics Inc. | Method and apparatus for decoding audio signal |
JP4988717B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
WO2007004830A1 (en) | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
EP1913578B1 (en) | 2005-06-30 | 2012-08-01 | LG Electronics Inc. | Method and apparatus for decoding an audio signal |
US8494667B2 (en) | 2005-06-30 | 2013-07-23 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
CN101233571B (zh) * | 2005-07-29 | 2012-12-05 | Lg电子株式会社 | 处理音频信号的方法和装置 |
JP5113049B2 (ja) * | 2005-07-29 | 2013-01-09 | エルジー エレクトロニクス インコーポレイティド | 符号化されたオーディオ信号の生成方法及びオーディオ信号の処理方法 |
US7987097B2 (en) * | 2005-08-30 | 2011-07-26 | Lg Electronics | Method for decoding an audio signal |
US7788107B2 (en) * | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
JP4859925B2 (ja) * | 2005-08-30 | 2012-01-25 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
US20080221907A1 (en) * | 2005-09-14 | 2008-09-11 | Lg Electronics, Inc. | Method and Apparatus for Decoding an Audio Signal |
KR100857107B1 (ko) * | 2005-09-14 | 2008-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 장치 |
KR100857113B1 (ko) * | 2005-10-05 | 2008-09-08 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
WO2007040349A1 (en) * | 2005-10-05 | 2007-04-12 | Lg Electronics Inc. | Method and apparatus for signal processing |
US7742913B2 (en) | 2005-10-24 | 2010-06-22 | Lg Electronics Inc. | Removing time delays in signal paths |
JP5161109B2 (ja) * | 2006-01-19 | 2013-03-13 | エルジー エレクトロニクス インコーポレイティド | 信号デコーディング方法及び装置 |
BRPI0707136A2 (pt) * | 2006-01-19 | 2011-04-19 | Lg Electronics Inc | método e aparelho para processamento de um sinal de mìdia |
US8560303B2 (en) * | 2006-02-03 | 2013-10-15 | Electronics And Telecommunications Research Institute | Apparatus and method for visualization of multichannel audio signals |
KR101294022B1 (ko) | 2006-02-03 | 2013-08-08 | 한국전자통신연구원 | 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치 |
CA2637722C (en) | 2006-02-07 | 2012-06-05 | Lg Electronics Inc. | Apparatus and method for encoding/decoding signal |
US20090177479A1 (en) * | 2006-02-09 | 2009-07-09 | Lg Electronics Inc. | Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof |
ES2339888T3 (es) * | 2006-02-21 | 2010-05-26 | Koninklijke Philips Electronics N.V. | Codificacion y decodificacion de audio. |
JP5254808B2 (ja) | 2006-02-23 | 2013-08-07 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
EP1999745B1 (en) * | 2006-03-30 | 2016-08-31 | LG Electronics Inc. | Apparatuses and methods for processing an audio signal |
EP1853092B1 (en) | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
EP2036204B1 (en) * | 2006-06-29 | 2012-08-15 | LG Electronics Inc. | Method and apparatus for an audio signal processing |
CN101485094B (zh) * | 2006-07-14 | 2012-05-30 | 安凯(广州)软件技术有限公司 | 最大熵意义下后向兼容多通道音频编码与解码方法和系统 |
US20080235006A1 (en) * | 2006-08-18 | 2008-09-25 | Lg Electronics, Inc. | Method and Apparatus for Decoding an Audio Signal |
WO2008039045A1 (en) * | 2006-09-29 | 2008-04-03 | Lg Electronics Inc., | Apparatus for processing mix signal and method thereof |
KR100891668B1 (ko) | 2006-10-12 | 2009-04-02 | 엘지전자 주식회사 | 믹스 신호 처리 방법 및 장치 |
JP5232791B2 (ja) | 2006-10-12 | 2013-07-10 | エルジー エレクトロニクス インコーポレイティド | ミックス信号処理装置及びその方法 |
KR100891672B1 (ko) | 2006-10-12 | 2009-04-03 | 엘지전자 주식회사 | 믹스 신호의 처리 방법 및 장치 |
WO2008060111A1 (en) | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
KR101434198B1 (ko) * | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
KR100891669B1 (ko) | 2006-12-01 | 2009-04-02 | 엘지전자 주식회사 | 믹스 신호의 처리 방법 및 장치 |
KR100891671B1 (ko) | 2006-12-01 | 2009-04-03 | 엘지전자 주식회사 | 믹스신호 제어 방법 및 장치 |
JP5270566B2 (ja) | 2006-12-07 | 2013-08-21 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
KR101062353B1 (ko) | 2006-12-07 | 2011-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 그 장치 |
KR20080052813A (ko) * | 2006-12-08 | 2008-06-12 | 한국전자통신연구원 | 채널별 신호 분포 특성을 반영한 오디오 코딩 장치 및 방법 |
WO2008096313A1 (en) * | 2007-02-06 | 2008-08-14 | Koninklijke Philips Electronics N.V. | Low complexity parametric stereo decoder |
CN101647060A (zh) * | 2007-02-13 | 2010-02-10 | Lg电子株式会社 | 处理音频信号的方法和装置 |
US20100121470A1 (en) * | 2007-02-13 | 2010-05-13 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
TWI374671B (en) | 2007-07-31 | 2012-10-11 | Realtek Semiconductor Corp | Audio encoding method with function of accelerating a quantization iterative loop process |
KR101505831B1 (ko) | 2007-10-30 | 2015-03-26 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
EP2232486B1 (en) * | 2008-01-01 | 2013-07-17 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
ES2391801T3 (es) * | 2008-01-01 | 2012-11-30 | Lg Electronics Inc. | Procedimiento y aparato para procesar una señal de audio |
KR101444102B1 (ko) * | 2008-02-20 | 2014-09-26 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
EP2111062B1 (en) | 2008-04-16 | 2014-11-12 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
CN102007532B (zh) | 2008-04-16 | 2013-06-19 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
KR101061128B1 (ko) * | 2008-04-16 | 2011-08-31 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 이의 장치 |
US8060042B2 (en) * | 2008-05-23 | 2011-11-15 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
KR101629862B1 (ko) * | 2008-05-23 | 2016-06-24 | 코닌클리케 필립스 엔.브이. | 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더 |
KR101614160B1 (ko) | 2008-07-16 | 2016-04-20 | 한국전자통신연구원 | 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치 |
US8346380B2 (en) * | 2008-09-25 | 2013-01-01 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
EP2169666B1 (en) * | 2008-09-25 | 2015-07-15 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
US8258849B2 (en) * | 2008-09-25 | 2012-09-04 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
US8479015B2 (en) * | 2008-10-17 | 2013-07-02 | Oracle International Corporation | Virtual image management |
KR101499785B1 (ko) | 2008-10-23 | 2015-03-09 | 삼성전자주식회사 | 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법 |
US20110311063A1 (en) * | 2009-03-13 | 2011-12-22 | Fransiscus Marinus Jozephus De Bont | Embedding and extracting ancillary data |
CN105225667B (zh) * | 2009-03-17 | 2019-04-05 | 杜比国际公司 | 编码器系统、解码器系统、编码方法和解码方法 |
US8666752B2 (en) | 2009-03-18 | 2014-03-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multi-channel signal |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
WO2011045549A1 (fr) * | 2009-10-16 | 2011-04-21 | France Telecom | Decodage parametrique stereo optimise |
EP2346028A1 (en) | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
CN102157152B (zh) | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
EP2375409A1 (en) * | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
US9236047B2 (en) | 2010-05-21 | 2016-01-12 | Microsoft Technology Licensing, Llc | Voice stream augmented note taking |
TWI516138B (zh) | 2010-08-24 | 2016-01-01 | 杜比國際公司 | 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品 |
KR101697550B1 (ko) * | 2010-09-16 | 2017-02-02 | 삼성전자주식회사 | 멀티채널 오디오 대역폭 확장 장치 및 방법 |
KR101748756B1 (ko) * | 2011-03-18 | 2017-06-19 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치 |
WO2012176084A1 (en) * | 2011-06-24 | 2012-12-27 | Koninklijke Philips Electronics N.V. | Audio signal processor for processing encoded multi - channel audio signals and method therefor |
KR101842257B1 (ko) * | 2011-09-14 | 2018-05-15 | 삼성전자주식회사 | 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치 |
KR101662680B1 (ko) * | 2012-02-14 | 2016-10-05 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 멀티-채널 오디오 신호의 적응적 다운-믹싱 및 업-믹싱을 수행하기 위한 방법 및 장치 |
JP6163545B2 (ja) | 2012-06-14 | 2017-07-12 | ドルビー・インターナショナル・アーベー | 可変数の受信チャネルに基づくマルチチャネル・オーディオ・レンダリングのためのなめらかな構成切り換え |
KR101434206B1 (ko) | 2012-07-25 | 2014-08-27 | 삼성전자주식회사 | 신호 복호화 장치 |
KR102173422B1 (ko) * | 2012-11-15 | 2020-11-03 | 가부시키가이샤 엔.티.티.도코모 | 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램 |
US9191516B2 (en) * | 2013-02-20 | 2015-11-17 | Qualcomm Incorporated | Teleconferencing using steganographically-embedded audio data |
BR122021009025B1 (pt) | 2013-04-05 | 2022-08-30 | Dolby International Ab | Método de decodificação para decodificar dois sinais de áudio e decodificador para decodificar dois sinais de áudio |
US8804971B1 (en) * | 2013-04-30 | 2014-08-12 | Dolby International Ab | Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio |
WO2014191793A1 (en) * | 2013-05-28 | 2014-12-04 | Nokia Corporation | Audio signal encoder |
TWI774136B (zh) | 2013-09-12 | 2022-08-11 | 瑞典商杜比國際公司 | 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統 |
TWI579831B (zh) | 2013-09-12 | 2017-04-21 | 杜比國際公司 | 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統 |
CN117037810A (zh) * | 2013-09-12 | 2023-11-10 | 杜比国际公司 | 多声道音频内容的编码 |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
RU2648632C2 (ru) | 2014-01-13 | 2018-03-26 | Нокиа Текнолоджиз Ой | Классификатор многоканального звукового сигнала |
KR101500972B1 (ko) * | 2014-03-05 | 2015-03-12 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
US9848275B2 (en) * | 2014-04-02 | 2017-12-19 | Wilus Institute Of Standards And Technology Inc. | Audio signal processing method and device |
US9674598B2 (en) | 2014-04-15 | 2017-06-06 | Fairchild Semiconductor Corporation | Audio accessory communication with active noise cancellation |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
US10366695B2 (en) * | 2017-01-19 | 2019-07-30 | Qualcomm Incorporated | Inter-channel phase difference parameter modification |
CN108694955B (zh) | 2017-04-12 | 2020-11-17 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
EP3588495A1 (en) | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
WO2023088560A1 (en) * | 2021-11-18 | 2023-05-25 | Nokia Technologies Oy | Metadata processing for first order ambisonics |
CN115691515A (zh) * | 2022-07-12 | 2023-02-03 | 南京拓灵智能科技有限公司 | 一种音频编解码方法及装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR9105987A (pt) | 1990-09-19 | 1993-02-02 | Philips Nv | Portador de registro no qual foram registrados um arquivo de dados principais e um arquivo de controle,processo e dispositivo para registrar um arquivo de dados principais e um arquivo de controle num portador de registro,e dispositivo para ter um portador de registro |
DE4236989C2 (de) * | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
US6226616B1 (en) | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
JP2002175097A (ja) * | 2000-12-06 | 2002-06-21 | Yamaha Corp | 音声信号のエンコード/圧縮装置およびデコード/伸長装置 |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
CN1705980A (zh) | 2002-02-18 | 2005-12-07 | 皇家飞利浦电子股份有限公司 | 参数音频编码 |
WO2003090208A1 (en) * | 2002-04-22 | 2003-10-30 | Koninklijke Philips Electronics N.V. | pARAMETRIC REPRESENTATION OF SPATIAL AUDIO |
EP1500082B1 (en) * | 2002-04-22 | 2007-02-14 | Koninklijke Philips Electronics N.V. | Signal synthesizing |
BR0305555A (pt) * | 2002-07-16 | 2004-09-28 | Koninkl Philips Electronics Nv | Método e codificador para codificar um sinal de áudio, aparelho para fornecimento de um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio codificado |
WO2004072956A1 (en) | 2003-02-11 | 2004-08-26 | Koninklijke Philips Electronics N.V. | Audio coding |
ATE487213T1 (de) * | 2003-03-17 | 2010-11-15 | Koninkl Philips Electronics Nv | Verarbeitung von mehrkanalsignalen |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
-
2004
- 2004-11-02 SE SE0402650A patent/SE0402650D0/xx unknown
-
2005
- 2005-10-31 ES ES05798859T patent/ES2306235T3/es active Active
- 2005-10-31 DE DE602005006424T patent/DE602005006424T2/de active Active
- 2005-10-31 JP JP2007539523A patent/JP4616349B2/ja active Active
- 2005-10-31 CN CN2005800338587A patent/CN101036183B/zh active Active
- 2005-10-31 KR KR1020077006367A patent/KR100936498B1/ko active IP Right Grant
- 2005-10-31 RU RU2007120634/09A patent/RU2381570C2/ru active
- 2005-10-31 AT AT05798859T patent/ATE393951T1/de not_active IP Right Cessation
- 2005-10-31 EP EP05798859A patent/EP1784819B1/en active Active
- 2005-10-31 WO PCT/EP2005/011663 patent/WO2006048226A1/en active IP Right Grant
- 2005-11-01 TW TW094138330A patent/TWI330825B/zh active
- 2005-11-23 US US11/286,239 patent/US7916873B2/en active Active
-
2007
- 2007-11-01 HK HK07111849A patent/HK1106606A1/xx unknown
-
2011
- 2011-03-03 US US13/040,057 patent/US8654985B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
RU2381570C2 (ru) | 2010-02-10 |
DE602005006424D1 (de) | 2008-06-12 |
DE602005006424T2 (de) | 2009-05-28 |
US7916873B2 (en) | 2011-03-29 |
US20110211703A1 (en) | 2011-09-01 |
CN101036183B (zh) | 2011-06-01 |
WO2006048226A1 (en) | 2006-05-11 |
US8654985B2 (en) | 2014-02-18 |
SE0402650D0 (sv) | 2004-11-02 |
JP2008519301A (ja) | 2008-06-05 |
EP1784819B1 (en) | 2008-04-30 |
TWI330825B (en) | 2010-09-21 |
EP1784819A1 (en) | 2007-05-16 |
JP4616349B2 (ja) | 2011-01-19 |
HK1106606A1 (en) | 2008-03-14 |
US20060133618A1 (en) | 2006-06-22 |
RU2007120634A (ru) | 2008-12-10 |
ATE393951T1 (de) | 2008-05-15 |
TW200627379A (en) | 2006-08-01 |
KR20070051915A (ko) | 2007-05-18 |
CN101036183A (zh) | 2007-09-12 |
KR100936498B1 (ko) | 2010-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2306235T3 (es) | Codificacion de audio multicanal compatible estereo. | |
US10433091B2 (en) | Compatible multi-channel coding-decoding | |
TWI406267B (zh) | 一種音頻解碼器、一種用於對多音頻物件信號進行解碼的方法、以及執行該方法的具有程式碼的程式 | |
ES2740104T3 (es) | Codificación de audio jerárquica multicanal con información lateral compacta | |
JP4603037B2 (ja) | マルチチャネルオーディオ信号を表示するための装置と方法 | |
ES2899286T3 (es) | Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia | |
ES2454670T3 (es) | Generación de una señal multicanal codificada y decodificación de una señal multicanal codificada | |
ES2297825T3 (es) | Cuantificacion dependiente de energia para la codificacion eficaz de parametros de audio espaciales. | |
ES2914474T3 (es) | Método de decodificación de una señal de audio estéreo codificada usando una dirección de predicción variable | |
ES2378734T3 (es) | Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal | |
KR20150040997A (ko) | 멀티채널 다운믹스/업믹스 케이스들에 대해 매개변수 개념을 이용한 멀티-인스턴스 공간-오디오-오브젝트-코딩을 위한 디코더 및 방법 | |
ES2856423T3 (es) | Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia | |
CN113614827A (zh) | 用于预测性译码中的低成本错误恢复的方法和设备 |