ES2293578T3 - Aparato y metodo para generar un parametro de nivel y aparato y metodo para generar una representacion multicanal. - Google Patents
Aparato y metodo para generar un parametro de nivel y aparato y metodo para generar una representacion multicanal. Download PDFInfo
- Publication number
- ES2293578T3 ES2293578T3 ES05743164T ES05743164T ES2293578T3 ES 2293578 T3 ES2293578 T3 ES 2293578T3 ES 05743164 T ES05743164 T ES 05743164T ES 05743164 T ES05743164 T ES 05743164T ES 2293578 T3 ES2293578 T3 ES 2293578T3
- Authority
- ES
- Spain
- Prior art keywords
- parameter
- channels
- channel
- parameters
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000012937 correction Methods 0.000 claims description 9
- 230000006872 improvement Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 description 26
- 239000010410 layer Substances 0.000 description 18
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 238000011002 quantification Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005562 fading Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000012792 core layer Substances 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Radio Relay Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuits Of Receivers In General (AREA)
Abstract
Aparato para generar un parámetro de nivel dentro de una representación de parámetros de una señal multicanal que presenta varios canales originales, comprendiendo la representación de parámetros un conjunto de parámetros que, cuando se utiliza junto con al menos un canal de downmix, permite una reconstrucción multicanal, comprendiendo el aparato: un calculador (900) de parámetro de nivel para calcular un parámetro (rM) de nivel, calculándose el parámetro de nivel de tal manera que una energía del al menos un canal de downmix ponderado por el parámetro de nivel es igual a una suma de energías de los canales originales; y una interfaz de salida para generar datos de salida que incluyen el parámetro de nivel y el conjunto de parámetros o el parámetro de nivel y el al menos un canal de downmix.
Description
Aparato y método para generar un parámetro de
nivel y aparato y método para generar una representación
multicanal.
La presente invención se refiere a la
codificación de representaciones multicanal de señales de audio
utilizando parámetros espaciales. La presente invención enseña
nuevos métodos para estimar y definir parámetros apropiados para
recrear una señal multicanal a partir de un número de canales que es
menor que el número de canales de salida. En particular, tiene como
objetivo minimizar la tasa de bits para la representación
multicanal, y proporcionar una representación codificada de la
señal multicanal permitiendo una codificación y descodificación
fáciles de los datos para todas las posibles configuraciones de
canales.
Se ha mostrado en el documento
WO-A-03/007656 "Efficient and
scalable Parametric Stereo Coding for Low Bit rate Audio Coding
Applications", que es posible recrear una imagen estéreo que se
parece mucho a la imagen estéreo original a partir de una señal
mono dada una representación muy compacta de la imagen estéreo. El
principio básico es dividir la señal de entrada en bandas de
frecuencia y segmentos de tiempo, y para estas bandas de frecuencia
y segmentos de tiempo, estimar la diferencia de intensidad entre
canales (IID, inter channel intensity difference), y
coherencia entre canales (ICC, inter channel coherence). El
primer parámetro es una medición de la distribución de potencia
entre los dos canales en la banda de frecuencia específica y el
segundo parámetro es una estimación de la correlación entre los dos
canales para la banda de frecuencia específica. En el lado del
descodificador, la imagen estéreo se recrea a partir de la señal
mono distribuyendo la señal mono entre los dos canales de salida
según los datos IID, y su-
mando una señal descorrelacionada con el fin de conservar la correlación de canales de los canales estéreo originales.
mando una señal descorrelacionada con el fin de conservar la correlación de canales de los canales estéreo originales.
Para un caso multicanal (significando multicanal
en este contexto más de dos canales de salida), tienen que tomarse
en cuenta varios problemas adicionales. Existen diversas
configuraciones multicanal. La más comúnmente conocida es la
configuración 5.1 (canal central, delantero izquierdo/derecho,
envolvente izquierdo/derecho, y el canal LFE). Sin embargo, existen
muchas otras configuraciones. Desde el punto de vista de sistemas de
codificador/descodificador completos, es deseable tener un sistema
que pueda utilizar el mismo conjunto de parámetros (por ejemplo,
IID e ICC) o subconjuntos de los mismos para todas las
configuraciones de canales. ITU-R BS.775 define
varios esquemas de downmix (esquemas de conversión de señal
envolvente a señal mono o estéreo) que pueden obtener una
configuración de canales que comprende menos canales a partir de una
configuración de canales dada. En lugar de tener que descodificar
siempre todos los canales y basarse en un downmix, puede ser
deseable tener una representación multicanal que permita a un
receptor extraer de antemano los parámetros relevantes para la
configuración de canales, antes de descodificar los canales. Además,
es deseable un conjunto de parámetros escalable de manera inherente
desde un punto de vista de codificación embebida o escalable, en el
que es posible, por ejemplo, almacenar los datos correspondientes a
los canales envolventes en una capa de mejora en el flujo de
bits.
Contrariamente a lo anterior, también puede ser
deseable poder utilizar diferentes definiciones de parámetros
basándose en las características de la señal que está procesándose,
con el fin de conmutar entre la parametrización que da como
resultado la sobrecarga de tasa de bits más baja para el segmento de
señal actual que está procesándose.
Otra representación de señales multicanal
utilizando una señal de suma o señal de downmix e información
lateral paramétrica adicional se conoce en la técnica como
codificación de indicación binaural (BCC, binaural cue
coding). Esta técnica se describe en "Binaural Cue Coding -
Part 1: Psycho-Acoustic Fundamentals and Design
Principles", IEE Transactions on Speech and Audio Processing,
volumen 11, número 6, noviembre de 2003, F. Baumgarte, C. Faller, y
"Binaural Cue Coding. Part II: Schemes and Applications", IEEE
Transactions on Speech and Audio Processing volumen 11, número 6,
noviembre de 2003, C. Faller y F. Baumgarte.
Generalmente, la codificación de indicación
binaural es un método para la interpretación espacial multicanal
basándose en un canal de audio de downmix e información lateral.
Varios parámetros que van a calcularse mediante un codificador BCC
y que van a utilizarse por un descodificador BCC para la
reconstrucción de audio o la interpretación de audio incluyen
diferencias de nivel entre canales, diferencias de tiempo entre
canales, y parámetros de coherencia entre canales. Estas
indicaciones entre canales son el factor determinante para la
percepción de una imagen espacial. Estos parámetros se dan para
bloques de muestras de tiempo de la señal multicanal original y
también se dan como selectivos en función de las frecuencias de tal
modo que cada bloque de muestras de señal multicanal presenta
varias indicaciones para varias bandas de frecuencia. En el caso
general de canales C de reproducción, las diferencias de nivel
entre canales y las diferencias de tiempo entre canales se
consideran en cada subbanda entre pares de canales, es decir, para
cada canal respecto a un canal de referencia. Un canal se define
como el canal de referencia para cada diferencia de nivel entre
canales. Con las diferencias de nivel entre canales y las
diferencias de tiempo entre canales, es posible interpretar una
fuente hacia cualquier dirección entre uno de los pares de
altavoces de una disposición de reproducción que se utiliza. Para
determinar el ancho o el carácter difuso de una fuente
interpretada, es suficiente considerar un parámetro por subbanda
para todos los canales de audio. Este parámetro es el parámetro de
coherencia entre canales. El ancho de la fuente interpretada se
controla modificando las señales de subbanda de tal modo que todos
los posibles pares de canales presentan el mismo parámetro de
coherencia entre canales.
En la codificación BCC, todas las diferencias de
nivel entre canales se determinan entre el canal 1 de referencia y
cualquier otro canal. Cuando, por ejemplo, se determina que el canal
central es el canal de referencia, se calculan una primera
diferencia de nivel entre canales entre el canal izquierdo y el
canal central, una segunda diferencia de nivel entre canales entre
el canal derecho y el canal central, una tercera diferencia de
nivel entre canales entre el canal envolvente izquierdo y el canal
central, y una cuarta diferencia de nivel entre canales entre el
canal envolvente izquierdo y el canal central. Este escenario
describe un esquema de cinco canales. Cuando el esquema de cinco
canales incluye adicionalmente un canal de mejora de bajas
frecuencias, que también se conoce como un canal "de altavoz de
graves" ("sub-woofer"), se calcula
una quinta diferencia de nivel entre canales entre el canal de
mejora de bajas frecuencias y el canal central, que es el único
canal de referencia.
Cuando se reconstruye la señal multicanal
original utilizando el canal de downmix único, que también se
denomina como el canal "mono", y las indicaciones transmitidas
tales como ICLD (diferencia de nivel entre canales, Interchannel
Level Difference), ICTD (diferencia de tiempo entre canales,
Interchannel Time Difference) e ICC (coherencia entre
canales, Interchannel Coherente), los coeficientes
espectrales de la señal mono se modifican utilizando estas
indicaciones. La modificación de nivel se realiza utilizando un
número real positivo que determina la modificación de nivel para
cada coeficiente espectral. La diferencia de tiempo entre canales
se genera utilizando un número complejo de magnitud de uno que
determina una modificación de fase para cada coeficiente espectral.
Otra función determina la influencia de la coherencia. Los factores
para las modificaciones de nivel de cada canal se calculan
calculando en primer lugar el factor para el canal de referencia.
El factor para el canal de referencia se calcula de manera que para
cada partición de frecuencia, la suma de la potencia de todos los
canales es la misma que la potencia de la señal de suma. Entonces,
basándose en el factor de modificación de nivel para el canal de
referencia, se calculan los factores de modificación de nivel para
los otros canales utilizando los parámetros ICLD respectivos.
Por tanto, con el fin de realizar síntesis BCC,
ha de calcularse el factor de modificación de nivel para el canal
de referencia. Para este cálculo, son necesarios todos los
parámetros ICLD para una banda de frecuencia. Entonces, basándose
en esta modificación de nivel para el canal único, pueden calcularse
los factores de modificación de nivel para los otros canales, es
decir, los canales que no son el canal de referencia.
Este enfoque no es ventajoso porque, para una
reconstrucción perfecta, se necesita todas y cada una de las
diferencias de nivel entre canales. Este requisito es incluso más
problemático cuando está presente un canal de transmisión propenso
a errores. Cada error dentro de una diferencia de nivel entre
canales transmitida dará como resultado un error en la señal
multicanal reconstruida, puesto que se requiere cada diferencia de
nivel entre canales para calcular cada una de las señales de salida
multicanal. Adicionalmente, no es posible la reconstrucción cuando
se ha perdido durante la transmisión una diferencia de nivel entre
canales, aunque esta diferencia de nivel entre canales sólo sea
necesaria para, por ejemplo, el canal envolvente izquierdo o el
canal envolvente derecho, canales que no son muy importantes para la
reconstrucción multicanal, puesto que la mayoría de la información
está incluida en el canal delantero izquierdo, al que posteriormente
se le llama el canal izquierdo, en el canal delantero derecho, al
que posteriormente se le llama el canal derecho, o en el canal
central. Esta situación se vuelve incluso peor cuando la diferencia
de nivel entre canales del canal de mejora de bajas frecuencias se
ha perdido durante la transmisión. En esta situación, no es posible
ninguna o sólo una reconstrucción multicanal errónea, aunque el
canal de mejora de bajas frecuencias no es tan decisivo para la
comodidad de escucha de los oyentes. Por tanto, los errores en una
única diferencia de nivel entre canales se propagan a errores
dentro de cada uno de los canales de salida reconstruidos.
Las representaciones multicanal paramétricas son
problemáticas porque, normalmente, las diferencias de nivel entre
canales, tales como las ICLD en la codificación BCC o los valores de
equilibrio en otras representaciones multicanal paramétricas, se
dan como valores relativos en lugar de valores absolutos. En BCC, un
parámetro ICLD describe la diferencia de nivel entre un canal y un
canal de referencia. Los valores de equilibrio también pueden darse
como una relación entre dos canales en un par de canales. Cuando se
reconstruye la señal multicanal, tales diferencias de nivel o
parámetros de equilibrio se aplican a un canal base, que pueden ser
una señal de canal base mono o de canal base estéreo que presenta
dos canales base. Por tanto, la energía incluida en el al menos un
canal base se distribuye, por ejemplo, entre los cinco o seis
canales de salida reconstruidos. Por tanto, la energía absoluta en
un canal de salida reconstruido se determina por la diferencia de
nivel entre canales o el parámetro de equilibrio y la energía de la
señal de downmix en la entrada del receptor.
Cuando se dan situaciones en las que la energía
de la señal de downmix en la entrada del receptor varía con
respecto a una señal de downmix emitida por un codificador, se
producirán variaciones de nivel. En este contexto, ha de resaltarse
que, dependiendo del esquema de parametrización utilizado, tales
variaciones de nivel no sólo darán como resultado una variación de
la sonoridad general de la señal reconstruida, sino que también
puede dar como resultado artefactos serios, cuando los parámetros se
dan como selectivos en función a la frecuencia. Cuando, por
ejemplo, se manipula una cierta banda de frecuencia de la señal de
downmix más de una banda de frecuencia en otro lugar de la escala
de frecuencia, esta manipulación será fácilmente evidente en la
señal de salida reconstruida, puesto que las componentes de
frecuencia en el canal de salida en la cierta banda de frecuencia
presentan un nivel, que es demasiado bajo o demasiado alto.
Adicionalmente, las manipulaciones de nivel que
varían en el tiempo también darán como resultado un nivel global de
la señal de salida reconstruida, que varía en el tiempo y, por lo
tanto, se percibe como otro artefacto desagrada-
ble.
ble.
Mientras que las anteriores situaciones se
concentraron en manipulaciones de nivel que resultan por la
codificación, transmisión y descodificación de una señal de
downmix, pueden producirse otras desviaciones de nivel. Debido a
dependencias de fase entre diferentes canales sobre los que se
realiza downmix para obtener uno o más canales, puede producirse
una situación en la que la señal mono presente una energía que no
sea igual a la suma de las energías en la señal original. Puesto
que el downmix se realiza normalmente mediante muestras, es decir,
añadiendo formas de onda de tiempo, una diferencia de fase entre la
señal izquierda y la señal derecha de por ejemplo 180 grados dará
como resultado una cancelación completa de ambos canales en la señal
de downmix, lo que daría como resultado una energía cero, aunque,
por supuesto, ambas señales presentan una cierta energía de señal.
Aunque en situaciones normales no es muy probable una situación
extrema de este tipo, todavía se producen variaciones de energía
puesto que, por supuesto, todas las señales no están completamente
no correlacionadas. Tales variaciones también pueden dar como
resultado fluctuaciones de sonoridad en la señal de salida
reconstruida y también darán como resultado artefactos, puesto que
la energía de la señal de salida reconstruida será diferente de la
energía de la señal multicanal
original.
original.
Es el objetivo de la presente invención
proporcionar un concepto de parametrización, que da como resultado
una reconstrucción multicanal que presenta una calidad de salida
mejorada.
Este objetivo se consigue mediante un aparato
para generar un parámetro de nivel según la reivindicación 1, un
aparato para generar una representación multicanal reconstruida
según la reivindicación 7, un método para generar un parámetro de
nivel según la reivindicación 9, un método para generar una
representación multicanal reconstruida según la reivindicación 10,
un programa informático según la reivindicación 11, o una
representación de parámetros según la reivindicación 12.
La presente invención se basa en el
descubrimiento de que, para una reconstrucción de alta calidad, y en
vista de esquemas de codificación/transmisión y descodificación
flexibles, un parámetro de nivel adicional se transmite junto con
la señal de downmix o la representación de parámetros de una señal
multicanal de manera que un reconstructor multicanal puede
utilizar este parámetro de nivel junto con los parámetros de
diferencia de nivel y la señal de downmix para regenerar una señal
de salida multicanal, que no experimenta variaciones de nivel o
artefactos inducidos por el nivel y selectivos en función de la
frecuencia.
Según la presente invención, el parámetro de
nivel se calcula de manera que una energía del al menos un canal de
downmix ponderado (multiplicado o dividido) por el parámetro de
nivel es igual a la suma de energías de los canales originales.
En una realización, el parámetro de nivel se
deriva a partir de una relación entre la energía del (de los)
canal(es) de downmix y la suma de las energías de los canales
originales. En esta realización, cualquier diferencia de nivel
entre el (los) canal(es) de downmix y la señal multicanal
original se calcula en el lado del codificador y se introduce en el
flujo de datos como un factor de corrección de nivel, que se trata
como un parámetro adicional, que también se da para un bloque de
muestras del (de los) canal(es) de downmix y para una cierta
banda de frecuencia. Por tanto, para cada bloque y banda de
frecuencia, para los que existen diferencias de nivel entre canales
o parámetros de equilibrio, se añade un nuevo parámetro de
nivel.
La presente invención también proporciona
flexibilidad, puesto que permite transmitir un downmix de una señal
multicanal, que es diferente del downmix sobre el que se basan los
parámetros. Pueden surgir situaciones de este tipo cuando, por
ejemplo, una estación de emisión no desea emitir una señal de
downmix generada por un codificador multicanal, sino que desea
emitir una señal de downmix generada por un ingeniero de sonido en
un estudio de sonido, que es un downmix basado en la impresión
creativa y subjetiva de un ser humano. No obstante, el emisor puede
tener el deseo de transmitir también parámetros multicanal en
conexión con este "downmix maestro". Según la presente
invención, la adaptación entre el conjunto de parámetros y el
downmix maestro se proporciona mediante el parámetro de nivel que
es, en este caso, una diferencia de nivel entre el downmix maestro y
el downmix de parámetros, en el que se basa el conjunto de
parámetros.
La presente invención es ventajosa porque el
parámetro de nivel adicional proporciona calidad de salida mejorada
y flexibilidad mejorada, puesto que los conjuntos de parámetros
relacionados con una señal de downmix también pueden adaptarse a
otro downmix que no está generándose durante el cálculo de
parámetros.
Para fines de reducción de tasa de bits, se
prefiere aplicar codificación \Delta del nuevo parámetro de nivel
y cuantificación y codificación de entropía. En particular, la
codificación \Delta dará como resultado una alta ganancia de
codificación, puesto que la variación de banda a banda o de bloque
de tiempo a bloque de tiempo no será muy alta de modo que se
obtienen valores de diferencia relativamente pequeños, lo que
permite la posibilidad de una buena ganancia de codificación cuando
se utiliza en conexión con codificación de entropía posterior tal
como un codificador Huffman.
En una realización preferida de la invención, se
utiliza una representación de parámetros de señal multicanal, que
incluye al menos dos parámetros de equilibrio diferentes, lo que
indica un equilibrio entre dos pares de canales diferentes. En
particular, la flexibilidad, la escalabilidad, la robustez ante
errores e incluso la eficacia de tasa de bits son el resultado del
hecho de que el primer par de canales, que es la base para el
primer parámetro de equilibrio, es diferente del segundo par de
canales, que es la base para los segundos parámetros de equilibrio,
donde los cuatro canales que forman estos pares de canales son todos
diferentes entre sí.
Por tanto, el concepto preferido se aparta del
concepto de canal de referencia único y utiliza un concepto de
multiequilibrio o superequilibrio, que es más intuitivo y más
natural para la impresión de sonido de un ser humano. En
particular, los pares de canales que subyacen a los primeros y
segundos parámetros de equilibrio pueden incluir canales
originales, canales de downmix o preferiblemente, ciertas
combinaciones entre canales de entrada.
Se ha descubierto que un parámetro de equilibrio
derivado a partir del canal central como el primer canal y una suma
del canal original izquierdo y el canal original derecho como el
segundo canal del par de canales es especialmente útil para
proporcionar una distribución de energía exacta entre el canal
central y los canales izquierdo y derecho. Ha de observarse en este
contexto que estos tres canales normalmente incluyen la mayoría de
la información de la escena de audio, en el que particularmente la
localización estéreo izquierda-derecha no sólo está
influenciada por el equilibrio entre izquierda y derecha sino
también por el equilibrio entre el centro y la suma de izquierda y
derecha. Esta observación se refleja utilizando este parámetro de
equilibrio según una realización preferida de la presente
invención.
Preferiblemente, cuando se transmite una única
señal de downmix mono, se ha descubierto que, además del parámetro
de equilibrio centro/izquierdo más derecho, un parámetro de
equilibrio izquierdo/derecho, un parámetro de equilibrio posterior
izquierdo/posterior derecho, y un parámetro de equilibrio
delantero/trasero son una solución óptima para una representación
de parámetros eficaz en la tasa de bits, que es flexible, robusta
ante errores y en gran medida está libre de artefactos.
En el lado del receptor, a diferencia de la
síntesis BCC en la que cada canal se calcula sólo mediante la
información transmitida, la representación multiequilibrio preferida
hace uso adicionalmente de información sobre el esquema de downmix
utilizado para generar el (los) canal(es) de downmix. Por
tanto, la información sobre el esquema de downmix, que no se
utiliza en sistemas de la técnica anterior, también se utiliza para
realizar upmix (conversión de señal mono o estéreo en señal
envolvente) además del parámetro de equilibrio. Por lo tanto, la
operación de upmix se realiza de tal manera que el equilibrio entre
los canales dentro de una señal multicanal reconstruida que forma
un par de canales para un parámetro de equilibrio se determina
mediante el parámetro de equilibrio.
Este concepto, es decir, presentar diferentes
pares de canales para diferentes parámetros de equilibrio, hace
posible generar algunos canales sin el conocimiento de todos y cada
uno de los parámetros de equilibrio transmitidos. En particular,
los canales izquierdo, derecho y central pueden reconstruirse sin
ningún conocimiento sobre algún equilibrio trasero
izquierdo/trasero derecho o sin ningún conocimiento sobre un
equilibrio delantero/trasero. Este efecto permite la escalabilidad
afinada muy precisa, ya que extraer un parámetro adicional de un
flujo de bits o transmitir un parámetro de equilibrio adicional a
un receptor permite por consiguiente la reconstrucción de uno o más
canales adicionales. Esto se deferencia del sistema de referencia
única de la técnica anterior, en el que se necesitaban todas y cada
una de las diferencias de nivel entre canales para reconstruir todos
o sólo un subgrupo de todos los canales de salida
reconstrui-
dos.
dos.
El concepto preferido también es flexible porque
la elección de los parámetros de equilibrio puede adaptarse a un
cierto entorno de reconstrucción. Por ejemplo, cuando una
disposición de cinco canales forma la disposición de señal
multicanal original, y cuando una disposición de cuatro canales
forma una disposición multicanal de reconstrucción, que presenta
sólo un único altavoz envolvente, que está situado por ejemplo
detrás del oyente, un parámetro de equilibrio
delantero-trasero permite calcular el canal
envolvente combinado sin ningún conocimiento sobre el canal
envolvente izquierdo y el canal envolvente derecho. Esto se
diferencia de un sistema de canal de referencia único, en el que se
tiene que extraer una diferencia de nivel entre canales para el
canal envolvente izquierdo y una diferencia de nivel entre canales
para el canal envolvente derecho a partir del flujo de datos.
Entonces, se tiene que calcular el canal envolvente izquierdo y el
canal envolvente derecho. Finalmente, se tienen que sumar ambos
canales para obtener el canal de altavoz envolvente único para una
disposición de reproducción de cuatro canales. Todas estas etapas
no tienen que realizarse en la representación de parámetros de
equilibrio más dirigida al usuario y más intuitiva, ya que esta
representación entrega automáticamente el canal envolvente
combinado debido a la representación de parámetros de equilibrio,
que no está ligada a un canal de referencia único, sino que también
permite utilizar una combinación de canales originales como un
canal de un par de canales de parámetros de equilibrio.
La presente invención se refiere al problema de
una representación multicanal parametrizada de señales de audio.
Proporciona una manera eficaz de definir los parámetros apropiados
para la representación multicanal y también la capacidad de extraer
los parámetros que representan la configuración de canales deseada
sin tener que descodificar todos los canales. La invención resuelve
además el problema de elegir la configuración de parámetros óptima
para un segmento de señal dado con el fin de minimizar la tasa de
bits requerida para codificar los parámetros espaciales para el
segmento de señal dado. La presente invención también expone cómo
aplicar previamente los métodos de descorrelación sólo aplicables
para el caso de dos canales en un entorno multicanal general.
En realizaciones preferidas la presente
invención comprende las siguientes características:
- realizar downmix sobre la señal multicanal
para obtener una representación de uno o dos canales en el lado de
los codificadores;
- dada la señal multicanal, definir los
parámetros que representan las señales multicanal, de manera o bien
flexible o bien por trama con el fin de minimizar la tasa de bits o
con el fin de permitir al descodificador extraer la configuración
de canales en un nivel de flujo de bits;
- en el lado del descodificador, extraer el
conjunto de parámetros relevantes dada la configuración de canales
soportada actualmente por el descodificador;
- crear el número requerido de señales
mutuamente descorrelacionadas dada la presente configuración de
canales;
- recrear las señales de salida dado el conjunto
de parámetros descodificados a partir de los datos de flujo de bits
y las señales descorrelacionadas.
- Definición de una parametrización de la señal
de audio multicanal, de tal manera que los mismos parámetros o un
subconjunto de los parámetros pueden utilizarse independientemente
de la configuración de canales.
- Definición de una parametrización de la señal
de audio multicanal, de tal manera que los parámetros pueden
utilizarse en un esquema de codificación escalable, en el que se
transmiten subconjuntos del conjunto de parámetros en diferentes
capas del flujo escalable.
- Definición de una parametrización de la señal
de audio multicanal, de tal manera que la reconstrucción de energía
de las señales de salida del descodificador no se ve afectada por el
códec de audio subyacente utilizado para codificar la señal de
downmix.
- Conmutación entre diferentes parametrizaciones
de la señal de audio multicanal, de tal manera que se minimiza la
sobrecarga de tasa de bits para codificar la parametrización.
- Definición de una parametrización de la señal
de audio multicanal, en la que se incluye un parámetro que
representa el factor de corrección de energía para la señal de
downmix.
- Utilización de varios descorreladores
mutuamente descorrelacionados para recrear la señal multicanal.
- Recrear la señal multicanal a partir de una
matriz H de upmix que se calcula basándose en el conjunto de
parámetros transmitidos.
La presente invención se describirá a
continuación a modo de ejemplos ilustrativos que no limitan el
alcance o espíritu de la invención, con referencia a los dibujos
adjuntos, en los que:
la figura 1 ilustra una nomenclatura utilizada
para una configuración de 5,1 canales tal como se utiliza en la
presente invención;
la figura 2 ilustra una posible implementación
de codificador de una realización preferida de la presente
invención;
la figura 3 ilustra una posible implementación
de descodificador de una realización preferida de la presente
invención;
la figura 4 ilustra una parametrización
preferida de la señal multicanal según la presente invención;
la figura 5 ilustra una parametrización
preferida de la señal multicanal según la presente invención;
la figura 6 ilustra una parametrización
preferida de la señal multicanal según la presente invención;
la figura 7 ilustra una disposición esquemática
para un esquema de downmix que genera un canal base único o dos
canales base;
la figura 8 ilustra una representación
esquemática de un esquema de upmix, que se basa en los parámetros de
equilibrio inventivos y en información sobre el esquema de
downmix;
la figura 9a ilustra esquemáticamente una
determinación de un parámetro de nivel en un lado de codificador
según la presente invención;
la figura 9b ilustra esquemáticamente la
utilización del parámetro de nivel en el lado del codificador según
la presente invención;
la figura 10a ilustra un flujo de bits escalable
que presenta diferentes partes de la parametrización multicanal en
diferentes capas del flujo de bits;
la figura 10b ilustra una tabla de escalabilidad
que indica qué canales pueden construirse utilizando qué parámetros
de equilibrio, y qué parámetros de equilibrio y canales no se
utilizan o calculan; y
la figura 11 ilustra la aplicación de la matriz
de upmix según la presente invención.
Las realizaciones descritas posteriormente son
meramente ilustrativas para los principios de la presente invención
sobre representación multicanal de señales de audio. Se entiende que
las modificaciones y variaciones de las disposiciones y los
detalles descritos en el presente documento serán evidentes para
otros expertos en la técnica. Por lo tanto, la intención es estar
limitada sólo por el alcance de las reivindicaciones de patente
inminentes y no por los detalles específicos presentados a modo de
descripción y explicación de las realizaciones del presente
documento.
En la siguiente descripción de la presente
invención que expone cómo parametrizar parámetros IID e ICC y cómo
aplicarlos con el fin de recrear una representación multicanal de
señales de audio, se supone que todas las señales a las que se hace
referencia son señales de subbanda en un banco de filtros o alguna
otra representación selectiva en función de la frecuencia de una
parte del intervalo total de frecuencia para el canal
correspondiente. Por lo tanto, se entiende que la presente
invención no se limita a un banco de filtros específico, y que la
presente invención se expone posteriormente para una banda de
frecuencia de la representación de subbandas de la señal, y que las
mismas operaciones se aplican a todas las señales de subbanda.
Aunque un parámetro de equilibrio también se
denomina un parámetro de "diferencia de intensidad entre canales
(IDD)", ha de resaltarse que un parámetro de equilibrio entre un
par de canales no tiene necesariamente que ser la relación entre la
energía o intensidad en el primer canal del par de canales y la
energía o intensidad del segundo canal en el par de canales.
Generalmente, el parámetro de equilibrio indica la localización de
una fuente de sonido entre los dos canales del par de canales.
Aunque esta localización viene dada normalmente por diferencias de
energía/nivel/intensidad, pueden utilizarse otras características de
una señal tales como una medida de potencia para ambos canales o
envolventes de frecuencia o tiempo de los canales, etc.
En la figura 1 se visualizan los diferentes
canales para una configuración de 5,1 canales, donde a(t) 101
representa el canal envolvente izquierdo, b(t) 102
representa el canal delantero izquierdo, c(t) 103 representa
el canal central,
d(t) 104 representa el canal delantero derecho, e(t) 105 representa el canal envolvente derecho y f(t) 106 representa el canal LFE (efectos de bajas frecuencias, low frequency effects).
d(t) 104 representa el canal delantero derecho, e(t) 105 representa el canal envolvente derecho y f(t) 106 representa el canal LFE (efectos de bajas frecuencias, low frequency effects).
Suponiendo que el operador de esperanza se
define como
y por tanto las energías para los
canales expuestos anteriormente pueden definirse según (mostrado a
modo de ejemplo en este caso mediante el canal envolvente
izquierdo):
En el lado del codificador se realiza downmix
sobre los cinco canales para obtener una representación de dos
canales o una representación de un canal. Esto puede realizarse de
varias maneras y una comúnmente utilizada es el downmix ITU
definido según:
el downmix de 5,1 a dos canales:
y el downmix de 5,1 a un
canal:
Valores utilizados comúnmente para las
constantes \alpha, \beta, \gamma y \delta son
Los parámetros IID se definen como relaciones de
energía de dos canales elegidos arbitrariamente o grupos de canales
ponderados. Dadas las energías de los canales expuestos
anteriormente para la configuración de 5,1 canales pueden definirse
varios conjuntos de parámetros IID.
La figura 7 indica un elemento 700 de downmix
general que utiliza las ecuaciones a las que se hizo referencia
anteriormente para calcular un canal m único o dos canales I_{d} y
r_{d} preferiblemente estéreo. Generalmente, el elemento de
downmix utiliza cierta información de downmix. En la realización
preferida de un downmix lineal, esta información de downmix incluye
factores de ponderación \alpha, \beta, \gamma y \delta. En
la técnica se conoce que pueden utilizarse factores de ponderación
más o menos constantes o no constantes.
En un downmix recomendado por ITU, \alpha se
fija a 1, \beta y \gamma se fijan para que sean iguales e
iguales a la raíz cuadrada de 0,5 , y \delta se fija a 0.
Generalmente, el factor \alpha puede variar entre 1,5 y 0,5.
Adicionalmente, los factores \beta y \gamma pueden ser
diferentes entre sí y variar entre 0 y 1. Lo mismo se cumple para
el canal f(t) de mejora de bajas frecuencias. El factor
\delta para este canal puede variar entre 0 y 1. Adicionalmente,
los factores para el downmix izquierdo y el downmix derecho no
tienen que ser iguales entre sí. Esto se vuelve claro cuando se
considera un downmix no automático que, por ejemplo, realiza un
ingeniero de sonido. El ingeniero de sonido se dedica más a realizar
un downmix creativo más que un downmix que se guía por cualquier
ley matemática. En su lugar, el ingeniero de sonido se guía por su
propio sentimiento creativo. Cuando este downmix "creativo" se
graba por un cierto conjunto de parámetros, se utilizará según la
presente invención mediante un elemento de upmix inventivo tal como
se muestra en la figura 8, que no sólo se guía por los parámetros,
sino también por la información adicional sobre el esquema de
downmix.
Cuando se ha realizado un downmix lineal tal
como en la figura 7, los parámetros de ponderación son la
información preferida sobre el esquema de downmix para utilizarse
por el elemento de upmix. Sin embargo, cuando está presente otra
información, que se utiliza en el esquema de downmix, también puede
utilizarse esta otra información por un elemento de upmix como la
información sobre el esquema de downmix. Tal otra información puede,
por ejemplo, ser ciertos elementos de matriz o ciertos factores o
funciones dentro de los elementos de matriz de una matriz de upmix
tal como, por ejemplo, se indica en la figura 11.
Dada la configuración de 5,1 canales expuesta en
la figura 1 y observando cómo otras configuraciones de canales se
relacionan con la configuración de 5,1 canales para un caso de tres
canales en el que no hay disponible ningún canal envolvente, es
decir, B, C y D están disponibles según la notación anterior. Para
una configuración de cuatro canales, B, C y D están disponibles
pero también una combinación de A y E que representa el canal
envolvente único, o denotado más comúnmente denominado en este
contexto, el canal trasero.
La presente invención utiliza parámetros IID que
se aplican a todos estos canales, es decir, el subconjunto de
cuatro canales de la configuración de 5,1 canales presenta un
subconjunto correspondiente dentro del conjunto de parámetros IID
que describe los 5,1 canales.
El siguiente conjunto de parámetros IID resuelve
este problema:
Es evidente que el parámetro r_{1} corresponde
a la relación de energía entre el canal de downmix izquierdo y el
canal de downmix derecho. El parámetro r_{2} corresponde a la
relación de energía entre el canal central y los canales delanteros
izquierdo y derecho. El parámetro r_{3} corresponde a la relación
de energía entre los tres canales delanteros y los dos canales
envolventes. El parámetro r_{4} corresponde a la relación de
energía entre los dos canales envolventes. El parámetro r_{5}
corresponde a la relación de energía entre el canal LFE y todos
los demás canales.
En la figura 4 se ilustran las relaciones de
energía tal como se explicó anteriormente. Los diferentes canales
de salida se indican por 101 a 105 y son los mismos que en la figura
1 y por tanto no se detallan adicionalmente en este momento. La
disposición de altavoces está dividida en una mitad izquierda y una
derecha, en la que el canal 103 central es parte de ambas mitades.
La relación de energía entre el plano de la mitad izquierda y el
plano de la mitad derecha es exactamente el parámetro denominado
como r_{1}. Esto se indica mediante la línea continua por debajo
de r_{1} en la figura 4. Además, la distribución de energía entre
el canal 103 central y el canal 102 delantero izquierdo y el canal
103 delantero derecho se indica por r_{2}. Finalmente, la
distribución de energía entre toda la disposición de canales
delanteros (102, 103 y 104) y los canales traseros (101 y 105) se
ilustra mediante la flecha en la figura 5 por el parámetro
r_{3}.
Dada la parametrización anterior y la energía
del canal de downmix único transmitido:
las energías de los canales
reconstruidos pueden expresarse
como:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Por tanto, la energía de la señal M puede
distribuirse a los canales reconstruidos dando como resultado
canales reconstruidos que presentan las mismas energías que los
canales originales.
El esquema anterior preferido de upmix se
ilustra en la figura 8. Se vuelve claro a partir de las ecuaciones
para F, A, E, C, B y D que la información sobre el esquema de
downmix que va a utilizarse por el elemento de upmix son los
factores \alpha, \beta, \gamma y \delta de ponderación, que
se utilizan para ponderar los canales originales antes de que tales
canales ponderados o no ponderados se sumen juntos o se resten entre
sí con el fin de llegar a un número de canales de downmix, que es
menor que el número de canales originales. Por tanto, a partir de
la figura 8 está claro que según la presente invención, las energías
de los canales reconstruidos no sólo se determinan por los
parámetros de equilibrio transmitidos desde un lado de codificador
a un lado de descodificador, sino que también se determinan por el
factor \alpha, \beta, \gamma y \delta de downmix.
Cuando se considera la figura 8, se vuelve claro
que, para calcular las energías B y D izquierda y derecha, las
energías F, A, E, C de canales ya calculadas se utilizan dentro de
la ecuación. Sin embargo, esto no implica necesariamente un esquema
de upmix secuencial. En su lugar, para obtener un esquema de upmix
completamente paralelo que, por ejemplo, se realiza utilizando una
cierta matriz de upmix que presenta ciertos elementos de matriz de
upmix, las ecuaciones para A, C, E y F se insertan en las ecuaciones
B y D. Por tanto, se vuelve claro que la energía de canales
reconstruidos sólo se determina por los parámetros de equilibrio, el
(los) canal(es) de downmix y la información sobre el esquema
de downmix tal como los factores de downmix.
Dados los parámetros IID anteriores es evidente
que se ha resuelto el problema de definir un conjunto de parámetros
de parámetros IID que puede utilizarse para varias configuraciones
de canales tal como será obvio a partir de lo comentado
posteriormente. Como un ejemplo, observando la configuración de tres
canales (es decir, recreando tres canales delanteros a partir de un
canal disponible), es evidente que los parámetros r_{3}, r_{4}
y r_{5} están obsoletos puesto que los canales A, E y f no
existen. También es evidente que los parámetros r_{1} y r_{2}
son suficientes para recrear los tres canales a partir de un canal
único de downmix ya que r_{1} describe la relación de energía
entre los canales delanteros izquierdo y derecho, y r_{2} describe
la relación de energía entre el canal central y los canales
delanteros izquierdo y derecho.
En el caso más general se observa fácilmente que
los parámetros IID (r_{1}...r_{5}), tal como se definieron
anteriormente, se aplican a todos los subconjuntos de recreación de
n canales a partir de m canales donde m<n\leq6. Observando la
figura 4 puede decirse que:
- para un sistema que recrea 2 canales a partir
de 1 canal, se obtiene suficiente información a partir del
parámetro r_{1} para conservar la relación de energía correcta
entre los canales;
- para un sistema que recrea 3 canales a partir
de 1 canal, se obtiene suficiente información a partir de los
parámetros r_{1} y r_{2} para conservar la relación de energía
correcta entre los canales;
- para un sistema que recrea 4 canales a partir
de 1 canal, se obtiene suficiente información a partir de los
parámetros r_{1}, r_{2} y r_{3} para conservar la relación de
energía correcta entre los canales;
- para un sistema que recrea 5 canales a partir
de 1 canal, se obtiene suficiente información a partir de los
parámetros r_{1}, r_{2}, r_{3} y r_{4} para conservar la
relación de energía correcta entre los canales;
- para un sistema que recrea 5,1 canales a
partir de 1 canal, se obtiene suficiente información a partir de
los parámetros r_{1}, r_{2}, r_{3}, r_{4} y r_{5} para
conservar la relación de energía correcta entre los canales;
- para un sistema que recrea 5,1 canales a
partir de 2 canales, se obtiene suficiente información a partir de
los parámetros r_{2}, r_{3}, r_{4} y r_{5} para conservar la
relación de energía correcta entre los canales.
La característica de escalabilidad descrita
anteriormente se ilustra mediante la tabla en la figura 10b. El
flujo de bits escalable ilustrado en la figura 10a y explicado
posteriormente también puede adaptarse a la tabla de la figura 10b
para obtener una escalabilidad más precisa que la mostrada en la
figura 10a.
El concepto preferido es especialmente ventajoso
porque los canales izquierdo y derecho pueden reconstruirse
fácilmente a partir de un único parámetro r_{1} de equilibrio sin
conocimiento o extracción de cualquier otro parámetro de
equilibrio. Con este fin, en las ecuaciones para B, D en la figura
8, los canales A, C, F y E se fijan simplemente a cero.
Como alternativa, cuando sólo se considera el
parámetro r_{2} de equilibrio, los canales reconstruidos son por
un lado la suma entre el canal central y el canal de bajas
frecuencias (cuando este canal no se fija a cero) y por otro lado
la suma entre los canales izquierdo y derecho. Por tanto, el canal
central por un lado y la señal mono por otro lado pueden
reconstruirse utilizando sólo un único parámetro. Esta
característica ya puede ser útil para una representación de 3
canales sencilla, en la que las señales izquierda y derecha se
derivan a partir de la suma de la parte izquierda y la parte derecha
dividida por dos, y en la que la energía entre la parte central y
la suma de la parte izquierda y la parte derecha se determina
exactamente por el parámetro r_{2} de equilibrio.
En este contexto, los parámetros r_{1} y
r_{2} de equilibrio se sitúan en una capa de escalado
inferior.
En cuanto a la segunda entrada en la tabla de la
figura 10b, que indica cómo pueden generarse 3 canales B, D y la
suma entre C y F utilizando sólo dos parámetros de equilibrio en
lugar de todos los 5 parámetros de equilibrio, uno de esos
parámetros r_{1} y r_{2} ya puede estar en una capa de escalado
superior que el parámetro r_{1} o r_{2}, que está situado en la
capa de escalado inferior.
Cuando se consideran las ecuaciones en la figura
8, se vuelve claro que, para calcular C, el parámetro r_{5} no
extraído y el otro parámetro r_{3} no extraído se fijan a cero.
Adicionalmente, los canales A, E, F no utilizados también se fijan
a 0, de tal modo que pueden calcularse los 3 canales B, D y la
combinación entre el canal C central y el canal F de mejora de
bajas frecuencias.
Cuando va a realizarse upmix sobre una
representación de 4 canales, es suficiente extraer sólo los
parámetros r_{1}, r_{2} y r_{3} del flujo de datos de
parámetros. En este contexto, r_{3} podría estar en una capa de
escalado próxima superior que el otro parámetro r_{1} o r_{2}.
La configuración de 4 canales es especialmente adecuada en conexión
con la representación de parámetros de superequilibrio de la
presente invención puesto que, tal como se describirá
posteriormente en conexión con la figura 6, el tercer parámetro
r_{3} de equilibrio ya se deriva a partir de una combinación de
los canales delanteros por un lado y los canales traseros por otro
lado. Esto se debe al hecho de que el parámetro r_{3} es un
parámetro de equilibrio delantero-trasero, que se
deriva a partir del par de canales que presenta, como un primer
canal, una combinación de los canales A y E traseros, y que
presenta, como los canales delanteros, una combinación del canal B
izquierdo, el canal E derecho, y el canal C central.
Por tanto, la energía del canal combinado de
ambos canales envolventes se obtiene automáticamente sin ningún
cálculo aparte y combinación posterior, tal como sería el caso en
una disposición de canal de referencia único.
Cuando tienen que recrearse 5 canales a partir
de un canal único, es necesario el parámetro r_{4} de equilibrio
adicional. Este parámetro r_{4} puede de nuevo estar en una capa
de escalado próxima superior.
Cuando tiene que realizarse una reconstrucción
5.1, se requiere cada parámetro de equilibrio. Por tanto, una capa
de escalado próxima superior que incluya el siguiente parámetro
r_{5} de equilibrio tendrá que transmitirse a un receptor y
evaluarse por el receptor.
Sin embargo, utilizando el mismo enfoque de
ampliar los parámetros IID según el número ampliado de canales, los
parámetros IID anteriores pueden ampliarse para cubrir
configuraciones de canales con un número mayor de canales que la
configuración 5.1. Por tanto, la presente invención no se limita a
los ejemplos expuestos anteriormente.
Obsérvese ahora el caso en el que la
configuración de canales es una configuración de 5,1 canales siendo
éste uno de los casos más comúnmente utilizados. Además, supóngase
que los 5,1 canales se recrean a partir de dos canales. Puede
definirse para este caso un conjunto de parámetros diferente
sustituyendo los parámetros r_{3} y r_{4} por:
Los parámetros q_{3} y q_{4} representan la
relación de energía entre los canales izquierdos delantero y
trasero, y la relación de energía entre los canales derechos
delantero y posterior. Pueden preverse varias otras
parametrizaciones.
En la figura 5 se visualiza la parametrización
modificada. En lugar de tener un parámetro que representa la
distribución de energía entre los canales delantero y trasero (tal
como se representó mediante r_{3} en la figura 4) y un parámetro
que describe la distribución de energía entre el canal envolvente
izquierdo y el canal envolvente derecho (tal como se representó
mediante r_{4} en la figura 4) los parámetros q_{3} y q_{4}
se utilizan para describir la relación de energía entre el canal 102
delantero izquierdo y el canal 101 envolvente izquierdo, y la
relación de energía entre el canal 104 delantero derecho y el canal
105 envolvente derecho.
La presente invención prefiere que puedan
utilizarse varios conjuntos de parámetros para representar las
señales multicanal. Una característica adicional de la presente
invención es que pueden elegirse diferentes parametrizaciones
dependiendo del tipo de cuantificación de los parámetros que se
utilice.
Como un ejemplo, en un sistema que utiliza
cuantificación aproximada de la parametrización, debido a
limitaciones de alta tasa de bits , debería utilizarse una
parametrización que no amplificase errores durante el proceso de
upmix.
Obsérvense dos de las expresiones anteriores
para las energías reconstruidas en un sistema que recrea 5,1
canales a partir de un canal:
Es evidente que las restas pueden dar lugar a
grandes variaciones de las energías B y D debido a efectos de
cuantificación bastante pequeños de los parámetros M, A, C y F.
Según la presente invención, debería utilizarse
una parametrización diferente que sea menos sensible a la
cuantificación de los parámetros. Por tanto, si se utiliza
cuantificación aproximada, el parámetro r_{1} tal como se definió
anteriormente:
puede sustituirse por la definición
alternativa
según:
Esto da lugar a ecuaciones para las energías
reconstruidas según:
y las ecuaciones para las energías
reconstruidas de A, E, C y F siguen siendo las mismas que
anteriormente. Es evidente que esta parametrización representa un
sistema mejor acondicionado desde un punto de vista de la
cuantificación.
En la figura 6 se ilustran las relaciones de
energía tal como se explicaron anteriormente. Los diferentes
canales de salida se indican por 101 a 105 y son los mismos que en
la figura 1 y por tanto no se detallan en este momento. La
disposición de altavoces está dividida en una parte delantera y una
parte trasera. La distribución de energía entre toda la disposición
de canales (102, 103 y 104) delanteros y los canales (101 a 105)
traseros se ilustra mediante la flecha en la figura 6 indicada por
en parámetro r_{3}.
Otra característica notable e importante de la
presente invención es que cuando se observa la parametrización
no es sólo un sistema mejor
acondicionado desde un punto de vista de la cuantificación. La
parametrización anterior también tiene la ventaja de que los
parámetros utilizados para reconstruir los tres canales delanteros
se derivan sin ninguna influencia de los canales envolventes. Podría
preverse un parámetro r_{2} que describa la relación entre el
canal central y todos los demás canales. Sin embargo, esto tendría
la desventaja de que los canales envolventes se incluirían en la
estimación de los parámetros que describen los canales
delanteros.
Recuérdese que, en la presente invención, la
parametrización descrita también puede aplicarse a mediciones de
correlación o coherencia entre canales, es evidente que incluir los
canales traseros en el cálculo de r_{2} puede tener influencia
negativa significativa en el éxito de recrear con precisión los
canales delanteros.
Como ejemplo, podría imaginarse una situación
con la misma señal en todos los canales delanteros y señales
completamente no correlacionadas en los canales traseros. Esto no es
infrecuente, dado que los canales posteriores se utilizan
frecuentemente para recrear información de ambiente del sonido
original.
Si el canal central se describe en relación a
todos los demás canales, la medida de correlación entre el central
y la suma de todos los demás canales será bastante baja, puesto que
los canales traseros están completamente no correlacionados. Lo
mismo será cierto para un parámetro que estima la correlación entre
los canales delanteros izquierdo/derecho y los canales traseros
izquierdo/derecho.
Por tanto, se llega a una parametrización que
puede reconstruir las energías correctamente, pero que no incluye
la información de que todos los canales delanteros fuesen idénticos,
es decir, fuertemente correlacionados. Incluye la información de
que los canales delanteros izquierdo y derecho están
descorrelacionados con los canales posteriores, y que el canal
central también está correlacionado con los canales posteriores. Sin
embargo, el hecho de que todos los canales delanteros son los
mismos no puede derivarse a partir de una parametrización de este
tipo.
Esto se resuelve utilizando la
parametrización
tal como se enseña mediante la
presente invención, puesto que los canales traseros no están
incluidos en la estimación de los parámetros utilizados en el lado
del descodificador para recrear los canales
delanteros.
La distribución de energía entre el canal 103
central y el canal 102 delantero izquierdo y el canal 103 delantero
derecho se indica por r_{2} según la presente invención. La
distribución de energía entre el canal 101 envolvente izquierdo y
el canal 105 envolvente derecho se ilustra por r_{4}. Finalmente,
la distribución de energía entre el canal 102 delantero izquierdo y
el canal 104 delantero derecho se da mediante r_{1}. Como es
evidente, todos los parámetros son los mismos que los representados
en la figura 4 aparte de r_{1} que en este caso corresponde a la
distribución de energía entre el altavoz delantero izquierdo y el
altavoz delantero derecho, como opuestos a todo el lado izquierdo y
a todo el lado derecho. Para terminar, también se da el parámetro
r5 que representa la distribución de energía entre el canal 103
central y el canal 106 lfe.
La figura 6 muestra una perspectiva general de
la realización de parametrización preferida de la presente
invención. El primer parámetro r_{1} de equilibrio (indicado por
la línea continua) constituye un parámetro de equilibrio delantero
izquierdo/delantero derecho. El segundo parámetro r_{2} de
equilibrio es un parámetro de equilibrio
izquierdo-derecho. El tercer parámetro r_{3} de
equilibrio constituye un parámetro de equilibrio delantero/trasero.
El cuarto parámetro r_{4} de equilibrio constituye un parámetro de
equilibrio posterior izquierdo/posterior derecho. Finalmente, el
quinto parámetro r_{5} de equilibrio constituye un parámetro de
equilibrio centro/lfe.
La figura 4 muestra una situación relacionada.
El primer parámetro r_{1} de equilibrio, que se ilustra en la
figura 4 mediante líneas continuas en el caso de un equilibrio
izquierdo/derecho de downmix puede sustituirse por un parámetro de
equilibrio delantero izquierdo/delantero derecho original definido
entre los canales B y D como el par de canales subyacentes. Esto se
ilustra mediante la línea r_{1} discontinua en la figura 4 y
corresponde a la línea r_{1} continua en la figura 5 y en la
figura 6.
En una situación de dos canales base, los
parámetros r_{3} y r_{4}, es decir, el parámetro de equilibrio
delantero/trasero y el parámetro de equilibrio posterior
izquierdo/derecho se sustituyen por dos parámetros
delantero/posterior de un único lado. El primer parámetro q_{3}
delantero/posterior de un único lado también puede denominarse como
el primer parámetro de equilibrio, que se deriva a partir del par de
canales que está constituido por el canal A envolvente izquierdo y
el canal B izquierdo. El segundo parámetro de equilibrio
delantero/izquierdo de un único lado es el parámetro q_{4}, que
puede denominarse como el segundo parámetro, que se basa en el
segundo par de canales que está constituido por el canal D derecho y
el canal E envolvente derecho. De nuevo, ambos pares de canales son
independientes entre sí. Lo mismo es cierto para el parámetro
r_{2} de equilibrio centro/izquierdo-derecho, que
presenta, como un primer canal, un canal C central, y como un
segundo canal, la suma de los canales B y D izquierdo y derecho.
Otra parametrización que se presta adecuadamente
para la cuantificación aproximada para un sistema que recrea 5,1
canales a partir de uno o dos canales se define posteriormente según
la presente invención.
Para el caso de 1 a 5,1 canales:
Y para el caso de dos a 5,1 canales:
Es evidente que las parametrizaciones anteriores
incluyen más parámetros de lo que se requiere desde el punto de
vista estrictamente teórico para redistribuir correctamente la
energía de las señales transmitidas a las señales recreadas. Sin
embargo, la parametrización es muy insensible a errores de
cuantificación.
El conjunto de parámetros al que se hizo
referencia anteriormente para una disposición de dos canales base,
hace uso de varios canales de referencia. Sin embargo, a diferencia
de la configuración de parámetros en la figura 6, el conjunto de
parámetros en la figura 7 se basa únicamente en canales de downmix
en vez de en canales originales como canales de referencia. Los
parámetros q_{1}, q_{3} y q_{4} de equilibrio se derivan a
partir de pares de canales completamente diferentes.
Aunque se han descrito varias realizaciones
inventivas, en las que los pares de canales para derivar parámetros
de equilibrio incluyen sólo canales originales (figura 4, figura 5,
figura 6) o incluyen canales originales así como canales de downmix
(figura 4, figura 5) o únicamente se basan en canales de downmix
como los canales de referencia tal como se indica en la parte
inferior de la figura 7, se prefiere que el generador de parámetros
incluido dentro del codificador 206 de datos envolventes de la
figura 2 esté operativo para utilizar sólo canales originales o
combinaciones de canales originales en lugar de un canal base o una
combinación de canales base para los canales en los pares de
canales, en los que se basan los parámetros de equilibrio. Esto se
debe al hecho de que no puede garantizarse completamente que no se
producirá un cambio de energía para el único canal base o los dos
canales base estéreo durante su transmisión desde un codificador
envolvente hasta un descodificador envolvente. Tales variaciones de
energía para los canales de downmix o el canal de downmix único
pueden provocarse por un codificador 205 de audio (figura 2) o un
descodificador 302 de audio (figura 3) que funcionan bajo una
condición de tasa de bits baja. Tales situaciones pueden dar como
resultado la manipulación de la energía del canal de downmix mono o
los canales de downmix estéreo, manipulación que puede ser diferente
entre los canales de downmix estéreo izquierdo y derecho, o incluso
puede ser selectivo en función de la frecuencia y en función del
tiempo.
Con el fin de estar completamente seguro frente
a tales variaciones de energía, se transmite un parámetro de nivel
adicional para cada bloque y banda de frecuencia para todos los
canales de downmix según la presente invención. Cuando los
parámetros de equilibrio se basan en la señal original en lugar de
en la señal de downmix, un factor de corrección único es suficiente
para cada banda, puesto que cualquier corrección de energía no
influirá en una situación de equilibrio entre los canales
originales. Incluso cuando no se transmite ningún parámetro de
nivel adicional, cualquier variación de energía de canal de downmix
no dará como resultado una ubicación distorsionada de fuentes de
sonido en la imagen de audio sino que sólo dará como resultado una
variación de sonoridad general, que no es tan desagradable como una
migración de una fuente de sonido provocada por condiciones de
equilibrio variables.
Es importante observar que se necesita tener
cuidado de tal modo que la energía M (de los canales de downmix),
sea la suma de las energías B, D, A, E, C y F tal como se expuso
anteriormente. Este no es siempre el caso debido a dependencias de
fase entre los diferentes canales sobre los que se está realizando
downmix para obtener un canal. El factor de corrección de energía
puede transmitirse como un parámetro r_{M} adicional, y la
energía de la señal de downmix recibida en el lado del
descodificador se define por tanto como:
En la figura 9 se representa la aplicación del
parámetro r_{M} adicional según la presente invención. La señal
de entrada de downmix se modifica por el parámetro r_{M} en 901
antes de enviarla hacia los módulos 701 a 705 de upmix. Éstos son
los mismos que en la figura 7 y por lo tanto no se detallarán en lo
sucesivo. Para los expertos en la técnica es obvio que el parámetro
rM para el ejemplo de downmix de canal único anterior puede
ampliarse a un parámetro por canal de downmix, y, por tanto, no está
limitado a un canal de downmix único.
La figura 9a ilustra un calculador 900 de
parámetro de nivel inventivo, mientras que la figura 9b indica un
corrector 902 de nivel inventivo. La figura 9a indica la situación
en el lado del codificador y la figura 9b ilustra la situación
correspondiente en el lado del descodificador. El parámetro de nivel
o parámetro r_{M} "adicional" es un factor de corrección que
da una cierta relación de energía. Para explicar esto, se supone el
siguiente escenario a modo de ejemplo. Para una cierta señal
multicanal original, existe un "downmix maestro" por un lado y
un "downmix de parámetros" por el otro. El downmix maestro lo
ha generado un ingeniero de sonido en un estudio de sonido
basándose en, por ejemplo, impresiones de calidad subjetivas.
Adicionalmente, un cierto medio de almacenamiento de audio también
incluye el downmix de parámetros que se ha realizado mediante, por
ejemplo, el codificador 203 envolvente de la figura 2. El downmix de
parámetros incluye un canal base o dos canales base, canales base
que forman la base para la reconstrucción multicanal utilizando el
conjunto de parámetros de equilibrio o cualquier otra
representación paramétrica de la señal multicanal original.
Puede darse el caso, por ejemplo, de que un
radiodifusor desee no transmitir el downmix de parámetros sino el
downmix maestro desde un transmisor hasta un receptor.
Adicionalmente, para mejorar el downmix maestro a una
representación multicanal, el radiodifusor también transmite una
representación paramétrica de la señal multicanal original. Puesto
que la energía (en una banda y en un bloque) puede variar (y
normalmente lo hará) entre el downmix maestro y el downmix de
parámetros, se genera un parámetro r_{M} de nivel relativo en el
bloque 900 y se transmite al receptor como un parámetro adicional.
El parámetro de nivel se deriva a partir del downmix maestro y el
downmix de parámetros y es, preferiblemente, una relación entre las
energías dentro de un bloque y una banda del downmix maestro y el
downmix de parámetros.
Generalmente, el parámetro de nivel se calcula
como la relación de la suma de las energías (E_{orig}) de los
canales originales y la energía del (de los) canal(es) de
downmix, en la que este (estos) canal(es) de downmix
puede(n) ser el downmix (E_{PD}) de parámetros o el downmix
(E_{MD}) maestro o cualquier otra señal de downmix. Normalmente,
se utiliza la energía de la señal de downmix específica, que se
transmite desde un codificador hasta un descodificador.
La figura 9b ilustra una implementación del lado
del descodificador de la utilización del parámetro de nivel. El
parámetro de nivel así como la señal de downmix se introducen en el
bloque 902 corrector de nivel. El corrector de nivel corrige el
canal base único o los diversos canales base dependiendo del
parámetro de nivel. Puesto que el parámetro r_{M} adicional es un
valor relativo, este valor relativo se multiplica por la energía
del canal base correspondiente.
Aunque las figuras 9a y 9b indican una situación
en la que se aplica la corrección de nivel al canal de downmix o a
los canales de downmix, el parámetro de nivel también puede
integrarse en la matriz de upmix. Con este fin, cada vez que
aparece M en las ecuaciones de la figura 8 se sustituye por el
término "r_{M}M".
Estudiando el caso cuando se recrean 5,1 canales
a partir de 2 canales, se realiza la siguiente observación.
Si la presente invención se utiliza con un códec
de audio subyacente tal como se representa en la figura 2 y en la
figura 3 por 205 y 302, se necesita realizar algunas consideraciones
más. Obsérvese que los parámetros IID, tal como se definieron
anteriormente, donde r_{1} se definió según
este parámetro está disponible
implícitamente en el lado del descodificador puesto que el sistema
está recreando 5,1 canales a partir de 2 canales, siempre que los
dos canales transmitidos sean el downmix estéreo de los canales
envolventes.
Sin embargo, el códec de audio que funciona bajo
una limitación de tasa de bits puede modificar la distribución
espectral de tal modo que las energías L y R tal como se miden en el
descodificador difieren de sus valores en el lado del codificador.
Según la presente invención tal influencia sobre la distribución de
energía de los canales recreados se desvanece transmitiendo el
parámetro
también para el caso cuando se
reconstruyen 5,1 canales a partir de dos
canales.
Si se proporcionan medios de señalización, el
codificador puede codificar el presente segmento de señal utilizando
diferentes conjuntos de parámetros y elegir el conjunto de
parámetros IID que dan la sobrecarga más baja para el segmento de
señal particular que está procesándose. Es posible que los niveles
de energía entre los canales delantero y trasero derechos sean
similares, y que los niveles de energía entre el canal izquierdo
delantero y trasero sean similares pero significativamente
diferentes a los niveles en el canal delantero y trasero derecho.
Dada la codificación delta de parámetros y posteriormente la
codificación de entropía, puede ser más eficaz utilizar los
parámetros q_{3} y q_{4} en lugar de r_{3} y r_{4}. Para
otro segmento de señal con características diferentes, un conjunto
de parámetros diferente puede dar una sobrecarga de tasa de bits
inferior. La presente invención permite conmutar libremente entre
diferentes representaciones de parámetros con el fin de minimizar
la sobrecarga de tasa de bits para el segmento de señal codificado
actualmente dadas las características del segmento de señal. La
capacidad para conmutar entre diferentes parametrizaciones de los
parámetros IID con el fin de obtener la sobrecarga de tasa de bits
más baja posible y proporcionar medios de señalización para indicar
qué parametrización se utiliza actualmente, es una característica
esencial de la presente invención.
Además, la codificación delta de los parámetros
puede realizarse en o bien la dirección de frecuencia o bien en la
dirección del tiempo, así como codificación delta entre diferentes
parámetros. Según la presente invención, un parámetro puede
codificarse mediante codificación delta con respecto a cualquier
otro parámetro, dado que se proporcionan medios de señalización que
indican la codificación delta particular utilizada.
Una característica interesante para cualquier
esquema de codificación es la capacidad para realizar codificación
escalable. Esto significa que el flujo de bits codificado puede
dividirse en varias capas diferentes. La capa de núcleo puede
descodificarse por sí misma y las capas superiores pueden
descodificarse para mejorar la señal de capa de núcleo codificada.
Por diferentes circunstancias, el número de capas disponibles puede
variar, pero mientras que la capa de núcleo esté disponible el
descodificador puede producir muestras de salida. La
parametrización para la codificación multicanal, tal como se expuso
anteriormente utilizando los parámetros r_{1} a r_{5}, es muy
adecuada para la codificación escalable. Por tanto, es posible
almacenar los datos para, por ejemplo, los dos canales (A y E)
envolventes en una capa de mejora, es decir, los parámetros r_{3}
y r_{4}, y los parámetros correspondientes a los canales
delanteros en una capa de núcleo, representados por los parámetros
r_{1} y r_{2}.
En la figura 10 se representa una implementación
de flujo de bits escalable según la presente invención. Las capas
de flujos de bits se ilustran por 1001 y 1002, donde 1001 es la capa
de núcleo que aloja las señales de downmix codificadas por forma de
onda y los parámetros r1 y r2 requeridos para recrear los canales
(102, 103 y 104) delanteros. La capa de mejora ilustrada por 1002
aloja los parámetros para recrear los canales (101 y 105)
posteriores.
Otro aspecto importante de la presente invención
es la utilización de descorreladores en una configuración
multicanal. El concepto de utilizar un descorrelador se detalló para
el caso de uno a dos canales en el documento PCT/SE02/01372. Sin
embargo, cuando se amplía esta teoría a más de dos canales, surgen
varios problemas que resuelve la presente invención.
La matemática elemental muestra que con el fin
de conseguir M señales mutuamente descorrelacionadas a partir de N
señales, se requieren M-N descorreladores, donde
todos los diferentes correladores son funciones que crean señales
de salida mutuamente ortogonales a partir de una señal de entrada
común. Un descorrelador es normalmente un filtro de todo paso o
casi de todo paso que dada una entrada x(t) produce una
salida y(t) con E-[|y|^{2}]= E[|x|^{2}] y
casi correlación cruzada desvaneciente E[yx^{*}]. Criterios
de percepción adicionales entran en el diseño de un buen
correlador, pudiéndose también utilizar algunos ejemplos de métodos
de diseño para minimizar el carácter de filtro de peine cuando se
suma la señal original a la señal descorrelacionada y para
minimizar el efecto de una respuesta de impulso a veces demasiado
larga en señales transitorias. Algunos descorreladores de la
técnica anterior utilizan un reverberador artificial para la
descorrelación. La técnica anterior también incluye retardos
fraccionales, por ejemplo modificando la fase de las muestras de
subbanda complejas, para conseguir densidad de eco superior y por
tanto más dispersión de tiempo.
La presente invención sugiere métodos de
modificación de un descorrelador basado en reverberaciones con el
fin de conseguir que múltiples descorreladores creen señales de
salida mutuamente descorrelacionadas a partir de una señal de
entrada común. Dos correladores están mutuamente descorrelacionados
si sus salidas y_{1}(y) e y_{2}(t) presentan una
correlación cruzada desvaneciente o casi desvaneciente dada la misma
entrada. Suponiendo que la entrada es ruido blanco estacionario, se
sigue que las respuestas h_{1} y h_{2} de impulso deben ser
ortogonales en el sentido de que
E[h_{1}h_{2}^{*}] sea desvaneciente o casi
desvaneciente. Pueden construirse de varias maneras conjuntos de
descorreladores mutuamente descorrelacionados por pares de varias
maneras. Una manera eficaz de realizar tales modificaciones es
alterar el factor q de rotación de fase que es parte del retardo
fraccional.
La presente invención estipula que los factores
de rotación de fase pueden ser parte de las líneas de retardo en
los filtros de todo paso o simplemente un retardo fraccional total.
En el último caso, este método no está limitado a filtros de tipo
de todo paso o de reverberación, sino que también puede aplicarse a,
por ejemplo, retardos sencillos que incluyen una parte de retardo
fraccional. Un enlace de filtro de todo paso en el descorrelador
puede describirse en el dominio Z como:
\vskip1.000000\baselineskip
donde q es el factor (|q|=1) de
rotación de fase de valor complejo, m es la longitud de línea
de retardo en muestras y a es el coeficiente de filtro. Por
razones de estabilidad, la magnitud del coeficiente de filtro tiene
que limitarse a |a|<1. Sin embargo, utilizando el
coeficiente a'=-a de filtro alternativo, se define un
nuevo reverberador que presenta las mismas propiedades de
decaimiento de reverberación pero con una salida significativamente
no correlacionada con la salida del reverberador no modificado.
Además, puede realizarse una modificación del factor q de
rotación de fase, por ejemplo añadiendo un desfase de fase
constante, q'=qe^{iC}. La constante C puede utilizarse como
un desfase de fase constante o podría escalarse de una manera que
correspondería a un desfase de tiempo constante para todas las
bandas de frecuencia sobre las que se aplica. La constante C de
desfase de fase también puede ser un valor aleatorio que sea
diferente para todas las bandas de
frecuencia.
Según la presente invención, la generación de
n canales a partir de m canales se realiza aplicando
una matriz H de upmix de tamaño n\times(m+p)
a un vector columna de tamaño (m+p)\times1 de señales
en el que m son las m
señales codificadas y de downmix, y las p señales en s están
descorrelacionadas y mutuamente descorrelacionadas de todas las
señales en m. Estas señales descorrelacionadas se producen a partir
de las señales en m mediante los descorreladores. Las n
señales a', b',... reconstruidas están entonces contenidas
en el vector
columna
Lo anterior se ilustra mediante la figura 11,
donde las señales descorrelacionadas se crean mediante los
descorreladores 1102, 1103 y 1104. La matriz H de upmix se da
mediante 1101 operando sobre el vector y dando la señal x' de
salida.
Sea R=E[xx^{*}] la matriz de
correlación del vector de señal origina, sea R'=E[x'x'^{*}]
la matriz de correlación de la señal reconstruida. En este caso y
en lo sucesivo, para una matriz o un vector X con entradas
complejas, X^{*} denota la matriz adjunta, el complejo conjugado
traspuesto de X.
La diagonal de R contiene los valores A, B,
C, ... de energía y pueden descodificarse hasta un nivel de
energía total a partir de las cantidades de energía definidas
anteriormente. Puesto que R^{*}=R, sólo hay
n(n-1)/2 valores de correlación cruzada fuera de la
diagonal diferentes que contienen información que va a
reconstruirse completa o parcialmente ajustando la matriz H de
upmix. Una reconstrucción de la estructura de correlación completa
corresponde al caso R'=R. La reconstrucción de niveles de energía
correctos sólo corresponde al caso en el que R' y R son iguales en
sus diagonales.
En el caso de n canales a partir de
m=1 canal, se consigue una reconstrucción de la estructura de
correlación completa utilizando p=n-1 descorreladores
mutuamente descorrelacionados, una matriz H de upmix que satisface
la condición
donde M es la energía de la
señal transmitida única. Puesto que R es semidefinida positiva, es
ampliamente conocido que existe una solución de este tipo. Además,
se dejan n(n-1)/2 grados de libertad para el diseño
de H, que se utilizan en la presente invención para obtener
propiedades deseables adicionales de la matriz de upmix. Un
criterio de diseño central es que la dependencia de H sobre los
datos de correlación transmitidos deberá ser
suave.
Una manera conveniente de parametrizar la matriz
de upmix es H=UDV donde U y V son matrices ortogonales y D es una
matriz diagonal. Los cuadrados de los valores absolutos de D pueden
elegirse igual a los autovalores de R/M. Omitir V y clasificar los
autovalores de tal modo que el valor más grande se aplique a la
primera coordenada minimizará la energía total de señales
descorrelacionadas en la salida. La matriz U ortogonal se
parametriza en el caso real por n(n-1)/2 ángulos de
rotación. Transmitir datos de correlación en la forma de esos
ángulos y los n valores diagonales de D daría inmediatamente
la dependencia suave deseada de H. Sin embargo, puesto que los
datos de energía tienen que transformarse en autovalores, en este
enfoque se sacrifica la escalabilidad.
Un segundo método enseñado por la presente
invención consiste en separar la parte de energía de la parte de
correlación en R definiendo una matriz R_{0} de correlación
normalizada mediante R=GR_{0}G donde G es una matriz diagonal con
los valores diagonales iguales a las raíces cuadradas de las
entradas diagonales de R, es decir,
y R_{0} presenta unos en la
diagonal. Sea H_{0} una matriz de upmix ortogonal que define el
upmix normalizado preferido en el caso de señales no
correlacionadas totalmente de igual energía. Ejemplos de tales
matrices de upmix preferidas
son
El upmix se define entonces por H =
GSH_{0}/\sqrt{M}, donde la matriz S resuelve SS^{*}=R_{0}.
La dependencia de esta solución sobre los valores de correlación
cruzada normalizada en R_{0} se elige para que sea continua y de
manera que S sea igual a la matriz I identidad en el caso
R_{0}=I.
Dividir los n canales en grupos de menos
canales es una manera conveniente para reconstruir la estructura de
correlación cruzada parcial. Según la presente invención, un
agrupamiento ventajoso particular para el caso de 5,1 canales a
partir de 1 canal es
{a,e},{c},{b,d},{f}, donde
no se aplica descorrelación para los grupos {c},{f} y
los grupos {a,e},{b,d} se producen
mediante upmix del mismo par de downmix/descorrelacionado. Para
estos dos subsistemas, los upmix normalizados preferidos en el caso
de no totalmente correlacionados deben elegirse como
respectivamente. Por tanto, sólo se
transmitirán y reconstruirán dos de la totalidad de 15 correlaciones
cruzadas, concretamente aquellas entre los canales
{a,e} y {b,d}. En la terminología
utilizada anteriormente, esto es un ejemplo de un diseño pare el
caso n=6, m=1 y p=1. La matriz H de upmix es de
tamaño 6\times2 con ceros en las dos entradas en la segunda
columna en las filas 3 y 6 correspondientes a las salidas c'
y
f'.
Un tercer enfoque enseñado por la presente
invención para incorporar señales descorrelacionadas es el punto de
vista más sencillo en el que cada canal de salida presente un
descorrelador diferente ocasionando señales s_{a},
s_{b}, ... descorrelacionadas. Las señales reconstruidas se
forman entonces como
etc...
Los parámetros \varphi_{a},
\varphi_{b},... controlan la cantidad de señal descorrelacionada
presente en los canales a', b',... de salida. Los
datos de descorrelación se transmiten en forma de estos ángulos. Es
fácil calcular que la correlación cruzada normalizada resultante
entre, por ejemplo, el canal a' y el b' es igual al
producto cos\varphi_{a}cos\varphi_{b}. Puesto que el número
de correlaciones cruzadas por pares es n(n-1)/2 y que
hay n descorreladores, no será posible en general con este
enfoque ajustarse a una estructura de correlación dada si
n>3, pero las ventajas son un método de descodificación
estable y muy simple, y el control directo sobre la cantidad
producida de señal descorrelacionada presente en cada canal de
salida. Esto permite que el mezclado de señales descorrelacionadas
se base en criterios de percepción que incorporan, por ejemplo,
diferencias de nivel de energía de pares de canales.
Para el caso de n canales a partir de
m>1 canales, la matriz R_{y}=E[yy^{*}] de
correlación ya no puede suponerse diagonal, y esto tiene que
tenerse en cuenta en el ajuste de R'=HR_{y}H^{*} para la R
objetivo. Se produce una simplificación, puesto que R_{y} presenta
la estructura de matriz de bloque
donde R_{m}=E[mn^{*}] y
R_{s}=E[ss^{*}]. Además, suponiendo descorreladores
mutuamente descorrelacionados, la matriz R_{s} es diagonal.
Obsérvese que esto también afecta al diseño de upmix con respecto a
la reconstrucción de energías correctas. La solución es calcular en
el descodificador, o transmitir desde el codificador, información
acerca de la estructura R_{m} de correlación de las señales de
downmix.
Para el caso de 5,1 canales a partir de 2
canales un método preferido para downmix es
donde s_{1} se obtiene a
partir de la descorrelación de m_{1}=I_{d} y
s_{2} se obtiene a partir de la descorrelación de
m_{2}=r_{d}.
En este caso los grupos {a,b}y
{d,e} se tratan como sistemas de canales
1\rightarrow2 separados tomando en cuenta las correlaciones
cruzadas por pares. Para los canales c y f, las
ponderaciones han de ajustarse de tal manera que
La presente invención puede implementarse tanto
en chips de hardware como en DSP, para diversos tipos de sistemas,
para almacenamiento o transmisión de señales, analógicas o
digitales, utilizando códecs arbitrarios. La figura 2 y la figura 3
muestran una posible implementación de la presente invención. En
este ejemplo, se muestra un sistema que funciona sobre seis señales
de entrada (una configuración de 5,1 canales). En la figura 2 se
muestra el lado del codificador y las señales de entrada analógicas
para los canales individuales se convierten en una señal 201
digital y se analizan utilizando un banco de filtros para cada canal
202. La salida de los bancos de filtros se alimenta al codificador
203 envolvente que incluye un generador de parámetros que realiza
un downmix que crea el uno o los dos canales codificados por el
codificador 205 de audio. Además, los parámetros envolventes tales
como los parámetros IID e ICC se extraen según la presente
invención, y los datos de control que representan la cuadrícula de
frecuencia de tiempo de los datos, así como qué parametrización se
utilizó, se extraen 204 según la presente invención. Los parámetros
extraídos se codifican 206 tal como se enseña mediante la presente
invención, o bien conmutando entre diferentes parametrizaciones o
bien disponiendo los parámetros en una forma escalable. Los
parámetros 207 envolventes, las señales de control y las señales 208
de downmix codificadas se multiplexan 209 en un flujo de bits
serie.
En la figura 3 se muestra una implementación de
descodificador típica, es decir, un aparato para generar
reconstrucción multicanal. En este caso se supone que el
descodificador de audio emite una señal en una representación en el
dominio de frecuencia, por ejemplo, la salida del descodificador AAC
de alta eficacia MPEG-4 antes del banco de filtros
de síntesis QMF. El flujo de bits serie se desmultiplexa 301 y los
datos envolventes codificados se alimentan al descodificador 303 de
datos envolventes y los canales codificados de downmix se alimentan
al descodificador 302 de audio, en este ejemplo un descodificador
AAC de alta eficacia MPEG-4. El descodificador de
datos envolventes descodifica los datos envolventes y los alimenta
al descodificador 305 envolvente, que incluye un elemento de upmix,
que recrea seis canales basándose en los canales de downmix
descodificados y los datos envolventes y las señales de control. La
salida del dominio de la frecuencia del descodificador envolvente
se sintetiza 306 a señales del dominio de tiempo que se convierten
posteriormente en señales analógicas mediante el DAC 307.
Aunque la presente invención se ha descrito
principalmente con referencia a la generación y utilización de
parámetros de equilibrio, ha se resaltarse en este momento que
también se utiliza preferiblemente el mismo agrupamiento de pares
de canales para derivar parámetros de equilibrio para calcular
parámetros de coherencia entre canales o parámetros de "ancho"
entre estos pares de dos canales. Adicionalmente, también pueden
derivarse diferencias de tiempo entre canales o un tipo de
"indicaciones de fase" utilizando los mismos pares de canales
que los utilizados para el cálculo de parámetros de equilibrio. En
el lado del receptor, estos parámetros pueden utilizarse además de
o como una alternativa a los parámetros de equilibrio para generar
una reconstrucción multicanal. Como alternativa, los parámetros de
coherencia entre canales o incluso las diferencias de tiempo entre
canales también pueden utilizarse además de otras diferencias de
nivel entre canales determinadas por otros canales de referencia.
En vista de la característica de escalabilidad de la presente
invención, tal como se comentó en conexión con la figura 10a y la
figura 10b, se prefiere, sin embargo, utilizar los mismos pares de
canales para todos los parámetros de tal modo que, en un flujo de
bits escalables, cada capa de escalado incluye todos los parámetros
para reconstruir el subgrupo de canales de salida, que pueden
generarse mediante la capa de escalado respectiva tal como se
expone en la penúltima columna de la tabla de la figura 10b. La
presente invención es útil cuando sólo se calculan y transmite a un
descodificador los parámetros de coherencia o los parámetros de
diferencia de tiempo entre los respectivos pares de canales. En este
caso, los parámetros de nivel ya existen en el descodificador para
su utilización cuando se realiza una reconstrucción multicanal.
Dependiendo de ciertos requisitos de
implementación de los métodos inventivos, los métodos inventivos
pueden implementarse en hardware o en software. La implementación
puede realizarse utilizando un medio de almacenamiento digital, en
particular un disco o un CD que presente señales de control legibles
electrónicamente almacenadas sobre el mismo, que actúe
conjuntamente con un sistema informático programable de tal forma
que se realicen los métodos inventivos. Por lo tanto, generalmente
la presente invención es un producto de programa informático con un
código de programa almacenado en un portador legible por máquina,
estando operativo el código del programa para realizar los métodos
inventivos cuando el producto de programa informático se ejecuta en
un ordenador. Dicho de otro modo, los métodos inventivos son, por
lo tanto, un programa informático que presenta un código de
programa para realizar al menos uno de los métodos inventivos cuando
el programa informático se ejecuta en un ordenador.
Claims (13)
1. Aparato para generar un parámetro de nivel
dentro de una representación de parámetros de una señal multicanal
que presenta varios canales originales, comprendiendo la
representación de parámetros un conjunto de parámetros que, cuando
se utiliza junto con al menos un canal de downmix, permite una
reconstrucción multicanal, comprendiendo el aparato:
un calculador (900) de parámetro de nivel para
calcular un parámetro (r_{M}) de nivel, calculándose el parámetro
de nivel de tal manera que una energía del al menos un canal de
downmix ponderado por el parámetro de nivel es igual a una suma de
energías de los canales originales; y
una interfaz de salida para generar datos de
salida que incluyen el parámetro de nivel y el conjunto de
parámetros o el parámetro de nivel y el al menos un canal de
downmix.
2. Aparato según la reivindicación 1, en el que
el calculador (900) de parámetro de nivel está operativo para
calcular, como el parámetro de nivel, una medida de una relación
entre una suma de energías de los canales originales y una energía
del al menos un canal de downmix.
3. Aparato según una de las reivindicaciones
anteriores, en el que la representación de parámetros incluye un
conjunto de parámetros para cada una de un número de bandas de
frecuencia del al menos un canal de downmix, y
en el que el calculador (900) de parámetro está
operativo para calcular un parámetro de nivel para cada una de las
bandas de frecuencia.
4. Aparato según una de las reivindicaciones
anteriores, en el que la representación de parámetros incluye un
conjunto de parámetros para un periodo de tiempo en una secuencia de
periodos de tiempo del al menos un canal de downmix, y
en el que el calculador (900) de parámetro de
nivel está operativo para calcular un parámetro de nivel para cada
periodo de tiempo en una secuencia de periodos de tiempo del al
menos un canal de downmix.
5. Aparato según una de las reivindicaciones
anteriores, en el que la interfaz de salida está operativa para
generar un flujo de datos escalable que incluye, en una capa de
escalado inferior, un primer subgrupo de parámetros del conjunto de
parámetros, que permite una reconstrucción del primer subgrupo de
canales de salida,
que incluye, en una capa de escalado superior,
un segundo subgrupo de parámetros del conjunto de parámetros que
permite, junto con el primer subgrupo, una reconstrucción de un
segundo subgrupo de canales de salida, y
en el que la interfaz de salida está operativa
además para introducir el parámetro de nivel en la capa de escalado
inferior.
6. Aparato según una de las reivindicaciones
anteriores, que comprende además un generador de parámetros que se
forma para generar, como un primer parámetro de equilibrio, un
parámetro de equilibrio izquierdo/derecho, como un segundo
parámetro de equilibrio, un parámetro de equilibrio central, como un
tercer parámetro de equilibrio, un parámetro de equilibrio
delantero/trasero, como un cuarto parámetro de equilibrio, un
parámetro de equilibrio posterior izquierdo/derecho, y como un
quinto parámetro de equilibrio, un parámetro de equilibrio de mejora
de bajas frecuencias.
7. Aparato para generar una representación
multicanal reconstruida de una señal multicanal original que
presenta al menos tres canales originales utilizando una
representación de parámetros que presenta un conjunto de parámetros
que, cuando se utiliza junto con al menos un canal de downmix,
permite una reconstrucción multicanal, incluyendo la representación
de parámetros un parámetro de nivel, calculándose el parámetro de
nivel de tal manera que una energía del al menos un canal de
downmix ponderado por el parámetro de nivel es igual a una suma de
energías de los canales originales, comprendiendo el aparato:
un corrector (902) de nivel para aplicar una
corrección de nivel del al menos un canal de downmix utilizando el
parámetro de nivel de modo que puede obtenerse una reconstrucción
multicanal corregida mediante upmix utilizando parámetros del
conjunto de parámetros.
8. Aparato según la reivindicación 7, en el que
el parámetro de nivel es una relación entre energías de canales, y
en el que el corrector (902) de nivel está operativo para ponderar
el al menos un canal de downmix utilizando el parámetro de
nivel.
9. Método de generación de un parámetro de nivel
dentro de una representación de parámetros de una señal multicanal
que presenta varios canales originales, comprendiendo la
representación de parámetros un conjunto de parámetros que, cuando
se utiliza junto con al menos un canal de downmix, permite una
reconstrucción multicanal, que comprende:
calcular (900) un parámetro (r_{M}) de nivel,
calculándose el parámetro de nivel de tal manera que una energía
del al menos un canal de downmix ponderado por el parámetro de nivel
es igual a una suma de energías de los canales originales; y
generar datos de salida que incluyen el parámetro de nivel y el
conjunto de parámetros o el parámetro de nivel y el al menos un
canal de downmix.
10. Método de generación de una representación
multicanal reconstruida de una señal multicanal original que
presenta al menos tres canales originales utilizando una
representación de parámetros que presenta un conjunto de parámetros
que, cuando se utiliza junto con al menos un canal de downmix,
permite una reconstrucción multicanal, incluyendo la representación
de parámetros un parámetro de nivel, calculándose el parámetro de
nivel de tal manera que una energía del al menos un canal de
downmix ponderado por el parámetro de nivel es igual a una suma de
energías de los canales originales, comprendiendo el método:
aplicar (902) una corrección de nivel del al
menos un canal de downmix utilizando el parámetro de nivel de tal
modo que se obtiene una reconstrucción multicanal corregida mediante
upmix utilizando parámetros del conjunto de parámetros.
11. Programa informático que presenta
instrucciones legibles por máquina adaptado para realizar un método
según la reivindicación 9 ó 10, cuando se ejecuta en un
ordenador.
12. Representación de parámetros que presenta un
conjunto de parámetros que, cuando se utiliza junto con al menos un
canal de downmix, permite una reconstrucción multicanal, incluyendo
la representación de parámetros un parámetro de nivel, calculándose
el parámetro de nivel de tal manera que una energía del al menos un
canal de downmix ponderado por el parámetro de nivel es igual a una
suma de energías de los canales originales.
13. Representación de parámetros según la
reivindicación 12 para controlar una reconstrucción multicanal
cuando se introduce en un aparato según la reivindicación 7.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0400998A SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Method for representing multi-channel audio signals |
SE0400998 | 2004-04-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2293578T3 true ES2293578T3 (es) | 2008-03-16 |
Family
ID=32294334
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05735201T Active ES2294703T3 (es) | 2004-04-16 | 2005-04-12 | Metodo para representar señales de audio multicanal. |
ES05743164T Active ES2293578T3 (es) | 2004-04-16 | 2005-04-12 | Aparato y metodo para generar un parametro de nivel y aparato y metodo para generar una representacion multicanal. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05735201T Active ES2294703T3 (es) | 2004-04-16 | 2005-04-12 | Metodo para representar señales de audio multicanal. |
Country Status (13)
Country | Link |
---|---|
US (24) | US8223976B2 (es) |
EP (2) | EP1695338B1 (es) |
JP (4) | JP4603037B2 (es) |
KR (2) | KR100848367B1 (es) |
CN (4) | CN1965351B (es) |
AT (2) | ATE373301T1 (es) |
DE (2) | DE602005002451T2 (es) |
ES (2) | ES2294703T3 (es) |
HK (3) | HK1093594A1 (es) |
PL (2) | PL1695338T3 (es) |
SE (1) | SE0400998D0 (es) |
TW (1) | TWI334736B (es) |
WO (2) | WO2005101371A1 (es) |
Families Citing this family (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE368913T1 (de) * | 2000-12-19 | 2007-08-15 | Azoteq Pty Ltd | Verfahren und vorrichtung zum datentransfer |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
RU2391714C2 (ru) * | 2004-07-14 | 2010-06-10 | Конинклейке Филипс Электроникс Н.В. | Преобразование аудиоканалов |
TWI497485B (zh) * | 2004-08-25 | 2015-08-21 | Dolby Lab Licensing Corp | 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法 |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
SE0402649D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
DE602006002501D1 (de) * | 2005-03-30 | 2008-10-09 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
PL1866911T3 (pl) * | 2005-03-30 | 2010-12-31 | Koninl Philips Electronics Nv | Skalowalne, wielokanałowe kodowanie dźwięku |
PL1866912T3 (pl) * | 2005-03-30 | 2011-03-31 | Koninl Philips Electronics Nv | Kodowanie wielokanałowego sygnału audio |
US7961890B2 (en) * | 2005-04-15 | 2011-06-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Multi-channel hierarchical audio coding with compact side information |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
US8917874B2 (en) | 2005-05-26 | 2014-12-23 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
US8270439B2 (en) * | 2005-07-08 | 2012-09-18 | Activevideo Networks, Inc. | Video game system using pre-encoded digital audio mixing |
US8626503B2 (en) * | 2005-07-14 | 2014-01-07 | Erik Gosuinus Petrus Schuijers | Audio encoding and decoding |
US8074248B2 (en) | 2005-07-26 | 2011-12-06 | Activevideo Networks, Inc. | System and method for providing video content associated with a source image to a television in a communication network |
CN101253556B (zh) * | 2005-09-02 | 2011-06-22 | 松下电器产业株式会社 | 能量整形装置以及能量整形方法 |
EP1952392B1 (en) * | 2005-10-20 | 2016-07-20 | LG Electronics Inc. | Method, apparatus and computer-readable recording medium for decoding a multi-channel audio signal |
US7929709B2 (en) * | 2005-12-28 | 2011-04-19 | Yamaha Corporation | Sound image localization apparatus |
KR101218776B1 (ko) | 2006-01-11 | 2013-01-18 | 삼성전자주식회사 | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 |
KR100803212B1 (ko) | 2006-01-11 | 2008-02-14 | 삼성전자주식회사 | 스케일러블 채널 복호화 방법 및 장치 |
CA2636494C (en) | 2006-01-19 | 2014-02-18 | Lg Electronics Inc. | Method and apparatus for processing a media signal |
CN103366747B (zh) * | 2006-02-03 | 2017-05-17 | 韩国电子通信研究院 | 用于控制音频信号的渲染的设备和方法 |
KR100878816B1 (ko) | 2006-02-07 | 2009-01-14 | 엘지전자 주식회사 | 부호화/복호화 장치 및 방법 |
KR100773560B1 (ko) | 2006-03-06 | 2007-11-05 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
KR100773562B1 (ko) * | 2006-03-06 | 2007-11-07 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
ATE447224T1 (de) * | 2006-03-13 | 2009-11-15 | France Telecom | Gemeinsame schallsynthese und -spatialisierung |
WO2007119368A1 (ja) * | 2006-03-17 | 2007-10-25 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置およびスケーラブル符号化方法 |
US7965848B2 (en) * | 2006-03-29 | 2011-06-21 | Dolby International Ab | Reduced number of channels decoding |
US8619998B2 (en) * | 2006-08-07 | 2013-12-31 | Creative Technology Ltd | Spatial audio enhancement processing method and apparatus |
CN102394063B (zh) * | 2006-07-04 | 2013-03-20 | 韩国电子通信研究院 | 运动图像专家组环绕解码器和恢复多通道音频信号的方法 |
RU2407227C2 (ru) | 2006-07-07 | 2010-12-20 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Концепция для объединения множества параметрически кодированных аудиоисточников |
FR2903562A1 (fr) | 2006-07-07 | 2008-01-11 | France Telecom | Spatialisation binaurale de donnees sonores encodees en compression. |
KR100763920B1 (ko) | 2006-08-09 | 2007-10-05 | 삼성전자주식회사 | 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치 |
RU2454825C2 (ru) * | 2006-09-14 | 2012-06-27 | Конинклейке Филипс Электроникс Н.В. | Манипулирование зоной наилучшего восприятия для многоканального сигнала |
JP4946305B2 (ja) * | 2006-09-22 | 2012-06-06 | ソニー株式会社 | 音響再生システム、音響再生装置および音響再生方法 |
EP2071563A4 (en) | 2006-09-29 | 2009-09-02 | Lg Electronics Inc | METHOD AND DEVICES FOR CODING AND DECODING OBJECT-BASED AUDIO SIGNALS |
WO2008039038A1 (en) * | 2006-09-29 | 2008-04-03 | Electronics And Telecommunications Research Institute | Apparatus and method for coding and decoding multi-object audio signal with various channel |
JP5936805B2 (ja) * | 2006-09-29 | 2016-06-22 | アビニティ・システムズ・ベスローテン・フェンノートシャップAvinity Systems B.V. | パラレルユーザセッションをストリーミングするための方法、システム、およびコンピュータソフトウェア |
KR101120909B1 (ko) * | 2006-10-16 | 2012-02-27 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 멀티 채널 파라미터 변환 장치, 방법 및 컴퓨터로 판독가능한 매체 |
BRPI0715559B1 (pt) * | 2006-10-16 | 2021-12-07 | Dolby International Ab | Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal |
EP2122612B1 (en) | 2006-12-07 | 2018-08-15 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
US9826197B2 (en) | 2007-01-12 | 2017-11-21 | Activevideo Networks, Inc. | Providing television broadcasts over a managed network and interactive content over an unmanaged network to a client device |
US9042454B2 (en) | 2007-01-12 | 2015-05-26 | Activevideo Networks, Inc. | Interactive encoded content system including object models for viewing on a remote device |
EP2118886A4 (en) * | 2007-02-13 | 2010-04-21 | Lg Electronics Inc | METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL |
CN101636919B (zh) | 2007-03-16 | 2013-10-30 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
US8612237B2 (en) * | 2007-04-04 | 2013-12-17 | Apple Inc. | Method and apparatus for determining audio spatial quality |
JP5291096B2 (ja) * | 2007-06-08 | 2013-09-18 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
US20090037459A1 (en) * | 2007-08-03 | 2009-02-05 | Theobald Dietmar C | Annotation data handlers for data stream processing |
US8295494B2 (en) | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
KR101464977B1 (ko) * | 2007-10-01 | 2014-11-25 | 삼성전자주식회사 | 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치 |
GB2467247B (en) * | 2007-10-04 | 2012-02-29 | Creative Tech Ltd | Phase-amplitude 3-D stereo encoder and decoder |
DE102007048973B4 (de) | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
JPWO2009050896A1 (ja) * | 2007-10-16 | 2011-02-24 | パナソニック株式会社 | ストリーム合成装置、復号装置、方法 |
KR101505831B1 (ko) * | 2007-10-30 | 2015-03-26 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
EP2215629A1 (en) * | 2007-11-27 | 2010-08-11 | Nokia Corporation | Multichannel audio coding |
US8204235B2 (en) * | 2007-11-30 | 2012-06-19 | Pioneer Corporation | Center channel positioning apparatus |
US8615316B2 (en) | 2008-01-23 | 2013-12-24 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
US8615088B2 (en) | 2008-01-23 | 2013-12-24 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal using preset matrix for controlling gain or panning |
KR101452722B1 (ko) * | 2008-02-19 | 2014-10-23 | 삼성전자주식회사 | 신호 부호화 및 복호화 방법 및 장치 |
WO2009125046A1 (en) * | 2008-04-11 | 2009-10-15 | Nokia Corporation | Processing of signals |
KR101381513B1 (ko) | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
WO2010008198A2 (en) * | 2008-07-15 | 2010-01-21 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
TWI496479B (zh) | 2008-09-03 | 2015-08-11 | Dolby Lab Licensing Corp | 增進多聲道之再生 |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
JP5608660B2 (ja) | 2008-10-10 | 2014-10-15 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | エネルギ保存型マルチチャネルオーディオ符号化 |
DE102008056704B4 (de) * | 2008-11-11 | 2010-11-04 | Institut für Rundfunktechnik GmbH | Verfahren zum Erzeugen eines abwärtskompatiblen Tonformates |
CN102272830B (zh) * | 2009-01-13 | 2013-04-03 | 松下电器产业株式会社 | 音响信号解码装置及平衡调整方法 |
AU2015246158B2 (en) * | 2009-03-17 | 2017-10-26 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding. |
GB2470059A (en) | 2009-05-08 | 2010-11-10 | Nokia Corp | Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter |
CN101556799B (zh) * | 2009-05-14 | 2013-08-28 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
CN102428512A (zh) * | 2009-06-02 | 2012-04-25 | 松下电器产业株式会社 | 下混装置、编码装置以及其方法 |
US20100322446A1 (en) * | 2009-06-17 | 2010-12-23 | Med-El Elektromedizinische Geraete Gmbh | Spatial Audio Object Coding (SAOC) Decoder and Postprocessor for Hearing Aids |
US9393412B2 (en) | 2009-06-17 | 2016-07-19 | Med-El Elektromedizinische Geraete Gmbh | Multi-channel object-oriented audio bitstream processor for cochlear implants |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
US8194862B2 (en) * | 2009-07-31 | 2012-06-05 | Activevideo Networks, Inc. | Video game system with mixing of independent pre-encoded digital audio bitstreams |
JP2011066868A (ja) * | 2009-08-18 | 2011-03-31 | Victor Co Of Japan Ltd | オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置 |
US8786852B2 (en) | 2009-12-02 | 2014-07-22 | Lawrence Livermore National Security, Llc | Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto |
TWI444989B (zh) * | 2010-01-22 | 2014-07-11 | Dolby Lab Licensing Corp | 針對改良多通道上混使用多通道解相關之技術 |
EP2539889B1 (en) * | 2010-02-24 | 2016-08-24 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program |
JP5604933B2 (ja) * | 2010-03-30 | 2014-10-15 | 富士通株式会社 | ダウンミクス装置およびダウンミクス方法 |
DE102010015630B3 (de) * | 2010-04-20 | 2011-06-01 | Institut für Rundfunktechnik GmbH | Verfahren zum Erzeugen eines abwärtskompatiblen Tonformates |
CN102314882B (zh) * | 2010-06-30 | 2012-10-17 | 华为技术有限公司 | 声音信号通道间延时估计的方法及装置 |
CN103069481B (zh) * | 2010-07-20 | 2014-11-05 | 华为技术有限公司 | 音频信号合成器 |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
KR101697550B1 (ko) * | 2010-09-16 | 2017-02-02 | 삼성전자주식회사 | 멀티채널 오디오 대역폭 확장 장치 및 방법 |
KR20130138263A (ko) | 2010-10-14 | 2013-12-18 | 액티브비디오 네트웍스, 인코포레이티드 | 케이블 텔레비전 시스템을 이용하는 비디오 장치들 간의 디지털 비디오의 스트리밍 |
CN103649706B (zh) | 2011-03-16 | 2015-11-25 | Dts(英属维尔京群岛)有限公司 | 三维音频音轨的编码及再现 |
WO2012138660A2 (en) | 2011-04-07 | 2012-10-11 | Activevideo Networks, Inc. | Reduction of latency in video distribution networks using adaptive bit rates |
TWI450266B (zh) * | 2011-04-19 | 2014-08-21 | Hon Hai Prec Ind Co Ltd | 電子裝置及音頻資料的解碼方法 |
EP2523472A1 (en) | 2011-05-13 | 2012-11-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method and computer program for generating a stereo output signal for providing additional output channels |
EP2530956A1 (en) * | 2011-06-01 | 2012-12-05 | Tom Van Achte | Method for generating a surround audio signal from a mono/stereo audio signal |
KR101845226B1 (ko) | 2011-07-01 | 2018-05-18 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법 |
EP2727379B1 (en) * | 2011-07-01 | 2015-02-18 | Dolby Laboratories Licensing Corporation | Equalization of speaker arrays |
KR101842257B1 (ko) * | 2011-09-14 | 2018-05-15 | 삼성전자주식회사 | 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치 |
JP5505395B2 (ja) * | 2011-10-28 | 2014-05-28 | ヤマハ株式会社 | 音響処理装置 |
US9966080B2 (en) | 2011-11-01 | 2018-05-08 | Koninklijke Philips N.V. | Audio object encoding and decoding |
CN103188595B (zh) * | 2011-12-31 | 2015-05-27 | 展讯通信(上海)有限公司 | 处理多声道音频信号的方法和系统 |
EP2815582B1 (en) | 2012-01-09 | 2019-09-04 | ActiveVideo Networks, Inc. | Rendering of an interactive lean-backward user interface on a television |
CN103220058A (zh) * | 2012-01-20 | 2013-07-24 | 旭扬半导体股份有限公司 | 音频数据与视觉数据同步装置及其方法 |
US9436929B2 (en) * | 2012-01-24 | 2016-09-06 | Verizon Patent And Licensing Inc. | Collaborative event playlist systems and methods |
ITTO20120067A1 (it) | 2012-01-26 | 2013-07-27 | Inst Rundfunktechnik Gmbh | Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal. |
US9395304B2 (en) | 2012-03-01 | 2016-07-19 | Lawrence Livermore National Security, Llc | Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto |
US9800945B2 (en) | 2012-04-03 | 2017-10-24 | Activevideo Networks, Inc. | Class-based intelligent multiplexing over unmanaged networks |
US9123084B2 (en) | 2012-04-12 | 2015-09-01 | Activevideo Networks, Inc. | Graphical application integration with MPEG objects |
TWI618050B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
TWI618051B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置 |
WO2014126684A1 (en) * | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Time-varying filters for generating decorrelation signals |
JP6046274B2 (ja) * | 2013-02-14 | 2016-12-14 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 上方混合されたオーディオ信号のチャネル間コヒーレンスの制御方法 |
US9830917B2 (en) | 2013-02-14 | 2017-11-28 | Dolby Laboratories Licensing Corporation | Methods for audio signal transient detection and decorrelation control |
US9093064B2 (en) | 2013-03-11 | 2015-07-28 | The Nielsen Company (Us), Llc | Down-mixing compensation for audio watermarking |
US10275128B2 (en) | 2013-03-15 | 2019-04-30 | Activevideo Networks, Inc. | Multiple-mode system and method for providing user selectable video content |
KR101717006B1 (ko) | 2013-04-05 | 2017-03-15 | 돌비 인터네셔널 에이비 | 오디오 프로세싱 시스템 |
WO2014174344A1 (en) * | 2013-04-26 | 2014-10-30 | Nokia Corporation | Audio signal encoder |
IL290275B2 (en) | 2013-05-24 | 2023-02-01 | Dolby Int Ab | Encoding audio scenes |
EP3270375B1 (en) | 2013-05-24 | 2020-01-15 | Dolby International AB | Reconstruction of audio scenes from a downmix |
EP3005351A4 (en) * | 2013-05-28 | 2017-02-01 | Nokia Technologies OY | Audio signal encoder |
US9294785B2 (en) | 2013-06-06 | 2016-03-22 | Activevideo Networks, Inc. | System and method for exploiting scene graph information in construction of an encoded video sequence |
EP3005712A1 (en) | 2013-06-06 | 2016-04-13 | ActiveVideo Networks, Inc. | Overlay rendering of user interface onto source video |
US9219922B2 (en) | 2013-06-06 | 2015-12-22 | Activevideo Networks, Inc. | System and method for exploiting scene graph information in construction of an encoded video sequence |
US9386558B2 (en) * | 2013-06-27 | 2016-07-05 | Microsoft Technology Licensing, Llc | Radio channel utilization |
US9747909B2 (en) | 2013-07-29 | 2017-08-29 | Dolby Laboratories Licensing Corporation | System and method for reducing temporal artifacts for transient signals in a decorrelator circuit |
CN103413553B (zh) | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
CN109920440B (zh) | 2013-09-12 | 2024-01-09 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
WO2015036350A1 (en) | 2013-09-12 | 2015-03-19 | Dolby International Ab | Audio decoding system and audio encoding system |
CN111192592B (zh) * | 2013-10-21 | 2023-09-15 | 杜比国际公司 | 音频信号的参数化重构 |
MX354832B (es) * | 2013-10-21 | 2018-03-21 | Dolby Int Ab | Estructura de decorrelador para la reconstruccion parametrica de señales de audio. |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
US9391575B1 (en) * | 2013-12-13 | 2016-07-12 | Amazon Technologies, Inc. | Adaptive loudness control |
CN108462936A (zh) * | 2013-12-13 | 2018-08-28 | 无比的优声音科技公司 | 用于音场增强的设备及方法 |
KR101841380B1 (ko) | 2014-01-13 | 2018-03-22 | 노키아 테크놀로지스 오와이 | 다중-채널 오디오 신호 분류기 |
US9779739B2 (en) | 2014-03-20 | 2017-10-03 | Dts, Inc. | Residual encoding in an object-based audio system |
US9788029B2 (en) | 2014-04-25 | 2017-10-10 | Activevideo Networks, Inc. | Intelligent multiplexing using class-based, multi-dimensioned decision logic for managed networks |
EP2980789A1 (en) * | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
US9984693B2 (en) * | 2014-10-10 | 2018-05-29 | Qualcomm Incorporated | Signaling channels for scalable coding of higher order ambisonic audio data |
US10140996B2 (en) | 2014-10-10 | 2018-11-27 | Qualcomm Incorporated | Signaling layers for scalable coding of higher order ambisonic audio data |
EP3302528A1 (en) | 2015-05-29 | 2018-04-11 | Armo Biosciences, Inc. | Methods of using interleukin-10 for treating diseases and disorders |
RU2728535C2 (ru) | 2015-09-25 | 2020-07-30 | Войсэйдж Корпорейшн | Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы |
AU2015413301B2 (en) * | 2015-10-27 | 2021-04-15 | Ambidio, Inc. | Apparatus and method for sound stage enhancement |
EP3539126B1 (en) * | 2016-11-08 | 2020-09-30 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation |
US10979844B2 (en) * | 2017-03-08 | 2021-04-13 | Dts, Inc. | Distributed audio virtualization systems |
CN108665902B (zh) | 2017-03-31 | 2020-12-01 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
CN109215667B (zh) | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
EP3422738A1 (en) * | 2017-06-29 | 2019-01-02 | Nxp B.V. | Audio processor for vehicle comprising two modes of operation depending on rear seat occupation |
WO2019020757A2 (en) | 2017-07-28 | 2019-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | APPARATUS FOR ENCODING OR DECODING A MULTI-CHANNEL SIGNAL ENCODED USING A FILLING SIGNAL GENERATED BY A BROADBAND FILTER |
US10535357B2 (en) | 2017-10-05 | 2020-01-14 | Qualcomm Incorporated | Encoding or decoding of audio signals |
GB201718341D0 (en) | 2017-11-06 | 2017-12-20 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
GB2572650A (en) | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
GB2574239A (en) | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Signalling of spatial audio parameters |
GB2574667A (en) * | 2018-06-15 | 2019-12-18 | Nokia Technologies Oy | Spatial audio capture, transmission and reproduction |
GB2580057A (en) * | 2018-12-20 | 2020-07-15 | Nokia Technologies Oy | Apparatus, methods and computer programs for controlling noise reduction |
FR3101741A1 (fr) * | 2019-10-02 | 2021-04-09 | Orange | Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés |
KR20210060253A (ko) | 2019-11-18 | 2021-05-26 | 삼성전자주식회사 | 메모리 컨트롤러, 메모리 시스템 및 이의 동작 방법 |
US11451919B2 (en) | 2021-02-19 | 2022-09-20 | Boomcloud 360, Inc. | All-pass network system for colorless decorrelation with constraints |
US20240161754A1 (en) * | 2021-04-06 | 2024-05-16 | Dolby International Ab | Encoding of envelope information of an audio downmix signal |
CN113301329B (zh) * | 2021-05-21 | 2022-08-05 | 康佳集团股份有限公司 | 基于图像识别的电视声场校正方法、装置及显示设备 |
CN116962955A (zh) * | 2022-04-15 | 2023-10-27 | 华为技术有限公司 | 多通道的混音方法、设备及介质 |
Family Cites Families (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5091945A (en) * | 1989-09-28 | 1992-02-25 | At&T Bell Laboratories | Source dependent channel coding with error protection |
DK0520068T3 (da) | 1991-01-08 | 1996-07-15 | Dolby Ray Milton | Koder/dekoder for flerdimensionale lydfelter |
US5291557A (en) * | 1992-10-13 | 1994-03-01 | Dolby Laboratories Licensing Corporation | Adaptive rematrixing of matrixed audio signals |
DE4409368A1 (de) * | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
JP3397001B2 (ja) * | 1994-06-13 | 2003-04-14 | ソニー株式会社 | 符号化方法及び装置、復号化装置、並びに記録媒体 |
EP0688113A2 (en) * | 1994-06-13 | 1995-12-20 | Sony Corporation | Method and apparatus for encoding and decoding digital audio signals and apparatus for recording digital audio |
US6029129A (en) * | 1996-05-24 | 2000-02-22 | Narrative Communications Corporation | Quantizing audio data using amplitude histogram |
US6741965B1 (en) * | 1997-04-10 | 2004-05-25 | Sony Corporation | Differential stereo using two coding techniques |
US5890125A (en) | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US6437944B2 (en) | 1997-10-20 | 2002-08-20 | Fujitsu Limited | Head slider supporting device, disk device and suspension |
US6122619A (en) | 1998-06-17 | 2000-09-19 | Lsi Logic Corporation | Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor |
US6322189B1 (en) * | 1999-01-13 | 2001-11-27 | Hewlett-Packard Company | Multiple printhead apparatus with temperature control and method |
US6578074B1 (en) | 1999-06-25 | 2003-06-10 | Mediaone Group, Inc. | Provisioning server enhancement |
JP2001100792A (ja) * | 1999-09-28 | 2001-04-13 | Sanyo Electric Co Ltd | 符号化方法、符号化装置およびそれを備える通信システム |
JP4424566B2 (ja) | 1999-10-26 | 2010-03-03 | ザ・インクテック株式会社 | アルカリ可溶性接着剤 |
JP2002175097A (ja) * | 2000-12-06 | 2002-06-21 | Yamaha Corp | 音声信号のエンコード/圧縮装置およびデコード/伸長装置 |
JP3951690B2 (ja) * | 2000-12-14 | 2007-08-01 | ソニー株式会社 | 符号化装置および方法、並びに記録媒体 |
US7583805B2 (en) | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US7292901B2 (en) * | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
TW569551B (en) * | 2001-09-25 | 2004-01-01 | Roger Wallace Dressler | Method and apparatus for multichannel logic matrix decoding |
GB0124580D0 (en) | 2001-10-12 | 2001-12-05 | Univ Reading | New composition |
US20050004791A1 (en) | 2001-11-23 | 2005-01-06 | Van De Kerkhof Leon Maria | Perceptual noise substitution |
US6890125B1 (en) | 2002-01-30 | 2005-05-10 | Calder Brothers Corporation | Adjustable screed system |
JP2005519550A (ja) | 2002-03-07 | 2005-06-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ユーザ制御のマルチチャネル・オーディオ変換システム |
EP1500086B1 (en) * | 2002-04-10 | 2010-03-03 | Koninklijke Philips Electronics N.V. | Coding and decoding of multichannel audio signals |
JP4714415B2 (ja) * | 2002-04-22 | 2011-06-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | パラメータによるマルチチャンネルオーディオ表示 |
US7933415B2 (en) * | 2002-04-22 | 2011-04-26 | Koninklijke Philips Electronics N.V. | Signal synthesizing |
BRPI0304540B1 (pt) * | 2002-04-22 | 2017-12-12 | Koninklijke Philips N. V | Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign |
KR100635022B1 (ko) * | 2002-05-03 | 2006-10-16 | 하만인터내셔날인더스트리스인코포레이티드 | 다채널 다운믹싱 장치 |
BR0305434A (pt) * | 2002-07-12 | 2004-09-28 | Koninkl Philips Electronics Nv | Métodos e arranjos para codificar e para decodificar um sinal de áudio multicanal, aparelhos para fornecer um sinal de áudio codificado e um sinal de áudio decodificado, sinal de áudio multicanal codificado, e, meio de armazenagem |
US20050255191A1 (en) | 2002-07-23 | 2005-11-17 | Shandera Donald L | Process for treating corn and millets |
KR20040043743A (ko) * | 2002-11-19 | 2004-05-27 | 주식회사 디지털앤디지털 | 멀티채널 검색장치와 방법 |
US20070033630A1 (en) | 2003-09-10 | 2007-02-08 | A.D.I. Video Technologies Ltd. | Device, system and method of multi-channel processing |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US20050169846A1 (en) | 2004-01-31 | 2005-08-04 | Bart Kennington | Enhancement of fragrance release from candles |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
US7508947B2 (en) * | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
US7961890B2 (en) | 2005-04-15 | 2011-06-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Multi-channel hierarchical audio coding with compact side information |
JP2007096002A (ja) * | 2005-09-29 | 2007-04-12 | Matsushita Electric Ind Co Ltd | 半導体装置の製造方法および半導体装置 |
CA2636494C (en) * | 2006-01-19 | 2014-02-18 | Lg Electronics Inc. | Method and apparatus for processing a media signal |
JP2008003007A (ja) * | 2006-06-23 | 2008-01-10 | Fujitsu Ltd | 個体認識方法及び装置、個体認識範囲調整方法、及びプログラム |
JP5228305B2 (ja) | 2006-09-08 | 2013-07-03 | ソニー株式会社 | 表示装置、表示方法 |
KR101120909B1 (ko) | 2006-10-16 | 2012-02-27 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 멀티 채널 파라미터 변환 장치, 방법 및 컴퓨터로 판독가능한 매체 |
TWI406267B (zh) | 2007-10-17 | 2013-08-21 | Fraunhofer Ges Forschung | 一種音頻解碼器、一種用於對多音頻物件信號進行解碼的方法、以及執行該方法的具有程式碼的程式 |
JP5428564B2 (ja) | 2009-06-18 | 2014-02-26 | 東洋紡株式会社 | 車両内装材用部材およびそれを用いた車両用内装材 |
-
2004
- 2004-04-16 SE SE0400998A patent/SE0400998D0/xx unknown
-
2005
- 2005-04-12 CN CN2005800186599A patent/CN1965351B/zh active Active
- 2005-04-12 WO PCT/EP2005/003849 patent/WO2005101371A1/en active IP Right Grant
- 2005-04-12 ES ES05735201T patent/ES2294703T3/es active Active
- 2005-04-12 ES ES05743164T patent/ES2293578T3/es active Active
- 2005-04-12 WO PCT/EP2005/003848 patent/WO2005101370A1/en active IP Right Grant
- 2005-04-12 EP EP05743164A patent/EP1695338B1/en active Active
- 2005-04-12 PL PL05743164T patent/PL1695338T3/pl unknown
- 2005-04-12 CN CN201010183360.1A patent/CN101860784B/zh active Active
- 2005-04-12 AT AT05743164T patent/ATE373301T1/de not_active IP Right Cessation
- 2005-04-12 CN CN2005800073514A patent/CN1930608B/zh active Active
- 2005-04-12 JP JP2007507735A patent/JP4603037B2/ja active Active
- 2005-04-12 JP JP2007505521A patent/JP4589962B2/ja active Active
- 2005-04-12 PL PL05735201T patent/PL1735775T3/pl unknown
- 2005-04-12 DE DE602005002451T patent/DE602005002451T2/de active Active
- 2005-04-12 EP EP05735201A patent/EP1735775B8/en active Active
- 2005-04-12 DE DE602005002942T patent/DE602005002942T2/de active Active
- 2005-04-12 CN CN201110097029.2A patent/CN102157155B/zh active Active
- 2005-04-12 KR KR1020067017536A patent/KR100848367B1/ko active IP Right Grant
- 2005-04-12 AT AT05735201T patent/ATE376240T1/de not_active IP Right Cessation
- 2005-04-12 KR KR1020067021198A patent/KR100848365B1/ko active IP Right Grant
- 2005-08-09 TW TW094126936A patent/TWI334736B/zh active
-
2006
- 2006-09-08 US US11/517,900 patent/US8223976B2/en active Active
- 2006-10-16 US US11/549,963 patent/US7986789B2/en active Active
-
2007
- 2007-01-10 HK HK07100363A patent/HK1093594A1/xx unknown
-
2010
- 2010-08-09 JP JP2010178268A patent/JP5185337B2/ja active Active
- 2010-08-19 JP JP2010183775A patent/JP5185340B2/ja active Active
- 2010-08-31 US US12/872,507 patent/US8693696B2/en active Active
- 2010-09-15 US US12/882,894 patent/US8538031B2/en active Active
- 2010-11-11 HK HK10110525.1A patent/HK1144043A1/zh unknown
-
2012
- 2012-02-02 HK HK12100944.3A patent/HK1163911A1/xx unknown
-
2013
- 2013-04-19 US US13/866,947 patent/US10015597B2/en active Active
-
2014
- 2014-01-16 US US14/157,117 patent/US9743185B2/en active Active
-
2016
- 2016-03-22 US US15/077,798 patent/US9635462B2/en active Active
- 2016-03-24 US US15/079,653 patent/US9621990B2/en active Active
-
2017
- 2017-02-07 US US15/426,867 patent/US10271142B2/en active Active
- 2017-04-26 US US15/498,389 patent/US10250985B2/en active Active
- 2017-04-26 US US15/498,401 patent/US9972328B2/en active Active
- 2017-04-26 US US15/498,376 patent/US10244320B2/en active Active
- 2017-04-26 US US15/498,362 patent/US10250984B2/en active Active
- 2017-04-26 US US15/498,413 patent/US10440474B2/en active Active
- 2017-04-26 US US15/498,350 patent/US10244319B2/en active Active
- 2017-04-26 US US15/498,393 patent/US10129645B2/en active Active
- 2017-04-26 US US15/498,384 patent/US10244321B2/en active Active
- 2017-04-26 US US15/498,417 patent/US9972330B2/en active Active
- 2017-04-26 US US15/498,407 patent/US9972329B2/en active Active
-
2019
- 2019-06-27 US US16/454,250 patent/US10499155B2/en active Active
- 2019-09-26 US US16/584,655 patent/US10623860B2/en active Active
-
2020
- 2020-04-13 US US16/846,828 patent/US11184709B2/en active Active
-
2021
- 2021-11-22 US US17/532,962 patent/US11647333B2/en active Active
-
2023
- 2023-05-03 US US18/311,854 patent/US20230345176A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2293578T3 (es) | Aparato y metodo para generar un parametro de nivel y aparato y metodo para generar una representacion multicanal. | |
TW201116078A (en) | Apparatus and method for generating a level parameter, apparatus and method for generating a multi-channel representation and a storage media stored parameter representation |