ES2300567T3 - Representacion parametrica de audio espacial. - Google Patents
Representacion parametrica de audio espacial. Download PDFInfo
- Publication number
- ES2300567T3 ES2300567T3 ES03715237T ES03715237T ES2300567T3 ES 2300567 T3 ES2300567 T3 ES 2300567T3 ES 03715237 T ES03715237 T ES 03715237T ES 03715237 T ES03715237 T ES 03715237T ES 2300567 T3 ES2300567 T3 ES 2300567T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- audio
- channels
- spatial
- spatial parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims description 38
- 238000011002 quantification Methods 0.000 claims description 25
- 238000005314 correlation function Methods 0.000 claims description 18
- 238000005259 measurement Methods 0.000 claims description 2
- 238000011524 similarity measure Methods 0.000 claims 6
- 230000009467 reduction Effects 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 33
- 230000006870 function Effects 0.000 description 20
- 230000004044 response Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 238000013139 quantization Methods 0.000 description 9
- 230000008447 perception Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000002156 mixing Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 208000029523 Interstitial Lung disease Diseases 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
Procedimiento para codificar una señal de audio, comprendiendo el procedimiento: - generar (S8) una señal monoaural que comprende una combinación de al menos dos canales (L, R) de audio de entrada, - determinar (S2, S3, S4) un conjunto de parámetros (ILD, ITD, C) espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro (C) que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, - generar (S5, S6, S7, S9) una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.
Description
Representación paramétrica de audio
espacial.
Esta invención se refiere a la codificación de
señales de audio y, más en particular, a la codificación de señales
de audio multicanal.
Dentro del campo de la codificación de audio, en
general se desea codificar una señal de audio, por ejemplo con el
fin de reducir la tasa de bits para comunicar la señal o el
requisito de almacenamiento para almacenar la señal, sin comprometer
demasiado la calidad de percepción de la señal de audio. Esta es una
cuestión importante cuando las señales de audio han de transmitirse
a través de canales de comunicaciones de capacidad limitada o cuando
han de almacenarse en un medio de almacenamiento que presenta una
capacidad limitada.
Soluciones anteriores en codificadores de audio
que se han sugerido para reducir la tasa de bits de material de
programas estéreo incluyen:
"Estéreo de intensidad" (Intensity
stereo). En este algoritmo, se representan altas frecuencias
(normalmente superiores a 5 kHz) mediante una única señal de audio
(es decir, mono), combinada con factores de escala variables en el
tiempo y dependientes de la frecuencia.
"Estéreo M/S" (M/S stereo). En este
algoritmo, la señal se descompone en una señal de suma (o central
(mid), o común) y una de diferencia (o lateral (side),
o no común). Esta descomposición se combina a veces con factores de
escala variables en el tiempo o análisis de componentes principales.
Estas señales se codifican entonces independientemente, bien
mediante un codificador de transformada o codificador de forma de
onda. La cantidad de reducción de información conseguida por este
algoritmo depende considerablemente de las propiedades espaciales de
la señal original. Por ejemplo, si la señal original es monoaural,
la señal de diferencia es cero y puede descartarse. Sin embargo, si
la correlación de las señales de audio izquierda y derecha es baja
(lo que con frecuencia es el caso), este esquema ofrece sólo una
pequeña ventaja.
Las descripciones paramétricas de señales de
audio han adquirido interés durante los últimos años, especialmente
en el campo de la codificación de audio. Se ha demostrado que
transmitir parámetros (cuantificados) que describen señales de audio
sólo requiere una pequeña capacidad de transmisión para volver a
sintetizar una señal de igual percepción en el extremo receptor. Sin
embargo, los codificadores de audio paramétricos actuales se centran
en señales monoaurales de codificación, y las señales estéreo se
procesan con frecuencia como mono duales.
La solicitud de patente europea 1 107 232 da a
conocer un procedimiento para codificar una señal estéreo que tiene
una componente L y R, en el que la señal estéreo se representa por
una de las siguientes: diferencias de nivel y fase de captación de
información paramétrica y componentes estéreo de la señal de audio.
En el descodificador, la otra componente estéreo se recupera
basándose en la componente estéreo codificada y la información
paramétrica. El artículo "Efficient representation of spatial
audio using perceptual parametrization" (Faller C et al,
Proceedings of the 2001 IEEE Workshop on the Applications of Signal
Processing to Audio and Acoustics) da a conocer la generación de una
señal binaural situando espacialmente las fuentes contenidas en una
señal de suma monofónica, basándose la situación en un conjunto de
parámetros espaciales en bandas criticas. El artículo "Subband
coding of stereophonic digital audio signals" (Van der Waal R G
et al, IEEE ICASSP 1991) da a conocer el aprovechamiento de
la correlación izquierda-derecha en un códec
subbanda.
Es un objeto de la presente invención solucionar
el problema de proporcionar una codificación de audio mejorada que
consiga una alta calidad de percepción de la señal recuperada.
Los problemas anteriores y otros se solucionan
mediante un procedimiento para codificar una señal de audio tal como
se expone en la reivindicación 1.
El inventor se ha dado cuenta de que codificando
una señal de audio multicanal como una señal de audio monoaural y un
número de atributos espaciales que comprenden una medida de
similitud de las formas de onda correspondientes, la señal
multicanal puede recuperarse con una alta calidad de percepción. Es
otra ventaja de la invención el hecho de que proporciona una
codificación eficaz de una señal multicanal, es decir una señal que
comprende al menos un primer y un segundo canal, por ejemplo una
señal estéreo, una señal cuadrafónica, etc.
Por tanto, según un aspecto de la invención, se
parametrizan atributos espaciales de señales de audio multicanal.
Para aplicaciones de codificación de audio generales, la transmisión
de estos parámetros combinada con sólo una señal de audio monoaural
reduce considerablemente la capacidad de transmisión necesaria para
transmitir la señal estéreo en comparación con los codificadores de
audio que procesan los canales de manera independiente, mientras se
mantiene la impresión espacial original. Una cuestión importante es
que aunque las personas reciben formas de onda de un objeto auditivo
dos veces (una vez por el oído izquierdo y una vez por el oído
derecho), sólo se percibe un único objeto auditivo en una posición
determinada y con un cierto tamaño (o capacidad espacial de
difundirse).
Por tanto, parece innecesario describir señales
de audio como dos o más formas de onda (independientes) y sería
mejor describir audio multicanal como un conjunto de objetos
auditivos, cada uno con sus propiedades espaciales. Una dificultad
que surge inmediatamente es el hecho de que es casi imposible
separar automáticamente objetos auditivos individuales de un
conjunto dado de objetos auditivos, por ejemplo una grabación
musical. Este problema puede salvarse no dividiendo el material de
programa en objetos auditivos individuales, sino más bien
describiendo los parámetros espaciales de una manera que se parece
al eficaz procesamiento (periférico) del sistema auditivo. Cuando
los atributos espaciales comprenden una medida de
(di)similitud de las formas de onda correspondientes, se
consigue una codificación eficaz mientras se mantiene un alto nivel
de calidad de percepción.
En particular, la descripción paramétrica de
audio multicanal presentada en el presente documento se refiere al
modelo de procesamiento binaural presentado por Breebaart et
al. Este modelo pretende describir el eficaz procesamiento de
señal del sistema auditivo binaural. Para una descripción del modelo
de procesamiento binaural por Breebaart et al., véase
Breebaart, J., van de Par, y Kohlrausch, A. (2001a). Binaural
processing model based on contralateral inhibition. I. Model setup.
J. Acoust. Soc. Am., 110, 1074-1088; Breebaart, J.,
van de Par, S. y Kohlrausch, A. (2001b). Binaural processing model
based on contralateral inhibition. II. Dependence on spectral
parameters. J. Acoust. Soc. Am., 110, 1089-1104; y
Breebaart, J., van de Par, S. y Kohlrausch, A. (2001c). Binaural
processing model based on contralateral inhibition. III. Dependence
on temporal parameters.. J. Acoust. Soc. Am., 110,
1105-1117. A continuación se proporciona una breve
interpretación que ayuda a entender la invención.
En una realización preferida, el conjunto de
parámetros espaciales incluye al menos una indicación de posición.
Cuando los atributos espaciales comprenden una o más,
preferiblemente dos, indicaciones de posición así como una medida de
(di)similitud de las formas de onda correspondientes, se
consigue una codificación particularmente eficaz mientras se
mantiene un nivel de calidad de percepción particularmente alto.
El término indicación de posición comprende
cualquier parámetro adecuado que transmita información acerca de la
posición de objetos auditivos que contribuyen a la señal de audio,
por ejemplo la orientación de y/o la distancia con respecto a un
objeto auditivo.
En una realización preferida de la invención, el
conjunto de parámetros espaciales incluye al menos dos indicaciones
de posición que comprenden una diferencia de nivel entre canales
(ILD, interchannel level difference) y una seleccionada de
entre una diferencia de tiempo entre canales (ITD, interchannel
time difference) y una diferencia de fase entre canales (IPD,
interchannel phase difference). Es interesante mencionar que
la diferencia de nivel entre canales y la diferencia de tiempo entre
canales se consideran como las indicaciones de posición más
importantes en el plano horizontal.
La medida de similitud de las formas de onda
correspondientes al primer y segundo canales de audio corresponde a
un valor de una función de correlación cruzada a un valor máximo de
dicha función de correlación cruzada (también conocido como
coherencia). La correlación cruzada entre canales máxima está
fuertemente relacionada con la capacidad de difusión espacial de
percepción (o compacidad) de una fuente de sonido, es decir,
proporciona información adicional que no se tiene en cuenta por las
indicaciones de posición anteriores, proporcionando de este modo un
conjunto de parámetros con un bajo grado de redundancia de la
información transmitida por los mismos y, por tanto, proporcionando
una codificación eficaz.
Según una realización preferida de la invención,
la etapa de determinar un conjunto de parámetros espaciales
indicativos de propiedades espaciales comprende determinar un
conjunto de parámetros espaciales en función del tiempo y la
frecuencia.
Es una idea de los inventores que es suficiente
describir atributos espaciales de cualquier señal de audio
multicanal especificando la ILD, ITD (o IPD) y la correlación máxima
en función del tiempo y la frecuencia.
En otra realización preferida de la invención,
la etapa de determinar un conjunto de parámetros espaciales
indicativos de propiedades espaciales comprende
- dividir cada uno de los al menos dos canales
de audio de entrada en pluralidades correspondientes de bandas de
frecuencia;
- para cada una de la pluralidad de bandas de
frecuencia determinar el conjunto de parámetros espaciales
indicativos de propiedades espaciales de los al menos dos canales de
audio de entrada en la banda de frecuencia correspondiente.
Por tanto, la señal de audio entrante se divide
en varias señales de banda limitada, que (preferiblemente) están
espaciadas linealmente a una escala de tasa de ERB. Preferiblemente,
los filtros de análisis muestran un solapamiento parcial en el
dominio de la frecuencia y/o tiempo. El ancho de banda de estas
señales depende de la frecuencia central, siguiendo la tasa de ERB.
Posteriormente, preferiblemente para cada banda de frecuencia, se
analizan las propiedades siguientes de las señales entrantes:
- la diferencia de nivel entre canales, o ILD,
definida por los niveles relativos de la señal de banda limitada
procedente de las señales izquierda y derecha,
- la diferencia de tiempo (o fase) entre canales
(ITD o IPD), definida por el retardo (o desplazamiento de fase)
entre canales correspondiente a la posición del pico en la función
de correlación cruzada entre canales, y
- la (di)similitud de las formas de onda
que no puede tenerse en cuenta por las ITD o ILD, que puede
parametrizarse por la correlación cruzada entre canales máxima (es
decir, el valor de la función de correlación cruzada normalizada en
la posición del pico máximo, también conocido como coherencia).
Los tres parámetros descritos anteriormente
varían a lo largo del tiempo; sin embargo, puesto que el sistema
auditivo binaural es muy lento en su procesamiento, la tasa de
actualización de estas propiedades es bastante baja (normalmente
decenas de milisegundos).
En este caso puede suponerse que las propiedades
que (lentamente) varían en el tiempo mencionadas anteriormente son
las únicas propiedades de señal espaciales que tiene a su
disposición el sistema auditivo binaural, y que a partir de estos
parámetros dependientes del tiempo y la frecuencia, el entorno
auditivo percibido se reconstruye por niveles superiores del sistema
auditivo.
Una cuestión importante en la transmisión de
parámetros es la precisión de la representación de parámetros (es
decir, el tamaño de los errores de cuantificación), que directamente
está relacionada con la capacidad de transmisión necesaria.
Según otra realización preferida más de la
invención, la etapa de generar una señal codificada que comprende la
señal monoaural y el conjunto de parámetros espaciales comprende
generar un conjunto de parámetros espaciales cuantificados,
introduciendo cada uno un error de cuantificación correspondiente
relativo al parámetro espacial determinado correspondiente, en la
que al menos uno de los errores de cuantificación introducidos se
controla para que dependa de un valor de al menos uno de los
parámetros espaciales determinados.
Por tanto, el error de cuantificación
introducido por la cuantificación de los parámetros se controla
según la sensibilidad del sistema auditivo humano a cambios en
estos parámetros. Esta sensibilidad depende considerablemente de
los valores de los propios parámetros. Por tanto, controlando el
error de cuantificación para que dependa de los valores de los
parámetros, se consigue una codificación mejorada.
Es una ventaja de la invención el hecho de que
proporciona un desacoplamiento de parámetros de señal monoaural y
binaural en codificadores de audio. Por tanto, se reducen
considerablemente las dificultades relacionadas con los
codificadores de audio estéreo (tales como la audibilidad de ruido
de cuantificación no correlacionado de manera interaural en
comparación con el ruido de cuantificación correlacionado de manera
interaural, o inconsistencias de fase interaural en codificadores
paramétricos que codifican en modo mono dual).
Es otra ventaja de la invención el hecho de que
se consigue una reducción considerable de la tasa de bits en
codificadores de audio debido a una tasa de actualización baja y a
una resolución de frecuencia baja, requeridas para los parámetros
espaciales. La tasa de bits asociada para codificar los parámetros
espaciales es normalmente de 10 kbits/s o inferior (véase la
realización descrita más adelante).
Es otra ventaja de la invención el hecho de que
puede combinarse fácilmente con codificadores de audio existentes.
El esquema propuesto produce una señal mono que puede codificarse y
descodificarse con cualquier estrategia de codificación existente.
Tras la descodificación monoaural, el sistema descrito en el
presente documento regenera una señal multicanal estéreo con los
atributos espaciales apropiados.
El conjunto de parámetros espaciales puede
utilizarse como una capa de mejora en codificadores de audio. Por
ejemplo, una señal mono se transmite si sólo se permite una tasa de
bits baja, mientras que incluyendo la capa de mejora espacial el
descodificador puede reproducir sonido estéreo.
Se indica que la invención no está limitada a
señales estéreo sino que puede aplicarse a cualquier señal
multicanal que comprenda n canales (n>1).En particular, la
invención puede usarse para generar n canales a partir de una señal
mono, si se transmiten (n-1) conjuntos de parámetros
espaciales. En este caso, los parámetros espaciales describen cómo
formar los n canales de audio diferentes a partir de la única señal
mono.
Se indica que las características del
procedimiento descrito anteriormente y a continuación pueden
implementarse en software y llevarse a cabo en un sistema de
procesamiento de datos u otros medios de procesamiento mediante la
ejecución de instrucciones ejecutables por ordenador. Las
instrucciones pueden ser medios de código de programa cargados en
una memoria, tal como una memoria RAM, desde un medio de
almacenamiento o desde otro ordenador a través de una red
informática. De manera alternativa, las características descritas
pueden implementarse mediante un conjunto de circuitos cableados en
lugar de software o en combinación con software.
La invención se refiere además a un codificador
para codificar una señal de audio tal como se expone en la
reivindicación 8.
Se indica que los medios anteriores para generar
una señal monoaural, los medios para determinar un conjunto de
parámetros espaciales así como los medios para generar una señal
codificada pueden implementarse mediante cualquier dispositivo o
circuito adecuado, por ejemplo como microprocesadores programables
de uso general, o especial, procesadores de señales digitales (DSP),
circuitos integrados para aplicaciones específicas (ASIC), arreglos
lógicos programables (PLA), arreglos de puertas programables de
campo (FPGA), circuitos electrónicos de uso especial, etc. o una
combinación de los mismos.
La invención se refiere además a un aparato para
suministrar una señal de audio, comprendiendo el aparato:
- una entrada para recibir una señal de
audio,
- un codificador tal como se describe
anteriormente y a continuación para codificar la señal de audio para
obtener una señal de audio codificada, y
- una salida para suministrar la señal de audio
codificada.
El aparato puede ser cualquier equipo
electrónico o parte de tal equipo, tal como ordenadores fijos o
portátiles, un equipo de comunicación por radio portátil o fijo u
otros dispositivos portátiles o de bolsillo, tales como
reproductores multimedia, dispositivos de grabación, etc. El término
equipo de comunicación por radio portátil incluye todos los equipos
tales como teléfonos móviles, localizadores personales,
comunicadores, es decir organizadores electrónicos, teléfonos
inteligentes, asistentes digitales personales (PDA), ordenadores de
bolsillo, o similares.
La entrada puede comprender cualquier
dispositivo o conjunto de circuitos adecuado para recibir una señal
de audio multicanal en formato digital o analógico, por ejemplo a
través de una conexión por cable, tal como una línea de jack, a
través de una conexión inalámbrica, por ejemplo una señal de radio,
o de cualquier otra manera adecuada.
De forma similar, la salida puede comprender
cualquier dispositivo o conjunto de circuitos adecuado para
suministrar la señal codificada. Ejemplos de tales salidas incluyen
una interfaz de red para proporcionar la señal a una red
informática, tales como una red LAN, Internet, o similar, un
conjunto de circuitos de comunicaciones para comunicar la señal a
través de un canal de comunicaciones, por ejemplo un canal de
comunicaciones inalámbricas, etc. En otras realizaciones, la salida
puede comprender un dispositivo para almacenar una señal en un medio
de almacenamiento.
La invención se refiere además a una señal de
audio codificada, tal como se expone en la reivindicación 10.
La invención se refiere además a un medio de
almacenamiento que tiene almacenada en el mismo una señal codificada
de este tipo. En el presente documento, el término medio de
almacenamiento comprende, pero no está limitado a, una cinta
magnética, un disco óptico, un disco de vídeo digital (DVD), un
disco compacto (CD o CD-ROM), un minidisco, un
disco duro, un disquete, una memoria ferroeléctrica, una memoria de
sólo lectura, eléctricamente programable y borrable (EEPROM), una
memoria flash, una memoria EPROM, una memoria de sólo lectura (ROM),
una memoria estática de acceso aleatorio (SRAM), una memoria
dinámica de acceso aleatorio (DRAM), una memoria dinámica
sincrónica de acceso aleatorio (SDRAM), una memoria ferromagnética,
almacenamiento óptico, dispositivos de carga acoplada, tarjetas
inteligentes, una tarjeta PCMCIA, etc.
La invención se refiere además a un
procedimiento para descodificar una señal de audio codificada tal
como se expone en la reivindicación 12.
La invención se refiere además a un
descodificador para descodificar una señal de audio codificada tal
como se expone en la reivindicación 13.
Se indica que los medios anteriores pueden
implementarse mediante cualquier dispositivo o circuito adecuado,
tales como por ejemplo microprocesadores programables de uso
general, o especial, procesadores de señales digitales (DSP),
circuitos integrados para aplicaciones específicas (ASIC), arreglos
lógicos programables (PLA), arreglos de puertas programables de
campo (FPGA), circuitos electrónicos de uso especial, etc. o una
combinación de los mismos.
La invención se refiere además a un aparato para
suministrar una señal de audio descodificada, comprendiendo el
aparato:
- una entrada para recibir una señal de audio
codificada,
- un descodificador tal como se describe
anteriormente y a continuación para descodificar la señal de audio
codificada para obtener una señal de salida multicanal,
- una salida para suministrar o reproducir la
señal de salida multicanal.
El aparato puede ser cualquier equipo
electrónico o parte de tal equipo, tal como se describió
anteriormente.
La entrada puede comprender cualquier
dispositivo o conjunto de circuitos adecuado para recibir una señal
de audio codificada. Ejemplos de tales entradas incluyen una
interfaz de red para recibir la señal a través de una red
informática, tales como una red LAN, Internet, o similar, un
conjunto de circuitos de comunicaciones para recibir la señal a
través de un canal de comunicaciones, por ejemplo un canal de
comunicaciones inalámbricas, etc. En otras realizaciones, la entrada
puede comprender un dispositivo para leer una señal a partir de un
medio de almacenamiento.
De manera similar, la salida puede comprender
cualquier dispositivo o conjunto de circuitos adecuado para
suministrar una señal multicanal en un formato analógico o
digital.
Estos y otros aspectos de la invención
resultarán evidentes y se aclararán a partir de las realizaciones
descritas a continuación con referencia a los dibujos en los
que:
la figura 1 muestra un diagrama de flujo de un
procedimiento para codificar una señal de audio según una
realización de la invención;
la figura 2 muestra un diagrama de bloques
esquemático de un sistema de codificación según una realización de
la invención;
la figura 3 ilustra un procedimiento de filtrado
para su uso para sintetizar la señal de audio;
y
la figura 4 ilustra un descorrelador para su uso
para sintetizar la señal de audio.
La figura 1 muestra un diagrama de flujo de un
procedimiento para codificar una señal de audio según una
realización de la invención.
En una etapa S1 inicial, las señales L y R
entrantes se dividen en señales pasabanda (preferiblemente con un
ancho de banda que aumenta con la frecuencia), indicado con el
número 101 de referencia, de modo que sus parámetros pueden
analizarse en función del tiempo. Un posible procedimiento para la
división en tiempo/frecuencia es usar la aplicación de una función
ventana en el tiempo seguido por una operación de transformada,
aunque también podrían utilizarse procedimientos continuos en el
tiempo (por ejemplo, bancos de filtros). La resolución de tiempo y
frecuencia de este proceso está adaptada preferiblemente a la señal;
para señales transitorias se prefiere una resolución de tiempo
precisa (del orden de algunos milisegundos) y una resolución de
frecuencia aproximada, mientras que para señales no transitorias se
prefiere una resolución de frecuencia más precisa y una resolución
de tiempo más aproximada (del orden de décimas de milisegundos).
Posteriormente, en la etapa S2, se determina la diferencia de nivel
(ILD) de señales subbanda correspondientes; en la etapa S3 se
determina la diferencia de tiempo (ITD o IPD) de señales subbanda
correspondientes; y en la etapa S4 se describe la magnitud de
similitud o disimilitud de las formas de onda que no pueden tenerse
en cuenta por las ILD o ITD. El análisis de estos parámetros se
explica a continuación.
Etapa
S2
La ILD se determina por la diferencia de nivel
de las señales en una cierta instancia de tiempo para una banda de
frecuencia dada. Un procedimiento para determinar la ILD es medir el
valor de la raíz cuadrática media (rms) de la banda de frecuencia
correspondiente de ambos canales de entrada y calcular la relación
de estos valores de rms (expresados preferiblemente en dB).
Etapa
S3
Las ITD se determinan por la alienación de
tiempo o fase que proporciona la mejor correspondencia entre las
formas de onda de ambos canales. Un procedimiento para obtener la
ITD es calcular la función de correlación cruzada entre dos señales
subbanda correspondientes y buscar el valor máximo. El retardo que
corresponde a este valor máximo en la función de correlación cruzada
puede utilizarse como el valor ITD. Un segundo procedimiento es
calcular las señales analíticas de la subbanda izquierda y derecha
(es decir, calcular los valores de la envolvente y de fase) y usar
la diferencia de fase (media) entre los canales como parámetro
IPD.
Etapa
S4
La correlación se obtiene hallando en primer
lugar la ILD y la ITD que proporciona la mejor correspondencia entre
las señales subbanda correspondientes y posteriormente medir la
similitud de las formas de onda tras la compensación de la ITD y/o
ILD. Por tanto, en este contexto, la correlación se define como la
similitud o disimilitud de señales subbanda correspondientes que no
puede atribuirse a las ILD y/o ITD. Una medida adecuada para este
parámetro es el valor máximo de la función de correlación cruzada
(es decir, el valor máximo a lo largo de un conjunto de
retardos).
Sin embargo, no según la invención, también
podrían utilizarse otras medidas, tales como la energía relativa de
la señal de diferencia tras la compensación de ILD y/o ITD en
comparación con la señal de suma de subbandas correspondientes
(preferiblemente también compensadas con respecto a las ILD y/o
ITD). Este parámetro de diferencia es básicamente una transformación
lineal de la correlación (máxima).
En las etapas S5, S6 y S7 posteriores, se
cuantifican los parámetros determinados. Una cuestión importante
para la transmisión de parámetros es la precisión de la
representación de parámetros (es decir, el tamaño de los errores de
cuantificación), que está directamente relacionada con la capacidad
de transmisión necesaria. En esta sección, se tratarán diversas
cuestiones con respecto a la cuantificación de los parámetros
espaciales. La idea básica es basar los errores de cuantificación en
denominadas diferencias casi perceptibles (JND,
just-noticeable differences) de las
identificaciones espaciales. Para ser más específicos, el error de
cuantificación se determina por la sensibilidad del sistema auditivo
humano a los cambios en los parámetros. Debido a que la
sensibilidad a los cambios en los parámetros depende
considerablemente de los valores de los propios parámetros, se
aplican los siguientes procedimientos para determinar los escalones
de cuantificación discretos.
Etapa
S5
A partir de la investigación psicoacústica se
sabe que la sensibilidad a los cambios en la ILD depende de la
propia ILD. Si la ILD se expresa en dB, pueden detectarse
desviaciones de aproximadamente 1 dB con respecto a una referencia
de 0 dB, mientras que se requieren cambios del orden de 3 dB si la
diferencia respecto al nivel de referencia asciende a 20 dB. Por
tanto, los errores de cuantificación pueden ser mayores si las
señales de los canales izquierdo y derecho tienen una diferencia de
nivel mayor. Por ejemplo, esto puede aplicarse midiendo en primer
lugar la diferencia de nivel entre los canales, seguido por una
transformación (compresiva) no lineal de la diferencia de nivel
obtenida y posteriormente un proceso de cuantificación lineal, o
utilizando una tabla de consulta de los valores de ILD disponibles
que tie-
nen una distribución no lineal. La realización posterior proporciona un ejemplo de una tabla de consulta de este tipo.
nen una distribución no lineal. La realización posterior proporciona un ejemplo de una tabla de consulta de este tipo.
Etapa
S6
La sensibilidad a los cambios en las ITD de
sujetos humanos puede caracterizarse por presentar un umbral de fase
constante. Esto significa que, en términos de tiempos de retardo,
los escalones de cuantificación para la ITD deberían disminuir con
la frecuencia. De manera alternativa, si la ITD se representa en
forma de diferencias de fase, los escalones de cuantificación
deberían ser independientes de la frecuencia. Un procedimiento para
implementar esto es tomar una diferencia de fase fija como escalón
de cuantificación y determinar el retardo de tiempo correspondiente
para cada banda de frecuencia. Este valor ITD se usa entonces como
etapa de cuantificación. Otro procedimiento es transmitir
diferencias de fase que siguen un esquema de cuantificación
independiente de la frecuencia. También se conoce que, por encima
de una cierta frecuencia, el sistema auditivo humano no es sensible
a las ITD en las formas de onda de estructura fina. Este fenómeno
puede aprovecharse transmitiendo sólo parámetros ITD hasta una
cierta frecuencia (normalmente 2 kHz).
Un tercer procedimiento de reducción del flujo
de bits es incorporar escalones de cuantificación de ITD que
dependen de los parámetros de correlación y/o de ILD de la misma
subbanda. Para ILD grandes, las ITD pueden codificarse con menos
precisión. Además, si la correlación es muy baja, se sabe que la
sensibilidad humana a los cambios en la ITD es reducida. Por tanto,
si la correlación es pequeña pueden aplicarse errores de
cuantificación de ITD más grandes. Un ejemplo extremo de esta idea
es no transmitir ITD si la correlación está por debajo de un cierto
umbral y/o si la ILD es suficientemente grande para la misma
subbanda (normalmente de aproximadamente 20 dB).
Etapa
S7
El error de cuantificación de la correlación
depende de (1) el propio valor de correlación y, posiblemente, (2)
de la ILD. Valores de correlación próximos a +1 se codifican con una
precisión alta (es decir, un escalón de cuantificación pequeño),
mientras que valores de correlación próximos a 0 se codifican con
una precisión baja (un escalón de cuantificación grande). En la
realización se da un ejemplo de un conjunto de valores de
correlación distribuidos de manera no lineal. Una segunda
posibilidad es utilizar escalones de cuantificación para la
correlación que dependen de la ILD medida de la misma subbanda: para
ILD grandes (es decir, un canal es dominante en cuanto a la
energía), los errores de cuantificación en la correlación se hacen
más grandes. Un ejemplo extremo de este principio sería no
transmitir ningún valor de correlación para una cierta subbanda si
el valor absoluto de la ILD para esa subbanda está más allá de un
cierto umbral.
En la etapa S8, se genera una señal S monoaural
a partir de las señales de audio entrantes, por ejemplo como una
señal de suma de las componentes de señal entrante, determinando una
señal dominante, generando una señal de componente principal a
partir de las componentes de señal entrante, o similar. Este proceso
usa preferiblemente los parámetros espaciales extraídos para generar
la señal mono, es decir, alineando en primer lugar las formas de
onda de subbanda usando la ITD o IPD antes de la combinación.
Finalmente, en la etapa S9, se genera una señal
102 codificada a partir de la señal monoaural y los parámetros
determinados. De manera alternativa, la señal de suma y los
parámetros espaciales pueden comunicarse como señales separadas a
través del mismo canal o canales diferentes.
Se indica que el procedimiento anterior puede
implementarse mediante una disposición correspondiente, por ejemplo
implementada como microprocesadores programables de uso general, o
especial, procesadores de señales digitales (DSP), circuitos
integrados para aplicaciones específicas (ASIC), arreglos lógicos
programables (PLA), arreglos de puertas programables de campo
(FPGA), circuitos electrónicos de uso especial, etc. o una
combinación de los mismos.
La figura 2 muestra un diagrama de bloques
esquemático de un sistema de codificación según una realización de
la invención. El sistema comprende un codificador 201 y un
descodificador 202 correspondiente. El descodificador 201 recibe una
señal estéreo con dos componentes L y R y genera una señal 203
codificada que comprende una señal S de suma y parámetros P
espaciales que se comunican al descodificador 202. La señal 203
puede comunicarse a través de cualquier canal 204 de comunicaciones.
Alternativa o adicionalmente, la señal puede almacenarse en un medio
214 de almacenamiento extraíble, por ejemplo una tarjeta de memoria,
que puede transferirse del codificador al descodificador.
El codificador 201 comprende módulos 205 y 206
de análisis para analizar parámetros espaciales de las señales L y R
entrantes, preferiblemente para cada ranura de tiempo/frecuencia. El
codificador comprende además un módulo 207 de extracción de
parámetros que genera parámetros espaciales cuantificados; y un
módulo 208 de combinación que genera una señal de suma (o dominante)
que consiste en una determinada combinación de las al menos dos
señales de entrada. El codificador comprende además un módulo 209 de
codificación que genera una señal 203 codificada resultante que
comprende la señal monoaural y los parámetros espaciales. En una
realización, el módulo 209 realiza además una o más de las funciones
siguientes: asignación de tasa de bits, sincronización de tramas,
codificación sin pérdida, etc.
La síntesis (en el descodificador 202) se
realiza aplicando los parámetros espaciales a la señal de suma para
generar señales de salida izquierda y derecha. Por lo tanto, el
descodificador 202 comprende un módulo 210 de descodificación que
realiza la operación inversa del módulo 209 y extrae la señal S de
suma y los parámetros P a partir de la señal 203 codificada. El
descodificador comprende además un módulo 211 de síntesis que
recupera las componentes L y R estéreo a partir de la señal de suma
(o dominante) y los parámetros espaciales.
En esta realización, la descripción de los
parámetros espaciales se combina con un codificador de audio
monoaural (de canal único) para codificar una señal de audio
estéreo. Debería indicarse que aunque la realización descrita
funciona sobre señales estéreo, la idea general puede aplicarse a
señales de audio de n canales, con n>1.
En los módulos 205 y 206 de análisis, las
señales L y R entrantes izquierda y derecha, respectivamente, se
dividen en diversas tramas de tiempo (por ejemplo, comprendiendo
cada una 2048 muestras a una tasa de muestreo de 44,1 kHz) y se les
aplica una función ventana con una ventana de Hanning de raíz
cuadrada. Posteriormente, se calculan las FFT. Las frecuencias de
FFT negativas se descartan y las FFT resultantes se subdividen en
grupos (subbandas) de intervalos (bins) FFT. El número de
intervalos FFT que se combinan en una subbanda g depende de la
frecuencia: a frecuencias más altas se combinan más intervalos que a
frecuencias más bajas. En una realización, se agrupan intervalos FFT
correspondientes a aproximadamente 1,8 ERB (Equivalent
Rectangular Bandwidth, ancho de banda rectangular equivalente),
dando como resultado 20 subbandas para representar todo el rango de
frecuencias audible. El número resultante de intervalos FFT
S[g] de cada subbanda posterior (empezando a la frecuencia
más baja) es
S = [4 4 4 5 6 8 9 12 13 17 21 25
30 38 45 55 68 82 100
477]
Por tanto, las primeras tres subbandas contienen
4 intervalos FFT, la cuarta subbanda contiene 5 intervalos FFT, etc.
Para cada subbanda, se calculan la ILD, ITD correspondiente y la
correlación (r). La ITD y la correlación se calculan simplemente
poniendo a cero todos los intervalos FFT que pertenecen a otros
grupos, multiplicando las FFT (de banda limitada) resultantes de los
canales izquierdo y derecho, seguido por una transformada FFT
inversa. Se explora la función de correlación cruzada resultante
para buscar un pico dentro de un retardo entre canales entre -64 y
+63 muestras. El retardo interno correspondiente al pico se usa como
valor de ITD, y el valor de la función de correlación cruzada en
este pico se usa como correlación entre canales de esta subbanda.
Finalmente, la ILD se calcula simplemente tomando la relación de
potencia de los canales izquierdo y derecho para cada subbanda.
En el módulo 208 de combinación, las subbandas
izquierda y derecha se suman tras una corrección de fase (alienación
temporal). Esta corrección de fase se deriva de la ITD calculada
para esa subbanda y consiste en retardar la subbanda de canal
izquierdo con ITD/2 y la subbanda de canal derecho con -ITD/2. El
retardo se realiza en el dominio de la frecuencia mediante una
modificación apropiada de los ángulos de fase de cada intervalo FFT.
Posteriormente, se calcula la señal de suma sumando las versiones de
fase modificada de las señales de subbanda izquierda y derecha.
Finalmente, para compensar la adición no correlacionada o
correlacionada, cada subbanda de la señal de suma se multiplica por
sqrt(2/(1+r)), siendo r la correlación de la subbanda
correspondiente. En caso necesario, la señal de suma puede
convertirse al dominio del tiempo (1) insertando conjugados
complejos a frecuencias negativas, (2) FFT inversa, (3) aplicación
de función ventana, y (4) overlap-add
(solapamiento y suma).
En el módulo 207 de extracción de parámetros, se
cuantifican los parámetros espaciales. Las ILD (en dB) se
cuantifican al valor más próximo del conjunto I siguiente:
I = [-19 -16 -13 -10 -8 -6 -4 -2 0
2 4 6 8 10 13 16
19]
Los escalones de cuantificación de ITD se
determinan mediante una diferencia de fase constante en cada
subbanda de 0,1 rad. Por tanto, para cada subbanda, la diferencia de
tiempo que corresponde a 0,1 rad de la frecuencia central de
subbanda se usa como escalón de cuantificación. Para frecuencias por
encima de 2 kHz, no se transmite información de ITD.
Los valores r de correlación entre canales se
cuantifican al valor más próximo del conjunto R siguiente:
R = [1 0,95 0,9 0,82 0,75 0,6 0,3
0]
Esto costará otros 3 bits por cada valor de
correlación.
Si el valor absoluto de la ILD (cuantificado) de
la subbanda actual asciende a 19 dB, no se transmiten valores de
correlación ni de ITD para esta subbanda. Si el valor de correlación
(cuantificado) de una cierta subbanda asciende a cero, no se
transmite ningún valor de ITD para esa subbanda.
De este modo, cada trama requiere un máximo de
233 bits para transmitir los parámetros espaciales. Con una longitud
de trama de 1024 tramas, la tasa de bits máxima para la transmisión
asciende a 10,25 kbit/s. Debería indicarse que usando codificación
de entropía o codificación diferencial, esta tasa de bits puede
reducirse adicional-
mente.
mente.
El descodificador comprende un módulo 211 de
síntesis en el que se sintetiza la señal estéreo a partir de la
señal de suma recibida y los parámetros espaciales. Por tanto, para
esta descripción se supone que el módulo de síntesis recibe una
representación en el dominio de la frecuencia de la señal de suma
tal como se describió anteriormente. Esta representación puede
obtenerse mediante operaciones de función ventana y de FFT de la
forma de onda en el dominio del tiempo. En primer lugar, se copia la
señal de suma a las señales de salida izquierda y derecha.
Posteriormente, se modifica la correlación entre las señales
izquierda y derecha con un descorrelador . En una realización
preferida, se usa un descorrelador tal como se describe a
continuación. Posteriormente, se retarda cada subbanda de la señal
izquierda en -ITD/2, y se retarda la señal derecha en ITD/2, dada
la ITD (cuantificada) correspondiente a esa subbanda. Finalmente se
ajustan a escala las subbandas izquierda y derecha según la ILD
para esa subbanda. En una realización, la modificación anterior se
realiza mediante un filtro tal como se describe a continuación.
Para convertir las señales de salida en el dominio del tiempo, se
realizan las etapas siguientes: (1) insertar conjugados complejos a
frecuencias negativas, (2) FFT inversa, (3) aplicación de función
ventana y (4) overlap- add.
La figura 3 ilustra un procedimiento de filtrado
para su uso para sintetizar la señal de audio. En una etapa 301
inicial, la señal de audio entrante x(t) se segmenta en un
número de tramas. La etapa 301 de segmentación divide la señal en
tramas x_{n}(t) de una longitud adecuada, por ejemplo en el
intervalo de 500-5000 muestras, por ejemplo 1024 o
2048 muestras.
Preferiblemente, la segmentación se realiza
usando funciones ventana de síntesis y análisis de solapamiento,
suprimiendo así artefactos que pueden introducirse en los límites de
trama (véase por ejemplo Princen, J. P., y Bradley, A. B.:
"Analysis/synthesis filterbank design based on time domain
aliasing cancellation", IEEE transactions on Acoustics, Speech
and Signal processing, Vol. ASSP 34, 1986).
En la etapa 302, cada una de las tramas
x_{n}(t) se transforma al dominio de frecuencia aplicando
una transformada de Fourier, implementada preferiblemente como una
transformada rápida de Fourier (FFT). La representación de
frecuencia resultante de la enésima trama x_{n}(t)
comprende un número de componentes X(k,n) de frecuencia,
donde el parámetro n indica el número de tramas y el parámetro k
indica la componente de frecuencia o intervalo de frecuencia
correspondiente a una frecuencia \omega_{k}, 0<k<K. En
general, las componentes X(k,n) en el dominio de la
frecuencia son números complejos.
En la etapa 303, se determina el filtro deseado
para la trama actual según los parámetros espaciales variables en el
tiempo recibidos. El filtro deseado se expresa como una respuesta de
filtro deseado que comprende un conjunto de K factores
F(k,n), de peso complejos, 0<k<K, para la enésima
trama. La respuesta F(k,n) de filtro puede representarse por
dos números reales, es decir su amplitud a(k,n) y su fase
\varphi(k,n) según F(k,n) =
a(k,n)\cdotexp[j\varphi(k,n)].
En el dominio de la frecuencia, las componentes
de frecuencia filtradas son Y(k,n) =
F(k,n)\cdotX(k,n), es decir resultan de una
multiplicación de las componentes X(k,n) de frecuencia de la
señal de entrada con la respuesta F(k,n) de filtro. Tal como
resultará evidente para un experto en la técnica, esta
multiplicación en el dominio de la frecuencia corresponde a una
convolución de la trama x_{n}(t) de señal de entrada con un
filtro f_{n}(t) correspondiente.
En la etapa 304, la respuesta F(k,n) de
filtro deseada se modifica antes de aplicarla a la trama
X(k,n) actual. En particular, la respuesta F'(k,n) de filtro
real que ha de aplicarse se determina en función de la respuesta
F(k,n) de filtro deseado y de información 308 acerca de
tramas previas. Preferiblemente, esta información comprende la
respuesta de filtro deseado y/o real de una o más tramas previas,
según
Por tanto, haciendo que la respuesta de filtro
real sea dependiente del historial de las respuestas de filtro
previas, pueden suprimirse de manera eficaz los artefactos
introducidos por cambios en la respuesta de filtro entre tramas
consecutivas. Preferiblemente, la forma real de la función \Phi de
transformada se selecciona para reducir artefactos por
overlap-add que resultan de respuestas de
filtro dinámicamente variables.
Por ejemplo, la función \Phi de transformada
puede ser una función de una única función de respuesta previa, por
ejemplo F'(k,n) = \Phi_{1}[F(k,n),
F(k,n-1)] o F'(k,n) =
\Phi_{2}[F(k,n), F'(k,n-1)]. En
otra realización, la función de transformada puede comprender un
promedio flotante sobre un número de funciones de respuesta previas,
por ejemplo una versión filtrada de funciones de respuesta previas,
o similares. Las realizaciones preferidas de la función \Phi de
transformada se describirán con más detalle a continuación.
En la etapa 305, la respuesta F'(k,n) de filtro
real se aplica a la trama actual multiplicando las componentes
X(k,n) de frecuencia de la trama actual de la señal de
entrada por los factores F'(k,n) de respuesta de filtro
correspondientes según Y(k,n) =
F'(k,n)\cdotX(k,n).
En la etapa 306, las componentes Y(k,n)
de frecuencia procesadas resultantes se transforman de nuevo en el
dominio del tiempo dando como resultado tramas y_{n}(t)
filtradas. Preferiblemente, la transformada inversa se implementa
como una transformada rápida de Fourier inversa (IFFT).
Finalmente, en la etapa 307, las tramas
filtradas se recombinan para obtener una señal y(t) filtrada
mediante un procedimiento de overlap-add. Una
implementación eficaz de un procedimiento de
overlap-add de este tipose describe en
"Digital baseband transmission and recording", Kluwer, 1996 de
Bergmans J. W. M.
En una realización, la función \Phi de
transformada de la etapa 304 se implementa como un limitador de
cambio de fase entre la trama actual y la previa. Según esta
realización, se calcula el cambio \delta(k) de fase de cada
componente F(k,n) de frecuencia en comparación con la
modificación \varphi'(k,n-1) de fase real aplicada
a la muestra previa de la componente de frecuencia correspondiente,
es decir \delta(k) = \varphi(k,n)-
\varphi'(k,n-1).
Posteriormente, se modifica la componente de
fase del filtro F(k,n) deseado de modo que se reduce el
cambio de fase a lo largo de las tramas, en caso de que el cambio
diera como resultado artefactos de
overlap-add. Según esta realización, esto se
consigue garantizando que la diferencia de fase real no supera un
umbral c predeterminado, por ejemplo simplemente cortando la
diferencia de fase, según
El valor c de umbral puede ser una constante
predeterminada, por ejemplo entre \pi/8 y \pi/3 rad. En una
realización, el umbral c puede no ser una constante sino por ejemplo
en función del tiempo, frecuencia, y/o similar. Además,
alternativamente al límite estricto anterior para el cambio de fase,
pueden usarse otras funciones de limitación del cambio de fase.
En general, en la realización anterior, el
cambio de fase deseado a lo largo de las tramas de tiempo
posteriores para componentes de frecuencia individuales se
transforma por una función P(\delta(k)) de
entrada-salida y la respuesta F'(k,n) de filtro real
viene dada por
Por tanto, según esta realización, se introduce
una función P de transformada del cambio de fase a lo largo de
tramas de tiempo posteriores.
En otra realización de la transformación de la
respuesta de filtro, el procedimiento de limitación de fase se
conduce por una medida adecuada de tonalidad, por ejemplo un
procedimiento de predicción tal como se describe a continuación.
Esto tiene la ventaja de que los saltos de fase entre tramas
consecutivas que se producen en señales de tipo ruido pueden
excluirse del procedimiento de limitación de cambio de fase según la
invención. Esto es una ventaja, puesto que limitar tales saltos de
fase en señales de tipo ruido haría que la señal de tipo ruido
sonase más tonal lo que con frecuencia se percibe como sintético o
metálico.
Según esta realización, se calcula un error
\theta(k) = \varphi(k,n)-
\varphi(k,n-1)-\omega_{k}\cdoth
de fase predicho. En este caso, \omega_{k} indica la frecuencia
correspondiente a la componente de frecuencia k-ésima y h indica el
tamaño de salto en las muestras. En este caso, el término tamaño de
salto se refiere a la diferencia entre dos centros de ventana
adyacentes, es decir la mitad de la longitud de análisis para
ventanas simétricas. A continuación se supone que el error anterior
se incluye en el intervalo [-\pi,+\pi].
Posteriormente, se calcula una medida P_{k} de
predicción para la magnitud de predictibilidad de fase en el
intervalo de frecuencia k-ésimo según P_{k} = (\pi -
|\theta(k)|)/\pi \in [0,1], donde |
\cdot | indica el valor absoluto.
Por tanto, la medida P_{k} anterior
proporciona un valor entre 0 y 1 correspondiente a la magnitud de
predictibilidad de fase en el intervalo de frecuencia k-ésimo. Si
P_{k} es próxima a 1, puede suponerse que la señal subyacente
tiene un alto grado de tonalidad, es decir, tiene una forma de onda
sustancialmente sinusoidal. Para una señal de este tipo, los saltos
de fase son fácilmente perceptibles, por ejemplo por el oyente de
una señal de audio. Por tanto, los saltos de fase deberían
eliminarse preferiblemente en este caso. Por otro lado, si el valor
de P_{k} es próximo a 0, puede suponerse que la señal subyacente
es ruidosa. Para las señales ruidosas, los saltos de fase no se
perciben fácilmente y, por tanto, pueden permitirse.
Por consiguiente, se aplica la función de
limitación de fase si P_{k} supera un umbral predeterminado, es
decir P_{k} > A, dando como resultado la respuesta F'(k,n) de
filtro real según
En este caso, A está limitado por los límites
superior e inferior de P, que son +1 y 0, respectivamente. El valor
exacto de A depende de la implementación real. Por ejemplo, A puede
seleccionarse entre 0,6 y 0,9.
Se entiende que, alternativamente, puede usarse
cualquier otra medida adecuada para estimar la tonalidad. En otra
realización más, el salto c de fase permitido descrito anteriormente
puede hacerse dependiente de una medida adecuada de tonalidad, por
ejemplo la medida P_{k} anterior, permitiendo así saltos de fase
más grandes si P_{k} es grande y viceversa.
La figura 4 ilustra un descorrelador para su uso
para sintetizar la señal de audio. El descorrelador comprende un
filtro 401 de todo paso que recibe la señal x monoaural y un
conjunto de parámetros P espaciales que incluyen la correlación r
cruzada entre canales y un parámetro indicativo de la diferencia c
de canal. Se indica que el parámetro c está relacionado con la
diferencia de nivel entre canales por ILD = k\cdotlog(c),
donde k es una constante, es decir ILD es proporcional al logaritmo
de c.
Preferiblemente, el filtro de todo paso
comprende un retardo dependiente de la frecuencia que proporciona un
retardo relativamente menor a altas frecuencias que a bajas
frecuencias. Esto puede conseguirse sustituyendo un retardo fijo del
filtro de todo paso por un filtro de todo paso que comprende un
periodo de un complejo de fase de Schroeder (véase por ejemplo M.R.
Schroeder, "Synthesis of
low-peak-factor signals and binary
sequences with low autocorrelation", IEEE Transact. Inf. Theor.,
16:85-89, 1970). El descorrelador comprende además
un circuito 402 de análisis que recibe los parámetros espaciales
desde el descodificador y extrae la correlación r cruzada entre
canales y la diferencia c de canal. El circuito 402 determina una
matriz M(\alpha,\beta) de mezcla tal como se describirá a
continuación. Las componentes de la matriz de mezcla se alimentan al
circuito 403 de transformación que además recibe la señal x de
entrada y la señal H\otimesx filtrada. El circuito 403 realiza una
operación de mezcla según
dando como resultado las señales L
y R de
salida.
La correlación entre las señales L y R puede
expresarse como un ángulo \alpha entre vectores que representan la
señal L y R, respectivamente, en un espacio definido por las señales
x y H\otimesx, según r = cos(\alpha). Por consiguiente,
cualquier par de vectores que muestre la distancia angular correcta
tiene la correlación especificada.
Por tanto, una matriz M de mezcla que transforma
las señales x y H\otimesx en señales L y R con una correlación r
predeterminada puede expresarse como sigue:
Así, la cantidad de señal sometida al filtro de
todo paso depende de la correlación deseada. Además, la energía de
la componente de señal de todo paso es la misma en ambos canales de
salida) aunque con un desplazamiento de fase de 180º).
Se indica que el caso en el que la matriz M
viene dada por
es decir, el caso en que \alpha =
90º correspondiente a señales (r = 0) de salida no correlacionadas,
corresponde a un descorrelador de
Lauridsen.
Para ilustrar un problema con la matriz de la
ecuación (5), se supone una situación con una amplitud extrema que
va hacia el canal izquierdo, es decir un caso en el que una cierta
señal está presente sólo en el canal izquierdo. También se supone
que la correlación deseada entre las salidas es cero. En este caso,
la salida del canal izquierdo de la transformación de la ecuación
(3) con la matriz de mezcla de la ecuación (5) proporciona
8 Por tanto, la salida consiste en la señal x
original combinada con su versión H\otimesx sometida a filtro de
todo paso.
Sin embargo, esta es una situación no deseada,
puesto que el filtro de todo paso deteriora habitualmente la calidad
de percepción de la señal. Además, la suma de la señal original y la
señal filtrada da como resultado efectos de filtro de peine, tal
como la coloración percibida de la señal de salida. En este caso
extremo supuesto, la mejor solución sería que la señal de salida
izquierda consistiera en la señal de entrada. De esta forma la
correlación de las dos señales de salida seguiría siendo cero.
En situaciones con más diferencias de nivel
moderadas, la situación preferida es que el canal de salida más
fuerte contenga relativamente más de la señal original, y que el
canal de salida más débil contenga relativamente más de la señal
filtrada. Por tanto, en general, se prefiere maximizar la cantidad
de la señal original presente en las dos salidas de manera conjunta,
y minimizar la cantidad de la señal filtrada.
Según esta realización, esto se consigue
introduciendo una matriz de mezcla diferente que incluye una
rotación común adicional:
En este caso, \beta es una rotación adicional
y C es una matriz escalar que garantiza que la diferencia de nivel
relativa entre las señales de salida es igual a c, es decir
La inserción de la matriz de la ecuación (6) en
la ecuación (3) proporciona las señales de salida generadas por la
operación de aplicar una matriz según esta realización:
Por tanto, las señales L y R de salida aún
tienen una diferencia \alpha angular, es decir, la correlación
entre las señales L y R no se ve afectada por el ajuste a escala de
las señales L y R según la diferencia de nivel deseada y la rotación
adicional por el ángulo \beta tanto de la señal L como de la
R.
Tal como se mencionó anteriormente,
preferiblemente, debería maximizarse la cantidad de la señal x
original en la salida sumada de L y R. Esta condición puede usarse
para determinar el ángulo \beta, según
que proporciona la
condición:
En resumen, esta solicitud describe una
descripción paramétrica de los atributos espaciales de señales de
audio multicanal, basada en la psicoacústica. Esta descripción
paramétrica permite reducciones considerables de la tasa de bits en
codificadores de audio, puesto que sólo ha de transmitirse una señal
monoaural, combinada con parámetros (cuantificados) que describen
las propiedades espaciales de la señal. El descodificador puede
formar la cantidad original de canales de audio aplicando los
parámetros espaciales. Para audio estéreo de calidad próxima a CD,
una tasa de bits asociada con estos parámetros espaciales de 10
kbit/s o inferior parece suficiente para reproducir la impresión
espacial correcta en el extremo receptor. Adicionalmente, esta
escala de bits puede ajustarse a escala de manera descendente
reduciendo la resolución espectral y/o temporal de los parámetros
espaciales y/o procesando los parámetros espaciales utilizando
algoritmos de compresión sin pérdida.
Debería observarse que las realizaciones
mencionadas anteriormente ilustran en vez de limitar la invención, y
que los expertos en la técnica podrán diseñar muchas realizaciones
alternativas sin apartarse del alcance de las reivindicaciones
adjuntas.
Por ejemplo, la invención se ha descrito
principalmente en conexión con una realización utilizando las dos
indicaciones de posición ILD e ITD/IPD. En realizaciones
alternativas, pueden usarse otras indicaciones de posición. Además,
en una realización, la ILD, la ITD/IPD y la correlación cruzada
entre canales pueden determinarse tal como se describió
anteriormente, aunque sólo se transmite la correlación cruzada entre
canales junto con la señal monoaural, reduciendo así adicionalmente
el ancho de banda/capacidad de almacenamiento requeridos para
transmitir/almacenar la señal de audio. De manera alternativa, puede
transmitirse la correlación cruzada entre canales y una de ILD e
ITD/TPD. En estas realizaciones, la señal se sintetiza sólo a partir
la señal monoaural basándose en los parámetros transmitidos.
En las reivindicaciones, cualquier símbolo de
referencia entre paréntesis no debería interpretarse como limitativo
de la reivindicación. El término "comprender" no excluye la
presencia de elementos o etapas diferentes a las enumeradas en una
reivindicación. El término "un" o "una" precediendo a un
elemento no excluye la presencia de una pluralidad de elementos
tales.
La invención puede implementarse por medio de
hardware que comprende diversos elementos distintos y por medio de
un ordenador programado de forma adecuada. En la reivindicación del
dispositivo que enumera diversos medios, varios de estos medios
pueden realizarse mediante uno y el mismo elemento de hardware. El
mero hecho de que ciertas medidas se enumeren en reivindicaciones
diferentes entre sí no indica que no pueda usarse de forma ventajosa
una combinación de estas medidas.
Claims (14)
1. Procedimiento para codificar una señal de
audio, comprendiendo el procedimiento:
- generar (S8) una señal monoaural que comprende
una combinación de al menos dos canales (L, R) de audio de
entrada,
- determinar (S2, S3, S4) un conjunto de
parámetros (ILD, ITD, C) espaciales indicativos de propiedades
espaciales de los al menos dos canales de audio de entrada,
incluyendo el conjunto de parámetros espaciales un parámetro (C) que
representa una medida de similitud de formas de onda de los al menos
dos canales de audio de entrada,
- generar (S5, S6, S7, S9) una señal codificada
que comprende la señal monoaural y el conjunto de parámetros
espaciales
caracterizado porque
la medida de similitud corresponde a un valor de
una función de correlación cruzada a un valor máximo de dicha
función de correlación cruzada.
2. Procedimiento según la reivindicación 1, en
el que la etapa de determinar un conjunto de parámetros espaciales
indicativos de propiedades espaciales comprende determinar un
conjunto de parámetros espaciales en función del tiempo y la
frecuencia.
3. Procedimiento según la reivindicación 2, en
el que la etapa de determinar un conjunto de parámetros espaciales
indicativos de propiedades espaciales comprende
- dividir cada uno de los al menos dos canales
de audio de entrada en pluralidades correspondientes de bandas de
frecuencia;
- para cada una de la pluralidad de bandas de
frecuencia determinar el conjunto de parámetros espaciales
indicativos de propiedades espaciales de los al menos dos canales de
audio de entrada en la banda de frecuencia correspondiente.
4. Procedimiento según una cualquiera de las
reivindicaciones 1 a 3, en el que el conjunto de parámetros
espaciales incluye al menos una indicación de posición.
5. Procedimiento según la reivindicación 4, en
el que el conjunto de parámetros espaciales incluye al menos dos
indicaciones de posición que comprenden una diferencia de nivel
entre canales y una seleccionada de entre una diferencia de tiempo
entre canales y una diferencia de fase entre canales.
6. Procedimiento según la reivindicación 4 ó 5,
en el que la medida de similitud comprende información que no puede
tenerse en cuenta por las indicaciones de posición.
7. Procedimiento según una cualquiera de las
reivindicaciones 1 a 6, en el que la etapa de generar una señal
codificada que comprende la señal monoaural y el conjunto de
parámetros espaciales comprende generar un conjunto de parámetros
espaciales cuantificados, introduciendo cada uno un error de
cuantificación correspondiente relativo al parámetro espacial
determinado correspondiente, en el que al menos uno de los errores
de cuantificación introducidos se controla para que dependa de un
valor de al menos uno de los parámetros espaciales determinados.
8. Codificador para codificar una señal de
audio, comprendiendo el codificador:
- medios para generar una señal monoaural que
comprende una combinación de al menos dos canales de audio de
entrada,
- medios para determinar un conjunto de
parámetros espaciales indicativos de propiedades espaciales de los
al menos dos canales de audio de entrada, incluyendo el conjunto de
parámetros espaciales un parámetro que representa una medida de
similitud de formas de onda de los al menos dos canales de audio de
entrada, y
- medios para generar una señal codificada que
comprende la señal monoaural y el conjunto de parámetros espaciales,
caracterizado porque la medida de similitud corresponde a un
valor de una función de correlación cruzada a un valor máximo de
dicha función de correlación cruzada.
9. Aparato para suministrar una señal de audio,
comprendiendo el aparato:
una entrada para recibir una señal de audio,
un codificador según la reivindicación 8 para
codificar la señal de audio para obtener una señal de audio
codificada, y
una salida para suministrar la señal de audio
codificada.
10. Señal de audio codificada, comprendiendo la
señal: una señal monoaural que comprende una combinación de al
menos dos canales de audio, y
un conjunto de parámetros espaciales indicativos
de propiedades espaciales de los al menos dos canales de audio de
entrada, incluyendo el conjunto de parámetros espaciales un
parámetro que representa una medida de similitud de formas de onda
de los al menos dos canales de audio de entrada,
caracterizado porque la medida de similitud corresponde a un
valor de una función de correlación cruzada a un valor máximo de
dicha función de correlación cruzada.
11. Medio de almacenamiento que tiene almacenada
en el mismo una señal codificada según la reivindicación 10.
12. Procedimiento para descodificar una señal de
audio codificada, comprendiendo el procedimiento:
obtener una señal monoaural a partir de la señal
de audio codificada, comprendiendo la señal monoaural una
combinación de al menos dos canales de audio,
obtener un conjunto de parámetros espaciales a
partir de la señal de audio codificada, incluyendo el conjunto de
parámetros espaciales un parámetro que representa una medida de
similitud de formas de onda de los al menos dos canales de audio,
y
generar una señal de salida multicanal a partir
de la señal monoaural y los parámetros espaciales,
caracterizado porque la medida de similitud corresponde a un
valor de una función de correlación cruzada a un valor máximo de
dicha función de correlación cruzada.
13. Descodificador para descodificar una señal
de audio codificada, comprendiendo el descodificador
medios para obtener una señal monoaural a partir
de la señal de audio codificada, comprendiendo la señal monoaural
una combinación de al menos dos canales de audio, y
medios para obtener un conjunto de parámetros
espaciales a partir de la señal de audio codificada, incluyendo el
conjunto de parámetros espaciales un parámetro que representa una
medida de similitud de formas de onda de los al menos dos canales de
audio, y
medios para generar una señal de salida
multicanal a partir de la señal monoaural y los parámetros
espaciales, caracterizado porque la medida de similitud
corresponde a un valor de una función de correlación cruzada a un
valor máximo de dicha función de correlación cruzada.
14. Aparato para suministrar una señal de audio
descodificada, comprendiendo el aparato:
una entrada para recibir una señal de audio
codificada,
un descodificador según la reivindicación 13
para descodificar la señal de audio codificada para obtener una
señal de salida multicanal, y
una salida para suministrar o reproducir la
señal de salida multicanal.
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02076588 | 2002-04-22 | ||
EP02076588 | 2002-04-22 | ||
EP02077863 | 2002-07-12 | ||
EP02077863 | 2002-07-12 | ||
EP02079303 | 2002-10-14 | ||
EP02079303 | 2002-10-14 | ||
EP02079817 | 2002-11-20 | ||
EP02079817 | 2002-11-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2300567T3 true ES2300567T3 (es) | 2008-06-16 |
Family
ID=29255420
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07119364T Expired - Lifetime ES2323294T3 (es) | 2002-04-22 | 2003-04-22 | Dispositivo de decodificacion con una unidad de decorrelacion. |
ES03715237T Expired - Lifetime ES2300567T3 (es) | 2002-04-22 | 2003-04-22 | Representacion parametrica de audio espacial. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07119364T Expired - Lifetime ES2323294T3 (es) | 2002-04-22 | 2003-04-22 | Dispositivo de decodificacion con una unidad de decorrelacion. |
Country Status (11)
Country | Link |
---|---|
US (3) | US8340302B2 (es) |
EP (2) | EP1881486B1 (es) |
JP (3) | JP4714416B2 (es) |
KR (2) | KR101016982B1 (es) |
CN (1) | CN1307612C (es) |
AT (2) | ATE426235T1 (es) |
AU (1) | AU2003219426A1 (es) |
BR (2) | BRPI0304540B1 (es) |
DE (2) | DE60326782D1 (es) |
ES (2) | ES2323294T3 (es) |
WO (1) | WO2003090208A1 (es) |
Families Citing this family (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
AU2003216682A1 (en) * | 2002-04-22 | 2003-11-03 | Koninklijke Philips Electronics N.V. | Signal synthesizing |
ES2323294T3 (es) * | 2002-04-22 | 2009-07-10 | Koninklijke Philips Electronics N.V. | Dispositivo de decodificacion con una unidad de decorrelacion. |
ES2355240T3 (es) | 2003-03-17 | 2011-03-24 | Koninklijke Philips Electronics N.V. | Procesamiento de señales de múltiples canales. |
FR2853804A1 (fr) * | 2003-07-11 | 2004-10-15 | France Telecom | Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant |
KR20060083202A (ko) * | 2003-09-05 | 2006-07-20 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 낮은 비트율 오디오 인코딩 |
US7725324B2 (en) | 2003-12-19 | 2010-05-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Constrained filter encoding of polyphonic signals |
CN1922654A (zh) * | 2004-02-17 | 2007-02-28 | 皇家飞利浦电子股份有限公司 | 音频分发系统、音频编码器、音频解码器及其操作方法 |
DE102004009628A1 (de) * | 2004-02-27 | 2005-10-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Beschreiben einer Audio-CD und Audio-CD |
WO2005086139A1 (en) * | 2004-03-01 | 2005-09-15 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
CA2808226C (en) * | 2004-03-01 | 2016-07-19 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
US7805313B2 (en) | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
WO2005098824A1 (en) * | 2004-04-05 | 2005-10-20 | Koninklijke Philips Electronics N.V. | Multi-channel encoder |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
EP1600791B1 (en) * | 2004-05-26 | 2009-04-01 | Honda Research Institute Europe GmbH | Sound source localization based on binaural signals |
US7756713B2 (en) | 2004-07-02 | 2010-07-13 | Panasonic Corporation | Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information |
KR100663729B1 (ko) | 2004-07-09 | 2007-01-02 | 한국전자통신연구원 | 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치 |
EP1779385B1 (en) * | 2004-07-09 | 2010-09-22 | Electronics and Telecommunications Research Institute | Method and apparatus for encoding and decoding multi-channel audio signal using virtual source location information |
KR100773539B1 (ko) * | 2004-07-14 | 2007-11-05 | 삼성전자주식회사 | 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치 |
US7508947B2 (en) * | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
KR100658222B1 (ko) * | 2004-08-09 | 2006-12-15 | 한국전자통신연구원 | 3차원 디지털 멀티미디어 방송 시스템 |
TWI393121B (zh) | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
TWI498882B (zh) | 2004-08-25 | 2015-09-01 | Dolby Lab Licensing Corp | 音訊解碼器 |
KR20070051864A (ko) | 2004-08-26 | 2007-05-18 | 마츠시타 덴끼 산교 가부시키가이샤 | 멀티 채널 신호 부호화 장치 및 멀티 채널 신호 복호 장치 |
JP4936894B2 (ja) | 2004-08-27 | 2012-05-23 | パナソニック株式会社 | オーディオデコーダ、方法及びプログラム |
WO2006022190A1 (ja) * | 2004-08-27 | 2006-03-02 | Matsushita Electric Industrial Co., Ltd. | オーディオエンコーダ |
KR20070056081A (ko) | 2004-08-31 | 2007-05-31 | 마츠시타 덴끼 산교 가부시키가이샤 | 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법 |
DE102004042819A1 (de) | 2004-09-03 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals |
KR101158709B1 (ko) * | 2004-09-06 | 2012-06-22 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호 강화 |
DE102004043521A1 (de) * | 2004-09-08 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes |
WO2006030754A1 (ja) * | 2004-09-17 | 2006-03-23 | Matsushita Electric Industrial Co., Ltd. | オーディオ符号化装置、復号化装置、方法、及びプログラム |
JP2006100869A (ja) * | 2004-09-28 | 2006-04-13 | Sony Corp | 音声信号処理装置および音声信号処理方法 |
US8204261B2 (en) | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
BRPI0518278B1 (pt) | 2004-10-26 | 2018-04-24 | Dolby Laboratories Licensing Corporation | Método e aparelho para controlar uma característica de sonoridade particular de um sinal de áudio |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
JP5017121B2 (ja) * | 2004-11-30 | 2012-09-05 | アギア システムズ インコーポレーテッド | 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化 |
WO2006060279A1 (en) * | 2004-11-30 | 2006-06-08 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
US7787631B2 (en) | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
BRPI0516658A (pt) * | 2004-11-30 | 2008-09-16 | Matsushita Electric Ind Co Ltd | aparelho de codificação de estéreo, aparelho de decodificação de estéreo e seus métodos |
KR100657916B1 (ko) | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
KR100682904B1 (ko) | 2004-12-01 | 2007-02-15 | 삼성전자주식회사 | 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법 |
DE602005017660D1 (de) | 2004-12-28 | 2009-12-24 | Panasonic Corp | Audiokodierungsvorrichtung und audiokodierungsmethode |
EP1818910A4 (en) * | 2004-12-28 | 2009-11-25 | Panasonic Corp | SCALABLE CODING DEVICE AND SCALABLE CODING METHOD |
US7903824B2 (en) | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
EP1691348A1 (en) | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
US9626973B2 (en) | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
JP4887288B2 (ja) * | 2005-03-25 | 2012-02-29 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
EP1866911B1 (en) * | 2005-03-30 | 2010-06-09 | Koninklijke Philips Electronics N.V. | Scalable multi-channel audio coding |
KR101271069B1 (ko) | 2005-03-30 | 2013-06-04 | 돌비 인터네셔널 에이비 | 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법 |
US7751572B2 (en) | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
WO2006121101A1 (ja) * | 2005-05-13 | 2006-11-16 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置およびスペクトル変形方法 |
CN101185117B (zh) * | 2005-05-26 | 2012-09-26 | Lg电子株式会社 | 解码音频信号的方法和装置 |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
EP1905002B1 (en) * | 2005-05-26 | 2013-05-22 | LG Electronics Inc. | Method and apparatus for decoding audio signal |
CA2610430C (en) * | 2005-06-03 | 2016-02-23 | Dolby Laboratories Licensing Corporation | Channel reconfiguration with side information |
US20080212784A1 (en) * | 2005-07-06 | 2008-09-04 | Koninklijke Philips Electronics, N.V. | Parametric Multi-Channel Decoding |
US8050915B2 (en) | 2005-07-11 | 2011-11-01 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signals using hierarchical block switching and linear prediction coding |
US8626503B2 (en) | 2005-07-14 | 2014-01-07 | Erik Gosuinus Petrus Schuijers | Audio encoding and decoding |
WO2007007263A2 (en) * | 2005-07-14 | 2007-01-18 | Koninklijke Philips Electronics N.V. | Audio encoding and decoding |
EP1905034B1 (en) * | 2005-07-19 | 2011-06-01 | Electronics and Telecommunications Research Institute | Virtual source location information based channel level difference quantization and dequantization |
KR100755471B1 (ko) * | 2005-07-19 | 2007-09-05 | 한국전자통신연구원 | 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법 |
PL1905006T3 (pl) * | 2005-07-19 | 2014-02-28 | Koninl Philips Electronics Nv | Generowanie wielokanałowych sygnałów audio |
US7706905B2 (en) | 2005-07-29 | 2010-04-27 | Lg Electronics Inc. | Method for processing audio signal |
KR100857102B1 (ko) * | 2005-07-29 | 2008-09-08 | 엘지전자 주식회사 | 인코딩된 오디오 신호 생성 및 처리 방법 |
TWI396188B (zh) | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
KR20070025905A (ko) * | 2005-08-30 | 2007-03-08 | 엘지전자 주식회사 | 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법 |
WO2007027056A1 (en) | 2005-08-30 | 2007-03-08 | Lg Electronics Inc. | A method for decoding an audio signal |
WO2007026763A1 (ja) * | 2005-08-31 | 2007-03-08 | Matsushita Electric Industrial Co., Ltd. | ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法 |
WO2007029412A1 (ja) * | 2005-09-01 | 2007-03-15 | Matsushita Electric Industrial Co., Ltd. | マルチチャンネル音響信号処理装置 |
EP1946295B1 (en) | 2005-09-14 | 2013-11-06 | LG Electronics Inc. | Method and apparatus for decoding an audio signal |
CN101351839B (zh) * | 2005-09-14 | 2012-07-04 | Lg电子株式会社 | 解码音频信号的方法和装置 |
EP1943642A4 (en) * | 2005-09-27 | 2009-07-01 | Lg Electronics Inc | METHOD AND DEVICE FOR CODING / DECODING A MULTI-CHANNEL AUDIO SIGNAL |
CN101427307B (zh) * | 2005-09-27 | 2012-03-07 | Lg电子株式会社 | 编码/解码多声道音频信号的方法和装置 |
WO2007043844A1 (en) | 2005-10-13 | 2007-04-19 | Lg Electronics Inc. | Method and apparatus for processing a signal |
EP1946307A4 (en) * | 2005-10-13 | 2010-01-06 | Lg Electronics Inc | METHOD AND DEVICE FOR SIGNAL PROCESSING |
WO2007046659A1 (en) | 2005-10-20 | 2007-04-26 | Lg Electronics Inc. | Method for encoding and decoding multi-channel audio signal and apparatus thereof |
CN101297353B (zh) * | 2005-10-26 | 2013-03-13 | Lg电子株式会社 | 编码和解码多声道音频信号的方法及其装置 |
US7760886B2 (en) * | 2005-12-20 | 2010-07-20 | Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. | Apparatus and method for synthesizing three output channels using two input channels |
WO2007080211A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
JP4944902B2 (ja) * | 2006-01-09 | 2012-06-06 | ノキア コーポレイション | バイノーラルオーディオ信号の復号制御 |
DE602006001051T2 (de) * | 2006-01-09 | 2009-07-02 | Honda Research Institute Europe Gmbh | Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen |
KR101366291B1 (ko) | 2006-01-19 | 2014-02-21 | 엘지전자 주식회사 | 신호 디코딩 방법 및 장치 |
WO2007088853A1 (ja) * | 2006-01-31 | 2007-08-09 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
CN102693727B (zh) | 2006-02-03 | 2015-06-10 | 韩国电子通信研究院 | 用于控制音频信号的渲染的方法 |
WO2007091850A1 (en) | 2006-02-07 | 2007-08-16 | Lg Electronics Inc. | Apparatus and method for encoding/decoding signal |
CN101385077B (zh) * | 2006-02-07 | 2012-04-11 | Lg电子株式会社 | 用于编码/解码信号的装置和方法 |
BRPI0706488A2 (pt) | 2006-02-23 | 2011-03-29 | Lg Electronics Inc | método e aparelho para processar sinal de áudio |
US7965848B2 (en) * | 2006-03-29 | 2011-06-21 | Dolby International Ab | Reduced number of channels decoding |
JP2009532712A (ja) | 2006-03-30 | 2009-09-10 | エルジー エレクトロニクス インコーポレイティド | メディア信号処理方法及び装置 |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
KR101200615B1 (ko) | 2006-04-27 | 2012-11-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어 |
EP1853092B1 (en) | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
EP1862813A1 (en) * | 2006-05-31 | 2007-12-05 | Honda Research Institute Europe GmbH | A method for estimating the position of a sound source for online calibration of auditory cue to location transformations |
US8150702B2 (en) | 2006-08-04 | 2012-04-03 | Panasonic Corporation | Stereo audio encoding device, stereo audio decoding device, and method thereof |
US20080235006A1 (en) | 2006-08-18 | 2008-09-25 | Lg Electronics, Inc. | Method and Apparatus for Decoding an Audio Signal |
RU2551797C2 (ru) | 2006-09-29 | 2015-05-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов |
CN101479786B (zh) * | 2006-09-29 | 2012-10-17 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
CN101529898B (zh) * | 2006-10-12 | 2014-09-17 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
WO2008051347A2 (en) | 2006-10-20 | 2008-05-02 | Dolby Laboratories Licensing Corporation | Audio dynamics processing using a reset |
JP4838361B2 (ja) | 2006-11-15 | 2011-12-14 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及びその装置 |
CA2670864C (en) | 2006-12-07 | 2015-09-29 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
WO2008069584A2 (en) | 2006-12-07 | 2008-06-12 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
US8553891B2 (en) | 2007-02-06 | 2013-10-08 | Koninklijke Philips N.V. | Low complexity parametric stereo decoder |
EP2111618A4 (en) * | 2007-02-13 | 2010-04-21 | Lg Electronics Inc | METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL |
AU2008215231B2 (en) | 2007-02-14 | 2010-02-18 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
JP4277234B2 (ja) * | 2007-03-13 | 2009-06-10 | ソニー株式会社 | データ復元装置、データ復元方法及びデータ復元プログラム |
JP2010521866A (ja) * | 2007-03-16 | 2010-06-24 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
KR101453732B1 (ko) * | 2007-04-16 | 2014-10-24 | 삼성전자주식회사 | 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치 |
JP5291096B2 (ja) * | 2007-06-08 | 2013-09-18 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
CN102436822B (zh) * | 2007-06-27 | 2015-03-25 | 日本电气株式会社 | 信号控制装置及其方法 |
CN101802907B (zh) * | 2007-09-19 | 2013-11-13 | 爱立信电话股份有限公司 | 多信道音频的联合增强 |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
KR101464977B1 (ko) * | 2007-10-01 | 2014-11-25 | 삼성전자주식회사 | 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치 |
MX2010004138A (es) * | 2007-10-17 | 2010-04-30 | Ten Forschung Ev Fraunhofer | Codificacion de audio usando conversion de estereo a multicanal. |
US8315398B2 (en) | 2007-12-21 | 2012-11-20 | Dts Llc | System for adjusting perceived loudness of audio signals |
KR20090110244A (ko) * | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치 |
JP5309944B2 (ja) * | 2008-12-11 | 2013-10-09 | 富士通株式会社 | オーディオ復号装置、方法、及びプログラム |
EP2214162A1 (en) | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upmixer, method and computer program for upmixing a downmix audio signal |
BRPI1004215B1 (pt) | 2009-04-08 | 2021-08-17 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Aparelho e método para upmixagem de sinal de áudio downmix utilizando uma atenuação de valor de fase |
ES2524428T3 (es) * | 2009-06-24 | 2014-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
EP2489040A1 (fr) * | 2009-10-16 | 2012-08-22 | France Telecom | Decodage parametrique stereo optimise |
EP2489038B1 (en) * | 2009-11-20 | 2016-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
KR101341536B1 (ko) * | 2010-01-06 | 2013-12-16 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
JP5333257B2 (ja) | 2010-01-20 | 2013-11-06 | 富士通株式会社 | 符号化装置、符号化システムおよび符号化方法 |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
EP2532178A1 (en) * | 2010-02-02 | 2012-12-12 | Koninklijke Philips Electronics N.V. | Spatial sound reproduction |
CN102157152B (zh) * | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
CA2790956C (en) * | 2010-02-24 | 2017-01-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program |
US9628930B2 (en) * | 2010-04-08 | 2017-04-18 | City University Of Hong Kong | Audio spatial effect enhancement |
US9378754B1 (en) | 2010-04-28 | 2016-06-28 | Knowles Electronics, Llc | Adaptive spatial classifier for multi-microphone systems |
CN102314882B (zh) * | 2010-06-30 | 2012-10-17 | 华为技术有限公司 | 声音信号通道间延时估计的方法及装置 |
RU2573774C2 (ru) * | 2010-08-25 | 2016-01-27 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство для декодирования сигнала, содержащего переходные процессы, используя блок объединения и микшер |
KR101697550B1 (ko) * | 2010-09-16 | 2017-02-02 | 삼성전자주식회사 | 멀티채널 오디오 대역폭 확장 장치 및 방법 |
JP5775637B2 (ja) | 2011-08-04 | 2015-09-09 | ドルビー・インターナショナル・アーベー | パラメトリック・ステレオを使った改善されたfmステレオ電波受信機 |
KR101816506B1 (ko) | 2012-02-23 | 2018-01-09 | 돌비 인터네셔널 에이비 | 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들 |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US9516446B2 (en) | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
US9761229B2 (en) * | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
EP2717265A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding |
US10219093B2 (en) * | 2013-03-14 | 2019-02-26 | Michael Luna | Mono-spatial audio processing to provide spatial messaging |
WO2014151092A1 (en) * | 2013-03-15 | 2014-09-25 | Dts, Inc. | Automatic multi-channel music mix from multiple audio stems |
KR20230020553A (ko) | 2013-04-05 | 2023-02-10 | 돌비 인터네셔널 에이비 | 스테레오 오디오 인코더 및 디코더 |
EP2987166A4 (en) * | 2013-04-15 | 2016-12-21 | Nokia Technologies Oy | BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE |
TWI579831B (zh) | 2013-09-12 | 2017-04-21 | 杜比國際公司 | 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統 |
MX354832B (es) | 2013-10-21 | 2018-03-21 | Dolby Int Ab | Estructura de decorrelador para la reconstruccion parametrica de señales de audio. |
EP2963649A1 (en) * | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor and method for processing an audio signal using horizontal phase correction |
WO2016025812A1 (en) | 2014-08-14 | 2016-02-18 | Rensselaer Polytechnic Institute | Binaurally integrated cross-correlation auto-correlation mechanism |
FR3048808A1 (fr) * | 2016-03-10 | 2017-09-15 | Orange | Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal |
US10224042B2 (en) * | 2016-10-31 | 2019-03-05 | Qualcomm Incorporated | Encoding of multiple audio signals |
CN109215667B (zh) | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
WO2019091575A1 (en) * | 2017-11-10 | 2019-05-16 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8901032A (nl) * | 1988-11-10 | 1990-06-01 | Philips Nv | Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting. |
JPH0454100A (ja) * | 1990-06-22 | 1992-02-21 | Clarion Co Ltd | 音声信号補償回路 |
GB2252002B (en) * | 1991-01-11 | 1995-01-04 | Sony Broadcast & Communication | Compression of video signals |
NL9100173A (nl) * | 1991-02-01 | 1992-09-01 | Philips Nv | Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting. |
GB2258781B (en) * | 1991-08-13 | 1995-05-03 | Sony Broadcast & Communication | Data compression |
FR2688371B1 (fr) * | 1992-03-03 | 1997-05-23 | France Telecom | Procede et systeme de spatialisation artificielle de signaux audio-numeriques. |
JPH09274500A (ja) * | 1996-04-09 | 1997-10-21 | Matsushita Electric Ind Co Ltd | ディジタルオーディオ信号の符号化方法 |
DE19647399C1 (de) | 1996-11-15 | 1998-07-02 | Fraunhofer Ges Forschung | Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
GB9726338D0 (en) | 1997-12-13 | 1998-02-11 | Central Research Lab Ltd | A method of processing an audio signal |
US6016473A (en) * | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
GB2353926B (en) * | 1999-09-04 | 2003-10-29 | Central Research Lab Ltd | Method and apparatus for generating a second audio signal from a first audio signal |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
ES2323294T3 (es) * | 2002-04-22 | 2009-07-10 | Koninklijke Philips Electronics N.V. | Dispositivo de decodificacion con una unidad de decorrelacion. |
-
2003
- 2003-04-22 ES ES07119364T patent/ES2323294T3/es not_active Expired - Lifetime
- 2003-04-22 AU AU2003219426A patent/AU2003219426A1/en not_active Abandoned
- 2003-04-22 AT AT07119364T patent/ATE426235T1/de not_active IP Right Cessation
- 2003-04-22 EP EP20070119364 patent/EP1881486B1/en not_active Expired - Lifetime
- 2003-04-22 DE DE60326782T patent/DE60326782D1/de not_active Expired - Lifetime
- 2003-04-22 WO PCT/IB2003/001650 patent/WO2003090208A1/en active IP Right Grant
- 2003-04-22 DE DE2003618835 patent/DE60318835T2/de not_active Expired - Lifetime
- 2003-04-22 BR BRPI0304540-4A patent/BRPI0304540B1/pt unknown
- 2003-04-22 ES ES03715237T patent/ES2300567T3/es not_active Expired - Lifetime
- 2003-04-22 KR KR1020107004625A patent/KR101016982B1/ko active IP Right Grant
- 2003-04-22 BR BR0304540A patent/BR0304540A/pt active IP Right Grant
- 2003-04-22 AT AT03715237T patent/ATE385025T1/de not_active IP Right Cessation
- 2003-04-22 KR KR1020047017073A patent/KR100978018B1/ko active IP Right Grant
- 2003-04-22 US US10/511,807 patent/US8340302B2/en active Active
- 2003-04-22 CN CNB038089084A patent/CN1307612C/zh not_active Expired - Lifetime
- 2003-04-22 JP JP2003586873A patent/JP4714416B2/ja not_active Expired - Lifetime
- 2003-04-22 EP EP20030715237 patent/EP1500084B1/en not_active Expired - Lifetime
-
2009
- 2009-07-27 US US12/509,529 patent/US8331572B2/en active Active
- 2009-08-17 JP JP2009188196A patent/JP5101579B2/ja not_active Expired - Lifetime
-
2012
- 2012-04-03 JP JP2012084531A patent/JP5498525B2/ja not_active Expired - Lifetime
- 2012-11-13 US US13/675,283 patent/US9137603B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
WO2003090208A1 (en) | 2003-10-30 |
JP2012161087A (ja) | 2012-08-23 |
KR101016982B1 (ko) | 2011-02-28 |
EP1881486B1 (en) | 2009-03-18 |
CN1307612C (zh) | 2007-03-28 |
US8331572B2 (en) | 2012-12-11 |
KR20040102164A (ko) | 2004-12-03 |
BRPI0304540B1 (pt) | 2017-12-12 |
JP5498525B2 (ja) | 2014-05-21 |
JP5101579B2 (ja) | 2012-12-19 |
DE60326782D1 (de) | 2009-04-30 |
KR100978018B1 (ko) | 2010-08-25 |
US8340302B2 (en) | 2012-12-25 |
US20130094654A1 (en) | 2013-04-18 |
KR20100039433A (ko) | 2010-04-15 |
JP2005523480A (ja) | 2005-08-04 |
JP2009271554A (ja) | 2009-11-19 |
US20080170711A1 (en) | 2008-07-17 |
ATE426235T1 (de) | 2009-04-15 |
DE60318835D1 (de) | 2008-03-13 |
ES2323294T3 (es) | 2009-07-10 |
EP1881486A1 (en) | 2008-01-23 |
AU2003219426A1 (en) | 2003-11-03 |
CN1647155A (zh) | 2005-07-27 |
US9137603B2 (en) | 2015-09-15 |
BR0304540A (pt) | 2004-07-20 |
ATE385025T1 (de) | 2008-02-15 |
DE60318835T2 (de) | 2009-01-22 |
US20090287495A1 (en) | 2009-11-19 |
EP1500084A1 (en) | 2005-01-26 |
EP1500084B1 (en) | 2008-01-23 |
JP4714416B2 (ja) | 2011-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2300567T3 (es) | Representacion parametrica de audio espacial. | |
KR101021076B1 (ko) | 신호 합성 | |
ES2316678T3 (es) | Codificacion y descodificacion audio multicanal. | |
ES2682073T3 (es) | Codificación conjunta paramétrica de fuentes de audio | |
US7542896B2 (en) | Audio coding/decoding with spatial parameters and non-uniform segmentation for transients | |
EP0519055B2 (en) | Decoder for variable-number of channel presentation of multidimensional sound fields | |
RU2376655C2 (ru) | Зависящее от энергии квантование для эффективного кодирования пространственных параметров звука | |
NO344093B1 (no) | Kompatibel flerkanal-koding/dekoding. | |
US20120134511A1 (en) | Multichannel audio coder and decoder | |
EP1606797A1 (en) | Processing of multi-channel signals | |
US9311925B2 (en) | Method, apparatus and computer program for processing multi-channel signals | |
Bosi | MPEG audio compression basics | |
KR100891668B1 (ko) | 믹스 신호 처리 방법 및 장치 |