ES2323294T3 - Dispositivo de decodificacion con una unidad de decorrelacion. - Google Patents
Dispositivo de decodificacion con una unidad de decorrelacion. Download PDFInfo
- Publication number
- ES2323294T3 ES2323294T3 ES07119364T ES07119364T ES2323294T3 ES 2323294 T3 ES2323294 T3 ES 2323294T3 ES 07119364 T ES07119364 T ES 07119364T ES 07119364 T ES07119364 T ES 07119364T ES 2323294 T3 ES2323294 T3 ES 2323294T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- digital
- sub
- parameter
- composite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 60
- 230000005540 biological transmission Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000005314 correlation function Methods 0.000 claims description 13
- 230000001419 dependent effect Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims 26
- 150000001875 compounds Chemical class 0.000 claims 2
- 230000009467 reduction Effects 0.000 abstract description 5
- 238000000034 method Methods 0.000 description 34
- 230000000875 corresponding effect Effects 0.000 description 33
- 238000011002 quantification Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 22
- 230000004044 response Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 208000029523 Interstitial Lung disease Diseases 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000008447 perception Effects 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
Aparato de decodificación para decodificar una señal de audio digital codificada que comprende al menos una primera y una segunda componente de señal de audio digital, que se han codificado a una señal (X) digital compuesta y una señal (P) de parámetro, comprendiendo el aparato de decodificación: - una unidad (210) de entrada para recibir una señal de transmisión, - una unidad (210) de demultiplexor para recuperar la señal digital compuesta y la señal de parámetro a partir de la señal de transmisión, - una unidad (401) de decorrelador para generar a partir de la señal digital compuesta una versión decorrelacionada de la señal digital compuesta, - una unidad (403) de matrizado para recibir la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta y generar a partir de las mismas una réplica de la primera y segunda componente de señal de audio digital, - siendo la réplica de la primera componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro, - siendo la réplica de la segunda componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro.
Description
Dispositivo de decodificacion con una unidad de
decorrelación.
Esta invención se refiere a la decodificación de
señales de audio y, más en particular, a la decodificación de
señales de audio multicanal.
Dentro del campo de la codificación de audio se
desea en general codificar una señal de audio, por ejemplo para
reducir la tasa de transmisión de bits para comunicar la señal, o el
requisito de almacenamiento para almacenar la señal, sin
comprometer en exceso la calidad de percepción de la señal de audio.
Este es un problema importante cuando las señales de audio van a
transmitirse a través de canales de comunicaciones de capacidad
limitada o cuando van a almacenarse en un medio de almacenamiento
que tiene una capacidad limitada.
Las soluciones anteriores en codificadores de
audio que se han sugerido para reducir la tasa de transmisión de
bits de material de programa estéreo incluyen:
"Estéreo intensivo". En este
algoritmo, se representan altas frecuencias (normalmente por encima
de 5 kHz) mediante una única señal de audio (por ejemplo, mono),
combinada con factores de escala variables en el tiempo y
dependientes de la frecuencia.
"Estéreo M/S". En este algoritmo, la
señal se descompone en una señal suma (o media, o común) y una señal
diferencia (o lado, o no común). Esta descomposición se combina a
veces con análisis de componentes principales o factores de escala
variables en el tiempo. Estas señales se codifican entonces de forma
independiente, o bien mediante un codificador de transformada o
codificador de forma de onda. La cantidad de reducción de
información lograda por este algoritmo depende en gran medida de
las propiedades espaciales de la señal de fuente. Por ejemplo, si
la señal de fuente es monoaural, la señal diferencia es cero y puede
descartarse. Sin embargo, si la correlación de las señales de audio
izquierda y derecha es baja (que es el caso más frecuente), este
esquema supone sólo cierta ventaja.
Las descripciones paramétricas de señales de
audio han cobrado interés durante los últimos años, en especial en
el campo de la codificación de audio. Se ha mostrado que transmitir
parámetros (cuantificados) que describen señales de audio requiere
sólo poca capacidad de transmisión para resintetizar una señal
perceptiblemente igual en el extremo de recepción. Sin embargo, los
codificadores de audio paramétricos actuales se centran en la
codificación de señales monoaurales, y las señales estéreo se
procesan con frecuencia como mono dual.
La solicitud de patente europea EP 1 107 232 da
a conocer un procedimiento de codificación de una señal estéreo que
tiene una componente L y una R, en la que la señal estéreo se
representa por una de las componentes estéreo y fase de captura de
información paramétrica y diferencias de nivel de la señal de audio.
En el decodificador, la otra componente estéreo se recupera
basándose en la componente estéreo codificada y la información
paramétrica.
El documento
GB-A-2353926 da a conocer la
creación de un par de señales decorrelacionadas con filtros en peine
complementarios.
Un objeto de la presente invención es resolver
el problema de proporcionar una decodificación de audio mejorada
que produzca una alta calidad de percepción de la señal
recuperada.
Según la invención, se proporciona un aparato de
decodificación tal como se expone en la reivindicación 1. En las
reivindicaciones dependientes se exponen realizaciones
preferidas.
A modo de ejemplo, existe un procedimiento de
codificación de una señal de audio, comprendiendo el
procedimiento:
- generar una señal monoaural que comprende una
combinación de al menos dos canales de audio de entrada,
- determinar un conjunto de parámetros
espaciales indicativo de propiedades espaciales de los al menos dos
canales de audio de entrada, incluyendo el conjunto de parámetros
espaciales un parámetro que representa una medida de similitud de
formas de onda de los al menos dos canales de audio de entrada,
y
- generar una señal codificada que comprende la
señal monoaural y el conjunto de parámetros espaciales.
El inventor ha observado que codificando una
señal de audio multicanal como una señal de audio monoaural y un
número de atributos espaciales que comprenden una medida de
similitud de las formas de onda correspondientes, puede recuperarse
la señal multicanal con una alta calidad de percepción. Una ventaja
adicional del ejemplo es que proporciona una codificación eficaz de
una señal multicanal, es decir una señal que comprende al menos un
primer y segundo canal, por ejemplo una señal estéreo, una señal
cuadrafónica, etc.
Por lo tanto, según un aspecto del ejemplo, se
parametrizan atributos espaciales de señales de audio
multicanal. Para aplicaciones generales de codificación de audio,
transmitir estos parámetros combinados con sólo una señal de
audio monoaural reduce en gran medida la capacidad de transmisión
necesaria para transmitir la señal estéreo en comparación con
codificadores de audio que procesan los canales de forma
independiente, mientras se mantiene la impresión espacial original.
Un problema importante es que aunque las personas reciben formas de
onda de un objeto auditivo dos veces (una vez por el oído izquierdo
y una vez por el oído derecho), sólo se percibe un único objeto
auditivo en una posición determinada y con un tamaño determinado (o
dispersión espacial).
Por tanto, parece innecesario describir señales
de audio como dos o más formas de onda (independientes) y sería
mejor describir el audio multicanal como un conjunto de objetos
auditivos, cada uno con sus propiedades espaciales propias. Una
dificultad que surge inmediatamente es el hecho de que es casi
imposible separar de forma automática objetos auditivos
individuales a partir de un conjunto dado de objetos auditivos, por
ejemplo una grabación musical. Este problema puede evitarse no
dividiendo el material de programa en objetos auditivos
individuales, sino describiendo en su lugar los parámetros
espaciales de forma que se parezca al procesamiento efectivo
(periférico) del sistema auditivo. Cuando los atributos espaciales
comprenden una medida de (di)similitud de las formas de onda
correspondientes, se logra una codificación eficaz al tiempo que se
mantiene un nivel de calidad de percepción alto.
En particular, la descripción paramétrica de
audio multicanal presentada en este caso está relacionada con el
modelo de procesamiento binaural presentado por Breebaart et
al. Este modelo tiene por objeto describir el procesamiento de
señal eficaz del sistema auditivo binaural. Para una descripción del
modelo de procesamiento binaural por Breebaart et al., véase
Breebaart, J., van de Par, S. y Kohlrausch, A. (2001a). Binaural
processing model based on contralateral inhibition. I. Model
setup. J. Acoust. Soc. Am., 110, 1074-1088;
Breebaart, J., van de Par, S. y Kohlrausch, A. (2001b). Binaural
processing model based on contralateral inhibition. II. Dependence
on spectral parameters. J. Acoust. Soc. Am., 110,
1089-1104; y Breebaart, J., van de Par, S. y
Kohlrausch, A. (2001c). Binaural processing model based on
contralateral inhibition. III. Dependence on temporal parameters.
J. Acoust. Soc. Am., 110, 1105-1117. A
continuación se da una interpretación resumida que ayuda a
comprender el ejemplo.
En un ejemplo preferido, el conjunto de
parámetros espaciales incluye al menos una indicación de
localización. Cuando los atributos espaciales comprenden una o más,
preferiblemente dos, indicaciones de localización así como una
medida de (di)similitud de las formas de onda
correspondientes, se logra una codificación particularmente eficaz
al tiempo que se mantiene un nivel de calidad de percepción
particularmente alto.
El término indicación de localización comprende
cualquier parámetro adecuado que incluye información acerca de la
localización de objetos auditivos que contribuyen a la señal de
audio, por ejemplo la orientación de y/o la distancia a un objeto
auditivo.
En un ejemplo preferido, el conjunto de
parámetros espaciales incluye al menos dos indicaciones de
localización que comprenden una diferencia de nivel entre canales
(interchannel level difference, ILD) y una seleccionada de
una diferencia de tiempo entre canales (interchannel time
difference, ITD) y una diferencia de fase entre canales
(interchannel phase difference, IPD). Es interesante
mencionar que la diferencia de nivel entre canales y la diferencia
de tiempo entre canales se consideran como las indicaciones de
localización más importantes en el plano
horizontal.
horizontal.
La medida de similitud de las formas de onda
correspondientes al primer y segundo canales de audio puede ser
cualquier función adecuada que describa cómo de similares o
disimilares son las formas de onda correspondientes. Por lo tanto,
la medida de similitud puede ser una función de similitud creciente,
por ejemplo un parámetro determinado a partir de la (función de)
correlación cruzada entre canales.
Según un ejemplo preferido, la medida de
similitud corresponde a un valor de una función de correlación
cruzada en un máximo de dicha función de correlación cruzada
(también conocida como coherencia). La máxima correlación cruzada
entre canales está relacionada en gran medida con la dispersión
espacial de percepción (o compacidad) de una fuente de sonido,
es decir proporciona información adicional que no se tiene en
cuenta por las indicaciones de localización anteriores,
proporcionando así un conjunto de parámetros con un bajo grado de
redundancia de la información que incluyen y, por tanto,
proporcionando una codificación eficaz.
Se observa que, de forma alternativa, pueden
usarse otras medidas de similitud, por ejemplo una función creciente
con la disimilitud de las formas de onda. Un ejemplo de una función
de este tipo es 1-c, donde c es una correlación
cruzada que puede asumir valores entre 0 y 1.
Según un ejemplo preferido, la etapa de
determinar un conjunto de parámetros espaciales indicativos de
propiedades espaciales comprende determinar un conjunto de
parámetros espaciales en función del tiempo y la frecuencia.
Los inventores saben que es suficiente para
describir atributos espaciales de cualquier señal de audio
multicanal, especificar la ILD, ITD (o IPD) y la máxima correlación
en función del tiempo y la frecuencia.
\global\parskip0.930000\baselineskip
En un ejemplo preferido adicional, la etapa de
determinar un conjunto de parámetros espaciales indicativos de
propiedades espaciales comprende
- dividir cada uno de los al menos dos canales
de audio de entrada en pluralidades de bandas de frecuencia
correspondientes;
- para cada una de la pluralidad de bandas de
frecuencia determinar el conjunto de parámetros espaciales
indicativos de propiedades espaciales de los al menos dos canales
de audio de entrada dentro de la banda de frecuencia
correspondiente.
Por lo tanto, la señal de audio entrante se
divide en varias señales limitadas por banda, que están
(preferiblemente) separadas linealmente en una escala de tasa de
transmisión ERB. Preferiblemente los filtros de análisis muestran
una superposición parcial en el dominio de la frecuencia y/o del
tiempo. El ancho de banda de estas señales depende de la frecuencia
central, siguiendo la tasa de transmisión ERB. Posteriormente,
preferiblemente para cada banda de frecuencia, se analizan
las siguientes propiedades de las señales entrantes:
- la diferencia de nivel entre canales, o ILD,
definida por los niveles relativos de la señal limitada por banda
procedente de las señales izquierda y derecha,
- la diferencia de tiempo (o de fase) entre
canales (ITD o IPD), definida por el retardo entre canales (o
desplazamiento de fase) correspondiente a la posición del pico en la
función de correlación cruzada entre canales, y
- la (di)similitud de las formas de onda
que no puede tenerse en cuenta por las ITD o las ILD, que puede
parametrizarse por la máxima correlación cruzada entre
canales (es decir, el valor de la función de correlación cruzada
normalizada en la posición del pico máximo, también conocida como
coherencia).
Los tres parámetros descritos anteriormente
varían con el tiempo; sin embargo, puesto que el sistema auditivo
binaural es muy lento en su procesamiento, la tasa de actualización
de estas propiedades es bastante baja (normalmente decenas de
milisegundos).
Puede asumirse en este caso que las propiedades
(lentamente) variables en el tiempo mencionadas anteriormente son
las únicas propiedades de señal espacial de las que dispone
el sistema auditivo binaural, y que a partir de estos parámetros
dependientes de tiempo y frecuencia, el mundo auditivo percibido se
reconstruye por niveles más altos del sistema auditivo.
Un ejemplo tiene por objeto describir una señal
de audio multicanal mediante:
una señal monoaural, que consiste en una
combinación determinada de las señales de entrada, y
un conjunto de parámetros espaciales: dos
indicaciones de localización (ILD, e ITD o IPD) y un parámetro que
describe la similitud o disimilitud de las formas de onda que no
pueden tenerse en cuenta por las ILD y/o las ITD (por ejemplo, el
máximo de la función de correlación cruzada) preferiblemente para
cada ranura de tiempo/frecuencia. Preferiblemente, se incluyen
parámetros espaciales para cada canal auditivo adicional.
Un problema importante de la transmisión de
parámetros es la precisión de la representación de parámetros (es
decir, el tamaño de los errores de cuantificación), que está
directamente relacionado con la capacidad de transmisión
necesaria.
Según otro ejemplo más, la etapa de generar una
señal codificada que comprende la señal monoaural y el conjunto de
parámetros espaciales comprende generar un conjunto de parámetros
espaciales cuantificados, introduciendo cada uno un error de
cuantificación correspondiente relativo al parámetro espacial
determinado correspondiente, en el que al menos uno de los errores
de cuantificación introducidos se controla para depender de un valor
de al menos uno de los parámetros espaciales determinados.
Por lo tanto, el error de cuantificación
introducido por la cuantificación de los parámetros se controla
según la sensibilidad del sistema auditivo humano a los cambios en
estos parámetros. Esta sensibilidad depende en gran medida de los
valores de los propios parámetros. De este modo, controlando el
error de cuantificación para que dependa de los valores de los
parámetros, se logra una codificación mejorada.
Una ventaja del ejemplo es que proporciona un
desacoplamiento de parámetros de señal monoaurales y binaurales en
codificadores de audio. Por consiguiente, las dificultades
relacionadas con codificadores de audio estéreo se reducen en gran
medida (tal como la audibilidad de ruido de cuantificación no
correlacionado interauralmente en comparación con ruido de
cuantificación correlacionado interauralmente, o inconsistencias de
fase interaural en codificadores paramétricos que están codificando
en modo mono dual).
Una ventaja adicional del ejemplo es que se
logra una gran reducción de la tasa de transmisión de bits en
codificadores de audio debido a una baja tasa de actualización y una
baja resolución de frecuencia requerida para los parámetros
espaciales. La tasa de transmisión de bits asociada para codificar
los parámetros espaciales es normalmente 10 kbit/s o menos (véase
la realización que se describe a continuación).
\global\parskip1.000000\baselineskip
Una ventaja adicional del ejemplo es que puede
combinarse fácilmente con codificadores de audio existentes. El
esquema propuesto produce una señal mono que puede codificarse y
decodificarse con cualquier estrategia de codificación existente.
Después de la decodificación monoaural, el sistema descrito en este
caso regenera una señal multicanal estéreo con los atributos
espaciales apropiados.
Puede usarse el conjunto de parámetros
espaciales como una capa de mejora en codificadores de audio. Por
ejemplo, una señal mono se transmite sólo si se permite una baja
tasa de transmisión de bits, mientras que incluyendo la capa de
mejora espacial el decodificador puede reproducir sonido
estéreo.
Se observa que el ejemplo no está limitado a
señales estéreo sino que puede aplicarse a cualquier señal
multicanal que comprenda n canales (n>1). En particular, el
ejemplo puede usarse para generar n canales a partir de una
señal mono, si se transmiten (n-1) conjuntos de parámetros
espaciales. En este caso, los parámetros espaciales describen cómo
formar los n canales de audio diferentes a partir de la única
señal mono.
El presente ejemplo puede implementarse de
diferentes formas incluyendo el procedimiento descrito anteriormente
y a continuación, un procedimiento de decodificación de una señal
de audio codificada, un codificador, un decodificador, y medios de
producción adicionales, produciendo cada uno, uno o más de los
beneficios y ventajas descritos en conexión con el procedimiento
mencionado en primer lugar, y teniendo cada uno, uno o más ejemplos
preferidos correspondientes a los ejemplos preferidos descritos en
conexión con el procedimiento mencionado en primer
lugar.
lugar.
Se observa que las características del
procedimiento descrito anteriormente y a continuación pueden
implementarse en software y llevarse a cabo en un sistema de
procesamiento de datos u otros medios de procesamiento producidos
por la ejecución de instrucciones ejecutables por ordenador. Las
instrucciones pueden ser medios de código de programa cargados en
una memoria, tal como una RAM, a partir de un medio de
almacenamiento o a partir de otro ordenador a través de una red
informática. De forma alternativa, las características descritas
pueden implementarse mediante circuitería cableada en lugar de en
software o en combinación con software.
El ejemplo se refiere además a un codificador
para la codificación de una señal de audio, comprendiendo el
codificador:
- medios para generar una señal monoaural que
comprende una combinación de al menos dos canales de audio de
entrada,
- medios para determinar un conjunto de
parámetros espaciales indicativos de propiedades espaciales de los
al menos dos canales de audio de entrada, incluyendo el conjunto de
parámetros espaciales un parámetro que representa una medida de
similitud de formas de onda de los al menos dos canales de audio de
entrada, y
- medios para generar una señal codificada que
comprende la señal monoaural y el conjunto de parámetros
espaciales.
Se observa que los medios anteriores para
generar una señal monoaural, los medios para determinar un conjunto
de parámetros espaciales así como los medios para generar una señal
codificada pueden implementarse mediante cualquier circuito o
dispositivo adecuado, por ejemplo como microprocesadores
programables de propósito general o especial, procesadores de señal
digital (Digital Signal Processors, DSP), circuitos
integrados de aplicación específica (Application Specific
Integrated Circuits, ASIC), disposiciones lógicas programables
(PLA, Programmable Logic Arrays), disposiciones de puertas
programables en campo (Field Programmable Gate Arrays,
FPGA), circuitos electrónicos de propósito especial, etc., o una
combinación de los mismos.
El ejemplo se refiere además a un aparato para
suministrar una señal de audio, comprendiendo el aparato:
- una entrada para recibir una señal de
audio,
- un codificador según se describió
anteriormente y a continuación para la codificación de la señal de
audio para obtener una señal de audio codificada, y
- una salida para suministrar la señal de audio
codificada.
El aparato puede ser cualquier equipo
electrónico o parte de tal equipo, tal como ordenadores fijos o
portátiles, equipos de radiocomunicación fijos o portátiles u otros
dispositivos de bolsillo o portátiles, tales como reproductores
multimedia, dispositivos de grabación, etc. El término equipo de
radiocomunicación portátil incluye todo equipo tal como teléfonos
móviles, buscapersonas, comunicadores, es decir organizadores
electrónicos, teléfonos inteligentes (smart phones),
asistentes digitales personales (personal digital assistant,
PDA), ordenadores de bolsillo, o similares.
La entrada puede comprender cualquier
circuitería o dispositivo adecuado para recibir una señal de audio
multicanal en forma analógica o digital, por ejemplo a través de
una conexión cableada, tal como una línea de jack, a través de una
conexión inalámbrica, por ejemplo una señal de radio, o en cualquier
otra forma adecuada.
De forma similar, la salida puede comprender
cualquier circuitería o dispositivo adecuado para suministrar la
señal codificada. Ejemplos de tales salidas incluyen una interfaz de
red para proporcionar la señal a una red informática, tal como una
LAN, Internet, o similares, circuitería de comunicaciones para
comunicar la señal a través de un canal de comunicaciones, por
ejemplo, un canal de comunicaciones inalámbricas, etc. En otras
realizaciones, la salida puede comprender un dispositivo para
almacenar una señal en un medio de almacenamiento.
El ejemplo se refiere además a una señal de
audio codificada, comprendiendo la señal:
- una señal monoaural que comprende una
combinación de al menos dos canales de audio, y
- un conjunto de parámetros espaciales
indicativos de propiedades espaciales de los al menos dos canales de
audio de entrada, incluyendo el conjunto de parámetros espaciales
un parámetro que representa una medida de similitud de formas de
onda de los al menos dos canales de audio de entrada.
El ejemplo se refiere además a un medio de
almacenamiento que tiene almacenado en el mismo una señal codificada
de este tipo. En este caso, el término medio de almacenamiento
comprende pero no está limitado a una cinta magnética, un disco
óptico, un disco de vídeo digital (DVD), un disco compacto (CD o
CD-ROM), un minidisc, un disco duro, un
disco flexible, una memoria ferroeléctrica, una memoria de sólo
lectura programable borrable eléctricamente (electrically
erasable programmable read only memory, EEPROM), una memoria
flash, una EPROM, una memoria de sólo lectura (read only
memory, ROM), una memoria de acceso aleatorio estática
(static random access memory, SRAM), una memoria de acceso
aleatorio dinámica (dynamic random access memory, DRAM), una
memoria de acceso aleatorio dinámica síncrona (synchronous
dynamic random access memory, SDRAM), una memoria
ferromagnética, almacenamiento óptico, dispositivos de carga
acoplada, tarjetas inteligentes, una tarjeta PCMCIA,
etc.
etc.
El ejemplo se refiere además a un procedimiento
de decodificación de una señal de audio codificada, comprendiendo
el procedimiento:
- obtener una señal monoaural a partir de la
señal de audio codificada, comprendiendo la señal monoaural una
combinación de al menos dos canales de audio,
- obtener un conjunto de parámetros espaciales a
partir de la señal de audio codificada, incluyendo el conjunto de
parámetros espaciales un parámetro que representa una medida de
similitud de formas de onda de los al menos dos canales de audio,
y
- generar una señal de salida multicanal a
partir de la señal monoaural y los parámetros espaciales.
El ejemplo se refiere además a un decodificador
para decodificar una señal de audio codificada, comprendiendo el
decodificador:
- medios para obtener una señal monoaural a
partir de la señal de audio codificada, comprendiendo la señal
monoaural una combinación de al menos dos canales de audio,
- medios para obtener un conjunto de parámetros
espaciales a partir de la señal de audio codificada, incluyendo el
conjunto de parámetros espaciales un parámetro que representa una
medida de similitud de formas de onda de los al menos dos canales
de audio, y
- medios para generar una señal de salida
multicanal a partir de la señal monoaural y los parámetros
espaciales.
Se observa que los medios anteriores pueden
implementarse mediante cualquier circuito o dispositivo adecuado,
por ejemplo como microprocesadores programables de propósito general
o especial, procesadores de señal digital (DSP), circuitos
integrados de aplicación específica (ASIC), disposiciones lógicas
programables (PLA), disposiciones de puertas programables en campo
(FPGA), circuitos electrónicos de propósito especial, etc., o una
combinación de los mismos.
El ejemplo se refiere además a un aparato para
suministrar una señal de audio decodificada, comprendiendo el
aparato:
- una entrada para recibir una señal de audio
codificada,
- un decodificador según se describió
anteriormente y a continuación para decodificar la señal de audio
codificada para obtener una señal de salida multicanal,
- una salida para suministrar o reproducir la
señal de salida multicanal.
El aparato puede ser cualquier equipo
electrónico o parte de tal equipo según se describió
anteriormente.
\newpage
La entrada puede comprender cualquier
circuitería o dispositivo adecuado para recibir una señal de audio
codificada. Ejemplos de tales entradas incluyen una interfaz de red
para recibir la señal a través de una red informática, tal como una
LAN, Internet, o similares, circuitería de comunicaciones para
recibir la señal a través de un canal de comunicaciones, por
ejemplo, un canal de comunicaciones inalámbricas, etc. En otros
ejemplos, la entrada puede comprender un dispositivo para leer una
señal a partir de un medio de almacenamiento.
De forma similar, la salida puede comprender
cualquier circuitería o dispositivo adecuado para suministrar una
señal multicanal en forma digital o analógica.
Estos y otros aspectos serán evidentes y se
dilucidarán a partir de lo siguiente con referencia a los dibujos
en los que:
la figura 1 muestra un diagrama de flujo de un
procedimiento de codificación de una señal de audio;
la figura 2 muestra un diagrama de bloques
esquemático de un sistema de codificación;
la figura 3 ilustra un procedimiento de filtro
para su uso en la sintetización de la señal de audio; y
la figura 4 ilustra un decorrelador para su uso
en la sintetización de la señal de audio.
La figura 1 muestra un diagrama de flujo de un
procedimiento de codificación de una señal de audio.
En una etapa S1 inicial, las señales L y R
entrantes se dividen en señales paso banda (preferiblemente con un
ancho de banda que aumenta con la frecuencia), indicadas por el
número de referencia 101, tal que su parámetros puedan analizarse
en función del tiempo. Un posible procedimiento para la partición en
tiempo/frecuencia es usar ventanas de tiempo seguidas por una
operación de transformada, pero también pueden usarse procedimientos
continuos en el tiempo (por ejemplo, bancos de filtros). La
resolución de frecuencia y tiempo de este proceso se adapta
preferiblemente a la señal; para señales transitorias se prefiere
una resolución de tiempo precisa (del orden de unos pocos
milisegundos) y una resolución de frecuencia basta, mientras que
para señales no transitorias se prefiere una resolución de
frecuencia más precisa y una resolución de tiempo más basta (del
orden de decenas de milisegundos). Posteriormente, en la etapa S2,
se determina la diferencia de nivel (ILD) de señales de subbanda
correspondientes; en la etapa S3 se determina la diferencia de
tiempo (ITD o IPD) de señales de subbanda correspondientes; y en la
etapa S4 se describe la cantidad de similitud o disimilitud de las
formas de onda que no pueden tenerse en cuenta por las ILD o las
ITD. El análisis de estos parámetros se comenta a continuación.
La ILD se determina por la diferencia de nivel
de la señales en un instante de tiempo determinado para una banda
de frecuencia dada. Un procedimiento para determinar la ILD es medir
el valor cuadrático medio (root mean square, rms) de la
banda de frecuencia correspondiente de ambos canales de entrada y
calcular la proporción de estos valores rms (expresados
preferiblemente en dB).
Las ITD se determinan por el alineamiento de
tiempo o de fase que proporciona la mejor correspondencia entre las
formas de onda de ambos canales. Un procedimiento para obtener la
ITD es calcular la función de correlación cruzada entre dos señales
de subbanda correspondientes y buscar el máximo. El retardo que
corresponde a este máximo en la función de correlación cruzada
puede usarse como valor de ITD. Un segundo procedimiento es calcular
las señales analíticas de la subbanda izquierda y derecha (por
ejemplo, calculando valores de fase y de envolvente) y usar la
diferencia de fase (promedio) entre los canales como parámetro de
IPD.
La correlación se obtiene encontrando en primer
lugar la ILD y la ITD que proporciona la mejor correspondencia
entre las señales de subbanda correspondientes y posteriormente
medir la similitud de las formas de onda después de la compensación
para la ITD y/o ILD. Por tanto, en este marco de trabajo, la
correlación se define como la similitud o disimilitud de señales
de subbanda correspondientes que no pueden atribuirse a las ILD y/
o las ITD. Una medida adecuada para este parámetro es el valor
máximo de la función de correlación cruzada (por ejemplo, el máximo
de un conjunto de retardos). Sin embargo, también podrían usarse
otras medidas, tales como la energía relativa de la señal
diferencia después de compensación de ILD y/o ITD en comparación con
la señal suma de subbandas correspondientes (preferiblemente
compensadas también para las ILD y/o las ITD). Este parámetro de
diferencia es básicamente una transformación lineal de la (máxima)
correlación.
En las etapas S5, S6, y S7 posteriores, se
cuantifican los parámetros determinados. Un problema importante de
transmisión de parámetros es la precisión de la representación de
parámetros (por ejemplo, el tamaño de errores de cuantificación),
que está directamente relacionado con la capacidad de transmisión
necesaria. En esta sección, se comentarán varias cuestiones con
respecto a la cuantificación de los parámetros espaciales. La idea
básica es basar los errores de cuantificación en las denominadas
diferencias apenas apreciables
(just-noticeable differences, JND) de las
indicaciones espaciales. Para ser más específicos, el error de
cuantificación viene determinado por la sensibilidad del sistema
auditivo humano a los cambios en los parámetros. Puesto que la
sensibilidad a los cambios en los parámetros depende en gran medida
de los valores de los propios parámetros, se aplican los siguientes
procedimientos para determinar las etapas de cuantificación
discreta.
\vskip1.000000\baselineskip
Se conoce a partir de la investigación
psicoacústica que la sensibilidad a los cambios en la ILD depende de
la propia ILD. Si la ILD se expresa en dB, pueden detectarse
desviaciones de aproximadamente 1 dB a partir de una referencia de
0 dB, mientras que se requieren cambios del orden de 3 dB si la
diferencia de nivel de referencia es de 20 dB. Por tanto, los
errores de cuantificación pueden ser mayores si las señales de los
canales izquierdo y derecho tienen una diferencia de nivel
mayor. Por ejemplo, esto puede aplicarse midiendo en primer
lugar la diferencia de nivel entre los canales, seguido por una
transformación no lineal (compresiva) de la diferencia de nivel
obtenida y posteriormente un proceso de cuantificación lineal, o
usando una tabla de consulta para los valores de ILD disponibles
que tienen una distribución no lineal. El ejemplo a continuación
proporciona un ejemplo de una tabla de consulta de este tipo.
\vskip1.000000\baselineskip
La sensibilidad a los cambios en las ITD de
sujetos humanos puede caracterizarse como que tiene un umbral de
fase constante. Esto significa que en términos de tiempos de
retardo, las etapas de cuantificación para la ITD deben disminuir
con la frecuencia. De forma alternativa, si la ITD se representa en
forma de diferencias de fase, las etapas de cuantificación deberían
ser independientes de la frecuencia. Un procedimiento para
implementar esto es tomar una diferencia de fase fija como etapa de
cuantificación y determinar el retardo de tiempo correspondiente
para cada banda de frecuencia. Este valor de ITD se usa entonces
como etapa de cuantificación. Otro procedimiento es transmitir
diferencias de fase que siguen un esquema de cuantificación
independiente de la frecuencia. También se conoce que por encima de
una frecuencia determinada, el sistema auditivo humano no es
sensible a las ITD en las formas de onda de estructura a pequeña
escala. Este fenómeno puede aprovecharse transmitiendo sólo
parámetros de ITD hasta una frecuencia determinada (normalmente 2
kHz).
Un tercer procedimiento de reducción de flujo de
bits es incorporar etapas de cuantificación de ITD que dependen de
la ILD y/o los parámetros de correlación de la misma subbanda. Para
ILD grandes, las ITD pueden codificarse de forma menos precisa.
Además, si la correlación es muy baja, se sabe que la sensibilidad
humana a los cambios en la ITD se reduce. Por consiguiente, pueden
aplicarse errores de cuantificación de ITD mayores si la correlación
es pequeña. Un ejemplo extremo de esta idea es no transmitir las
ITD en absoluto si la correlación está por debajo de un umbral
determinado y/o si la ILD es lo suficientemente grande para la misma
subbanda (normalmente alrededor de
20 dB).
20 dB).
\vskip1.000000\baselineskip
El error de cuantificación de la correlación
depende de (1) el propio valor de correlación y posiblemente (2) de
la ILD. Los valores de correlación próximos a +1 se codifican con
una precisión alta (por ejemplo, una etapa de cuantificación
pequeña), mientras que los valores de correlación próximos a 0 se
codifican con una precisión baja (una etapa de cuantificación
grande). En la realización se da un ejemplo de un conjunto de
valores de correlación distribuidos de manera no lineal. Una segunda
posibilidad es usar etapas de cuantificación para la correlación
que dependen de la ILD medida de la misma subbanda: para ILD
grandes (es decir, un canal es dominante en términos de energía),
los errores de cuantificación en la correlación se vuelven mayores.
Un ejemplo extremo de este principio sería no transmitir valores de
correlación para una subbanda determinada en absoluto si el valor
absoluto de la ILD para esa subbanda supera un umbral
determinado.
En la etapa S8, se genera una señal S monoaural
a partir de las señales de audio entrantes, por ejemplo, como una
señal suma de las componentes de señal entrantes, determinando una
señal dominante, generando una señal de componente principal a
partir de las componentes de señal entrantes, o similar. Este
proceso usa preferiblemente los parámetros espaciales extraídos
para generar la señal mono, es decir, alineando en primer lugar las
formas de onda de subbanda que usan la ITD o la IPD antes de la
combinación.
Finalmente, en la etapa S9, se genera una señal
102 codificada a partir de la señal monoaural y los parámetros
determinados. De forma alternativa, la señal suma y los parámetros
espaciales pueden comunicarse como señales separadas a través de
los mismos o diferentes canales.
Se observa que el procedimiento anterior puede
implementarse mediante una disposición correspondiente, por ejemplo
implementarse como microprocesadores programables de propósito
general o especial, procesadores de señal digital (DSP), circuitos
integrados de aplicación específica (ASIC), disposiciones lógicas
programables (PLA), disposiciones de puertas programables en campo
(FPGA), circuitos electrónicos de propósito especial, etc., o una
combinación de los mismos.
La figura 2 muestra un diagrama de bloques
esquemático de un sistema de codificación. El sistema comprende un
codificador 201 y un decodificador 202 correspondiente. El
decodificador 201 recibe una señal estéreo con dos componentes L y
R y genera una señal 203 codificada que comprende una señal S suma y
parámetros P espaciales que se comunican al decodificador 202. La
señal 203 puede comunicarse a través de cualquier canal 204 de
comunicaciones adecuado. Como alternativa o adicionalmente, la
señal puede almacenarse en un medio 214 de almacenamiento
extraíble, por ejemplo una tarjeta de memoria, que puede
transferirse del codificador al decodifi-
cador.
cador.
El codificador 201 comprende módulos 205 y 206
de análisis para analizar parámetros espaciales de las señales L y
R, respectivamente, entrantes, preferiblemente para cada ranura de
tiempo/frecuencia. El codificador comprende además un módulo 207 de
extracción de parámetros que genera parámetros espaciales
cuantificados; y un módulo 208 de combinador que genera una señal
suma (o dominante) consiste en una combinación determinada de las al
menos dos señales de entrada. El codificador comprende además un
módulo 209 de codificación que genera una señal 203 codificada
resultante que comprende la señal monoaural y los parámetros
espaciales. En un ejemplo, el módulo 209 realiza además una o más
de las siguientes funciones: asignación de tasa de transmisión de
bits, alineación de tramas, codificación sin pérdida, etc.
La síntesis (en el decodificador 202) se realiza
aplicando los parámetros espaciales a la señal suma para generar
señales de salida izquierda y derecha. Por lo tanto, el
decodificador 202 comprende un módulo 210 de decodificación que
realiza la operación inversa a la del módulo 209 y extrae la señal S
suma y los parámetros P a partir de la señal 203 codificada. El
decodificador comprende además un módulo 211 de síntesis que
recupera las componentes L y R estéreo a partir de la señal suma (o
dominante) y los parámetros espaciales.
En este ejemplo, la descripción del parámetro
espacial se combina con un codificador de audio monoaural (canal
único) para codificar una señal de audio estéreo. Debe observarse
que aunque la realización descrita trabaja sobre señales estéreo,
la idea general puede aplicarse a señales de audio de n canales, con
n>1.
En los módulos 205 y 206 de análisis, las
señales L y R izquierda y derecha entrantes, respectivamente, se
dividen en diversas tramas de tiempo (por ejemplo, comprendiendo
cada una 2048 muestras a una tasa de muestreo de 44,1 kHz) y se
dividen en ventanas con una ventana de Hanning de raíz cuadrada.
Posteriormente, se calculan las FFT. Las frecuencias de FFT
negativas se descartan y las FFT resultantes se subdividen en grupos
(subbandas) de compartimentos de FFT. El número de compartimentos
de FFT que se combinan en una subbanda g depende de la
frecuencia: a frecuencias más altas se combinan más compartimentos
que a frecuencias más bajas. En una realización, se agrupan los
compartimentos de FFT correspondientes a aproximadamente 1,8 ERB
(Equivalent Rectangular Bandwidth, ancho de banda
rectangular equivalente), dando como resultado 20 subbandas para
representar toda la gama de frecuencias audibles. El número
resultante de compartimentos S[g] de FFT de cada subbanda
posterior (comenzando en la frecuencia más baja) es
\text{S=[4 \
4 \ 4 \ 5 \ 6 \ 8 \ 9 \ 12 \ 13 \ 17 \ 21 \ 25 \ 30 \ 38
\ 45 \ 55 \ 68 \ 82 \ 100 \
477]}
Por tanto, las primeras tres subbandas contienen
4 compartimentos de FFT, la cuarta subbanda contiene 5
compartimentos de FFT, etc. Para cada subbanda, se calculan las
ILD, ITD y la correlación (r) correspondientes. La ITD y la
correlación se calculan simplemente ajustando todos los
compartimentos de FFT que pertenecen a otros grupos a cero,
multiplicando las FFT resultantes (limitadas por banda) de los
canales izquierdo y derecho, seguido de una transformada inversa de
FFT. Se busca un pico en la función de correlación cruzada
resultante dentro de un retardo entre canales entre -64 y +63
muestras. El retardo interno correspondiente al pico se usa como
valor de ITD, y el valor de la función de correlación cruzada en
este pico se usa como la correlación entre canales de esta
subbanda. Finalmente, la ILD se calcula simplemente tomando la
proporción de potencia de los canales izquierdo y derecho para cada
subbanda.
\newpage
En el módulo 208 de combinador, las subbandas
izquierda y derecha se suman después de una corrección de fase
(alineamiento temporal). Esta corrección de fase se sigue de la ITD
calculada para esa subbanda y consiste en retardar la subbanda de
canal izquierdo con ITD/2 y la subbanda de canal derecho con -ITD/2.
El retardo se realiza en el dominio de la frecuencia mediante una
modificación apropiada de los ángulos de fase de cada compartimento
de FFT. Posteriormente, la señal suma se calcula añadiendo las
versiones de fase modificada de las señales de subbanda izquierda y
derecha. Finalmente, para compensar la adición no correlacionada o
correlacionada, cada subbanda de la señal suma se multiplica por
\surd(2/(1+ r)), siendo r la correlación de
la subbanda correspondiente. Si es necesario, la señal suma puede
convertirse al dominio del tiempo (1) insertando conjugadas
complejas en frecuencias negativas, (2) inversa de FFT, (3) división
en ventanas, y (4) superposición-adición.
En el módulo 207 de extracción de parámetros, se
cuantifican los parámetros espaciales. Las ILD (en dB) se
cuantifican al valor más cercano fuera del siguiente conjunto I:
\text{I=[-19 \
-16 \ -13 \ -10 \ -8 \ -6 \ -4 \ -2 \ 0 \ 2 \ 4 \ 6 \ 8
\ 10 \ 13 \ 16 \
19]}
Las etapas de cuantificación de ITD se
determinan mediante una diferencia de fase constante en cada
subbanda de 0,1 rad. Por tanto, para cada subbanda, la diferencia
de tiempo que corresponde a 0,1 rad de la frecuencia central de
subbanda se usa como etapa de cuantificación. Para frecuencias por
encima de 2 kHz, no se transmite información de ITD.
Los valores r de correlación entre
canales se cuantifican al valor más cercano del siguiente conjunto
R:
\text{R=[1 \
0,95 \ 0,9 \ 0,82 \ 0,75 \ 0,6 \ 0,3
0]}
Éste costará otros 3 bits por valor de
correlación.
Si el valor absoluto de la ILD (cuantificada) de
la subbanda actual vale 19 dB, no se transmiten ITD ni valores de
correlación para esta subbanda. Si el valor de correlación
(cuantificado) de una subbanda determinada vale cero, no se
transmite valor de ITD para esa subbanda.
De esta forma, cada trama requiere un máximo de
233 bits para transmitir los parámetros espaciales. Con una
longitud de trama de 1024 tramas, la máxima tasa de transmisión de
bits para transmisión vale 10,25 kbit/s. Debe observarse que usando
codificación entrópica o codificación diferencial, puede reducirse
adicionalmente esta tasa de transmisión de bits.
El decodificador comprende un módulo 211 de
síntesis en el que la señal estéreo se sintetiza a partir de la
señal suma recibida y los parámetros espaciales. Por lo tanto, para
el propósito de esta descripción se supone que el módulo de
síntesis recibe una representación en el dominio de la frecuencia de
la señal suma según se describió anteriormente. Esta representación
puede obtenerse mediante operaciones de división en ventanas y de
FFT de la forma de onda del dominio del tiempo. En primer lugar, la
señal suma se copia a las señales de salida izquierda y derecha.
Posteriormente, la correlación entre las señales izquierda y derecha
se modifica con un decorrelador. En una realización preferida, se
usa un decorrelador según se describe a continuación.
Posteriormente, cada subbanda de la señal izquierda se retarda en
-ITD/2, y la señal derecha se retarda en ITD/2 dada la ITD
(cuantificada) correspondiente a esa subbanda. Finalmente, las
subbandas izquierda y derecha se ajustan a escala según la ILD para
esa subbanda. En una realización, la modificación anterior se
realiza mediante un filtro según se describe a continuación. Para
convertir las señales de salida al dominio del tiempo, se realizan
las siguientes etapas: (1) insertar conjugadas complejas en
frecuencias negativas, (2) inversa de FFT, (3) división en
ventanas, y (4) superposición-adición.
La figura 3 ilustra un procedimiento de filtro
para su uso en la sintetización de la señal de audio. En una etapa
inicial 301, la señal x(t) de audio entrante se segmenta en
un número de tramas. La etapa 301 de segmentación divide la señal
en tramas x_{n}(t) de una longitud adecuada, por ejemplo en
la gama de 500-5000 muestras, por ejemplo 1024 ó
2048 muestras.
Preferiblemente, la segmentación se realiza
usando funciones de análisis de superposición y ventana de síntesis,
eliminando así artefactos que pueden introducirse en los límites de
trama (véase, por ejemplo, Princen, J. P., y Bradley, A. B.:
"Analysis/synthesis filterbank design based on time domain
aliasing cancellation", IEEE transactions on Acoustics,
Speech and Signal processing, Vol. ASSP 34, 1986).
En la etapa 302, cada una de las tramas
x_{n}(t) se transforma en el dominio de la frecuencia
aplicando una transformación de Fourier, implementada
preferiblemente como una transformada rápida de Fourier (FFT). La
representación de frecuencia resultante de la n-ésima trama
x_{n}(t) comprende un número de componentes X(k,n)
de frecuencia en los que el parámetro n indica el número de trama y
el parámetro k indica la componente de frecuencia o el
compartimento de frecuencia correspondiente a una frecuencia
\omega_{k}, 0<k<K. En general, las componentes
X(k,n) del dominio de la frecuencia son números
complejos.
\newpage
En la etapa 303, se determina el filtro deseado
para la trama actual según los parámetros espaciales variables en
el tiempo recibidos. El filtro deseado se expresa como una respuesta
de filtro deseado que comprende un conjunto de K factores
F(k,n) de ponderación complejos, 0<k<K, para la n-ésima
trama. La respuesta F(k,n) de filtro puede representarse por
dos números reales, es decir, su amplitud a(k,n) y su fase
\varphi(k,n) según F(k,n) =
a(k,n)\cdotexp[j \varphi(k,n)].
En el dominio de la frecuencia, las componentes
de frecuencia filtradas son Y(k,n) =
F(k,n)\cdotX(k,n), es decir, son el
resultado de una multiplicación de las componentes X(k,n) de
frecuencia de la señal de entrada con la respuesta F(k,n) de
filtro. Como será evidente para un experto en la técnica, esta
multiplicación en el dominio de la frecuencia corresponde a una
convolución de la trama x_{n}(t) de señal de entrada con un
filtro f_{n}(t) correspondiente.
En la etapa 304, la respuesta F(k,n) de
filtro deseado se modifica antes de aplicarla a la trama
X(k,n) actual. En particular, la respuesta F'(k,n) de filtro
real que va a aplicarse se determina como una función de la
respuesta F(k,n) de filtro deseado y de la información 308
acerca de tramas previas. Preferiblemente, esta información
comprende la respuesta de filtro real y/o deseado de una o más
tramas previas, según
F'(k,n) =
a'(k,n) \cdot exp[j \varphi'(k,n)] =
\Phi[F(k,n), F(k,n-1),
F(k,n-2),..., F'(k,n-1),
F'(k,n-2),...].
Por lo tanto, haciendo la respuesta de filtro
real dependiente del histórico de respuestas de filtro previas, los
artefactos introducidos por cambios en la respuesta de filtro entre
tramas consecutivas pueden eliminarse de forma eficaz.
Preferiblemente, la forma real de la función \Phi de transformada
se selecciona para reducir artefactos de
superposición-adición que resultan a partir de
respuestas de filtro variables de forma dinámica.
Por ejemplo, la función \Phi de transformada
puede ser una función de una única función de respuesta previa, por
ejemplo F'(k,n) = \Phi_{1}[F(k,n),
F(k,n-1)] o F'(k,n) =
\Phi_{2}[F(k,n), F'(k,n-1)]. En
otro ejemplo, la función de transformada puede comprender un
promedio variable de un número de funciones de respuesta previa,
por ejemplo una versión filtrada de funciones de respuesta previas,
o similar. A continuación, se describen en mayor detalle ejemplos
preferidos de la función \Phi de transformada.
En la etapa 305, la respuesta F'(k,n) de filtro
real se aplica a la trama actual multiplicando las componentes
X(k,n) de frecuencia de la trama actual de la señal de
entrada con los factores F'(k,n) de respuesta de filtro
correspondientes según Y(k,n) =
F'(k,n)\cdotX(k,n).
En la etapa 306, las componentes Y(k,n)
de frecuencia procesadas resultantes se transforman de vuelta al
dominio del tiempo resultante en tramas y_{n}(t)
filtradas. Preferiblemente, la transformada inversa se implementa
como una transformada inversa rápida de Fourier (IFFT).
Finalmente, en la etapa 307, las tramas
filtradas se recombinan a una señal y(t) filtrada por un
procedimiento de superposición-adición. Una
implementación eficaz de procedimiento de
superposición-adición de este tipo se da a conocer
en Bergmans, J. W. M.: "Digital baseband transmission and
recording", Kluwer, 1996.
En un ejemplo, la función \Phi de transformada
de la etapa 304 se implementa como un limitador de cambio de fase
entre la trama actual y la previa. Según este ejemplo, se calcula el
cambio \delta(k) de fase de cada componente F(k,n)
de frecuencia en comparación con la modificación
\varphi'(k,n-1) de fase real aplicada a la
muestra previa de la componente de frecuencia correspondiente, es
decir \delta(k) = \varphi(k,n) -
\varphi'(k,n-1).
Posteriormente, la componente F(k,n) de
fase del filtro deseado se modifica de una forma tal que se reduce
el cambio de fase a lo largo de las tramas, si el cambio diera como
resultado artefactos de superposición-adición.
Según este ejemplo, esto se logra garantizando que la diferencia de
fase real no supere un umbral c predeterminado, por ejemplo,
simplemente recortando la diferencia de fase, según
El valor c de umbral puede ser una constante
predeterminada, por ejemplo entre \pi/8 y \pi/3 rad. En un
ejemplo, el umbral c puede no ser una constante sino por ejemplo una
función del tiempo, de la frecuencia, y/o similar. Además, de forma
alternativa al límite fuerte anterior para el cambio de fase, pueden
usarse otras funciones de limitación de cambio de fase.
En general, en el ejemplo anterior, el cambio de
fase deseado a lo largo de tramas de tiempo posteriores para
componentes de frecuencia individuales se transforma mediante una
función P(\delta(k)) de
entrada-salida y la respuesta F'(k,n) de filtro
real se da por
F'(k,n) =
F'(k,n-1) \cdot exp[j
P(\delta(k))]
Por otro lado, según este ejemplo, se introduce
una función P de transformada del cambio de fase a lo largo de
tramas de tiempo posteriores.
En otro ejemplo de la transformación de la
respuesta de filtro, el procedimiento de limitación de fase se
conduce por una medida de tonalidad adecuada, por ejemplo un
procedimiento de predicción según se describe a continuación. Esto
tiene la ventaja de que los saltos de fase entre tramas consecutivas
que se producen en señales similares a ruido pueden excluirse a
partir del procedimiento de limitación de cambio de fase. Esta es
una ventaja, puesto que limitar tales saltos de fase en señales
similares a ruido haría el sonido de la señal similar a ruido más
tonal, lo que con frecuencia se percibe como sintético o
metálico.
Según este ejemplo, se calcula un error de fase
(k) = \varphi(k,n) -
\varphi(k,n-1) - \omega_{k} \cdot h
previsto. En este caso, \omega_{k} indica la frecuencia
correspondiente a la k-ésima componente de frecuencia y h indica el
tamaño del salto en las muestras. Aquí, el término tamaño del salto
se refiere a la diferencia entre dos centros de ventana adyacentes,
es decir la mitad de la longitud del análisis para ventanas
simétricas. En lo que sigue, se supone que el error anterior está
incluido en el intervalo [-\pi,+\pi].
Posteriormente, una medida P_{k} de predicción
para la cantidad de capacidad de predicción de fase en el k-ésima
compartimento de frecuencia se calcula según P_{k} = (\pi -
|\theta(k)|)/\pi \in [0,1], donde
|\cdot| indica el valor absoluto.
Por lo tanto, la medida P_{k} anterior entrega
un valor entre 0 y 1 correspondiente a la cantidad de capacidad de
predicción de fase en el k-ésima compartimento de frecuencia. Si
P_{k} es cercano a 1, puede asumirse que la señal subyacente
tiene un alto grado de tonalidad, es decir tiene una forma de onda
sustancialmente sinusoidal. Para una señal de este tipo, los saltos
de fase son fácilmente perceptibles, por ejemplo por el oyente de
una señal de audio. De este modo, los saltos de fase deben
eliminarse preferiblemente en este caso. Por otro lado, si el valor
de P_{k} es cercano a 0, puede asumirse que la señal subyacente es
ruidosa. Para señales ruidosas los saltos de fase no se perciben
fácilmente y pueden, por tanto, permitirse.
Por consiguiente, la función de limitación de
fase se aplica si P_{k} supera un umbral predeterminado, es decir
P_{k} > A, lo que da como resultado la respuesta F'(k,n) de
filtro real según
En este caso, A está limitada por los límites
superior e inferior de P que son +1 y 0, respectivamente. El valor
exacto de A depende de la implementación real. Por ejemplo, A puede
seleccionarse entre 0,6 y 0,9.
Se entiende que, de forma alternativa, puede
usarse cualquier otra medida adecuada para estimar la tonalidad. En
otra realización más, el salto c de fase permitido descrito
anteriormente puede hacerse dependiente de una medida de tonalidad
adecuada, por ejemplo la medida P_{k} anterior, permitiendo así
saltos de fase mayores si P_{k} es grande y viceversa.
La figura 4 ilustra un decorrelador para su uso
en la sintetización de la señal de audio. El decorrelador comprende
un filtro 401 pasa todo que recibe la señal x monoaural y un
conjunto de parámetros P espaciales que incluyen la correlación
r cruzada entre canales y un parámetro indicativo de la
diferencia c de canal. Se observa que el parámetro c está
relacionado con la diferencia de nivel entre canales mediante ILD =
k\cdotlog(c), donde k es una constante, es decir ILD es
proporcional al logaritmo de c.
Preferiblemente, el filtro pasa todo comprende
un retardo dependiente de la frecuencia que proporciona un retardo
relativamente más pequeño a altas frecuencias que a bajas
frecuencias. Esto puede lograrse reemplazando un retardo fijo del
filtro pasa todo con un filtro pasa todo que comprende un período de
una compleja en fase de Schroeder (véase por ejemplo M.R.
Schroeder, "Synthesis of
low-peak-factor signals and binary
sequences with low autocorrelation", IEEE Transact. Inf.
Theor., 16:85-89, 1970). El decorrelador
comprende además un circuito 402 de análisis que recibe los
parámetros espaciales a partir del decodificador y extrae la
correlación r cruzada entre canales y la diferencia c de
canal. El circuito 402 determina una matriz
M(\alpha,\beta) de combinación según se describe a
continuación. Las componentes de la matriz de combinación se
alimentan a un circuito 403 de transformación que recibe además la
señal x de entrada y la señal H\otimesx filtrada. El circuito 403
realiza una operación de combinación según
que da como resultado las señales
de salida L y
R.
\newpage
La correlación entre las señales L y R puede
expresarse como un ángulo \alpha entre vectores que representa la
señal L y R, respectivamente, en un espacio separado por las señales
x y H\otimesx, según r=cos(a). Por consiguiente,
cualquier par de vectores que muestre la distancia angular correcta
presenta la correlación especificada.
Por lo tanto, una matriz M de combinación que
transforma las señales x y H\otimesx en señales L y R con una
correlación r predeterminada puede expresarse como sigue:
\vskip1.000000\baselineskip
Por tanto, la cantidad de señal filtrada
mediante pasa todo depende de la correlación deseada. Además, la
energía de la componente de señal pasa todo es la misma en ambos
canales de salida (pero con un desplazamiento de fase de 180º).
Se observa que el caso en el que la matriz M
viene dada por
\vskip1.000000\baselineskip
es decir, el caso en el que
\alpha=90º correspondiente a señales de salida no correlacionadas
(r=0), corresponde a un decorrelador de
Lauridsen.
Para ilustrar un problema con la matriz de la
ecuación (5), se supone una situación con un paneo en amplitud
extremo hacia el canal izquierdo, es decir un caso en el que una
señal determinada está presente sólo en el canal izquierdo. Se
supone además que la correlación deseada entre las salidas es cero.
En este caso, la salida del canal izquierdo de la transformación de
la ecuación (3) con la matriz de combinación de la ecuación (5)
produzca L=1/\surd2(x+H\otimesx). Por tanto, la salida
consiste en la señal x original combinada con su versión filtrada
mediante pasa todo H\otimesx.
Sin embargo, ésta es una situación no deseada,
puesto que el filtro pasa todo normalmente deteriora la calidad de
percepción de la señal. Además, la adición de la señal original y la
señal filtrada da como resultado efectos de filtro en peine, tal
como coloración percibida de la señal de salida. En este caso
extremo supuesto, la mejor solución es que la señal de salida
izquierda consista en la señal de entrada. De esta forma, la
correlación de las dos señales de salida aún es cero.
En situaciones con diferencias de nivel más
moderadas, la situación preferida es que el canal de salida de
volumen más alto contiene relativamente más de la señal original, y
el canal de salida de volumen más bajo contiene relativamente más
de la señal filtrada. De este modo, en general, se prefiere
maximizar la cantidad de la señal original presente en las dos
salidas juntas, y minimizar la cantidad de la señal filtrada.
Según esta realización, esto se logra
introduciendo una matriz de combinación diferente que incluye un
giro común adicional:
\vskip1.000000\baselineskip
En este caso, \beta es un giro adicional, y C
es una matriz de ajuste a escala que garantiza que la diferencia de
nivel relativo entre las señales de salida es igual a c, es
decir
\vskip1.000000\baselineskip
\newpage
Al sustituir la matriz de la ecuación (6) en la
ecuación (3) se obtienen las señales de salida generadas por la
operación de matrizado según esta realización:
Por lo tanto, las señales de salida L y R aún
tienen una diferencia angular \alpha, es decir la correlación
entre las señales L y R no se ve afectada por el ajuste a escala de
las señales L y R según la diferencia de nivel deseada y el giro
adicional por el ángulo \beta de la señal tanto L como R.
Como se mencionó con anterioridad,
preferiblemente, la cantidad de la señal x original en la salida de
L y R sumada debe maximizarse. Esta condición puede usarse para
determinar el ángulo \beta, según
que produce la
condición:
En resumen, esta solicitud describe una
descripción paramétrica actuada psicoacústicamente, de los atributos
espaciales de señales de audio multicanal. Esta descripción
paramétrica permite fuertes reducciones en la tasa de transmisión
de bits en codificadores de audio, puesto que sólo una señal
monoaural ha de transmitirse, combinada con parámetros
(cuantificados) que describen las propiedades espaciales de la
señal. El decodificador puede formar la cantidad de canales de
audio original aplicando los parámetros espaciales. Para audio
estéreo de calidad próxima a CD, parece suficiente una tasa de
transmisión de bits asociada con estos parámetros espaciales de 10
kbit/s o menos, para reproducir la impresión espacial correcta en el
extremo de recepción. Esta tasa de transmisión de bits puede
reducirse en escala adicionalmente reduciendo la resolución
espectral y/o temporal de los parámetros espaciales y/o procesando
los parámetros espaciales usando algoritmos de compresión sin
pérdida.
Debe observarse que las realizaciones
mencionadas anteriormente ilustran en lugar de limitar la invención,
y que los expertos en la técnica podrán diseñar muchas
realizaciones alternativas sin alejarse del alcance de las
reivindicaciones adjuntas.
Por ejemplo, la invención se ha descrito
principalmente en conexión con una realización que usa las dos
indicaciones de localización ILD e ITD/IPD. En realizaciones
alternativas, pueden usarse otras indicaciones de localización.
Además, en una realización, la ILD, la ITD/IPD, y la correlación
cruzada entre canales puede determinarse como se describió
anteriormente, pero sólo la correlación cruzada entre canales se
transmite junto con la señal monoaural, reduciendo así
adicionalmente la capacidad de almacenamiento/ancho de banda
requerido para transmitir/almacenar la señal de audio. De forma
alternativa, puede transmitirse la correlación cruzada entre
canales y una de la ILD e ITD/TPD. En estas realizaciones, la señal
se sintetiza a partir de la señal monoaural sólo en función de los
parámetros transmitidos.
En las reivindicaciones, no debe interpretarse
como que limita la reivindicación ningún símbolo de referencia
colocado entre paréntesis. El término "comprendiendo/que
comprende" no excluye la presencia de elementos o etapas
diferentes de los enumerados en una reivindicación. El término
"un" o "una" antes de un elemento no excluye la presencia
de una pluralidad de tales elementos.
La invención puede implementarse por medio de
hardware que comprende varios elementos distintos, y por medio de
un ordenador programado de forma adecuada. En la reivindicación de
dispositivo que enumera varios medios, pueden realizarse varios de
estos medios por uno y el mismo producto de hardware. El mero hecho
de que determinadas medidas se enumeren en reivindicaciones
dependientes mutuamente diferentes no indica que una combinación de
estas medidas no pueda usarse para obtener ventaja.
Claims (11)
1. Aparato de decodificación para decodificar
una señal de audio digital codificada que comprende al menos una
primera y una segunda componente de señal de audio digital, que se
han codificado a una señal (X) digital compuesta y una señal (P) de
parámetro, comprendiendo el aparato de decodificación:
- una unidad (210) de entrada para recibir una
señal de transmisión,
- una unidad (210) de demultiplexor para
recuperar la señal digital compuesta y la señal de parámetro a
partir de la señal de transmisión,
- una unidad (401) de decorrelador para generar
a partir de la señal digital compuesta una versión decorrelacionada
de la señal digital compuesta,
- una unidad (403) de matrizado para recibir la
señal digital compuesta y la versión decorrelacionada de la señal
digital compuesta y generar a partir de las mismas una réplica de la
primera y segunda componente de señal de audio digital,
- siendo la réplica de la primera componente de
señal de audio digital una combinación lineal de la señal digital
compuesta y la versión decorrelacionada de la señal digital
compuesta, que usa coeficientes multiplicadores que dependen de la
señal de parámetro,
- siendo la réplica de la segunda componente de
señal de audio digital una combinación lineal de la señal digital
compuesta y la versión decorrelacionada de la señal digital
compuesta, que usa coeficientes multiplicadores que dependen de la
señal de parámetro.
2. Aparato de decodificación según la
reivindicación 1, caracterizado porque la señal de parámetro
comprende una primera componente (r) de señal de parámetro que es
una medida de la similitud de formas de onda de las réplicas de las
al menos primera y segunda señales de audio digital, correspondiendo
dicha medida de similitud a un valor de una función de correlación
cruzada entre las réplicas de dichas al menos primera y segunda
componentes de señal de audio digital, siendo dicho valor
sustancialmente igual al máximo de dicha función de correlación
cruzada.
3. Aparato de decodificación según la
reivindicación 2, caracterizado porque la señal de parámetro
comprende una segunda componente (c) de señal de parámetro que es
representativa de la diferencia de nivel relativo entre las
réplicas de la primera y segunda componentes de señal de audio
digital.
4. Aparato de decodificación según la
reivindicación 3, caracterizado porque la unidad de matrizado
es igual a
donde \beta es un valor de ángulo
relacionado con la primera componente de señal de parámetro y C está
relacionado con la segunda componente de señal de
parámetro.
5. Aparato de decodificación según la
reivindicación 4, caracterizado porque existe la siguiente
relación entre \alpha y la primera componente de señal de
parámetro:
donde r es el valor del máximo de
la función de correlación
cruzada.
6. Aparato de decodificación según la
reivindicación 4, caracterizado porque C es una matriz 2x2 y
existe la siguiente relación entre los coeficientes matriciales de
C y la segunda componente (c) de señal de parámetro
\vskip1.000000\baselineskip
donde c es igual a la diferencia de
nivel relativo entre dichas
señales.
7. Aparato de decodificación según la
reivindicación 4, caracterizado porque existe la siguiente
relación entre \alpha y \beta:
8. Aparato de decodificación según cualquiera de
las reivindicaciones anteriores, caracterizado porque la
unidad de decorrelador está adaptada para retardar la señal digital
compuesta para obtener la señal digital compuesta
decorrelacionada.
9. Aparato de decodificación según la
reivindicación 8, caracterizado porque el retardo es un
retardo dependiente de la frecuencia.
10. Aparato de decodificación según una
cualquiera de las reivindicaciones anteriores, caracterizado
porque la señal digital compuesta es una señal de banda ancha
dividida en una pluralidad de subseñales digitales compuestas, una
para cada una de una pluralidad de bandas de frecuencia, estando
dividida también la señal de parámetro en una pluralidad de
subseñales de parámetro, una para cada una de la pluralidad de
bandas de frecuencia,
- estando la unidad (401) de decorrelador
adaptada para generar a partir de las subseñales digitales
compuestas una versión decorrelacionada de las subseñales digitales
compuestas,
- estando la unidad (403) de matrizado adaptada
para recibir las subseñales digitales compuestas y la versión
decorrelacionada de las subseñales digitales compuestas y generar a
partir de las mismas una réplica de una pluralidad de subseñales
para cada una de la primera y segunda componentes de señal de audio
digital,
- siendo una subseñal de la primera componente
de señal de audio digital una combinación lineal de una subseñal
digital compuesta correspondiente y la versión decorrelacionada de
la subseñal digital compuesta correspondiente, que usa coeficientes
multiplicadores que dependen de una correspondiente de dichas
subseñales de parámetro,
- siendo una subseñal de la segunda componente
de señal de audio digital una combinación lineal de una subseñal
digital compuesta correspondiente y la versión decorrelacionada de
la subseñal digital compuesta correspondiente, que usa coeficientes
multiplicadores que dependen de una correspondiente de dichas
subseñales de parámetro,
- comprendiendo la disposición además una unidad
(307) de transformación para transformar las subseñales de la
primera y segunda componentes de señal de audio digital en dichas
réplicas de dicha primera y segunda componentes de señal de audio
digital.
11. Aparato de decodificación según la
reivindicación 10, caracterizado porque las subseñales
digitales compuestas están divididas en señales de tiempo
consecutivas, una para cada uno de intervalos de tiempo consecutivos
en el dominio del tiempo, estando divididas también las subseñales
de parámetro en subseñales de parámetro de cada uno de los
intervalos de tiempo consecutivos,
- estando además la unidad (401) de decorrelador
adaptada para generar para cada intervalo de tiempo consecutivo y
cada subseñal digital compuesta a partir de dichas subseñales
digitales compuestas una versión decorrelacionada de dicha subseñal
digital compuesta,
- estando además la unidad (403) de matrizado
adaptada para generar para cada intervalo de tiempo consecutivo a
partir de cada subseñal digital compuesta y su versión
decorrelacionada de la misma en dicho intervalo, una réplica de una
subseñal para cada una de la primera y segunda componentes de señal
de audio digital,
- siendo una subseñal de la primera componente
de señal de audio digital en dicho intervalo de tiempo una
combinación lineal de una subseñal digital compuesta correspondiente
en dicho intervalo de tiempo y la versión decorrelacionada de la
subseñal digital compuesta correspondiente en dicho intervalo de
tiempo, que usa coeficientes multiplicadores que dependen de la
subseñal de parámetro para dicho intervalo de tiempo,
- siendo una subseñal de la segunda componente
de señal de audio digital en dicho intervalo de tiempo una
combinación lineal de una subseñal digital compuesta correspondiente
en dicho intervalo de tiempo y la versión decorrelacionada de la
subseñal digital compuesta correspondiente en dicho intervalo de
tiempo, que usa coeficientes multiplicadores que dependen de la
subseñal de parámetro para dicho intervalo de tiempo.
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02076588 | 2002-04-22 | ||
EP02076588 | 2002-04-22 | ||
EP02077863 | 2002-07-12 | ||
EP02077863 | 2002-07-12 | ||
EP02079303 | 2002-10-14 | ||
EP02079303 | 2002-10-14 | ||
EP02079817 | 2002-11-20 | ||
EP02079817 | 2002-11-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2323294T3 true ES2323294T3 (es) | 2009-07-10 |
Family
ID=29255420
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07119364T Expired - Lifetime ES2323294T3 (es) | 2002-04-22 | 2003-04-22 | Dispositivo de decodificacion con una unidad de decorrelacion. |
ES03715237T Expired - Lifetime ES2300567T3 (es) | 2002-04-22 | 2003-04-22 | Representacion parametrica de audio espacial. |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03715237T Expired - Lifetime ES2300567T3 (es) | 2002-04-22 | 2003-04-22 | Representacion parametrica de audio espacial. |
Country Status (11)
Country | Link |
---|---|
US (3) | US8340302B2 (es) |
EP (2) | EP1500084B1 (es) |
JP (3) | JP4714416B2 (es) |
KR (2) | KR101016982B1 (es) |
CN (1) | CN1307612C (es) |
AT (2) | ATE385025T1 (es) |
AU (1) | AU2003219426A1 (es) |
BR (2) | BRPI0304540B1 (es) |
DE (2) | DE60326782D1 (es) |
ES (2) | ES2323294T3 (es) |
WO (1) | WO2003090208A1 (es) |
Families Citing this family (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
CN1307612C (zh) * | 2002-04-22 | 2007-03-28 | 皇家飞利浦电子股份有限公司 | 声频信号的编码解码方法、编码器、解码器及相关设备 |
DE60311794T2 (de) * | 2002-04-22 | 2007-10-31 | Koninklijke Philips Electronics N.V. | Signalsynthese |
CN1761998B (zh) | 2003-03-17 | 2010-09-08 | 皇家飞利浦电子股份有限公司 | 用于生成单声道信号的方法、部件、音频编码器和系统 |
FR2853804A1 (fr) * | 2003-07-11 | 2004-10-15 | France Telecom | Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant |
CN1846253B (zh) * | 2003-09-05 | 2010-06-16 | 皇家飞利浦电子股份有限公司 | 低比特率音频编码 |
US7725324B2 (en) | 2003-12-19 | 2010-05-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Constrained filter encoding of polyphonic signals |
WO2005083679A1 (en) * | 2004-02-17 | 2005-09-09 | Koninklijke Philips Electronics N.V. | An audio distribution system, an audio encoder, an audio decoder and methods of operation therefore |
DE102004009628A1 (de) | 2004-02-27 | 2005-10-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Beschreiben einer Audio-CD und Audio-CD |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
JP4867914B2 (ja) * | 2004-03-01 | 2012-02-01 | ドルビー ラボラトリーズ ライセンシング コーポレイション | マルチチャンネルオーディオコーディング |
CA2808226C (en) * | 2004-03-01 | 2016-07-19 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
US7805313B2 (en) | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
CN1938760B (zh) * | 2004-04-05 | 2012-05-23 | 皇家飞利浦电子股份有限公司 | 多通道编码器 |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
EP1600791B1 (en) * | 2004-05-26 | 2009-04-01 | Honda Research Institute Europe GmbH | Sound source localization based on binaural signals |
JP4934427B2 (ja) * | 2004-07-02 | 2012-05-16 | パナソニック株式会社 | 音声信号復号化装置及び音声信号符号化装置 |
KR100663729B1 (ko) | 2004-07-09 | 2007-01-02 | 한국전자통신연구원 | 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치 |
WO2006006809A1 (en) | 2004-07-09 | 2006-01-19 | Electronics And Telecommunications Research Institute | Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information |
KR100773539B1 (ko) * | 2004-07-14 | 2007-11-05 | 삼성전자주식회사 | 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치 |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
KR100658222B1 (ko) * | 2004-08-09 | 2006-12-15 | 한국전자통신연구원 | 3차원 디지털 멀티미디어 방송 시스템 |
TWI393121B (zh) | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
TWI498882B (zh) | 2004-08-25 | 2015-09-01 | Dolby Lab Licensing Corp | 音訊解碼器 |
WO2006022308A1 (ja) | 2004-08-26 | 2006-03-02 | Matsushita Electric Industrial Co., Ltd. | マルチチャネル信号符号化装置およびマルチチャネル信号復号装置 |
US8046217B2 (en) | 2004-08-27 | 2011-10-25 | Panasonic Corporation | Geometric calculation of absolute phases for parametric stereo decoding |
WO2006022190A1 (ja) | 2004-08-27 | 2006-03-02 | Matsushita Electric Industrial Co., Ltd. | オーディオエンコーダ |
US8019087B2 (en) | 2004-08-31 | 2011-09-13 | Panasonic Corporation | Stereo signal generating apparatus and stereo signal generating method |
DE102004042819A1 (de) | 2004-09-03 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals |
CN101015230B (zh) * | 2004-09-06 | 2012-09-05 | 皇家飞利浦电子股份有限公司 | 音频信号增强 |
DE102004043521A1 (de) * | 2004-09-08 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes |
JP4809234B2 (ja) * | 2004-09-17 | 2011-11-09 | パナソニック株式会社 | オーディオ符号化装置、復号化装置、方法、及びプログラム |
JP2006100869A (ja) * | 2004-09-28 | 2006-04-13 | Sony Corp | 音声信号処理装置および音声信号処理方法 |
US8204261B2 (en) | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
WO2006047600A1 (en) | 2004-10-26 | 2006-05-04 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
EP1817767B1 (en) * | 2004-11-30 | 2015-11-11 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
RU2007120056A (ru) * | 2004-11-30 | 2008-12-10 | Мацусита Электрик Индастриал Ко. | Устройство стереокодирования, устройство стереодекодирования и способы стереокодирования и стереодекодирования |
EP1817766B1 (en) | 2004-11-30 | 2009-10-21 | Agere Systems Inc. | Synchronizing parametric coding of spatial audio with externally provided downmix |
US7787631B2 (en) | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
KR100682904B1 (ko) | 2004-12-01 | 2007-02-15 | 삼성전자주식회사 | 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법 |
KR100657916B1 (ko) | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
WO2006070760A1 (ja) * | 2004-12-28 | 2006-07-06 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置およびスケーラブル符号化方法 |
WO2006070757A1 (ja) | 2004-12-28 | 2006-07-06 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
EP1691348A1 (en) | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
US9626973B2 (en) | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
ES2623551T3 (es) | 2005-03-25 | 2017-07-11 | Iii Holdings 12, Llc | Dispositivo de codificación de sonido y procedimiento de codificación de sonido |
PL1866912T3 (pl) | 2005-03-30 | 2011-03-31 | Koninl Philips Electronics Nv | Kodowanie wielokanałowego sygnału audio |
ATE470930T1 (de) * | 2005-03-30 | 2010-06-15 | Koninkl Philips Electronics Nv | Skalierbare mehrkanal-audiokodierung |
US7751572B2 (en) | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
WO2006121101A1 (ja) | 2005-05-13 | 2006-11-16 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置およびスペクトル変形方法 |
CN101185117B (zh) * | 2005-05-26 | 2012-09-26 | Lg电子株式会社 | 解码音频信号的方法和装置 |
US8917874B2 (en) | 2005-05-26 | 2014-12-23 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
WO2006132857A2 (en) * | 2005-06-03 | 2006-12-14 | Dolby Laboratories Licensing Corporation | Apparatus and method for encoding audio signals with decoding instructions |
JP2009500669A (ja) * | 2005-07-06 | 2009-01-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | パラメトリック・マルチチャンネル復号化 |
US7830921B2 (en) | 2005-07-11 | 2010-11-09 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signal |
US8626503B2 (en) | 2005-07-14 | 2014-01-07 | Erik Gosuinus Petrus Schuijers | Audio encoding and decoding |
KR101492826B1 (ko) * | 2005-07-14 | 2015-02-13 | 코닌클리케 필립스 엔.브이. | 다수의 출력 오디오 채널들을 생성하기 위한 장치 및 방법과, 그 장치를 포함하는 수신기 및 오디오 재생 디바이스, 데이터 스트림 수신 방법, 및 컴퓨터 판독가능 기록매체 |
CN101248483B (zh) * | 2005-07-19 | 2011-11-23 | 皇家飞利浦电子股份有限公司 | 多声道音频信号的生成 |
KR100755471B1 (ko) * | 2005-07-19 | 2007-09-05 | 한국전자통신연구원 | 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법 |
EP1905034B1 (en) * | 2005-07-19 | 2011-06-01 | Electronics and Telecommunications Research Institute | Virtual source location information based channel level difference quantization and dequantization |
JP5113051B2 (ja) | 2005-07-29 | 2013-01-09 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法 |
CN101233571B (zh) * | 2005-07-29 | 2012-12-05 | Lg电子株式会社 | 处理音频信号的方法和装置 |
TWI396188B (zh) | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
WO2007027056A1 (en) | 2005-08-30 | 2007-03-08 | Lg Electronics Inc. | A method for decoding an audio signal |
KR20070025905A (ko) * | 2005-08-30 | 2007-03-08 | 엘지전자 주식회사 | 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법 |
WO2007026763A1 (ja) | 2005-08-31 | 2007-03-08 | Matsushita Electric Industrial Co., Ltd. | ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法 |
WO2007029412A1 (ja) * | 2005-09-01 | 2007-03-15 | Matsushita Electric Industrial Co., Ltd. | マルチチャンネル音響信号処理装置 |
CN101356572B (zh) * | 2005-09-14 | 2013-02-13 | Lg电子株式会社 | 解码音频信号的方法和装置 |
KR100857105B1 (ko) | 2005-09-14 | 2008-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 장치 |
CN101427307B (zh) * | 2005-09-27 | 2012-03-07 | Lg电子株式会社 | 编码/解码多声道音频信号的方法和装置 |
US8090587B2 (en) | 2005-09-27 | 2012-01-03 | Lg Electronics Inc. | Method and apparatus for encoding/decoding multi-channel audio signal |
US8019611B2 (en) | 2005-10-13 | 2011-09-13 | Lg Electronics Inc. | Method of processing a signal and apparatus for processing a signal |
KR20070041398A (ko) * | 2005-10-13 | 2007-04-18 | 엘지전자 주식회사 | 신호 처리 방법 및 신호 처리 장치 |
ES2587999T3 (es) * | 2005-10-20 | 2016-10-28 | Lg Electronics Inc. | Procedimiento, aparato y soporte de registro legible por ordenador para decodificar una señal de audio multicanal |
KR20080094710A (ko) | 2005-10-26 | 2008-10-23 | 엘지전자 주식회사 | 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치 |
US7760886B2 (en) * | 2005-12-20 | 2010-07-20 | Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. | Apparatus and method for synthesizing three output channels using two input channels |
EP1971978B1 (en) * | 2006-01-09 | 2010-08-04 | Nokia Corporation | Controlling the decoding of binaural audio signals |
DE602006001051T2 (de) * | 2006-01-09 | 2009-07-02 | Honda Research Institute Europe Gmbh | Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen |
WO2007080211A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
US8296155B2 (en) | 2006-01-19 | 2012-10-23 | Lg Electronics Inc. | Method and apparatus for decoding a signal |
JPWO2007088853A1 (ja) * | 2006-01-31 | 2009-06-25 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
CN103366747B (zh) * | 2006-02-03 | 2017-05-17 | 韩国电子通信研究院 | 用于控制音频信号的渲染的设备和方法 |
CN101379552B (zh) * | 2006-02-07 | 2013-06-19 | Lg电子株式会社 | 用于编码/解码信号的装置和方法 |
WO2007091842A1 (en) | 2006-02-07 | 2007-08-16 | Lg Electronics Inc. | Apparatus and method for encoding/decoding signal |
ES2391117T3 (es) | 2006-02-23 | 2012-11-21 | Lg Electronics Inc. | Método y aparato para procesar una señal de audio |
US7965848B2 (en) * | 2006-03-29 | 2011-06-21 | Dolby International Ab | Reduced number of channels decoding |
TWI483619B (zh) | 2006-03-30 | 2015-05-01 | Lg Electronics Inc | 一種媒體訊號的編碼/解碼方法及其裝置 |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
NO345590B1 (no) | 2006-04-27 | 2021-05-03 | Dolby Laboratories Licensing Corp | Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon |
ATE527833T1 (de) | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
EP1862813A1 (en) * | 2006-05-31 | 2007-12-05 | Honda Research Institute Europe GmbH | A method for estimating the position of a sound source for online calibration of auditory cue to location transformations |
WO2008016097A1 (fr) * | 2006-08-04 | 2008-02-07 | Panasonic Corporation | dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci |
US20080235006A1 (en) | 2006-08-18 | 2008-09-25 | Lg Electronics, Inc. | Method and Apparatus for Decoding an Audio Signal |
CN101484935B (zh) * | 2006-09-29 | 2013-07-17 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
KR100987457B1 (ko) | 2006-09-29 | 2010-10-13 | 엘지전자 주식회사 | 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치 |
JP5232791B2 (ja) * | 2006-10-12 | 2013-07-10 | エルジー エレクトロニクス インコーポレイティド | ミックス信号処理装置及びその方法 |
CN101529721B (zh) | 2006-10-20 | 2012-05-23 | 杜比实验室特许公司 | 使用复位的音频动态处理 |
WO2008060111A1 (en) | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
CN101632117A (zh) | 2006-12-07 | 2010-01-20 | Lg电子株式会社 | 用于解码音频信号的方法和装置 |
KR101128815B1 (ko) | 2006-12-07 | 2012-03-27 | 엘지전자 주식회사 | 오디오 처리 방법 및 장치 |
EP2118887A1 (en) * | 2007-02-06 | 2009-11-18 | Koninklijke Philips Electronics N.V. | Low complexity parametric stereo decoder |
KR20090122221A (ko) * | 2007-02-13 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
WO2008100100A1 (en) | 2007-02-14 | 2008-08-21 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
JP4277234B2 (ja) * | 2007-03-13 | 2009-06-10 | ソニー株式会社 | データ復元装置、データ復元方法及びデータ復元プログラム |
US20100106271A1 (en) | 2007-03-16 | 2010-04-29 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
KR101453732B1 (ko) * | 2007-04-16 | 2014-10-24 | 삼성전자주식회사 | 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치 |
JP5291096B2 (ja) * | 2007-06-08 | 2013-09-18 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
EP2560164A3 (en) * | 2007-06-27 | 2013-04-17 | Nec Corporation | Signal control device, its system, method, and program |
US8218775B2 (en) * | 2007-09-19 | 2012-07-10 | Telefonaktiebolaget L M Ericsson (Publ) | Joint enhancement of multi-channel audio |
GB2453117B (en) | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
KR101464977B1 (ko) * | 2007-10-01 | 2014-11-25 | 삼성전자주식회사 | 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치 |
EP2076900A1 (en) * | 2007-10-17 | 2009-07-08 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Audio coding using upmix |
PL2232700T3 (pl) | 2007-12-21 | 2015-01-30 | Dts Llc | System regulacji odczuwanej głośności sygnałów audio |
KR20090110244A (ko) * | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치 |
JP5309944B2 (ja) * | 2008-12-11 | 2013-10-09 | 富士通株式会社 | オーディオ復号装置、方法、及びプログラム |
EP2214162A1 (en) | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upmixer, method and computer program for upmixing a downmix audio signal |
MX2011006248A (es) * | 2009-04-08 | 2011-07-20 | Fraunhofer Ges Forschung | Aparato, metodo y programa de computacion para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavizacion de valor de fase. |
TWI441164B (zh) * | 2009-06-24 | 2014-06-11 | Fraunhofer Ges Forschung | 音訊信號解碼器、用以將音訊信號解碼之方法、以及運用級聯音訊物件處理級之電腦程式 |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
EP2489040A1 (fr) * | 2009-10-16 | 2012-08-22 | France Telecom | Decodage parametrique stereo optimise |
EP2489038B1 (en) * | 2009-11-20 | 2016-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
CN102696070B (zh) | 2010-01-06 | 2015-05-20 | Lg电子株式会社 | 处理音频信号的设备及其方法 |
JP5333257B2 (ja) | 2010-01-20 | 2013-11-06 | 富士通株式会社 | 符号化装置、符号化システムおよび符号化方法 |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
EP2532178A1 (en) * | 2010-02-02 | 2012-12-12 | Koninklijke Philips Electronics N.V. | Spatial sound reproduction |
CN102157152B (zh) | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
WO2011104146A1 (en) * | 2010-02-24 | 2011-09-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program |
US9628930B2 (en) * | 2010-04-08 | 2017-04-18 | City University Of Hong Kong | Audio spatial effect enhancement |
US9378754B1 (en) | 2010-04-28 | 2016-06-28 | Knowles Electronics, Llc | Adaptive spatial classifier for multi-microphone systems |
CN102314882B (zh) * | 2010-06-30 | 2012-10-17 | 华为技术有限公司 | 声音信号通道间延时估计的方法及装置 |
PL2609590T3 (pl) | 2010-08-25 | 2015-10-30 | Fraunhofer Ges Forschung | Urządzenie do dekodowania sygnału zawierającego transjenty z użyciem jednostki łączenia i miksera |
KR101697550B1 (ko) * | 2010-09-16 | 2017-02-02 | 삼성전자주식회사 | 멀티채널 오디오 대역폭 확장 장치 및 방법 |
EP2740222B1 (en) | 2011-08-04 | 2015-04-22 | Dolby International AB | Improved fm stereo radio receiver by using parametric stereo |
EP3288033B1 (en) * | 2012-02-23 | 2019-04-10 | Dolby International AB | Methods and systems for efficient recovery of high frequency audio content |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US9761229B2 (en) * | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
US9516446B2 (en) | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
EP2717265A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding |
US10219093B2 (en) * | 2013-03-14 | 2019-02-26 | Michael Luna | Mono-spatial audio processing to provide spatial messaging |
JP6484605B2 (ja) * | 2013-03-15 | 2019-03-13 | ディーティーエス・インコーポレイテッドDTS,Inc. | 複数のオーディオステムからの自動マルチチャネル音楽ミックス |
EP4300488A3 (en) | 2013-04-05 | 2024-02-28 | Dolby International AB | Stereo audio encoder and decoder |
EP2987166A4 (en) * | 2013-04-15 | 2016-12-21 | Nokia Technologies Oy | BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE |
TWI579831B (zh) | 2013-09-12 | 2017-04-21 | 杜比國際公司 | 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統 |
CA2926243C (en) | 2013-10-21 | 2018-01-23 | Lars Villemoes | Decorrelator structure for parametric reconstruction of audio signals |
EP2963649A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor and method for processing an audio signal using horizontal phase correction |
JP2017530579A (ja) * | 2014-08-14 | 2017-10-12 | レンセラール ポリテクニック インスティチュート | 両耳統合相互相関自己相関メカニズム |
FR3048808A1 (fr) * | 2016-03-10 | 2017-09-15 | Orange | Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal |
US10224042B2 (en) * | 2016-10-31 | 2019-03-05 | Qualcomm Incorporated | Encoding of multiple audio signals |
CN109215667B (zh) * | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
CN111316353B (zh) * | 2017-11-10 | 2023-11-17 | 诺基亚技术有限公司 | 确定空间音频参数编码和相关联的解码 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8901032A (nl) * | 1988-11-10 | 1990-06-01 | Philips Nv | Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting. |
JPH0454100A (ja) * | 1990-06-22 | 1992-02-21 | Clarion Co Ltd | 音声信号補償回路 |
GB2252002B (en) * | 1991-01-11 | 1995-01-04 | Sony Broadcast & Communication | Compression of video signals |
NL9100173A (nl) * | 1991-02-01 | 1992-09-01 | Philips Nv | Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting. |
GB2258781B (en) * | 1991-08-13 | 1995-05-03 | Sony Broadcast & Communication | Data compression |
FR2688371B1 (fr) * | 1992-03-03 | 1997-05-23 | France Telecom | Procede et systeme de spatialisation artificielle de signaux audio-numeriques. |
JPH09274500A (ja) * | 1996-04-09 | 1997-10-21 | Matsushita Electric Ind Co Ltd | ディジタルオーディオ信号の符号化方法 |
DE19647399C1 (de) * | 1996-11-15 | 1998-07-02 | Fraunhofer Ges Forschung | Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
GB9726338D0 (en) | 1997-12-13 | 1998-02-11 | Central Research Lab Ltd | A method of processing an audio signal |
US6016473A (en) * | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
GB2353926B (en) | 1999-09-04 | 2003-10-29 | Central Research Lab Ltd | Method and apparatus for generating a second audio signal from a first audio signal |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
CN1307612C (zh) * | 2002-04-22 | 2007-03-28 | 皇家飞利浦电子股份有限公司 | 声频信号的编码解码方法、编码器、解码器及相关设备 |
-
2003
- 2003-04-22 CN CNB038089084A patent/CN1307612C/zh not_active Expired - Lifetime
- 2003-04-22 WO PCT/IB2003/001650 patent/WO2003090208A1/en active IP Right Grant
- 2003-04-22 AU AU2003219426A patent/AU2003219426A1/en not_active Abandoned
- 2003-04-22 AT AT03715237T patent/ATE385025T1/de not_active IP Right Cessation
- 2003-04-22 JP JP2003586873A patent/JP4714416B2/ja not_active Expired - Lifetime
- 2003-04-22 DE DE60326782T patent/DE60326782D1/de not_active Expired - Lifetime
- 2003-04-22 EP EP20030715237 patent/EP1500084B1/en not_active Expired - Lifetime
- 2003-04-22 ES ES07119364T patent/ES2323294T3/es not_active Expired - Lifetime
- 2003-04-22 EP EP20070119364 patent/EP1881486B1/en not_active Expired - Lifetime
- 2003-04-22 BR BRPI0304540-4A patent/BRPI0304540B1/pt unknown
- 2003-04-22 DE DE2003618835 patent/DE60318835T2/de not_active Expired - Lifetime
- 2003-04-22 US US10/511,807 patent/US8340302B2/en active Active
- 2003-04-22 KR KR1020107004625A patent/KR101016982B1/ko active IP Right Grant
- 2003-04-22 AT AT07119364T patent/ATE426235T1/de not_active IP Right Cessation
- 2003-04-22 BR BR0304540A patent/BR0304540A/pt active IP Right Grant
- 2003-04-22 ES ES03715237T patent/ES2300567T3/es not_active Expired - Lifetime
- 2003-04-22 KR KR1020047017073A patent/KR100978018B1/ko active IP Right Grant
-
2009
- 2009-07-27 US US12/509,529 patent/US8331572B2/en active Active
- 2009-08-17 JP JP2009188196A patent/JP5101579B2/ja not_active Expired - Lifetime
-
2012
- 2012-04-03 JP JP2012084531A patent/JP5498525B2/ja not_active Expired - Lifetime
- 2012-11-13 US US13/675,283 patent/US9137603B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1881486B1 (en) | 2009-03-18 |
JP2009271554A (ja) | 2009-11-19 |
BRPI0304540B1 (pt) | 2017-12-12 |
DE60326782D1 (de) | 2009-04-30 |
JP5498525B2 (ja) | 2014-05-21 |
KR20100039433A (ko) | 2010-04-15 |
BR0304540A (pt) | 2004-07-20 |
EP1881486A1 (en) | 2008-01-23 |
KR101016982B1 (ko) | 2011-02-28 |
US20130094654A1 (en) | 2013-04-18 |
ATE426235T1 (de) | 2009-04-15 |
AU2003219426A1 (en) | 2003-11-03 |
KR100978018B1 (ko) | 2010-08-25 |
WO2003090208A1 (en) | 2003-10-30 |
US20090287495A1 (en) | 2009-11-19 |
JP2005523480A (ja) | 2005-08-04 |
JP4714416B2 (ja) | 2011-06-29 |
EP1500084B1 (en) | 2008-01-23 |
US8331572B2 (en) | 2012-12-11 |
KR20040102164A (ko) | 2004-12-03 |
US9137603B2 (en) | 2015-09-15 |
US8340302B2 (en) | 2012-12-25 |
EP1500084A1 (en) | 2005-01-26 |
ATE385025T1 (de) | 2008-02-15 |
ES2300567T3 (es) | 2008-06-16 |
CN1647155A (zh) | 2005-07-27 |
CN1307612C (zh) | 2007-03-28 |
JP5101579B2 (ja) | 2012-12-19 |
US20080170711A1 (en) | 2008-07-17 |
DE60318835D1 (de) | 2008-03-13 |
JP2012161087A (ja) | 2012-08-23 |
DE60318835T2 (de) | 2009-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2323294T3 (es) | Dispositivo de decodificacion con una unidad de decorrelacion. | |
ES2773794T3 (es) | Aparato y procedimiento para estimar una diferencia de tiempos entre canales | |
Baumgarte et al. | Binaural cue coding-Part I: Psychoacoustic fundamentals and design principles | |
ES2682073T3 (es) | Codificación conjunta paramétrica de fuentes de audio | |
ES2733878T3 (es) | Codificación mejorada de señales de audio digitales multicanales | |
TWI334736B (en) | Apparatus and method for generating a level parameter, apparatus and method for generating a multi-channel representation and a storage media stored parameter representation | |
RU2409911C2 (ru) | Декодирование бинауральных аудиосигналов | |
ES2316678T3 (es) | Codificacion y descodificacion audio multicanal. | |
US8917874B2 (en) | Method and apparatus for decoding an audio signal | |
ES2273216T3 (es) | Codificacion de audio. | |
US9009057B2 (en) | Audio encoding and decoding to generate binaural virtual spatial signals | |
ES2880343T3 (es) | Codificación y descodificación optimizada de información de espacialización para la codificación y la descodificación paramétrica de una señal de audio multicanal | |
MX2012009785A (es) | Aparato para generar señal de mezcla descendente mejorada, metodo para generar señal de mezcla descendente mejorada y programa de computadora. | |
US7343281B2 (en) | Processing of multi-channel signals | |
ES2783975T3 (es) | Codificación multicanal | |
US9311925B2 (en) | Method, apparatus and computer program for processing multi-channel signals | |
ES2965084T3 (es) | Determinación de correcciones a aplicar a una señal de audio multicanal, codificación y decodificación asociadas | |
KR100891668B1 (ko) | 믹스 신호 처리 방법 및 장치 |