ES2323275T3 - Conformacion de envolvente temporal de canal individual para esquemas de codificacion de indicacion binaural y similares. - Google Patents
Conformacion de envolvente temporal de canal individual para esquemas de codificacion de indicacion binaural y similares. Download PDFInfo
- Publication number
- ES2323275T3 ES2323275T3 ES05792350T ES05792350T ES2323275T3 ES 2323275 T3 ES2323275 T3 ES 2323275T3 ES 05792350 T ES05792350 T ES 05792350T ES 05792350 T ES05792350 T ES 05792350T ES 2323275 T3 ES2323275 T3 ES 2323275T3
- Authority
- ES
- Spain
- Prior art keywords
- envelope
- audio
- channel
- channels
- indication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Outer Garments And Coats (AREA)
- Superheterodyne Receivers (AREA)
- Channel Selection Circuits, Automatic Tuning Circuits (AREA)
- Steroid Compounds (AREA)
- Time-Division Multiplex Systems (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
Método para codificar canales de audio, comprendiendo el método: generar dos o más códigos de indicación para uno o más canales de audio, en el que al menos un código de indicación es un código de indicación de envolvente generado por la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en el que el uno o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), código de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación y en el que la envolvente temporal se caracteriza para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes subbandas de señal del canal de audio correspondiente en un dominio de subbanda; y transmitir los dos o más códigos de indicación.
Description
Conformación de envolvente temporal de canal
individual para esquemas de codificación de indicación binaural y
similares.
El contenido de esta solicitud está relacionado
con el contenido las siguientes publicaciones de solicitudes
estadounidenses:
\circ U.S. 2003/0026441;
\circ U.S. 2003/0035553;
\circ U.S. 2003/0219130;
\circ U.S. 2003/0236583;
\circ U.S. 2009/0180579;
\circ U.S. 2005/0058304;
\circ U.S. 2005/0157883; y
\circ U.S. 2006/0085200.
\vskip1.000000\baselineskip
El contenido de esta solicitud también está
relacionado con el contenido descrito en los siguientes
documentos:
- \circ
- F. Baumgarte y C. Faller, "Binaural Cue Coding - Part I: Psychoacoustic fundamentals and design principles", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003;
- \circ
- C. Faller y F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003; y
- \circ
- C. Faller, "Coding of spatial audio compatible with different playback formats", Preprint 17th Conv. Aud. Eng. Soc., octubre de 2004.
\vskip1.000000\baselineskip
La presente invención se refiere a la
codificación de señales de audio y la síntesis posterior de escenas
auditivas a partir de los datos de audio codificados.
Cuando una persona oye una señal de audio (esto
es, sonidos) generados por una fuente de audio particular, la señal
de audio llegará comúnmente en los oídos izquierdo y derecho de la
persona en dos tiempos diferentes y con dos niveles de audio
diferentes (por ejemplo, decibelios), en el que estos diferentes
tiempos y niveles son en función de las diferencias en las
trayectorias a través de las que viaja la señal de audio para llegar
a los oídos izquierdo y derecho, respectivamente. El cerebro de la
persona interpreta estas diferencias en tiempo y nivel para dar la
persona la percepción de que la señal de audio recibida se está
generando por una fuente de audio situada en una posición
particular (por ejemplo, dirección y distancia) con respecto a la
persona. Una escena auditiva es el efecto neto de una persona que
escucha simultáneamente señales de audio generadas por una o más
fuentes de audio diferentes situadas en una o más posiciones
diferentes con respecto a la persona.
La existencia de este procesamiento por el
cerebro puede usarse para sintetizar escenas auditivas, en el que
señales de audio de una o más fuentes de audio diferentes se
modifican intencionadamente para generar señales de audio izquierda
y derecha que dan la percepción de que las diferentes fuentes de
audio están ubicadas en diferentes posiciones con respecto al
oyente.
La figura 1 muestra un diagrama de bloques de
alto nivel del sintetizador 100 de señales binaural convencional,
que convierte una única señal de fuente de audio (por ejemplo, una
señal mono) en las señales de audio izquierda y derecha de una
señal binaural, definiéndose una señal binaural como las dos señales
recibidas en los tímpanos de un oyente. Además de la señal de
fuente de audio, el sintetizador 100 recibe un conjunto de
indicaciones espaciales correspondientes a la posición deseada de
la fuente de audio con respecto al oyente. En implementaciones
típicas, el conjunto de indicaciones espaciales comprende un valor
de diferencia de nivel intercanal (ICLD) (que identifica la
diferencia de nivel de audio entre las señales de audio izquierda y
derecha tal como se reciben en los oídos izquierdo y derecho,
respectivamente) y un valor de diferencia de tiempo intercanal
(ICTD) (que identifica la diferencia de tiempo de llegada entre las
señales de audio izquierda y derecha tal como se reciben en los
oídos izquierdo y derecho, respectivamente). Además o como
alternativa, algunas técnicas de síntesis implican el modelado de
una función de transferencia dependiente de la dirección para el
sonido desde la fuente de señal hacia los tímpanos, también
denominada como la función de transferencia relacionada con la
cabeza (HRTF). Véase, por ejemplo, J. Blauert, The Psychophysics of
Human Sound Localization, MIT Press, 1983.
Utilizando el sintetizador 100 de señales
binaural de la figura 1, la señal de audio mono generada por una
única fuente de sonido puede procesarse de tal manera que, cuando se
escucha mediante auriculares, la fuente de sonido está colocada
espacialmente aplicando un conjunto apropiado de indicaciones
espaciales (por ejemplo, ICLD, ICTD y/o HRTF) para generar la señal
de audio para cada oído. Véase, por ejemplo, D. R. Begault,
3-D Sound for Virtual Reality and Multimedia,
Academic Press, Cambridge, MA, 1994.
El sintetizador 100 de señales binaural de la
figura 1 genera el tipo más simple de escenas auditivas: aquellas
que tienen una única fuente de audio colocada con respecto al
oyente. Pueden generarse escenas auditivas más complejas que
comprenden dos o más fuentes de audio ubicadas en diferentes
posiciones con respecto al oyente utilizando un sintetizador de
escena auditiva que se implementa esencialmente utilizando múltiples
instancias del sintetizador de señales binaural, generando cada
instancia de sintetizador de señales binaural la señal binaural
correspondiente a una fuente de audio diferente. Puesto que cada
fuente de audio diferente tiene una ubicación diferente con
respecto al oyente, se usa un conjunto diferente de indicaciones
espaciales para generar la señal de audio binaural para cada fuente
de audio diferente.
Un objeto de la presente invención es
proporcionar un concepto mejorado para la codificación de audio.
Este objeto se consigue mediante un método para
codificar según la reivindicación 1, un aparato para codificar
según la reivindicación 14, un producto de programa informático
según la reivindicación 17, un flujo de bits de audio codificado
según la reivindicación 18, un método para descodificar según la
reivindicación 20, un aparato para descodificar según la
reivindicación 39 y un producto de programa informático según la
reivindicación 41. El documento US 5.812.971 (HERRE) da a conocer
un método de codificación estéreo de intensidad de señales de audio
multicanal usando conformación de envolvente temporal.
El artículo 6447 de la Convención AES, J. Herre
et. al, "The Reference Model Architecture for MPEG Spatial
Audio Coding", da a conocer una forma en la que no se tiene una
representación totalmente discreta de sonido multicanal, sino que
se tiene una tasa de transmisión compatible estéreo sólo ligeramente
superior a las tasas habitualmente usadas para sonido mono/estéreo.
Específicamente, se usan elementos OTT y TTT que se basan en
parámetros de diferencias de nivel y parámetros de correlación
cruzada/coherentes intercanal que representan la coherencia
variable en tiempo/frecuencia o correlación cruzada entre dos
canales de entrada.
La publicación técnica "Parametric Coding of
Spatial Audio", C. Faller, Proceedings of the 7th International
Conference on Digital Audio Effect, Nápoles, Italia, 5 de octubre de
2004, páginas 151 a 156, da a conocer la tecnología BCC. BCC
representa señales de audio estéreo o multicanal como un único o más
canales de audio mezclados descendentemente más información
lateral. La información lateral contiene las indicaciones intercanal
inherentes en la señal de audio original que son relevantes para la
percepción de propiedades de la imagen espacial auditiva. Se
comenta la relación entre las indicaciones intercanal y atributos de
la imagen espacial auditiva de audio.
Otros aspectos, elementos y ventajas de la
presente invención resultarán más plenamente evidentes a partir de
la siguiente descripción detallada, las reivindicaciones adjuntas y
los dibujos adjuntos en los que los mismos números de referencia
identifican elementos similares o idénticos.
La figura 1 muestra un diagrama de bloques de
alto nivel del sintetizador de señales binaural convencional;
la figura 2 es un diagrama de bloques de un
sistema de procesamiento de audio de codificación de indicación
binaural (BCC) genérico;
la figura 3 muestra un diagrama de bloques de un
mezclador descendente que puede usarse para el mezclador
descendente de la figura 2;
la figura 4 muestra un diagrama de bloques de un
sintetizador BCC que puede usarse para el descodificador de la
figura 2;
la figura 5 muestra un diagrama de bloques del
estimador BCC de la figura 2 según una realización de la presente
invención;
la figura 6 ilustra la generación de datos de
ICTD e ICLD para audio de cinco canales;
la figura 7 ilustra la generación de datos de
ICC para audio de cinco canales;
la figura 8 muestra un diagrama de bloques de
una implementación del sintetizador BCC de la figura 4 que puede
usarse en un descodificador BCC para generar una señal de audio
estereofónica o multicanal dada una señal s(n) de suma
transmitida individual más las indicaciones espaciales;
la figura 9 ilustra cómo ICTD e ICLD se
modifican dentro de una subbanda en función de la frecuencia;
la figura 10 muestra un diagrama de bloques del
procesamiento en el dominio de tiempo que se añade a un codificador
BCC, tal como el codificador de la figura 2, según una realización
de la presente invención;
la figura 11 ilustra una aplicación en el
dominio de tiempo a modo de ejemplo de procesamiento TP en el
contexto del sintetizador BCC de la figura 4;
la figura 13 muestra un diagrama de bloques del
procesamiento en el dominio de frecuencia que se añade a un
codificador BCC, tal como el codificador de la figura 2, según una
realización alternativa de la presente invención;
la figura 14 ilustra una aplicación en el
dominio de frecuencia a modo de ejemplo de procesamiento TP en el
contexto del sintetizador BCC de la figura 4;
la figura 15 muestra un diagrama de bloques del
procesamiento en el dominio de frecuencia que se añade a un
codificador BCC, tal como el codificador de la figura 2, según otra
realización alternativa de la presente invención;
la figura 16 ilustra otra aplicación en el
dominio de frecuencia a modo de ejemplo de procesamiento TP en el
contexto del sintetizador BCC de la figura 4;
las figuras 17(a)-(c) muestran diagramas
de bloques de implementaciones posibles de los TPA de las figuras
15 y 16 e ITP y TP de la figura 16; y
las figuras 18(a) y (b) ilustran dos
modos ejemplares de operación del bloque de control de la figura
16.
\vskip1.000000\baselineskip
En la codificación de indicación binaural (BCC),
un codificador codifica C canales de audio de entrada para generar
E canales de audio transmitidos, siendo C>E\geq1. En
particular, dos o más de los C canales de entrada se proporcionan
en un dominio de frecuencia y se generan uno o más códigos de
indicación para cada una de una o más bandas de frecuencia
diferentes en los dos o más canales de entrada en el dominio de
frecuencia. Además, los C canales de entrada se mezclan
descendentemente (downmix) para generar los E canales
transmitidos. En algunas implementaciones de mezcla descendente, al
menos uno de los E canales transmitidos está basado en dos o más de
los C canales de entrada y al menos uno de los E canales
transmitidos está basado en solamente uno solo de los C canales de
entrada.
En una realización, un codificador BCC tiene dos
o más bancos de filtros, un estimador de código y un mezclador
descendente. Los dos o más bancos de filtros convierten dos o más de
los C canales de entrada de un dominio de tiempo a un dominio de
frecuencia. El estimador de código genera uno o más códigos de
indicación para cada una de una o más bandas de frecuencia
diferentes en los dos o más canales de entrada convertidos. El
mezclador descendente mezcla descendentemente los C canales de
entrada para generar los E canales transmitidos, siendo
C>E\geq1.
En la descodificación BCC, se descodifican E
canales de audio transmitidos para generar C canales de audio de
reproducción. En particular, para cada una de una o más bandas de
frecuencia diferentes, uno o más de los E canales transmitidos se
mezclan ascendentemente (upmix) en un dominio de frecuencia
para generar dos o más de los C canales de reproducción en el
dominio de frecuencia, siendo C>E\geq1. Uno o más códigos de
indicación se aplican a cada una de las una o más bandas de
frecuencia diferentes en los dos o más canales de reproducción en
el dominio de frecuencia para generar dos o más canales modificados,
y los dos o más canales modificados se convierten del dominio de
frecuencia a un dominio de tiempo. En algunas implementaciones de
mezcla ascendente, al menos uno de los C canales de reproducción
está basado en al menos uno de los E canales transmitidos y al
menos un código de indicación, y al menos uno de los C canales de
reproducción está basado en solamente uno solo de los E canales
transmitidos e independiente de cualquier código de indicación.
En una realización, un descodificador BCC tiene
un mezclador ascendente, un sintetizador y uno o más bancos de
filtros inversos. Para cada una de una o más bandas de frecuencia
diferentes, el mezclador ascendente mezcla ascendentemente uno o
más de los E canales transmitidos en un dominio de frecuencia para
generar dos o más de los C canales de reproducción en el dominio de
frecuencia, siendo C>E\geq1. El sintetizador aplica uno o más
códigos de indicación a cada una de las una o más bandas de
frecuencia diferentes en los dos o más canales de reproducción en
el dominio de frecuencia para generar dos o más canales modificados.
El uno o más bancos de filtros inversos convierten los dos o más
canales modificados del dominio de frecuencia a un dominio de
tiempo.
Dependiendo de la implementación particular, un
canal de reproducción dado puede basarse en un único canal
transmitido, en lugar de una combinación de dos o más canales
transmitidos. Por ejemplo, cuando hay solamente un canal
transmitido, cada uno de los C canales de reproducción está basado
en ese canal transmitido. En estas situaciones, la mezcla
ascendente corresponde a copiar el canal transmitido
correspondiente. Como tal, para aplicaciones en las que hay
solamente un canal transmitido, el mezclador ascendente puede
implementarse utilizando un replicador que copia el canal
transmitido para cada canal de reproducción.
Pueden incorporarse codificadores y/o
descodificadores BCC a diversos sistemas o aplicaciones entre los
que se incluyen, por ejemplo, grabadores/reproductores de vídeo
digital, grabadores/reproductores de audio digital, ordenadores,
transmisores/receptores de satélite, transmisores/receptores de
cable, transmisores/receptores de difusión terrestre, sistemas de
entretenimiento en casa y sistemas de cine.
\vskip1.000000\baselineskip
La figura 2 es un diagrama de bloques de un
sistema 200 de procesamiento de audio de codificación de indicación
binaural (BCC) genérico que comprende un codificador 202 y un
descodificador 204. El codificador 202 incluye el mezclador 206
descendente y el estimador 208 BCC.
El mezclador 206 descendente convierte C canales
de audio de entrada x_{i}(n) en E canales de audio
transmitidos y_{i}(n), siendo C>E\geq1. En esta
memoria descriptiva, las señales expresadas utilizando la variable
n son señales en el dominio de tiempo, mientras que las señales
expresadas utilizando la variable k son señales en el dominio de
frecuencia. Dependiendo de la implementación particular, se puede
implementar la mezcla descendente o bien en el dominio de tiempo o
bien en el dominio de frecuencia. El estimador 208 BCC genera
códigos BCC a partir de los C canales de audio de entrada y
transmite estos códigos BCC como información lateral o bien en
banda o bien fuera de banda con respecto a los E canales de audio
transmitidos. Códigos BCC típicos incluyen uno o más de datos de
diferencia de tiempo intercanal (ICTD), de diferencia de nivel
intercanal (ICLD) y de correlación intercanal (ICC) estimados entre
ciertos pares de canales de entrada en función de la frecuencia y
el tiempo. La implementación particular determinará entre qué pares
particulares de canales de entrada se estiman los códigos BCC.
Los datos ICC corresponden a la coherencia de
una señal binaural, que está relacionada con el ancho percibido de
la fuente de audio. Cuanto más ancha es la fuente de audio, más baja
es la coherencia entre los canales izquierdo y derecho de la señal
binaural resultante. Por ejemplo, la coherencia de la señal binaural
correspondiente a una orquesta dispersada por el escenario de un
auditorio es normalmente más baja que la coherencia de la señal
binaural correspondiente a un único violín que toca un solo. En
general, una señal de audio con coherencia más baja se percibe
habitualmente como más esparcida por el espacio auditivo. Como tal,
los datos ICC se refieren normalmente al ancho de fuente aparente y
en qué grado queda envuelto el oyente. Véase, por ejemplo, J.
Blauert, The Psychophysics of Human Sound Localization, MIT Press,
1983.
Dependiendo de la aplicación particular, los E
canales de audio transmitidos y los correspondientes códigos BCC
pueden transmitirse directamente al descodificador 204 o almacenarse
en algún tipo apropiado de dispositivo de almacenamiento para su
posterior acceso por el descodificador 204. Dependiendo de la
situación, el término "transmisión" se puede referir o bien a
la transmisión directa a un descodificador o al almacenamiento para
su posterior facilitación a un descodificador. Ya sea en un caso u
otro, el descodificador 204 recibe los canales de audio
transmitidos y la información lateral y efectúa una mezcla
ascendente y una síntesis BCC utilizando los códigos BCC para
convertir los E canales de audio transmitidos en más de E
(normalmente, aunque no necesariamente C) canales de audio de
reproducción \hat{x}_{i}(n) para la reproducción de
audio. Dependiendo de la implementación particular, la mezcla
ascendente puede efectuarse o bien en el dominio de tiempo o bien en
el dominio de frecuencia.
Además del procesamiento BCC mostrado en la
figura 2, un sistema de procesamiento de audio BCC genérico puede
incluir fases de codificación y descodificación adicionales, para
comprimir adicionalmente las señales de audio en el codificador y
luego descomprimir las señales de audio en el descodificador,
respectivamente. Estos códecs de audio pueden basarse en técnicas
de compresión/descompresión de audio convencionales, tales como las
basadas en modulación por código de impulso (PCM), PCM diferencial
(DPCM) o DPCM adaptativa (ADPCM).
Cuando el mezclador 206 descendente genera una
única señal de suma (es decir, E = 1), la codificación BCC puede
representar señales de audio multicanal a una tasa de transmisión de
bits sólo ligeramente superior a la que se requiere para
representar una señal de audio mono. Esto es así debido a que los
datos ICTD, ICLD e ICC estimados entre un par de canales contienen
aproximadamente dos órdenes de magnitud menos de información que una
forma de onda de audio.
No sólo es interesante la baja tasa de
transmisión de bits de la codificad BCC, sino también su aspecto de
compatibilidad hacia atrás. Una única señal de suma transmitida
corresponde a una mezcla descendente mono de la señal estéreo o
multicanal original. Para receptores que no soportan reproducción de
sonido estéreo o multicanal, escuchar la señal de suma transmitida
es un método válido para presentar el material de audio en equipos
de reproducción mono de bajo perfil. Por consiguiente, la
codificación BCC puede usarse también para mejorar los servicios
existentes que implican la entrega de material de audio mono hacia
audio multicanal. Por ejemplo, los sistemas de emisión de radio de
audio mono pueden mejorarse para la reproducción estéreo o
multicanal si la información lateral BCC puede incrustarse en el
canal de transmisión existente. Existen capacidades análogas cuando
se mezcla descendentemente audio multicanal en dos señales de suma
que corresponden a audio estéreo.
BCC procesa señales de audio con una cierta
resolución de tiempo y de frecuencia. La resolución de frecuencia
usada está motivada en gran medida por la resolución de frecuencia
del sistema auditivo humano. La psicoacústica sugiere que la
percepción espacial está más probablemente basada en una
representación de banda crítica de la señal de entrada acústica.
Esta resolución de frecuencia se considera utilizando un banco de
filtros invertible (por ejemplo, basado en una transformada de
Fourier rápida (FFT) o un filtro de espejo en cuadratura (QMF)) con
subbandas con anchos de banda iguales o proporcionales al ancho de
banda crítico del sistema auditivo humano.
\vskip1.000000\baselineskip
En implementaciones preferidas, la(s)
señal(es) de suma transmitida(s) contiene(n)
todas las componentes de señal de la señal de audio de entrada. El
objetivo es que cada componente de señal se mantenga plenamente. La
simple suma de los canales de audio de entrada da como resultado
frecuentemente amplificación o atenuación de las componentes de
señal. En otras palabras, la potencia de las componentes de señal en
una "simple" suma es frecuentemente más grande o más pequeña
que la suma de la potencia de la componente de señal correspondiente
de cada canal. Se puede usar una técnica de mezcla descendente que
ecualiza la señal de suma, de tal manera que la potencia de las
componentes de señal en la señal de suma es aproximadamente la misma
que la potencia correspondiente en todos los canales de
entrada.
La figura 3 muestra un diagrama de bloques de un
mezclador 300 descendente que puede usarse para el mezclador 206
descendente de la figura 2 según ciertas implementaciones del
sistema 200 BCC. El mezclador 300 descendente tiene un banco 302 de
filtros (FB) para cada canal de entrada x_{i}(n), un
bloque 304 de mezcla descendente, un bloque 306 de ajuste a
escala/retardo opcional y un FB 308 inverso (IFB) para cada canal
codificado y_{i}(n).
Cada banco 302 de filtros convierte cada trama
(por ejemplo 20 ms) de un canal de entrada digital
x_{i}(n) correspondiente en el dominio de tiempo en
un conjunto de coeficientes de entrada
\tilde{x}_{i}(k) en el dominio de frecuencia. El
bloque 304 de mezcla descendente mezcla descendentemente cada
subbanda de C coeficientes de entrada correspondientes en una
subbanda correspondiente de E coeficientes en el dominio de
frecuencia mezclados descendentemente. La ecuación (1) representa
la mezcla descendente de la k-ésima subbanda de coeficientes de
entrada
(\tilde{x}_{1}(k),\tilde{x}_{2}(k),...,\tilde{x}_{C}(k))
para generar la k-ésima subbanda de coeficientes mezclados
descendentemente
(\hat{y}_{1}(k),\hat{y}_{2}(k),...,\hat{y}_{E}(k))
como sigue:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde D_{CE} es un matriz de
mezcla descendente de C por E de valor
real.
El bloque 306 de ajuste a escala/retardo
opcional comprende un conjunto de multiplicadores 310, cada uno de
los cuales multiplica un coeficiente mezclado descendentemente
\hat{y}_{i}(k) correspondiente por un factor de
ajuste a escala e_{i}(k) para generar un
coeficiente ajustado a escala \hat{y}_{i}(k)
correspondiente. La motivación para la operación de ajuste a escala
es equivalente a la ecualización generalizada para la mezcla
descendente con factores de ponderación arbitrarios para cada
canal. Si los canales de entrada son independientes, entonces la
potencia P_{\tilde{y}_{i}(k)} de la señal mezclada
descendentemente en cada subbanda viene dada por la ecuación (2)
como sigue:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde \overline{D}_{CE} se
obtiene elevando al cuadrado cada elemento de matriz en la matriz
D_{CE} de mezcla descendente de C por E y
P_{\tilde{x}_{i}(k)} es la potencia de la subbanda k
del canal de entrada
i.
\newpage
Si las subbandas no son independientes, entonces
los valores de potencia P_{\tilde{y}_{i}(k)} de la señal
mezclada descendentemente serán más grandes o más pequeños que el
calculado utilizando la ecuación (2), debido a amplificaciones o
cancelaciones de señal cuando las componentes de señal están en
fase o fuera de fase, respectivamente. Para impedir esto, la
operación de mezcla descendente de la ecuación (1) se aplica en
subbandas seguida por la operación de ajuste a escala de los
multiplicadores 310. Los factores de ajuste a escala
e_{i}(k) (1\leqi\leqE) pueden obtenerse
utilizando la ecuación (3) como sigue:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde
P_{\tilde{y}_{i}(k)} es la potencia de subbanda calculada
por la ecuación (2) y P_{\tilde{y}_{i}(k)} es la potencia
de la señal de subbanda mezclada descendentemente
\hat{y}_{i}(k)
correspondiente.
Además de o en lugar de proporcionar el ajuste a
escala opcional, el bloque 306 de ajuste a escala/retardo puede
aplicar opcionalmente retardos a las señales.
Cada banco 308 de filtros inversos convierte un
conjunto de coeficientes ajustados a escala
\tilde{y}_{i}(k) correspondientes en el dominio
de frecuencia en una trama de un canal transmitido digital
y_{i}(n) correspondiente.
Aunque la figura 3 muestra todos los C canales
de entrada convertidos al dominio de frecuencia para la posterior
mezcla descendente, en implementaciones alternativas, uno o más
(pero menos que C-1) de los C canales de entrada
podrían saltarse parte de o todo el procesamiento mostrado en la
figura 3 y transmitirse como un número equivalente de canales de
audio sin modificar. Dependiendo de la implementación particular,
estos canales de audio sin modificar podrían o no usarse por el
estimador 208 BCC de la figura 2 en la generación de los códigos BCC
transmitidos.
En una implementación del mezclador 300
descendente que genera una única señal de suma y(n),
E=1 y las señales \tilde{x}_{c}(k) de cada
subbanda de cada canal de entrada C se suman y luego se multiplican
por un factor e(k), según la ecuación (4) como
sigue:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
el factor e(k) viene dado
por la ecuación (5) como
sigue:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde
P_{\tilde{x}_{c}}(k) es un valor estimativo temporal
de la potencia de \tilde{x}_{c}(k) en el índice
de tiempo k, y P_{\tilde{x}}(k) es un valor
estimativo temporal de la potencia de
\sum^{C}_{c=1}\tilde{x}_{c}(k). Las subbandas ecualizadas
se transforman de regreso al dominio de tiempo dando como resultado
la señal de suma y(n) que se transmite al
descodificador
BCC.
\vskip1.000000\baselineskip
La figura 4 muestra un diagrama de bloques de un
sintetizador 400 BCC que puede usarse por el descodificador 204 de
la figura 2 según ciertas implementaciones del sistema 200 BCC. El
sintetizador 400 BCC tiene un banco 402 de filtros para cada canal
transmitido y_{i}(n), un bloque 404 de mezcla
ascendente, retardos 406, multiplicadores 408, bloque 410 de
correlación y un banco 412 de filtros inversos para cada canal de
reproducción \hat{x}_{i}(n).
Cada banco 402 de filtros convierte cada trama
de un canal transmitido digital y_{i}(n)
correspondiente en el dominio de tiempo en un conjunto de
coeficientes de entrada \tilde{y}_{i}(k) en el
dominio de frecuencia. El bloque 404 de mezcla ascendente mezcla
ascendentemente cada subbanda de E coeficientes de canal transmitido
correspondientes en una subbanda correspondiente de C coeficientes
en el dominio de frecuencia mezclados ascendentemente. La ecuación
(4) representa la mezcla ascendente de la k-ésima subbanda de
coeficientes de canal transmitidos
(\tilde{y}_{1}(k),\tilde{y}_{2}(k),...,\tilde{y}_{E}(k))
para generar la k-ésima subbanda de coeficientes mezclados
ascendentemente
(\tilde{s}_{1}(k),\tilde{s}_{2}(k),...,\tilde{s}_{C}(k))
como sigue:
donde U_{EC} es una matriz de
mezcla ascendente de E por C de valor real. Efectuar la mezcla
ascendente en el dominio de frecuencia permite que aplicar la
mezcla ascendente individualmente en cada subbanda
diferente.
Cada retardo 406 aplica un valor de retardo
d_{i}(k) basándose en un código BCC correspondiente
para datos ICTD para garantizar que los valores ICTD deseados
aparecen entre ciertos pares de canales de reproducción. Cada
multiplicador 408 aplica un factor de ajuste a escala
a_{i}(k) basándose en un código BCC correspondiente
para datos ICLD para garantizar que los valores ICLD deseados
aparecen entre ciertos pares de canales de reproducción. El bloque
410 de correlación efectúa una operación de decorrelación A
basándose en códigos BCC correspondientes para datos ICC para
garantizar que los valores ICC deseados aparecen entre ciertos pares
de canales de reproducción. Una descripción adicional de las
operaciones del bloque 410 de correlación puede encontrarse en el
documento US 2003/0219130.
La síntesis de valores ICLD puede ser menos
problemática que la síntesis de valores ICTD e ICC, puesto que la
síntesis ICLD implica meramente el ajuste a escala de señales de
subbanda. Puesto que las indicaciones ICL son las indicaciones
direccionales usadas más habitualmente, usualmente es más importante
que los valores ICLD se aproximen a los de la señal de audio
original. Como tal, los datos ICLD podrían estimarse entre todos
los pares de canales. Los factores de ajuste a escala
a_{i}(k) (1\leqi\leqC) para cada subbanda
se escogen preferiblemente de tal manera que la potencia de
subbanda de cada canal de reproducción se aproxime a la potencia
correspondiente del canal de audio de entrada original.
Un objetivo puede ser aplicar relativamente
pocas modificaciones de señal para sintetizar valores ICTD e ICC.
Como tal, los datos BCC podrían no incluir valores ICTD e ICC para
todos los pares de canales. En ese caso, el sintetizador 400 BCC
sintetizaría valores ICTD e ICC solamente entre ciertos pares de
canales.
Cada banco 412 de filtros inversos convierte un
conjunto de coeficientes sintetizados
\tilde{\hat{x}}_{i}(k) correspondientes en el dominio de
frecuencia en una trama de un canal de reproducción digital
\hat{x}_{i}(n) correspondiente.
Aunque la figura 4 muestra todos los E canales
transmitidos convertidos al dominio de frecuencia para la posterior
mezcla ascendente y procesamiento BCC, en implementaciones
alternativas, uno o más (pero no todos) los E canales transmitidos
podrían saltarse parte de o todo el procesamiento mostrado en la
figura 4. Por ejemplo, uno o más de los canales transmitidos pueden
ser canales sin modificar que no se someten a mezcla ascendente.
Además de ser uno o más de los C canales de reproducción, estos
canales sin modificar podrían, a su vez, aunque no tienen que,
usarse como canales de referencia a los que se aplica procesamiento
BCC para sintetizar uno o más de los otros canales de reproducción.
Ya sea en un caso u otro, tales canales sin modificar pueden
someterse a retardos para compensar el tiempo de procesamiento que
conlleva la mezcla ascendente y/o procesamiento BCC usado para
generar el resto de los canales de reproducción.
Obsérvese que, aunque la figura 4 muestra C
canales de reproducción sintetizados a partir de E canales
transmitidos, en el que C era también el número de canales de
entrada originales, la síntesis BCC no está limitada a ese número
de canales de reproducción. En general, el número de canales de
reproducción puede ser cualquier número de canales, incluyendo
números mayores o menores que C y posiblemente incluso situaciones
en las que el número de canales de reproducción es igual o menor
que el número de canales transmitidos.
\vskip1.000000\baselineskip
Suponiendo una única señal de suma, BCC
sintetiza una señal de audio estéreo o multicanal de tal manera que
ICTD, ICLD, e ICC se aproximan a las indicaciones correspondientes
de la señal de audio original. A continuación se comenta el papel
de ICTD, ICLD, e ICC con respecto a los atributos de imagen espacial
auditivos.
El conocimiento acerca de la audición espacial
implica que para un evento auditivo, ICTD e ICC están relacionados
con la dirección percibida. Cuando se consideran respuestas
impulsivas binaurales en salas (BRIR) de una fuente, hay una
relación entre el ancho del evento auditivo y cómo queda envuelto el
oyente y los datos ICC estimados para partes tempranas y tardías de
las BRIR. Sin embargo, la relación entre ICC y estas propiedades
para señales generales (y no solo las BRIR) no es directa.
Las señales de audio estéreo y multicanal
contienen usualmente una mezcla compleja de señales de fuente
simultáneamente activas superpuestas por las componentes de señal
reflejada resultantes de la grabación en espacios cerrados o
agregadas por el técnico de grabación para crear artificialmente una
impresión espacial. Señales de diferentes fuentes y sus reflejos
ocupan diferentes regiones en el plano de
tiempo-frecuencia. Esto se refleja por ICTD, ICLD e
ICC, que varían en función del tiempo y la frecuencia. En este caso,
la relación entre ICTD, ICLD e ICC instantáneos y direcciones de
eventos auditivos e impresión espacial no es obvia. La estrategia de
ciertas realizaciones BCC es sintetizar ciegamente estas
indicaciones, de tal manera que se aproximen a las indicaciones
correspondientes de la señal de audio original.
Se utilizan bancos de filtros con subbandas de
anchos de banda iguales a dos veces el ancho de banda rectangular
equivalente (ERB). La escucha informal revela que la calidad de
audio BCC no mejora notablemente cuando se escoge una resolución de
frecuencia más alta. Una resolución de frecuencia más baja puede ser
deseable, puesto que da como resultado menos valores ICTD, ICLD e
ICC que necesitan transmitirse al descodificador y así una tasa de
transmisión de bits más baja.
Con respecto a la resolución de tiempo, ICTD,
ICLD e ICC se consideran normalmente a intervalos de tiempo
regulares. Se obtiene un rendimiento alto cuando ICTD, ICLD e ICC se
consideran aproximadamente cada 4 a 16 ms. Obsérvese que, a menos
que las indicaciones se consideren a intervalos de tiempo muy
cortos, el efecto de precedencia no se considera directamente.
Suponiendo un par clásico adelanto-retraso de
estímulos de sonido, si el adelanto y el retraso caen en un
intervalo de tiempo en el que solamente está sintetizado un conjunto
de indicaciones, entonces la dominancia de localización del
adelanto no se considera. A pesar de esto, BCC obtiene calidad de
audio reflejada en una puntuación MUSHRA promedio de aproximadamente
87 es decir, calidad de audio "excelente") en promedio y hasta
casi 100 para ciertas señales de audio.
La diferencia perceptivamente pequeña
frecuentemente obtenida entre la señal de referencia y la señal
sintetizada implica que las indicaciones relacionadas con un amplio
intervalo de atributos de imagen espacial auditivos se consideran
implícitamente al sintetizar ICTD, ICLD e ICC a intervalos de tiempo
regulares. A continuación se dan algunos argumentos de cómo ICTD,
ICLD e ICC pueden relacionarse con un intervalo de atributos de
imagen espacial auditivos.
\vskip1.000000\baselineskip
A continuación se describe cómo se estiman ICTD,
ICLD e ICC. La tasa de transmisión de bits para la transmisión de
estas indicaciones espaciales (cuantificadas y codificadas) puede
ser de sólo unos pocos kb/s y, por tanto, con BCC, es posible
transmitir señales de audio estéreo y multicanal a tasas de
transmisión de bits próximas a la que se requiere para un único
canal de audio.
La figura 5 muestra un diagrama de bloques del
estimador 208 BCC de la figura 2, según una realización de la
presente invención. El estimador 208 BCC comprende bancos 502 de
filtros (FB), que pueden ser los mismos que los bancos 302 de
filtros de la figura 3 y el bloque 504 de estimación, que genera
indicaciones espaciales ICTD, ICLD e ICC para cada subbanda de
frecuencia diferente generada por los bancos 502 de filtros.
\vskip1.000000\baselineskip
Se usan las siguientes medidas para ICTD, ICLD e
ICC para señales de subbanda \tilde{x}_{1}(k) y
\tilde{x}_{2}(k) correspondientes de dos canales de
audio (por ejemplo estéreo):
\circ ICTD [muestras]:
\vskip1.000000\baselineskip
con un valor estimativo temporal de
la función de correlación cruzada normalizada dada por la ecuación
(8) como
sigue:
\newpage
donde
\vskip1.000000\baselineskip
y
P_{\tilde{x}_{1}\tilde{x}_{2}}(d,k) es
un valor estimativo temporal de la media de
\tilde{x}_{1}(k-d_{1})\tilde{x}_{2}(k-d_{2}).
\circ ICLD [dB]:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\circ ICC:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Obsérvese que se considera el valor absoluto de
la correlación cruzada normalizada y c_{12}(k)
tiene un intervalo de [0,1].
\vskip1.000000\baselineskip
Cuando hay más de dos canales de entrada, es
normalmente suficiente definir ICTD e ICLD entre un canal de
referencia (por ejemplo, canal número 1) y los otros canales, tal
como se ilustra en la figura 6 para el caso de
C = 5 canales, en el que \tau_{1c}(k) y \DeltaL_{12}(k) denotan ICTD e ICLD, respectivamente, entre el canal de referencia 1 y el
canal c.
C = 5 canales, en el que \tau_{1c}(k) y \DeltaL_{12}(k) denotan ICTD e ICLD, respectivamente, entre el canal de referencia 1 y el
canal c.
En contraposición con ICTD e ICLD, ICC tiene
normalmente más grados de libertad. La ICC tal como se define puede
tener diferentes valores entre todos los pares de canales de entrada
posibles. Para C canales, hay C(C-1)/2 pares
de canales posibles; por ejemplo para 5 canales hay 10 pares de
canales como se ilustra en la figura 7(a). Sin embargo, tal
esquema requiere que, para cada subbanda en cada índice de tiempo,
se estimen y transmitan los valores ICC de
C(C-1)/2, dando como resultado una gran
complejidad computacional y alta tasa de transmisión de bits.
Alternativamente, para cada subbanda, ICTD e
ICLD determinan la dirección en la que se proporciona el evento
auditivo de la componente de señal correspondiente en la subbanda.
Un único parámetro ICC por subbanda puede por tanto usarse para
describir la coherencia global entre todos los canales de audio.
Pueden obtenerse buenos resultados estimando y transmitiendo
indicaciones ICC solamente entre los dos canales con la mayor
energía en cada subbanda en cada índice de tiempo. Esto está
ilustrado en la figura 7(b), en la que para los instantes de
tiempo k-1 y k, los pares de canales (3,4) y (1,2)
son los más fuertes, respectivamente. Una regla heurística puede
usarse para determinar ICC entre los otros pares de canales.
\vskip1.000000\baselineskip
La figura 8 muestra un diagrama de bloques de
una implementación del sintetizador 400 BCC de la figura 4 que
puede usarse en un descodificador BCC para generar una señal de
audio estéreo o multicanal dada una señal de suma s(n)
transmitida individual más las indicaciones espaciales. La señal de
suma s(n) se descompone en subbandas, donde
\tilde{s}(k) denota una de tales subbandas. Para generar
las subbandas correspondientes de cada uno de los canales de
salida, se aplican retardos d_{c}, factores de ajuste a
escala a_{c}, y filtros h_{c} a la subbanda
correspondiente de la señal de suma. (Por simplicidad de notación,
el índice de tiempo k se ignora en los retardos, factores de
ajuste a escala y filtros). Las ICTD se sintetizan imponiendo
retardos, ICLD mediante ajuste a escala e ICC aplicando filtros de
decorrelación. El procesamiento mostrado en la figura 8 se aplica
independientemente a cada subbanda.
\newpage
Los retardos d_{c} se determinan a
partir de las ICTD \tau_{1c}(k) según la ecuación (12)
como sigue:
El retardo para el canal de referencia
d_{1} se calcula de tal manera que la magnitud máxima de
los retardos d_{c} se minimiza. Cuanto menos se modifiquen
las señales de subbanda, menos peligro hay de que se presenten
artefactos. Si la tasa de toma de muestras de subbanda no
proporciona resolución de tiempo suficientemente alta para la
síntesis de ICTD, pueden imponerse retardos con mayor precisión
utilizando filtros de todo paso apropiados.
\vskip1.000000\baselineskip
Con el fin de que las señales de subbanda de
salida tengan ICLD deseados \DeltaL_{12}(k) entre
el canal c y el canal de referencia 1, los factores de ganancia
a_{c} deben satisfacer la ecuación (13) como sigue:
Adicionalmente, las subbandas de salida
preferiblemente se normalizan, de tal manera que la suma de la
potencia de todos los canales de salida es igual a la potencia de
la señal de suma de entrada. Puesto que la potencia de señal
original total en cada subbanda se conserva en la señal de suma,
esta normalización da como resultado que la potencia de subbanda
absoluta para cada canal de salida se aproxima a la potencia
correspondiente de la señal de audio de entrada del codificador
original. Dadas estas restricciones, los factores de ajuste a
escala a_{c} vienen dados por la ecuación (14) como
sigue:
En ciertas realizaciones, el objetivo de la
síntesis ICC es reducir la correlación entre las subbandas después
que se hayan aplicado retardos y ajustes a escala, sin afectar a
ICTD e ICLD. Esto puede lograrse diseñando los filtros
h_{c} en la figura 8 de tal manera que ICTD e ICLD se
modifican eficazmente en función de la frecuencia de tal manera que
la variación promedio es cero en cada subbanda (banda crítica
auditiva).
La figura 9 ilustra cómo se modifican ICTD e
ICLD dentro de una subbanda en función de la frecuencia. La amplitud
de la modificación de ICTD e ICLD determina el grado de
decorrelación y se controla en función de ICC. Obsérvese que ICTD
se modifican suavemente (tal como en la figura 9(a)),
mientras que ICLD se modifican aleatoriamente (tal como en la
figura 9(b)). Se podrían modificar ICLD tan suavemente como
ICTD, pero esto daría como resultado más coloración de las señales
de audio resultantes.
Otro método para sintetizar ICC, particularmente
apropiado para síntesis ICC multicanal, se describe en más detalle
en C. Faller, "Parametric multi-channel audio
coding: Synthesis of coherence cues", IEEE Trans. on Speech and
Audio Proc., 2003.
En función del tiempo y la frecuencia, se añaden
cantidades específicas de reverberación tardía artificial a cada
uno de los canales de salida para obtener una ICC deseada.
Adicionalmente, se puede aplicar modificación espectral de tal
manera que la envolvente espectral de la señal resultante se
aproxima a la envolvente espectral de la señalada de audio
original.
Otras técnicas de síntesis ICC relacionadas y no
relacionadas para señales estéreo (o pares de canales de audio) se
han presentado en E. Schuijers, W. Oomen, B. den Brinker, y J.
Breebaart, "Advances in parametric coding for
high-quality audio", en Preprint 114^{th} Conv.
Aud. Eng. Soc., marzo de 2003 y J. Engdegard, H. Purnhagen, J.
Roden, y L. Liljeryd, "Synthetic ambience in parametric stereo
coding", en Preprint 117^{th} Conv. Aud. Eng. Soc., mayo de
2004.
\global\parskip0.930000\baselineskip
Como se ha descrito anteriormente, puede
implementarse BCC con más de un canal de transmisión. Se ha descrito
una variación de BCC que representa C canales de audio no como un
único canal (transmitido), sino como E canales, denotado BCC de C a
E. Hay (al menos) dos motivaciones para BCC de C a E:
- \circ
- BCC con un canal de transmisión proporciona una trayectoria compatible hacia atrás para actualizar sistemas mono existentes para reproducción de audio estéreo o multicanal. Los sistemas actualizados transmiten la señal de suma mezclada descendentemente BCC a través de la infraestructura mono existente, mientras que adicionalmente transmite la información lateral BCC. BCC de C a E es aplicable a codificación compatible hacia atrás de canal E de audio de canal C.
- \circ
- BCC de C a E introduce escalabilidad en cuanto a diferentes grados de reducción del número de canales trasmitidos. Se espera que cuantos más canales de audio se transmitan, mejor será la calidad de audio.
Detalles de procesamiento de señales para BCC de
C a E, tal como cómo definir las indicaciones de ICTD, ICLD e ICC,
se describen en el documento US 2005/0157883.
\vskip1.000000\baselineskip
En ciertas realizaciones, tanto BCC con un canal
de transmisión como BCC de C a E implican algoritmos para la
síntesis de ICTD, ICLD, y/o ICC. Usualmente, es suficiente
sintetizar las indicaciones de ICTD, ICLD, y/o ICC aproximadamente
cada 4 a 30 ms. Sin embargo, el fenómeno perceptivo de efecto de
precedencia implica que hay instantes de tiempo específicos cuando
en los que sistema auditivo humano evalúa indicaciones a una
resolución de tiempo más alta (por ejemplo, cada 1 a 10 ms).
Un solo banco de filtros estático no puede
proporcionar comúnmente resolución de frecuencia suficientemente
alta, apropiada para la mayoría de los instantes de tiempo, al
tiempo que proporciona resolución de tiempo suficientemente alta en
instantes de tiempo en los que el efecto de precedencia se vuelve
eficaz.
Ciertas realizaciones de la presente invención
están dirigidas a un sistema que usa síntesis de ICTD, ICLD, y/o
ICC de resolución de tiempo relativamente baja, al tiempo que agrega
procesamiento adicional para tratar los instantes de tiempo en los
que se requiere resolución de tiempo más alta. Adicionalmente, en
ciertas realizaciones, el sistema elimina la necesidad de
tecnología de conmutación de ventanas adaptativa de señal que es
usualmente difícil de integrar en la estructura de un sistema. En
ciertas realizaciones, se estiman las envolventes temporales de uno
o más de los canales de audio de entrada del codificador original.
Esto puede hacerse, por ejemplo, directamente mediante análisis de
la estructura de tiempo de la señal o examinando la autocorrelación
del espectro de la señal con respecto a la frecuencia. Ambos
planteamientos se desarrollarán adicionalmente en los ejemplos de
implementación posteriores. La información contenida en estas
envolventes se transmite al descodificador (como códigos de
indicación de envolvente) si se requiere perceptivamente y es
ventajoso.
En ciertas realizaciones, el descodificador
aplica cierto procesamiento para imponer estas envolventes
temporales deseadas a sus canales de audio de salida:
\medcirc Esto puede conseguirse mediante
procesamiento TP, por ejemplo, manipulación de la envolvente de la
señal mediante multiplicación de las muestras en el dominio de
tiempo de la señal con una función de modificación de amplitud que
varía en el tiempo. Un procesamiento similar puede aplicarse a
muestras espectrales/de subbanda si la resolución de tiempo de las
subbandas es suficientemente alta (a costa de una resolución de
frecuencia basta).
\medcirc Alternativamente, puede usarse una
convolución/filtración de la representación espectral de la señal
con respecto a la frecuencia de manera análoga a la usada en la
técnica anterior con el fin de conformar el ruido de cuantificación
de un codificador de audio de baja tasa de transmisión de bits o
para mejorar señales codificadas estéreo de intensidad. Esto se
prefiere si el banco de filtros tiene una resolución de frecuencia
alta y por consiguiente una resolución de tiempo más bien baja.
Para el planteamiento de convolución/filtración:
\medcirc El método de conformación de
envolvente se extiende desde estéreo de intensidad a codificación
multicanal de C a E.
\medcirc La técnica comprende un ajuste en el
que la formación de envolvente se controla mediante información
paramétrica (por ejemplo, banderas binarias) generadas por el
codificador, pero se lleva a cabo realmente utilizando conjuntos de
coeficientes de filtro derivados del descodificador.
\medcirc En otro ajuste, se transmiten
conjuntos de coeficientes de filtro desde el codificador, por
ejemplo solamente cuando es necesario perceptivamente y/o
beneficioso.
Lo mismo es también cierto para el planteamiento
dominio de tiempo/dominio de subbanda. Por consiguiente, pueden
introducirse criterios (por ejemplo, detección de transitorios y un
valor estimativo de tonalidad) para controlar adicionalmente la
transmisión de información de envolvente.
\global\parskip1.000000\baselineskip
Puede haber situaciones en las que es favorable
deshabilitar el procesamiento TP con el fin de evitar artefactos
potenciales. Por si acaso, es una buena estrategia dejar el
procesamiento temporal deshabilitado por defecto (esto es, BCC
operaría según un esquema BCC convencional). El procesamiento
adicional se habilita solamente cuando se espera que una resolución
de tiempo más alta de los canales produzca mejora, por ejemplo,
cuando se espera que el efecto de precedencia se vuelva activo.
Como se ha indicado anteriormente, este control
de habilitación/deshabilitación puede lograrse mediante detección
de transitorios. Esto es, si se detecta un transitorio, entonces el
procesamiento TP se habilita. El efecto de precedencia es el más
eficaz para los transitorios. La detección de transitorios puede
usarse de manera anticipada para conformar, de manera eficaz, no
solo transitorios individuales sino también las componentes de
señal poco antes y después del transitorio. Maneras posibles para
detectar transitorios incluyen:
\medcirc Observar la envolvente temporal de
las señales de entrada del codificador BCC o señal(es) de
suma BCC transmitida(s). Si hay un incremento repentino de
energía, entonces es que se ha producido un transitorio.
\medcirc Examinar la ganancia de codificación
predictiva lineal (LPC) tal como se estima en el codificador o
descodificador. Si la ganancia de predicción de LPC excede un
cierto umbral, entonces se puede suponer que la señal es transitoria
o muy fluctuante. El análisis de LPC se calcula en la
autocorrelación del espectro.
Adicionalmente, para impedir posibles artefactos
en las señales tonales, el procesamiento TP preferiblemente no se
aplica cuando la tonalidad de la(s) señal(es) de suma
transmitida(s) es alta.
Según ciertas realizaciones de la presente
invención, las envolventes temporales de los canales de audio
originales individuales se estiman en un codificador BCC con el fin
de habilitar un descodificador BCC para que genere canales de
salida con envolventes temporales similares (o perceptivamente
similares) a aquellas de los canales de audio originales. Ciertas
realizaciones de la presente invención tratan el fenómeno del efecto
de precedencia. Ciertas realizaciones de la presente invención
implican la transmisión de códigos de indicación de envolvente
además de los otros códigos BCC tales como ICLD, ICTD y/o ICC, como
parte de la información lateral BCC.
En ciertas realizaciones de la presente
invención, la resolución de tiempo para las indicaciones de
envolvente temporal es más fina que la resolución de tiempo de
otros códigos BCC (por ejemplo, ICLD, ICTD, ICC). Esto permite que
la conformación de envolvente se realice dentro del periodo de
tiempo proporcionado por una ventana de síntesis que corresponde a
la longitud de un bloque de un canal de entrada para el cual se
derivan los otros códigos BCC.
\vskip1.000000\baselineskip
La figura 10 muestra un diagrama de bloques del
procesamiento en el dominio de tiempo que se añade a un codificador
BCC, tal como el codificador 202 de la figura 2, según una
realización de la presente invención. Como se muestra en la figura
10(a), cada analizador 1002 de proceso temporal (TPA) estima
la envolvente temporal de un canal de entrada original
x_{c}(n) diferente, aunque en general puede
analizarse cualquiera de uno o más de los canales de entrada.
La figura 10(b) muestra un diagrama de
bloques de una posible implementación basada en el dominio de tiempo
de TPA 1002 en la que las muestras de señales de entrada se elevan
al cuadrado (1006) y luego se filtran paso bajo (1008) para
caracterizar la envolvente temporal de la señal de entrada. En
realizaciones alternativas, la envolvente temporal puede estimarse
utilizando un método de autocorrelación/LPC o con otros métodos, por
ejemplo, utilizando una transformada de Hilbert.
El bloque 1004 de la figura 10(a)
parametriza, cuantifica y codifica las envolventes temporales
estimadas antes de su transmisión como información de procesamiento
temporal (TP) (esto es, códigos de indicación de envolvente) que se
incluye en la información lateral de la figura 2.
En una realización, un detector (no mostrado)
dentro del bloque 1004 determina si el procesamiento TP en el
descodificador mejorará la calidad de audio, de tal manera que el
bloque 1004 transmite información lateral de TP solamente durante
aquellos instantes de tiempo en los que la calidad de audio mejorará
mediante el procesamiento
TP.
TP.
La figura 11 ilustra una aplicación en el
dominio de tiempo a modo de ejemplo del procesamiento TP en el
contexto del sintetizador (400) BCC de la figura 4. En esta
realización, hay una única señal de suma transmitida
s(n), C señales base se generan mediante replicación
de esa señal de suma y la conformación de envolvente se aplica
individualmente a canales sintetizados diferentes. En realizaciones
alternativas, el orden de retardos, ajuste a escala y otro
procesamiento puede ser diferente. Además, en realizaciones
alternativas, la conformación de envolvente no está restringida al
procesamiento de cada canal independientemente. Esto es
especialmente cierto para implementaciones basadas en
convolución/filtración que aprovechan la coherencia sobre bandas de
frecuencia para derivar información en cuanto la estructura fina
temporal de la señal.
En la figura 11(a), el bloque 1102 de
descodificación recupera señales de envolvente temporal a para cada
canal de salida a partir de la información lateral de TP transmitida
recibida desde el codificador BCC; y cada bloque 1104 de TP aplica
la información de envolvente correspondiente para conformar la
envolvente del canal de salida.
La figura 11(b) muestra un diagrama de
bloques de una posible implementación basada en el dominio de tiempo
de TP 1104 en la que las muestras de señal sintetizadas se elevan
al cuadrado (1106) y luego se filtran paso bajo (1108) para
caracterizar la envolvente temporal b del canales sintetizado. Se
genera un factor de ajuste a escala (por ejemplo, sqrt
(a/b)) (1110) y luego se aplica (1112) al canal
sintetizado para generar un canal de salida que tiene una
envolvente temporal sustancialmente igual a la del canal de entrada
original correspondiente.
En implementaciones 1002 alternativas de TPA de
la figura 10 y TP 1104 de la figura 11, las envolventes temporales
se caracterizan utilizando operaciones de magnitud en lugar de
elevar al cuadrado las muestras de señal. En tales
implementaciones, puede usarse la proporción a/b como
el factor de ajuste a escala sin tener que aplicar la operación de
raíz cuadrada.
Aunque la operación de ajuste a escala de la
figura 11(c) corresponde a una implementación basada en el
dominio de tiempo del procesamiento TP, el procesamiento de TP (así
como el procesamiento TP inverso (ITP) y TPA) también puede
implementarse utilizando señales en el dominio de frecuencia, como
en la realización de las figuras 16-17 (descrita
posteriormente en el presente documento). Como tal, para los fines
de esta memoria descriptiva, el término "función de ajuste a
escala" debe interpretarse como que abarca ya sea operaciones en
el dominio de tiempo ya sea operaciones en el dominio de frecuencia,
tales como las operaciones de filtrado de las figuras 17(b)
y
(c).
(c).
En general, cada TP 1104 está diseñado
preferiblemente de tal manera que no modifica la potencia de la
señal (esto es, la energía). Dependiendo de la implementación
particular, esta potencia de señal puede ser una potencia de señal
promedio de tiempo corto en cada canal, por ejemplo basada en la
potencia de señal total por canal en el periodo de tiempo definido
por la ventana de síntesis o alguna otra medida de potencia
apropiada. Como tal, el ajuste a escala para la síntesis de ICLD
(por ejemplo, utilizando multiplicadores 408) puede aplicarse antes
o después de la conformación de envolvente.
Puesto que el ajuste a escala de banda completa
de las señales de salida BCC puede dar como resultado artefactos,
la conformación de envolvente podría aplicarse solamente a
frecuencias especificadas, por ejemplo frecuencias más grandes que
una cierta frecuencia de corte f_{TP} (por ejemplo, 500
Hz). Obsérvese que el intervalo de frecuencia para el análisis
(TPA) puede diferir del intervalo de frecuencia para la síntesis
(TP).
Las figuras 12(a) y (b) muestran posibles
implementaciones de TPA 1002 de la figura 10 y TP 1104 de la figura
11 en las que se aplica conformación de envolvente solamente a
frecuencias más altas que la frecuencia de corte f_{TP}.
En particular, la figura 12(a) muestra la adición del filtro
1202 paso alto, que filtra frecuencias más bajas que
f_{TP} antes de la caracterización de envolvente temporal.
La figura 12(b) muestra la adición del banco 1204 de filtros
de dos bandas que tiene una frecuencia de corte f_{TP}
entre las dos subbandas, en el que solamente la parte de alta
frecuencia se conformada temporalmente. Luego el banco 1206 de
filtros inverso de dos bandas recombina la parte de baja frecuencia
con la parte de alta frecuencia conformada temporalmente para
generar el canal de salida.
La figura 13 muestra un diagrama de bloques del
procesamiento en el dominio de frecuencia que se añade a un
codificador BCC, tal como el codificador 202 de la figura 2, según
una realización alternativa de la presente invención. Como se
muestra en la figura 13(a), el procesamiento de cada TPA 1302
se aplica individualmente en una subbanda diferente, en el que cada
banco de filtros (FB) es el mismo que el FB 302 correspondiente de
la figura 3 y el bloque 1304 es una implementación de subbanda
análoga al bloque 1004 de la figura 10. En implementaciones
alternativas, las subbandas para el procesamiento de TPA pueden
diferir de las subbandas BCC. Como se muestra en la figura
13(b), el TPA 1302 puede implementarse de manera análoga al
TPA 1002 de la figura 10.
La figura 14 ilustra una aplicación en el
dominio de frecuencia a modo de ejemplo del procesamiento TP en el
contexto del sintetizador 400 BCC de la figura 4. El bloque 1402 de
descodificación es análogo al bloque 1102 de descodificación de la
figura 11, y cada TP 1404 es una implementación de subbanda análoga
a cada TP 1104 de la figura 11, como se muestra en la figura
14(b).
La figura 15 muestra un diagrama de bloques del
procesamiento en el dominio de frecuencia que se añade a un
codificador BCC, tal como el codificador 202 de la figura 2, según
otra realización alternativa de la presente invención. Este
esquema tiene el siguiente ajuste: La información de envolvente para
cada canal de entrada se deriva mediante cálculo de LPC a través de
la frecuencia (1502), se parametriza (1504), se cuantifica (1506) y
se codifica en el flujo de bits (1508) por el codificador. La figura
17(a) ilustra un ejemplo de implementación del TPA 1502 de
la figura 15. La información lateral que ha de transmitirse al
sintetizador multicanal (descodificador) podrían ser los
coeficientes de filtro de LPC calculados mediante un método de
autocorrelación, los coeficientes de reflexión resultantes o pares
de espectros de líneas, etc., con el fin de mantener la tasa de
transmisión de datos de información lateral pequeña, parámetros
derivados de, por ejemplo, la ganancia de predicción LPC como
banderas binarias de "transitorios presentes/no presentes".
\newpage
La figura 16 ilustra otra aplicación en el
dominio de frecuencia a modo de ejemplo del procesamiento TP en el
contexto del sintetizador 400 BCC de la figura 4. El procesamiento
de codificación de la figura 15 y el procesamiento de
descodificador de la figura 16 pueden implementarse para formar un
par correspondiente de una configuración de
codificador/descodificador. El bloque 1602 de descodificación es
análogo al bloque 1402 de descodificación de la figura 14, y cada
TP 1604 es análogo a cada TP 1404 de la figura 14. En este
sintetizador multicanal, la información lateral de TP transmitida
se descodifica y se usa para controlar la conformación de
envolvente de canales individuales. Sin embargo, además, el
sintetizador incluye una fase de caracterizador de envolvente (TPA)
1606 para el análisis de señales de suma transmitidas, un TP inverso
(ITP) 1608 para "aplanar" la envolvente temporal de cada señal
base, en el que los ajustadores de envolvente (TP) 1604 imponen una
envolvente modificada sobre cada canal de salida. Dependiendo de la
implementación particular, ITP puede aplicarse ya sea antes o
después de la mezcla ascendente. En detalle, esto se hace utilizando
el planteamiento de convolución/filtración en el que se obtiene la
conformación de envolvente mediante la aplicación de filtros basados
en LPC sobre el espectro a través de frecuencia como se ilustra en
las figuras 17(a), (b) y (c) para el procesamiento de TPA,
ITP y TP, respectivamente. En la figura 16, el bloque 1610 de
control determina si se va a implementar o no la conformación de
envolvente y, si es así, si estará basada en (1) la información
lateral de TP transmitida o (2) los datos de envolvente
caracterizados localmente del TPA 1606.
Las figuras 18(a) y (b) ilustran dos
modos ejemplares de operación del bloque 1610 de control de la
figura 16. En la implementación de la figura 18(a), un
conjunto de coeficientes de filtro se transmite al descodificador y
la conformación de envolvente mediante convolución/filtración se
hace basándose en los coeficientes transmitidos. Si el codificador
detecta que la conformación de transitorios no es beneficiosa,
entonces no se envían datos de filtro y los filtros se deshabilitan
(mostrado en la figura 18(a) mediante conmutación a un
conjunto de coeficientes de filtro unitario "[1,0...]").
En la implementación de la figura 18(b),
solamente se transmite una "bandera de transitorio/no
transitorio" para cada canal y esta bandera se usa para activar
o desactivar la conformación basándose en los conjuntos de
coeficientes de filtro calculados a partir de las señales de mezcla
descendente transmitidas en el descodificador.
\vskip1.000000\baselineskip
Aunque la presente invención se ha descrito en
el contexto de esquemas de codificación BCC en los que hay una
única señal de suma, la presente invención también puede
implementarse en el contexto de esquemas de codificación BCC que
tienen dos o más señales de suma. En este caso, la envolvente
temporal para cada señal de suma "base" diferente puede
estimarse antes de la aplicación de la síntesis BCC, y pueden
generarse diferentes canales de salida BCC basándose en diferentes
envolventes temporales, dependiendo de qué señales de suma se usaron
para sintetizar los diferentes canales de salida. Un canal de
salida que se sintetiza a partir de dos o más canales de suma
diferentes podría generarse basándose en una envolvente temporal
eficaz que tiene en cuenta (por ejemplo, mediante promediación
ponderada) los efectos relativos de los canales de suma
constituyentes.
Aunque la presente invención se ha descrito en
el contexto de esquemas de codificación BCC que implican códigos de
ICTD, ICLD e ICC, la presente invención también puede implementarse
en el contexto de otros esquemas de codificación BCC que implican
solamente uno o dos de estos tres tipos de códigos (por ejemplo,
ICLD e ICC, pero no ICTD) y/o uno o más tipos de códigos
adicionales. Además, la secuencia de procesamiento de síntesis BCC
y conformación de envolvente puede variar en diferentes
implementaciones. Por ejemplo, cuando la conformación de envolvente
se aplica a señales en el dominio de frecuencia, como en las figuras
14 y 16, la conformación de envolvente podría implementarse
alternativamente después de la síntesis ICTD (en aquellas
realizaciones que emplean síntesis ICTD), pero antes de la síntesis
ICLD. En otras realizaciones, la conformación de envolvente podría
aplicarse a señales mezcladas ascendentemente antes de que se
aplique cualquier otra síntesis BCC.
Aunque la presente invención se ha descrito en
el contexto de codificadores BCC que generan códigos de indicación
de envolvente a partir de los canales de entrada originales, en
realizaciones alternativas, los códigos de indicación de envolvente
podrían generarse a partir de canales mezclados descendentemente
correspondientes a los canales de entrada originales. Esto
permitiría la implementación de un procesador (por ejemplo, un
codificador de indicación de envolvente separado) que podría (1)
aceptar la salida de un codificador BCC que genera los canales
mezclados descendentemente y ciertos códigos BCC (por ejemplo, ICLD,
ICTD y/o ICC) y (2) caracterizan la(s) envolvente(s)
temporal(es) de uno o más de los canales mezclados
descendentemente para añadir códigos de indicación de envolvente a
la información lateral BCC.
Aunque la presente invención se ha descrito en
el contexto de esquemas de codificación BCC en los cuales los
códigos de indicación de envolvente se transmiten con uno o más
canales de audio (esto es, los E canales transmitidos) junto con
otros códigos BCC, en realizaciones alternativas, los códigos de
indicación de envolvente podrían transmitirse, ya sea solos o con
otros códigos BCC, a un lugar (por ejemplo, un descodificador o un
dispositivo de almacenamiento) que ya tiene los canales
transmitidos y posiblemente otros códigos BCC.
Aunque la presente invención se ha descrito en
el contexto de esquemas de codificación BCC, la presente invención
puede también implementarse en el contexto de otros sistemas de
procesamiento de audio en los cuales las señales de audio se
decorrelacionan u otro procesamiento de audio que necesita
decorrelacionar señales.
Aunque la presente invención se ha descrito en
el contexto de implementaciones en las cuales el codificador recibe
la señal de audio de entrada en el dominio de tiempo y genera
señales de audio transmitidas en el dominio de tiempo y el
descodificador recibe las señales de audio transmitidas en el
dominio de tiempo y genera señales de audio de reproducción en el
dominio de tiempo, la presente invención no está limitada de esta
manera. Por ejemplo, en otras implementaciones, cualquiera de una o
más de la señales de audio de entrada, transmitidas y de
reproducción podrían representarse en un dominio de frecuencia.
Pueden usarse codificadores y/o descodificadores
BCC junto con o incorporarse a una variedad de diferentes
aplicaciones o sistemas, entre los que se incluyen sistemas para
televisión o distribución de música electrónica, cines, emisión,
flujo continuo (streaming) y/o recepción. Estos incluyen
sistemas para codificar/descodificar transmisiones a través de, por
ejemplo, medios terrestres, por satélite, por cable, internet,
intranet o medios físicos (por ejemplo, discos compactos, discos
versátiles digitales, chips semiconductores, discos duros, tarjetas
de memoria y similares). También pueden usarse codificadores y/o
descodificadores BCC en juegos y sistemas de juego, entre los que
se incluyen, por ejemplo productos de software interactivos
diseñados para interactuar con un usuario para entretenimiento
(acción, juegos de rol, estrategia, aventura, simulaciones,
carreras, deportes, juegos recreativos, de cartas y juegos de mesa)
y/o educativos que pueden publicarse para múltiples máquinas,
plataformas o medios. Además, pueden incorporarse codificadores y/o
descodificadores BCC a grabadores/reproductores de audio o sistemas
de CD-ROM/DVD. También pueden incorporarse
codificadores y/o descodificadores BCC en aplicaciones de software
para PC que incorporan descodificación digital (por ejemplo,
reproductor, descodificador) y aplicaciones de software que
incorporan capacidades de codificación digital (por ejemplo,
codificador, ripper ("ripeador"), recodificador y
gestores de música).
La presente invención puede implementarse como
procesos basados en circuitos, entre los que se incluyen
implementaciones posibles como un único circuito integrado (tal
como un ASIC o un FPGA), un módulo de múltiples chips, una única
tarjeta o un paquete de circuitos de múltiples tarjetas. Como
resultará evidente para el experto en la técnica, varias funciones
de los elementos de circuito también pueden implementarse como
etapas de procesamiento en un programa de software. Tal software
puede emplearse por ejemplo en un procesador de señales digital,
microcontrolador u ordenador de propósito general.
La presente invención puede realizarse en forma
de métodos y aparatos para poner en práctica estos métodos. La
presente invención también puede realizarse en forma de código de
programa implementado en medios tangibles, tales como discos
flexibles, CD-ROM, discos duros o cualquier otro
medio de almacenamiento legible por la máquina, en el que, cuando
el código de programa se carga en y se ejecuta por una máquina, tal
como un ordenador, la máquina se convierte en un aparato para poner
en práctica la invención. La presente invención también puede
realizarse en forma de un código de programa, por ejemplo, o bien
almacenado en un medio de almacenamiento, cargado en y/o ejecutado
por una máquina, o bien transmitido por algún medio o portadora de
transmisión, tal como líneas o cableado eléctrico, por medio de
fibras ópticas o a través de radiación electromagnética, en el que,
cuando el código de programa se carga en y se ejecuta por una
máquina, tal como un ordenador, la máquina se convierte en un
aparato para poner en práctica la invención. Cuando se implementa en
un procesador de propósito general o multiuso, los segmentos de
código de programa se combinan con el procesador para proporcionar
un dispositivo único que opera de manera análoga a circuitos
lógicos específicos.
Se comprenderá además que los expertos en la
técnica pueden realizar diversos cambios en los detalles, materiales
y disposiciones de las partes que se han descrito e ilustrado con
el fin de explicar la naturaleza de esta invención, sin desviarse
del alcance de la invención tal como se expresa en las siguientes
reivindicaciones.
Aunque las etapas en las siguientes
reivindicaciones de método, si las hay, se citan en una secuencia
particular con un etiquetado correspondiente, a menos que las
menciones en las reivindicaciones impliquen de otra manera una
secuencia particular para implementar algunas o todas estas etapas,
no está previsto necesariamente que esas etapas se limiten a
implementarse en esa secuencia particular.
Claims (41)
1. Método para codificar canales de audio,
comprendiendo el método:
- \quad
- generar dos o más códigos de indicación para uno o más canales de audio, en el que al menos un código de indicación es un código de indicación de envolvente generado por la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en el que el uno o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), código de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD),
- \quad
- en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación y en el que la envolvente temporal se caracteriza para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes subbandas de señal del canal de audio correspondiente en un dominio de subbanda; y
- \quad
- transmitir los dos o más códigos de indicación.
2. Método según la reivindicación 1, que
comprende además transmitir E canal(es) de audio
transmitido(s) correspondiente(s) al uno o más
canales de audio, siendo E\geq1.
3. Método según la reivindicación 2, en el
que:
el uno o más canales de audio comprenden C
canales de audio de entrada, siendo C>E; y
los C canales de entrada se mezclan
descendentemente para generar el (los) E canal(es)
transmitido(s).
4. Método según la reivindicación 1, en el que
los dos o más códigos de indicación se transmiten para permitir que
un descodificador efectúe la conformación de envolvente durante la
descodificación del (de los) E canal(es) transmi-
tido(s) basándose en los dos o más códigos de indicación, en el que el (los) E canal(es) de audio transmitido(s) corresponde(n) al uno o más canales de audio, siendo E\geq1.
tido(s) basándose en los dos o más códigos de indicación, en el que el (los) E canal(es) de audio transmitido(s) corresponde(n) al uno o más canales de audio, siendo E\geq1.
5. Método según la reivindicación 4, en el que
la conformación de envolvente ajusta una envolvente temporal de una
señal sintetizada generada por el descodificador para coincidir con
la envolvente temporal caracterizada.
6. Método según la reivindicación 1, en el que
la envolvente temporal se caracteriza solamente para
frecuencias especificadas del canal de audio correspondiente.
7. Método según la reivindicación 1, en el que
la envolvente temporal se caracteriza solamente para
frecuencias del canal de audio correspondiente por encima de una
frecuencia de corte especificada.
8. Método según la reivindicación 1, en el que
el dominio de subbanda corresponde a un filtro de espejo en
cuadratura (QMF).
9. Método según la reivindicación 1, que
comprende además determinar si se habilita o deshabilita la
caracterización.
10. Método según la reivindicación 9, que
comprende además generar y transmitir una bandera de
habilitación/deshabilitación basándose en la determinación de
instruir a un descodificador si implementar o no la conformación de
envolvente durante la descodificación del (los) E canal(es)
transmitido(s) correspondiente(s) al uno o más canales
de audio, siendo E\geq1.
11. Método según la reivindicación 9,
caracterizado porque la determinación está basada en analizar
un canal de audio para detectar transitorios en el canal de audio
de tal manera que la caracterización se habilita si se
detecta la presencia de un transitorio.
12. Método según la reivindicación 1, en el que
la etapa de generar el código de indicación de envolvente incluye
elevar al cuadrado (1006) o formar una magnitud y filtrar paso bajo
(1008) muestras de señal del canal de audio o señales de subbanda
del canal de audio con el fin de caracterizar la envolvente
temporal.
13. Método según la reivindicación 1 ó 12, en el
que la etapa de generación comprende además la etapa de
parametrizar, cuantificar y codificar una envolvente temporal
estimada.
14. Aparato para codificar canales de audio,
comprendiendo el aparato:
- \quad
- medios para generar dos o más códigos de indicación para uno o más canales de audio, en el que al menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en el que los dos o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), códigos de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación, y en el que la envolvente temporal se caracteriza para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes subbandas de señal del canal de audio correspondiente en un dominio de subbanda; y
- \quad
- medios para transmitir información acerca de los dos o más códigos de indicación.
15. Aparato según la reivindicación 14,
en el que el aparato es operativo para codificar
C canales de audio de entrada para generar E canal(es) de
audio transmitido(s),
en el que los medios de generación comprenden un
analizador de envolvente adaptado para caracterizar la
envolvente temporal de entrada de al menos uno de los C canales de
entrada,
en el que los medios de generación comprenden
además un estimador de código adaptado para generar códigos de
indicación para dos o más de los C canales de entrada y
en el que el aparato comprende además un
mezclador descendente adaptado para mezclar descendentemente los C
canales de entrada para generar el (los) E canal(es)
transmitido(s), siendo C>E\geq1,
en el que los medios de transmisión están
adaptados para transmitir información acerca de los dos o más
códigos de indicación para permitir que un descodificador efectúe
la síntesis y conformación de envolvente durante la descodificación
del (los) E canal(es) transmitido(s).
16. Aparato según la reivindicación 15, en el
que:
- \quad
- el aparato es un sistema seleccionado del grupo que consiste en un grabador de vídeo digital, un grabador de audio digital, un ordenador, un transmisor de satélite, un transmisor de cable, un transmisor de difusión terrestre, un sistema de entretenimiento en casa y un sistema de cine, y
- \quad
- el sistema comprende el analizador de envolvente, el estimador de código y el mezclador descendente.
17. Producto de programa informático que tiene
código de programa, en el que, cuando el código de programa se
ejecuta por una máquina, la máquina implementa un método según la
reivindicación 1.
18. Flujo de bits de audio codificado, que
tiene:
- \quad
- dos o más códigos de indicación generados para uno o más canales de audio, en el que al menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en el que los dos o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), código de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación, y en el que la envolvente temporal se caracteriza para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes subbandas de señal del canal de audio correspondiente en un dominio de subbanda, y
- \quad
- los dos o más códigos de indicación y E canal(es) de audio transmitido(s) que corresponden al uno o más canales de audio, siendo E\geq1, se codifican en el flujo de bits de audio codificado.
19. Flujo de bits de audio codificado según la
reivindicación 18, que comprende además E canal(es) de audio
transmitido(s), en el que:
el (los) E canal(es) de audio
transmitido(s) corresponde(n) al uno o más canales de
audio.
20. Método para descodificar E canal(es)
de audio transmitido(s), para generar C canales de audio de
reproducción, siendo C>E\geq1, comprendiendo el
método:
- \quad
- recibir códigos de indicación correspondientes al (a los) E canal(es) transmitido(s), en el que los códigos de indicación comprenden un código de indicación de envolvente correspondiente a una envolvente temporal caracterizada de un canal de audio correspondiente al (a los) E canal(es) transmitido(s), en el que los dos o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), códigos de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación;
- \quad
- mezclar ascendentemente uno o más del (de los) E canal(es) transmitido(s) para generar uno o más canales mezclados ascendentemente; y
- \quad
- sintetizar uno o más de los C canales de reproducción mediante la aplicación de los códigos de indicación a uno o más canales mezclados ascendentemente, en el que el código de indicación de envolvente se aplica a un canal mezcla ascendentemente o una señal sintetizada para ajustar una envolvente temporal de la señal sintetizada basándose en la envolvente temporal caracterizada mediante ajuste a escala de muestras de señal en el dominio de tiempo o en el dominio de subbanda utilizando un factor de ajuste a escala tal que la envolvente temporal ajustada coincida con la envolvente temporal caracterizada.
21. Método según la reivindicación 20, en el que
el código de indicación de envolvente corresponde a una envolvente
temporal caracterizada en un canal de entrada original usado
para generar el (los) E canal(es) transmi-
tido(s).
tido(s).
22. Método según la reivindicación 20, en el que
la síntesis comprende síntesis de ICC de reverberación tardía.
23. Método según la reivindicación 21, en el que
la envolvente temporal de la señal sintetizada se ajusta antes de
la síntesis de ICLD.
24. Método según la reivindicación 20, en el
que:
- \quad
- la envolvente temporal de la señal sintetizada está caracterizada; y
- \quad
- la envolvente temporal de la señal sintetizada se ajusta basándose tanto en la envolvente temporal caracterizada correspondiente al código de indicación de envolvente como en la envolvente temporal caracterizada de la señal sintetizada.
\vskip1.000000\baselineskip
25. Método según la reivindicación 24, en el
que:
- \quad
- se genera una función de ajuste a escala basándose en la envolvente temporal caracterizada correspondiente al código de indicación de envolvente y la envolvente temporal caracterizada de la señal sintetizada; y
- \quad
- la función de ajuste a escala se aplica a la señal sintetizada.
26. Método según la reivindicación 20, que
comprende además ajustar un canal transmitido basándose en la
envolvente temporal caracterizada para generar un canal
aplanado, en el que la mezcla ascendente y la síntesis se aplican
al canal aplanado para generar un canal de reproducción
correspondiente.
27. Método según la reivindicación 20, que
comprende además ajustar un canal mezcla ascendentemente basándose
en la envolvente temporal caracterizada para generar un canal
aplanado, en el que la síntesis se aplica al canal aplanado para
generar un canal de reproducción correspondiente.
28. Método según la reivindicación 20, en el que
la envolvente temporal de la señal sintetizada se ajusta solamente
para frecuencias especificadas.
29. Método según la reivindicación 28, en el que
la envolvente temporal de la señal sintetizada se ajusta solamente
para frecuencias por encima de una frecuencia de corte
especificada.
30. Método según la reivindicación 20, en el que
las envolventes temporales se ajustan individualmente para
diferentes subbandas de señal en la señal sintetizada.
31. Método según la reivindicación 20, en el que
un dominio de subbanda corresponde a un QMF.
32. Método según la reivindicación 20, en el que
la envolvente temporal de la señal sintetizada se ajusta en un
dominio de tiempo.
33. Método según la reivindicación 20, que
comprende además determinar si se habilita o deshabilita el ajuste
de la envolvente temporal de la señal sintetizada.
34. Método según la reivindicación 33,
caracterizado porque la determinación está basada en una
bandera de habilitación/deshabilitación generada por un codificador
de audio que generó el (los) E canal(es)
transmitido(s).
35. Método según la reivindicación 33, en el que
la determinación está basada en el análisis del (los) E
canal(es) transmitido(s) para detectar transitorios de tal manera que el ajuste se habilita si se detecta la presencia de un transitorio.
canal(es) transmitido(s) para detectar transitorios de tal manera que el ajuste se habilita si se detecta la presencia de un transitorio.
\newpage
36. Método según la reivindicación 20, que
comprende además:
- \quad
- caracterizar una envolvente temporal de un canal transmitido; y
- \quad
- determinar si se usa (1) la envolvente temporal caracterizada correspondiente al código de indicación de envolvente o (2) la envolvente temporal caracterizada del canal transmitido para ajustar la envolvente temporal de la señal sintetizada.
37. Método según la reivindicación 20, en el que
la potencia dentro de una ventana especificada de la señal
sintetizada después del ajuste de la envolvente temporal es igual a
la potencia dentro de una ventana correspondiente de la señal
sintetizada antes del ajuste.
38. Método según la reivindicación 37, en el que
la ventana especificada corresponde a una ventana de síntesis
asociada con uno o más códigos de indicación sin envolvente.
39. Aparato para descodificar E canal(es)
de audio transmitido(s) para generar C canales de audio de
reproducción, siendo C>E\geq1, comprendiendo el
aparato:
- \quad
- medios para recibir códigos de indicación correspondientes al (a los) E canal(es) transmitido(s), en el que los códigos de indicación comprenden un código de indicación de envolvente correspondiente a una envolvente temporal caracterizada de un canal de audio correspondiente al (a los) E canales transmitido(s), en el que los dos o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), códigos de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación;
- \quad
- medios para mezclar ascendentemente uno o más de los E canales transmitidos para generar uno o más canales mezclados ascendentemente; y
- \quad
- medios para sintetizar uno o más de los C canales de reproducción mediante la aplicación de los códigos de indicación al uno o más canales mezclados ascendentemente, en el que el código de indicación de envolvente se aplica a un canal mezcla ascendentemente o una señal sintetizada para ajustar una envolvente temporal de la señal sintetizada basándose en la envolvente temporal caracterizada mediante el ajuste a escala de muestras de señal en el dominio de tiempo o en el dominio de subbanda utilizando un factor de ajuste a escala tal que la envolvente temporal ajustada coincida sustancialmente con la envolvente temporal caracterizada.
\vskip1.000000\baselineskip
40. Aparato según la reivindicación 39, en el
que:
- \quad
- el aparato es un sistema seleccionado a partir del grupo que consiste en un reproductor de vídeo digital, un reproductor de audio digital, un ordenador, un receptor de satélite, un receptor de cable, un receptor de difusión terrestre, un sistema de entretenimiento en casa y un sistema de cine; y
- \quad
- el sistema comprende el receptor, el mezclador ascendente, el sintetizador y el ajustador de envolvente.
41. Producto de programa informático que tiene
código de programa, en el que, cuando el código de programa se
ejecuta por una máquina, la máquina implementa el método de
descodificación según la reivindicación 20.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62048004P | 2004-10-20 | 2004-10-20 | |
US620480P | 2004-10-20 | ||
US6482 | 2004-12-07 | ||
US11/006,482 US7720230B2 (en) | 2004-10-20 | 2004-12-07 | Individual channel shaping for BCC schemes and the like |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2323275T3 true ES2323275T3 (es) | 2009-07-10 |
Family
ID=36180779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05792350T Active ES2323275T3 (es) | 2004-10-20 | 2005-09-07 | Conformacion de envolvente temporal de canal individual para esquemas de codificacion de indicacion binaural y similares. |
Country Status (21)
Country | Link |
---|---|
US (1) | US7720230B2 (es) |
EP (1) | EP1803117B1 (es) |
JP (1) | JP4664371B2 (es) |
KR (1) | KR100924576B1 (es) |
CN (1) | CN101044551B (es) |
AT (1) | ATE424606T1 (es) |
AU (1) | AU2005299068B2 (es) |
BR (1) | BRPI0516405B1 (es) |
CA (1) | CA2582485C (es) |
DE (1) | DE602005013103D1 (es) |
DK (1) | DK1803117T3 (es) |
ES (1) | ES2323275T3 (es) |
HK (1) | HK1106861A1 (es) |
IL (1) | IL182236A (es) |
MX (1) | MX2007004726A (es) |
NO (1) | NO338919B1 (es) |
PL (1) | PL1803117T3 (es) |
PT (1) | PT1803117E (es) |
RU (1) | RU2339088C1 (es) |
TW (1) | TWI318079B (es) |
WO (1) | WO2006045371A1 (es) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI393121B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
BRPI0515128A (pt) * | 2004-08-31 | 2008-07-08 | Matsushita Electric Ind Co Ltd | aparelho de geração de sinal estéreo e método de geração de sinal estéreo |
US20060106620A1 (en) * | 2004-10-28 | 2006-05-18 | Thompson Jeffrey K | Audio spatial environment down-mixer |
KR100682915B1 (ko) * | 2005-01-13 | 2007-02-15 | 삼성전자주식회사 | 다채널 신호 부호화/복호화 방법 및 장치 |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
CN101147191B (zh) * | 2005-03-25 | 2011-07-13 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
WO2006126843A2 (en) * | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method and apparatus for decoding audio signal |
JP4988717B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
KR100644715B1 (ko) * | 2005-12-19 | 2006-11-10 | 삼성전자주식회사 | 능동적 오디오 매트릭스 디코딩 방법 및 장치 |
US8111830B2 (en) * | 2005-12-19 | 2012-02-07 | Samsung Electronics Co., Ltd. | Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener |
ES2446245T3 (es) * | 2006-01-19 | 2014-03-06 | Lg Electronics Inc. | Método y aparato para procesar una señal de medios |
KR101294022B1 (ko) * | 2006-02-03 | 2013-08-08 | 한국전자통신연구원 | 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치 |
WO2007091845A1 (en) * | 2006-02-07 | 2007-08-16 | Lg Electronics Inc. | Apparatus and method for encoding/decoding signal |
BRPI0707969B1 (pt) * | 2006-02-21 | 2020-01-21 | Koninklijke Philips Electonics N V | codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador |
KR100773562B1 (ko) * | 2006-03-06 | 2007-11-07 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
US20090299755A1 (en) * | 2006-03-20 | 2009-12-03 | France Telecom | Method for Post-Processing a Signal in an Audio Decoder |
US8027479B2 (en) * | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
US8126721B2 (en) | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8041578B2 (en) | 2006-10-18 | 2011-10-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8417532B2 (en) | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
BRPI0719884B1 (pt) | 2006-12-07 | 2020-10-27 | Lg Eletronics Inc | método, aparelho e mídia legível por computador para decodificar um sinal de áudio |
FR2911426A1 (fr) * | 2007-01-15 | 2008-07-18 | France Telecom | Modification d'un signal de parole |
RU2469419C2 (ru) | 2007-03-05 | 2012-12-10 | Телефонактиеболагет Лм Эрикссон (Пабл) | Способ и устройство для управления сглаживанием стационарного фонового шума |
CN101868821B (zh) * | 2007-11-21 | 2015-09-23 | Lg电子株式会社 | 用于处理信号的方法和装置 |
EP2248289A1 (en) * | 2008-02-29 | 2010-11-10 | Telefonaktiebolaget L M Ericsson (publ) | Channel power estimation means |
CN102027535A (zh) * | 2008-04-11 | 2011-04-20 | 诺基亚公司 | 信号处理 |
KR101499785B1 (ko) | 2008-10-23 | 2015-03-09 | 삼성전자주식회사 | 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법 |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
JP5719372B2 (ja) * | 2009-10-20 | 2015-05-20 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | アップミックス信号表現を生成する装置及び方法、ビットストリームを生成する装置及び方法、並びにコンピュータプログラム |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
FR2961980A1 (fr) * | 2010-06-24 | 2011-12-30 | France Telecom | Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique |
IL311020A (en) | 2010-07-02 | 2024-04-01 | Dolby Int Ab | After–selective bass filter |
AU2011357816B2 (en) * | 2011-02-03 | 2016-06-16 | Telefonaktiebolaget L M Ericsson (Publ) | Determining the inter-channel time difference of a multi-channel audio signal |
EP2834813B1 (en) | 2012-04-05 | 2015-09-30 | Huawei Technologies Co., Ltd. | Multi-channel audio encoder and method for encoding a multi-channel audio signal |
JP6133422B2 (ja) * | 2012-08-03 | 2017-05-24 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 |
ES2624668T3 (es) * | 2013-05-24 | 2017-07-17 | Dolby International Ab | Codificación y descodificación de objetos de audio |
EP2830334A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2830047A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
ES2932422T3 (es) | 2013-09-17 | 2023-01-19 | Wilus Inst Standards & Tech Inc | Método y aparato para procesar señales multimedia |
EP3062534B1 (en) | 2013-10-22 | 2021-03-03 | Electronics and Telecommunications Research Institute | Method for generating filter for audio signal and parameterizing device therefor |
WO2015099424A1 (ko) | 2013-12-23 | 2015-07-02 | 주식회사 윌러스표준기술연구소 | 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치 |
EP4294055A1 (en) | 2014-03-19 | 2023-12-20 | Wilus Institute of Standards and Technology Inc. | Audio signal processing method and apparatus |
CN106165454B (zh) | 2014-04-02 | 2018-04-24 | 韦勒斯标准与技术协会公司 | 音频信号处理方法和设备 |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
TWI587286B (zh) * | 2014-10-31 | 2017-06-11 | 杜比國際公司 | 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體 |
AU2016312404B2 (en) | 2015-08-25 | 2020-11-26 | Dolby International Ab | Audio decoder and decoding method |
AU2017219696B2 (en) | 2016-02-17 | 2018-11-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing |
CN107818790B (zh) * | 2017-11-16 | 2020-08-11 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种多路音频混音方法及装置 |
CN112262433B (zh) * | 2018-04-05 | 2024-03-01 | 弗劳恩霍夫应用研究促进协会 | 用于估计通道间时间差的装置、方法或计算机程序 |
GB2584630A (en) * | 2019-05-29 | 2020-12-16 | Nokia Technologies Oy | Audio processing |
Family Cites Families (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4236039A (en) | 1976-07-19 | 1980-11-25 | National Research Development Corporation | Signal matrixing for directional reproduction of sound |
US4815132A (en) | 1985-08-30 | 1989-03-21 | Kabushiki Kaisha Toshiba | Stereophonic voice signal transmission system |
DE3639753A1 (de) | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
DE3912605B4 (de) | 1989-04-17 | 2008-09-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
KR100228688B1 (ko) | 1991-01-08 | 1999-11-01 | 쥬더 에드 에이. | 다차원 음장용 인코우더/디코우더 |
DE4209544A1 (de) | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
DE4236989C2 (de) | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
US5371799A (en) | 1993-06-01 | 1994-12-06 | Qsound Labs, Inc. | Stereo headphone sound source localization system |
US5463424A (en) | 1993-08-03 | 1995-10-31 | Dolby Laboratories Licensing Corporation | Multi-channel transmitter/receiver system providing matrix-decoding compatible signals |
JP3227942B2 (ja) | 1993-10-26 | 2001-11-12 | ソニー株式会社 | 高能率符号化装置 |
DE4409368A1 (de) * | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
JP3277679B2 (ja) | 1994-04-15 | 2002-04-22 | ソニー株式会社 | 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置 |
JPH0969783A (ja) | 1995-08-31 | 1997-03-11 | Nippon Steel Corp | オーディオデータ符号化装置 |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5771295A (en) | 1995-12-26 | 1998-06-23 | Rocktron Corporation | 5-2-5 matrix system |
ATE309644T1 (de) | 1996-02-08 | 2005-11-15 | Koninkl Philips Electronics Nv | Mit 2-kanal- und 1-kanal-übertragung kompatible n-kanalübertragung |
US7012630B2 (en) | 1996-02-08 | 2006-03-14 | Verizon Services Corp. | Spatial sound conference system and apparatus |
US5825776A (en) | 1996-02-27 | 1998-10-20 | Ericsson Inc. | Circuitry and method for transmitting voice and data signals upon a wireless communication channel |
US5889843A (en) | 1996-03-04 | 1999-03-30 | Interval Research Corporation | Methods and systems for creating a spatial auditory environment in an audio conference system |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US6697491B1 (en) | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
JP3707153B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
SG54379A1 (en) | 1996-10-24 | 1998-11-16 | Sgs Thomson Microelectronics A | Audio decoder with an adaptive frequency domain downmixer |
SG54383A1 (en) | 1996-10-31 | 1998-11-16 | Sgs Thomson Microelectronics A | Method and apparatus for decoding multi-channel audio data |
US5912976A (en) | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US6131084A (en) | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6111958A (en) | 1997-03-21 | 2000-08-29 | Euphonics, Incorporated | Audio spatial enhancement apparatus and methods |
US5860060A (en) | 1997-05-02 | 1999-01-12 | Texas Instruments Incorporated | Method for left/right channel self-alignment |
US5946352A (en) | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
US6108584A (en) | 1997-07-09 | 2000-08-22 | Sony Corporation | Multichannel digital audio decoding method and apparatus |
DE19730130C2 (de) | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US5890125A (en) | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US6021389A (en) | 1998-03-20 | 2000-02-01 | Scientific Learning Corp. | Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
TW444511B (en) | 1998-04-14 | 2001-07-01 | Inst Information Industry | Multi-channel sound effect simulation equipment and method |
JP3657120B2 (ja) | 1998-07-30 | 2005-06-08 | 株式会社アーニス・サウンド・テクノロジーズ | 左,右両耳用のオーディオ信号を音像定位させるための処理方法 |
JP2000152399A (ja) | 1998-11-12 | 2000-05-30 | Yamaha Corp | 音場効果制御装置 |
US6408327B1 (en) | 1998-12-22 | 2002-06-18 | Nortel Networks Limited | Synthetic stereo conferencing over LAN/WAN |
US6282631B1 (en) | 1998-12-23 | 2001-08-28 | National Semiconductor Corporation | Programmable RISC-DSP architecture |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6823018B1 (en) | 1999-07-28 | 2004-11-23 | At&T Corp. | Multiple description coding communication system |
US6434191B1 (en) | 1999-09-30 | 2002-08-13 | Telcordia Technologies, Inc. | Adaptive layered coding for voice over wireless IP applications |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6614936B1 (en) | 1999-12-03 | 2003-09-02 | Microsoft Corporation | System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding |
US6498852B2 (en) | 1999-12-07 | 2002-12-24 | Anthony Grimani | Automatic LFE audio signal derivation system |
US6845163B1 (en) | 1999-12-21 | 2005-01-18 | At&T Corp | Microphone array for preserving soundfield perceptual cues |
US6782366B1 (en) | 2000-05-15 | 2004-08-24 | Lsi Logic Corporation | Method for independent dynamic range control |
US6850496B1 (en) | 2000-06-09 | 2005-02-01 | Cisco Technology, Inc. | Virtual conference room for voice conferencing |
US6973184B1 (en) | 2000-07-11 | 2005-12-06 | Cisco Technology, Inc. | System and method for stereo conferencing over low-bandwidth links |
US7236838B2 (en) | 2000-08-29 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Signal processing apparatus, signal processing method, program and recording medium |
JP3426207B2 (ja) | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
TW510144B (en) | 2000-12-27 | 2002-11-11 | C Media Electronics Inc | Method and structure to output four-channel analog signal using two channel audio hardware |
US20030035553A1 (en) | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US6934676B2 (en) | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US7668317B2 (en) | 2001-05-30 | 2010-02-23 | Sony Corporation | Audio post processing in DVD, DTV and other audio visual products |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
WO2003069954A2 (en) | 2002-02-18 | 2003-08-21 | Koninklijke Philips Electronics N.V. | Parametric audio coding |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
WO2003090207A1 (en) | 2002-04-22 | 2003-10-30 | Koninklijke Philips Electronics N.V. | Parametric multi-channel audio representation |
JP4187719B2 (ja) | 2002-05-03 | 2008-11-26 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | マルチチャネル・ダウンミキシング装置 |
US6940540B2 (en) | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
RU2363116C2 (ru) | 2002-07-12 | 2009-07-27 | Конинклейке Филипс Электроникс Н.В. | Аудиокодирование |
US7516066B2 (en) * | 2002-07-16 | 2009-04-07 | Koninklijke Philips Electronics N.V. | Audio coding |
JP2005533271A (ja) | 2002-07-16 | 2005-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
ATE348386T1 (de) | 2002-11-28 | 2007-01-15 | Koninkl Philips Electronics Nv | Audiosignalkodierung |
ES2273216T3 (es) * | 2003-02-11 | 2007-05-01 | Koninklijke Philips Electronics N.V. | Codificacion de audio. |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
KR20050116828A (ko) | 2003-03-24 | 2005-12-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 다채널 신호를 나타내는 주 및 부 신호의 코딩 |
US20050069143A1 (en) | 2003-09-30 | 2005-03-31 | Budnikov Dmitry N. | Filtering for spatial audio rendering |
JP4767687B2 (ja) * | 2003-10-07 | 2011-09-07 | パナソニック株式会社 | スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7761289B2 (en) * | 2005-10-24 | 2010-07-20 | Lg Electronics Inc. | Removing time delays in signal paths |
-
2004
- 2004-12-07 US US11/006,482 patent/US7720230B2/en active Active
-
2005
- 2005-09-07 WO PCT/EP2005/009618 patent/WO2006045371A1/en active Application Filing
- 2005-09-07 ES ES05792350T patent/ES2323275T3/es active Active
- 2005-09-07 DK DK05792350T patent/DK1803117T3/da active
- 2005-09-07 AU AU2005299068A patent/AU2005299068B2/en active Active
- 2005-09-07 AT AT05792350T patent/ATE424606T1/de active
- 2005-09-07 KR KR1020077008410A patent/KR100924576B1/ko active IP Right Grant
- 2005-09-07 CN CN2005800357018A patent/CN101044551B/zh active Active
- 2005-09-07 PT PT05792350T patent/PT1803117E/pt unknown
- 2005-09-07 CA CA2582485A patent/CA2582485C/en active Active
- 2005-09-07 RU RU2007118679/09A patent/RU2339088C1/ru active
- 2005-09-07 PL PL05792350T patent/PL1803117T3/pl unknown
- 2005-09-07 JP JP2007537133A patent/JP4664371B2/ja active Active
- 2005-09-07 DE DE602005013103T patent/DE602005013103D1/de active Active
- 2005-09-07 BR BRPI0516405-2A patent/BRPI0516405B1/pt active IP Right Grant
- 2005-09-07 EP EP05792350A patent/EP1803117B1/en active Active
- 2005-09-07 MX MX2007004726A patent/MX2007004726A/es active IP Right Grant
- 2005-10-19 TW TW094136500A patent/TWI318079B/zh active
-
2007
- 2007-03-21 NO NO20071493A patent/NO338919B1/no unknown
- 2007-03-27 IL IL182236A patent/IL182236A/en active IP Right Grant
- 2007-12-28 HK HK07114229.7A patent/HK1106861A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
EP1803117B1 (en) | 2009-03-04 |
CA2582485C (en) | 2012-05-15 |
JP4664371B2 (ja) | 2011-04-06 |
TW200628001A (en) | 2006-08-01 |
NO338919B1 (no) | 2016-10-31 |
TWI318079B (en) | 2009-12-01 |
PL1803117T3 (pl) | 2009-08-31 |
BRPI0516405A8 (pt) | 2018-07-31 |
WO2006045371A1 (en) | 2006-05-04 |
AU2005299068B2 (en) | 2008-10-30 |
BRPI0516405A (pt) | 2008-09-02 |
CN101044551A (zh) | 2007-09-26 |
US7720230B2 (en) | 2010-05-18 |
JP2008517333A (ja) | 2008-05-22 |
KR20070061872A (ko) | 2007-06-14 |
KR100924576B1 (ko) | 2009-11-02 |
PT1803117E (pt) | 2009-06-15 |
MX2007004726A (es) | 2007-09-07 |
HK1106861A1 (en) | 2008-03-20 |
CN101044551B (zh) | 2012-02-08 |
BRPI0516405B1 (pt) | 2019-09-17 |
IL182236A (en) | 2011-08-31 |
AU2005299068A1 (en) | 2006-05-04 |
IL182236A0 (en) | 2007-09-20 |
DK1803117T3 (da) | 2009-06-22 |
ATE424606T1 (de) | 2009-03-15 |
NO20071493L (no) | 2007-05-22 |
EP1803117A1 (en) | 2007-07-04 |
US20060083385A1 (en) | 2006-04-20 |
CA2582485A1 (en) | 2006-05-04 |
DE602005013103D1 (de) | 2009-04-16 |
RU2339088C1 (ru) | 2008-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2323275T3 (es) | Conformacion de envolvente temporal de canal individual para esquemas de codificacion de indicacion binaural y similares. | |
ES2317297T3 (es) | Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares. | |
KR101236259B1 (ko) | 오디오 채널들을 인코딩하는 방법 및 장치 | |
ES2623365T3 (es) | Compactación de información secundaria para la codificación paramétrica de audio espacial | |
KR101215868B1 (ko) | 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치 | |
KR101215872B1 (ko) | 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩 |