ES2273216T3 - Codificacion de audio. - Google Patents

Codificacion de audio. Download PDF

Info

Publication number
ES2273216T3
ES2273216T3 ES04709311T ES04709311T ES2273216T3 ES 2273216 T3 ES2273216 T3 ES 2273216T3 ES 04709311 T ES04709311 T ES 04709311T ES 04709311 T ES04709311 T ES 04709311T ES 2273216 T3 ES2273216 T3 ES 2273216T3
Authority
ES
Spain
Prior art keywords
signal
audio
encoded
monaural
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04709311T
Other languages
English (en)
Inventor
Dirk J. Breebaart
Arnoldus W. J. Oomen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=32865026&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2273216(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2273216T3 publication Critical patent/ES2273216T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Cereal-Derived Products (AREA)

Abstract

Método de codificación de audio, comprendiendo el método: generar una señal monoaural desde al menos dos canales de entrada de audio; generar una señal codificada que incluye la señal monoaural y un conjunto de parámetros para permitir la reproducción de dos señales de salida de audio correspondiendo a un canal de entrada respectivo; caracterizado porque: los parámetros incluyen una indicación de desplazamiento global, siendo esto una medida de retardo entre la señal de salida monoaural codificada y una de las señales de entrada.

Description

Codificación de audio.
Las descripciones paramétricas de señales de audio han ganado interés durante los últimos años, especialmente en el campo de la codificación de audio. Se ha demostrado que los parámetros (cuantificados) de transmisión que describen señales de audio requieren solamente poca capacidad de transmisión para re-sintetizar una señal perceptualmente igual en el extremo de recepción. En esquemas de codificación de audio tradicionales basados en formas de onda, tales como MPEG-LII, mp3 y AAC (MPEG-2 Advanced Audio Coding, codificación de audio avanzada), las señales estéreo se codifican mediante la codificación de dos señales de audio monoaurales en un flujo de bits. Esto codifica cada canal de manera inequívoca pero a costa de requerir el doble de datos de los que serían necesarios para codificar un único canal.
En muchos casos, el contenido llevado por los dos canales es predominantemente monoaural. Por tanto, puede ahorrarse mediante la explotación de la correlación entre canales y la irrelevancia con técnicas tales como la codificación estéreo mid/side MS y la tasa de bits de codificación de intensidad. Los métodos de codificación a los que se refiere esta invención implican la codificación total de uno de los canales, y la codificación de una descripción paramétrica de cómo el otro canal puede derivarse del canal codificado totalmente. Por tanto, en el decodificador, normalmente está disponible una única señal de audio que ha de modificarse para obtener dos canales de salida diferentes. En concreto, los parámetros utilizados para describir el segundo canal pueden incluir diferencias de tiempo entre canales (ITD), diferencia de fase entre canales (IPD) y diferencias de nivel entre canales (ILD).
El documento EP-A-1107232 describe un método para codificar una señal estéreo en el que la señal codificada comprende información derivada de una señal de entrada de canal derecho o de canal izquierdo e información paramétrica que permite recuperar otra de las señales de entrada.
El documento WO-A-03/07656 da a conocer un método para codificar una señal estéreo, en el que una señal mono y parámetros de estéreo se emplean para representar la señal estéreo.
En las representaciones paramétricas descritas en las referencias mencionadas anteriormente, las diferencias ITD indican la diferencia en fase o tiempo entre los canales de entrada. Por tanto, el decodificador puede generar el canal no codificado al tomar el contenido del canal codificado y creando la diferencia de fase proporcionada por las diferencias ITD. Este proceso incorpora un determinado grado de libertad. Por ejemplo, solamente un canal de salida (es decir, el canal que no se codifica) puede modificarse con la diferencia de fase prescrita. Alternativamente, el canal de salida codificado podría modificarse restando la diferencia de fase prescrita. Como un tercer ejemplo, podría aplicarse la mitad de la diferencia de fase prescrita a un canal y restando la mitad de la diferencia de fase descrita al otro canal. Dado que solamente se prescribe la diferencia de fase, el desfase (o distribución) en el desplazamiento de fase de ambos canales no está fijado. Aunque esto no es un problema para la calidad espacial del sonido codificado, puede dar como resultado artefactos audibles. Estos artefactos se producen debido a que el desplazamiento de fase general es arbitrario. Puede ocurrir que la modificación de fase de uno o ambos canales de salida en cualquier trama de tiempo de codificación no sea compatible con la modificación de fase de la trama anterior. Los solicitantes presentes han descubierto que es muy difícil predecir correctamente el desplazamiento de fase global correcto en el decodificador y han descrito previamente un método para restringir las modificaciones de fase según las modificaciones de fase de la trama anterior. Esto es una solución para el problema que funciona bien pero no elimina la causa del
problema.
Tal como se ha descrito anteriormente, se ha demostrado que es muy difícil determinar cómo debería distribuirse el desplazamiento de tiempo o de fase prescrito por los dos canales de salida en el nivel del decodificador. El siguiente ejemplo explica esta dificultad con más detalle. Se supone que en el decodificador, el componente de señal mono consiste en una única sinusoide. Además, el parámetro ITD para esta sinusoide aumenta linealmente en el tiempo (es decir, por tramas de análisis). En este ejemplo, se hará hincapié en la diferencia IPD, considerando que la diferencia IPD es justo una transformación lineal de la diferencia ITD. La diferencia IPD se define solamente en el intervalo [-\pi:\pi]. La figura 1 muestra la diferencia IPD como una función de tiempo.
Aunque a primera vista esto puede parecer un ejemplo muy teórico, tal comportamiento IPD ocurre con frecuencia en las grabaciones de audio (por ejemplo si la frecuencia de los tonos en los canales izquierdo y derecho difiere en algunos Hz). La función básica del decodificador es producir dos señales de salida de la única señal de entrada. Estas señales de salida deben cumplir los parámetros IPD. Esto puede realizarse copiando la única señal de entrada a las dos señales de salida y modificando las fases de las señales de salida individualmente. Suponiendo una distribución simétrica de la diferencia IPD a lo largo de los canales, esto implica que el canal de salida izquierdo se modifica mediante + IPD/2, mientras que el canal de salida derecho se gira en fase mediante -IPD/2. Sin embargo, este enfoque conduce a artefactos audibles provocados por un salto de fase que se produce en el tiempo t. Esto puede entenderse con referencia a la figura 2 en la que se muestra el cambio de fase que se supone en los canales de salida izquierdo y derecho en un momento t- de tiempo determinado, justo antes de la aparición del salto de fase, y t+ justo después del salto de fase. Los cambios de fase con respecto a la señal mono de entrada se muestran como vectores complejos (es decir, el ángulo entre la señal de entrada y de salida ilustra el cambio de fase de cada canal de
salida).
Se observará que existe una gran inconsistencia de fase entre las señales de salida justo antes y después del salto de fase en el tiempo t: el vector de cada canal de salida se gira al menos un \pi rad. Si las tramas subsiguientes de las salidas se combinan mediante suma-solapamiento ("overlap-add"), las partes de solapamiento de las señales de salida justo antes y después del salto de fase se anulan unas a otras. Esto da como resultado artefactos a modo de clic en la salida. Estos artefactos surgen debido a que el parámetro IPD es cíclico con un periodo de 2\pi, pero si la diferencia IPD se distribuye por los canales, el cambio de fase de cada señal individual se vuelve cíclico con un periodo inferior a 2\pi (si la diferencia IPD se distribuye simétricamente, el cambio de fase se vuelve cíclico con un periodo de \pi). El periodo real del cambio de fase en cada canal depende por tanto del método de distribución de la diferencia IPD por los canales, pero es inferior a 2\pi, dando lugar a problemas de suma-solapamiento en el decodificador.
Aunque el ejemplo anterior es un caso relativamente simple, se ha descubierto que para señales complejas (con más componentes de frecuencia dentro de la misma banda de frecuencias de modificación de fase, y con un comportamiento más complejo de los parámetros IPD en el tiempo) es muy difícil encontrar la distribución de IPD correcta por los canales de salida.
En el codificador, está disponible la información que especifica cómo distribuir la diferencia IPD por los canales. Por tanto, un objetivo de la invención es conservar esta información en la señal codificada sin aumentar de manera significativa al tamaño de la señal codificada.
Para este fin, la invención proporciona un codificador y elementos relacionados tal como se expone en las reivindicaciones independientes de esta memoria.
La diferencia de tiempo entre canales (ITD), o diferencia de fase (IPD) se calcula basándose en el desplazamiento de tiempo relativo entre los dos canales de entrada. Por otro lado, el desplazamiento de tiempo global (OTD), o el desplazamiento de fase global (OPD) se determina mediante el retardo (o fase) que mejor se ajusta entre la señal de salida monoaural totalmente codificada y una de las señales de entrada. Por tanto es conveniente analizar el OTD (OPD) al nivel del codificador y añadir su valor al parámetro del flujo de bits.
Una ventaja de una codificación por diferencia de tiempo de este tipo es que el OTD (OPD) necesita codificarse en solamente algunos bits dado que el sistema auditivo es relativamente insensible a cambios de fase globales (aunque el sistema auditivo binaural es muy sensible a cambios de ITD).
Para el problema tratado anteriormente, la diferencia OPD tendría el comportamiento mostrado en la figura 3.
En este caso, la diferencia OPD describe básicamente el cambio de fase del canal izquierdo a través del tiempo, mientras que el cambio de fase del canal derecho se proporciona mediante OPD(t) - IPD (t). Dado que ambos parámetros (OPD e IPD) son cíclicos con un periodo de 2\pi, los cambios de fase resultantes de los canales de salida independientes también se vuelven cíclicos con un periodo de 2\pi. Por tanto, los cambios de fase resultantes de ambos canales de salida a través del tiempo no muestran discontinuidades de fase que no existían en las señales de
entrada.
Debería observarse que en este ejemplo, la diferencia OPD describe el cambio de fase del canal izquierdo, mientras que el canal derecho se deriva posteriormente del canal izquierdo empleando la diferencia IPD. Otras combinaciones lineales de estos parámetros pueden en principio utilizarse para la transmisión. Un ejemplo trivial debería describir el cambio de fase del canal de salida derecho con la diferencia OPD, y derivar el cambio de fase del canal derecho empleando la diferencia OPD e IPD. El asunto crucial de esta invención es describir de manera eficiente un par de filtros de síntesis de variación de tiempo en los que la diferencia de fase entre los canales de salida se describe con un parámetro (caro), y un desfase de los cambios de fase con otro parámetro (más barato).
Las realizaciones de la invención se describirán ahora detalladamente, mediante un ejemplo, y con referencia a los dibujos acompañantes, en los que:
la figura 1 ilustra el efecto de la diferencia IPD que aumenta linealmente en el tiempo, y ya se ha explicado;
la figura 2 ilustra el cambio de fase de los canales de salida L y R con respecto al canal de entrada justo antes (t- panel izquierdo) y justo después (t+, panel derecho) del salto de fase en el parámetro IPD, y ya se ha explicado;
la figura 3 ilustra el parámetro OPD para el caso de una diferencia IPD que aumenta linealmente y ya se ha explicado;
la figura 4 es un diagrama de bloques de hardware de un codificador que realiza la invención; y
la figura 5 es un diagrama de bloques de hardware de un decodificador que realiza la invención; y
la figura 6 muestra posiciones transitorias codificadas en sub-tramas respectivas de una señal monoaural y las tramas correspondientes de una capa multicanal.
Visión general de la realización
Una etapa de generación de parámetros espaciales en una realización de la invención toma tres señales como su entrada. Las dos primeras de estas señales, designadas con L y R, corresponden a los canales izquierdo y derecho de un par estéreo. Cada uno de los canales se divide en múltiples baldosas de tiempo-frecuencia, por ejemplo, utilizando un banco de filtros o transformación de frecuencia, como es habitual en este campo técnico. Una entrada adicional al codificador es una señal S monoaural que es la suma de las otras señales L y R. Esta señal S es una combinación monoaural de las otras señales L y R y presenta la misma separación tiempo-frecuencia que las otras señales de entrada. La salida del codificador es un flujo de datos que contiene la señal S de audio monoaural junto con parámetros espaciales que se usan mediante un decodificador en la decodificación del flujo de
bits.
Entonces, el codificador calcula la diferencia de tiempo entre canales (ITD) al determinar el tiempo de retardo entre las señales L y R de entrada. El tiempo de retardo corresponde al máximo en la función de correlación cruzada entre las baldosas de tiempo/frecuencia correspondientes de las señales L(t, f) y R(t, f) de entrada de tal manera
que:
\quad
ITD= arg(max(\rho(L,R))),
indicando \rho(L, R) la función de correlación cruzada entre las señales L(t, f) y R(t, f)de entrada.
El desplazamiento de tiempo global (OTD) puede definirse de dos maneras diferentes; como una diferencia de tiempo entre la señal S de suma y la señal L de entrada izquierda, o como una diferencia de tiempo entre la señal S de suma y la señal R de entrada derecha. Es conveniente medir el OTD con respecto a la señal de entrada más fuerte (es decir, energía mayor), dando como resultado:
\quad
si |L| > |R|,
\quad
OTD = arg(max(\rho(L, S)));
\quad
o
\quad
OTD = arg(max(\rho(R, S)));
\quad
fin
Los valores OTD pueden cuantificarse posteriormente y añadirse al flujo de datos. Se ha descubierto que un error de cuantificación del orden de \pi/8 radianes es aceptable. Eso es un error de cuantificación relativamente grande comparado con el error que es aceptable para los valores ITD. Por tanto, el flujo de bits de parámetros espaciales contiene una ILD, una ITD, un OTD y un valor de correlación para algunas o todas las bandas de frecuencias. Ha de observarse que solamente para aquellas bandas de frecuencias en las que se transmite un valor ITD es necesario un
OTD.
El decodificador determina la modificación de fase necesaria de los canales de salida basados en la ITD, el OTD y la ILD, dando como resultado el desplazamiento de tiempo para el canal izquierdo (TSL) y para el canal derecho (TSR):
\quad
si ILD > 0 (que significa |L| > |R|),
\quad
TSL = OTD;
\quad
TSR = OTD - ITD;
\quad
o
\quad
TSL = OTD + ITD;
\quad
TSR = OTD;
\quad
fin
Detalles de la implementación de la realización
Se entenderá que un codificador de audio completo toma normalmente como una entrada señales analógicas de frecuencia de audio variables con el tiempo, digitaliza estas señales, genera una señal total monoaural y después genera un flujo de bits de salida que comprende la señal monoaural codificada y los parámetros espaciales. (Alternativamente, la entrada puede derivarse a partir de dos señales ya digitalizadas). Los expertos en esta tecnología reconocerán que la mayor parte de lo que sigue puede implementarse fácilmente empleando técnicas conocidas.
Métodos de análisis
En general, el codificador 10 comprende módulos 20 de transformada respectivos que dividen cada señal (L, R) entrante en señales 16 sub-banda (preferiblemente con un ancho de banda que aumenta con la frecuencia). En la realización preferida, los módulos 20 usan la aplicación de ventanas temporales seguida de una operación de transformada para realizar el seccionamiento tiempo/frecuencia, sin embargo, también podrían emplearse métodos de tiempo continuo (por ejemplo, bancos de filtro).
Las siguientes etapas para determinar la señal 12 total y la extracción de los parámetros se llevan a cabo dentro de un módulo 18 de análisis y comprenden:
encontrar la diferencia de nivel (ILD) de las señales 16 sub-banda correspondientes,
encontrar la diferencia de tiempo (ITD o IPD) de las señales 16 sub-banda correspondientes, y
describir el grado de similitud o disimilitud de las formas de onda que no pueden explicarse mediante las diferencias ILD o ITD.
Análisis de diferencias ILD
La ILD está determinada por la diferencia de nivel de las señales en un momento de tiempo determinado para una banda de frecuencias dada. Un método para determinar la ILD es medir el valor rms de la banda de frecuencias correspondiente de ambos canales de entrada y calcular la relación de estos valores rms (expresados preferiblemente en dB).
Análisis de diferencias ITD
Las diferencias ITD se determinan por la alineación de fase o tiempo que proporciona el mejor ajuste entre las formas de onda de ambos canales. Un método para obtener la ITD es calcular la función de correlación cruzada entre dos señales sub-banda correspondientes y buscar el máximo. El retardo que corresponde a este máximo en la función de correlación cruzada puede usarse como valor ITD.
Un segundo método es calcular las señales analíticas de la sub-banda izquierda y derecha (es decir, fase de cálculo y valores de envolvente) y usar la diferencia de fase entre los canales como parámetros IPD. En este caso, se usa un banco de filtros complejo (por ejemplo, un FFT) y considerando una determinada casilla (bin) (región de frecuencia) puede derivarse una función de fase en el tiempo. Al realizar esto tanto para el canal derecho, como para el izquierdo, puede calcularse la diferencia de fase IPD (más bien la correlación cruzada de dos señales filtradas).
Análisis de correlación
La correlación se obtiene averiguando primero la ILD e ITD que proporciona el mejor ajuste entre las señales sub-banda correspondientes y midiendo posteriormente la similitud de las formas de onda tras compensar la ITD y/o ILD. Por tanto, en este marco, la correlación se define como la similitud o la disimilitud de las señales sub-banda correspondientes que no pueden atribuirse a las diferencias ITD y/o ILD. Una medida adecuada para este parámetro es la coherencia que es el valor máximo de la función de correlación cruzada en un conjunto de retardos. Sin embargo, podrían emplearse también otras medidas, tales como la energía relativa de la señal de diferencia tras la compensación de ILD y/o ITD en comparación con la señal total de sub-bandas correspondientes (preferiblemente también compensadas para diferencias ILD y/o ITD). Este parámetro de diferencia es básicamente una transformación lineal de la correlación (máxima).
Cuantificación de parámetros
Un asunto importante de la transmisión de parámetros es la precisión de la representación de parámetros (es decir, el tamaño de los errores de cuantificación), que está relacionada directamente con la capacidad de transformación necesaria y la calidad de audio. En esta sección se tratarán varios asuntos con respecto a la cuantificación de los parámetros espaciales. La idea básica es basar los errores de cuantificación en las denominadas diferencias mínimas perceptibles (just-noticeable difference JND) de las indicaciones espaciales. Para ser más específicos, el error de cuantificación se determina por la sensibilidad del sistema auditivo humano a los cambios en los parámetros. Dado que ya se conoce que la sensibilidad a los cambios en los parámetros depende considerablemente de los valores de los propios parámetros, se aplican los métodos siguientes para determinar las etapas de cuantificación discreta.
Cuantificación de las diferencias ILD
Por las investigaciones psico-acústicas se conoce que la sensibilidad a cambios en la IID depende de la propia ILD. Si la ILD se expresa en dB, pueden detectarse las desviaciones de aproximadamente 1 dB a partir de una referencia de 0 dB, mientras que los cambios del orden de 3 dB son necesarios si la diferencia de nivel de referencia es de 20 dB. Por tanto, los errores de cuantificación pueden ser mayores si las señales de los canales izquierdo y derecho presentan una diferencia de nivel mayor. Por ejemplo, esto puede aplicarse midiendo primeramente la diferencia de nivel entre los canales, seguido de una transformación no lineal (compresiva) de la diferencia de nivel obtenida y posteriormente un proceso de cuantificación lineal, o empleando una tabla de consulta para los valores ILD disponibles que presentan una distribución no lineal. En la realización preferida, las diferencias ILD (en dB) se cuantifican al valor más próximo del conjunto I siguiente:
I=[-19-16-13-10-8-6-4-2 0 2 4 6 8 10 13 16 19]
Cuantificación de las diferencias ITD
La sensibilidad a los cambios en las diferencias ITD de los sujetos humanos puede caracterizarse por tener un umbral de fase constante. Esto significa que en cuanto a los tiempos de retardo, las etapas de cuantificación para la ITD deberían disminuir con la frecuencia.
Alternativamente, si la ITD se representa en la forma de diferencias de fase, las etapas de cuantificación deberían ser independientes de la frecuencia. Un método para implementar esto debería tomar una diferencia de fase fija como etapa de cuantificación y determinar el retardo de tiempo correspondiente para cada banda de frecuencias. Este valor ITD se usa entonces como etapa de cuantificación. En la realización preferida, las etapas de cuantificación ITD se determinan mediante una diferencia de fase constante en cada sub-banda de 0,1 radianes (rad). Por tanto, para cada sub-banda, la diferencia de tiempo que corresponde a 0,1 radianes de la frecuencia central de sub-banda se usa como etapa de cuantificación.
Otro método sería transmitir diferencias de fase que siguen un esquema de cuantificación independiente de la frecuencia. También se conoce que por encima de una determinada frecuencia, el sistema auditivo humano no es sensible a las diferencias ITD en las formas de onda de estructura fina. Este fenómeno puede explotarse solamente transmitiendo parámetros ITD hasta una frecuencia determinada (normalmente 2 kHz).
Un tercer método de reducción de flujo de bits es incorporar las etapas de cuantificación ITD que dependen de la ILD y/o los parámetros de correlación de la misma sub-banda. Para diferencias ILD grandes, las diferencias ITD pueden codificarse de manera menos precisa. Además, si la correlación es muy baja, se conoce que la sensibilidad humana a los cambios en la ITD se reduce. Por tanto, los errores de cuantificación ITD mayores pueden aplicarse si la correlación es pequeña. Un ejemplo extremo de esta idea es no transmitir ninguna diferencia ITD si la correlación está por debajo de un umbral determinado.
Cuantificación de la correlación
El error de cuantificación de la correlación depende de (1) el propio valor de correlación y posiblemente (2) de la ILD. Los valores de correlación próximos a +1 se codifican con una precisión alta (es decir, una etapa de cuantificación pequeña), mientras que los valores de correlación próximos a 0 se codifican con una precisión baja (una etapa de cuantificación grande). En la realización preferida, un conjunto de valores (r) de correlación distribuidos de manera no lineal se cuantifica al valor más próximo del siguiente conjunto R:
R=[1 0,95 0,9 0,82 0,75 0,6 0,3 0]
y esto cuesta otros 3 bits por valor de correlación.
Si el valor absoluto de la ILD (cuantificada) de la sub-banda actual es de 19 dB, no se transmiten ni valores ITD, ni de correlación para esta sub-banda. Si el valor de correlación (cuantificado) de una determinada sub-banda es de cero, no se transmite ningún valor ITD para esa sub-banda.
De esta manera, cada trama necesita un máximo de 233 bits para transmitir los parámetros espaciales. Con una longitud de trama de actualización de 1024 muestras y una tasa de muestreo de 44,1 kHz, la tasa de bits máxima para la transmisión es inferior a 10,25 kbit/s [233^{\ddagger}44100/1024 = 10,034 kbit/s]. (Debería observarse que mediante la utilización de la codificación de entropía o codificación diferencial la tasa de bits podría reducirse adicionalmente).
Una segunda posibilidad es usar etapas de cuantificación para la correlación que depende de la ILD medida de la misma sub-banda: para diferencias ILD grandes (es decir, un canal es dominante en cuanto a la energía), los errores de cuantificación en la correlación se vuelven más grandes. Un ejemplo extremo de este principio sería no transmitir ningún valor de correlación para una sub-banda determinada si el valor absoluto para esa sub-banda está por encima de un umbral determinado.
Con referencia a la figura 4, más detalladamente, en los módulos 20, las señales entrantes izquierda y derecha se dividen en varias tramas de tiempo (2048 muestras a una tasa de muestreo a 44,1 kHz) y se aplica una función ventana con una ventana de Hanning de raíz cuadrada. Posteriormente se calculan las FFT. Las frecuencias FFT negativas se descartan y las FFT resultantes se subdividen en grupos o sub-bandas 16 de casillas FFT. El número de casillas FFT que se combinan en una sub-banda g depende de la frecuencia: a frecuencias más altas se combinan más casillas que a frecuencias más bajas. En la implementación actual, las casillas FFT que corresponden a aproximadamente 1,8 ERBSs se agrupan, dando como resultado 20 sub-bandas para representar toda la gama de frecuencia audible. El número resultante de casillas FFT S[g] de cada sub-banda subsiguiente (comenzando a la frecuencia más baja) es:
S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
Por tanto, las primeras tres sub-bandas contienen 4 casillas FFT, la cuarta sub-banda contiene 5 casillas FFT, etc. Para cada sub-banda, el módulo 18 de análisis calcula la ILD, ITD y la correlación (r) correspondiente. La ITD y la correlación se calculan simplemente poniendo a cero todas las casillas FFT que pertenecen a otros grupos, multiplicando los FFT resultantes (limitados a la banda) desde los canales izquierdo y derecho, seguidos de una transformada FFT inversa. La función de correlación cruzada resultante se analiza para un pico dentro de un retardo entre canales de entre -64 y + 63 muestras. El retardo interno que corresponde al pico se usa como valor ITD, y el valor de la función de correlación cruzada en este pico se usa como esta correlación interaural de la sub-banda. Finalmente, la ILD se calcula simplemente tomando la relación de potencia de los canales derecho e izquierdo para cada sub-banda.
Generación de la señal total
El analizador 18 contiene un generador 17 de señal total. El generador de señal total genera una señal total que es un promedio de las señales de entrada. (En otras realizaciones, el procesamiento adicional puede llevarse a cabo en la generación de la señal total, que incluye, por ejemplo, la corrección de fase). Si es necesario, la señal total puede convertirse al dominio temporal insertando (1) conjugados complejos a frecuencias negativas, (2) FFT inversa, (3) aplicación de funciones ventana, y (4) suma-solapamiento.
Dada la representación de la señal 12 total, en el dominio tiempo y/o frecuencia tal como se describe anteriormente, la señal puede codificarse en una capa 40 monoaural de un flujo 50 de bits en un número cualquiera de maneras convencionales. Por ejemplo, un codificador mp3 puede usarse para generar la capa 40 monoaural del flujo de bits. Cuando un codificador de este tipo detecta cambios rápidos en una señal de entrada, puede cambiar la longitud de la ventana que emplea para ese periodo de tiempo concreto para mejorar la localización de tiempo y o frecuencia al codificar esa parte de la señal de entrada. Un indicador de conmutación de ventana se incluye en el flujo de datos para indicar esta conmutación a un decodificador que sintetiza posteriormente la señal.
Sin embargo, en la realización preferida, se usa un codificador 30 sinusoidal del tipo descrito en el documento WO 01/69593-al para generar la capa 40 monoaural. El codificador 30 comprende un codificador 11 transitorio, un codificador 13 sinusoidal, y un codificador 15 de ruido. El codificador transitorio es una característica opcional incluida en esta realización.
Cuando la señal 12 introduce el codificador 11 transitorio, para cada intervalo de actualización, el codificador calcula si existe una componente de señal transitoria y su posición (para la precisión de muestras) dentro de la ventana de análisis. Si la posición de una componente de señal transitoria se determina, el codificador 11 intenta extraer (la mayor parte de) la componente de señal transitoria. Ajusta una función de forma a un segmento de señal comenzando preferiblemente en una posición de inicio estimada, y determina el contenido por debajo de la función de forma, empleando por ejemplo un número (pequeño) de componentes sinusoidales y esta información se incluye en el código CT transitorio.
La señal 12 total menos el componente transitorio se proporciona al codificador 13 sinusoidal en el que se analiza para determinar las componentes sinusoidales (determinísticas). En resumen, el codificador sinusoidal codifica la señal de entrada como pistas de componentes sinusoidales enlazadas de un segmento de trama al siguiente. Las pistas se representan inicialmente por una frecuencia inicial, una amplitud inicial y una fase inicial para una sinusoide que comienza en un segmento dado- un nacimiento. Por tanto, la pista se representa en segmentos subsiguientes por diferencias de frecuencia, diferencias de amplitud y, posiblemente, diferencias de fase (continuaciones) hasta el segmento en el que finaliza la pista (muerte) y esta información se incluye en el código CS sinusoidal.
La señal menos las componentes sinusoidales y transitorias que se supone para comprender principalmente ruido y el analizador 15 de ruido de la realización preferida produce un código CN de ruido representativo de este ruido. De manera convencional, como, por ejemplo, en el documento WO 01/89086-A1, se modela un espectro del ruido mediante el codificador de ruido con parámetros (pi, qi) de filtro MA (de media móvil) AR (autorregresivo) combinado según un ancho de banda rectangular equivalente (ERB, equivalent, rectangular, bandwith). Dentro de un decodificador, los parámetros de filtro se alimentan a un sintetizador de ruido, que es principalmente un filtro, que presenta una respuesta de frecuencia que se aproxima al espectro del ruido. El sintetizador genera ruido reconstruido al filtrar una señal de ruido blanco con los parámetros (pi, qi) de filtro ARMA y añade posteriormente esto a las señales sinusoides y transitorias sintetizadas para generar un cálculo de la señal total original.
El multiplexador 41 produce la capa 40 de audio monoaural que se divide en tramas 42 que representan segmentos de tiempo de solapamiento de longitud de 16 ms y que se actualizan cada 8 ms, figura 6. Cada trama incluye códigos CT, CS y CN respectivos y en un decodificador los códigos para tramas sucesivas se mezclan en sus regiones de solapamiento cuando se sintetiza la señal total monoaural. En la presente realización se supone que cada trama puede incluir solamente hasta un código CT transitorio y un ejemplo de este tipo es un transiente indicado por el número de referencia 44.
El analizador 18 comprende adicionalmente un generador 19 de capa de parámetros espaciales. Esta componente realiza la cuantificación de parámetros espaciales para cada trama de parámetros espaciales tal como se ha descrito anteriormente. En general, el generador 19 divide cada canal 14 de capas espaciales en tramas 46 que representan segmentos de tiempo de solapamiento de longitud de 64 ms y que se actualizan cada 32 ms, figura 4. Cada trama incluye una diferencia ILD, una ITD, un OTD y un valor (r) de correlación y en el decodificador los valores para tramas sucesivas se mezclan en sus regiones de solapamiento para determinar los parámetros de capa espacial para cualquier momento dado cuando se sintetiza la señal.
En la realización preferida, el generador 19 utiliza las posiciones transitorias detectadas por el codificador 11 transitorio en la capa 40 monoaural (o mediante un módulo analizador correspondiente en la señal 12 sumada) para determinar si se necesita una segmentación de tiempo no uniforme en la(s) capa(s) 14 de parámetros espaciales. Si el codificador está usando un código mp3 para generar la capa monoaural, entonces el generador utiliza la presencia de un indicador de conmutación de ventanas en el flujo monoaural como un cálculo de la posición transitoria.
Finalmente, una vez que se han generado las capas 14 de representación espacial y 40 monoaural, un multiplexador 43 las escribe a su vez en un flujo 50 de bits. Este flujo 50 de audio se proporciona a su vez a, por ejemplo, un bus de datos, un sistema de antenas, un medio de almacenamiento, etc.
Ahora, con referencia a la figura 5, un decodificador 60 para usar en combinación con un codificador descrito anteriormente incluye un demultiplexador 62 que divide un flujo 50 de audio entrante en la capa 40' monoaural y en este caso una única capa 14' de representación espacial. La capa 40' monoaural se lee mediante un sintetizador 64 convencional que corresponde al codificador que generó la capa para proporcionar un cálculo de dominio temporal de la señal 12' sumada original.
Los parámetros 14' espaciales extraídos mediante el demultiplexador 62 se aplican entonces mediante un módulo 66 de procesamiento posterior a la señal 12' total para generar señales de salida izquierda y derecha. El módulo de procesamiento posterior de la realización preferida también lee la información de capa 14' monoaural para ubicar las posiciones de transientes en esta señal y procesarlas apropiadamente. Esto es, naturalmente, el caso solamente en el que tales transientes se han codificado en la señal. (Alternativamente, el sintetizador 64 podría proporcionar una indicación de este tipo al procesador posterior: sin embargo, esto necesitaría alguna ligera modificación del sintetizador 64 convencional por lo demás).
Dentro del postprocesador 66 se supone que una representación de dominio de frecuencia de la señal 12' total tal como se describe en la sección de análisis está disponible para el procesamiento. Esta representación puede obtenerse aplicando una función ventana y operaciones FFT de la forma de onda de dominio de tiempo generada por el sintetizador 64. Entonces, la señal total se copia en los trayectos de señal de salida izquierda y derecha. Posteriormente, la correlación entre las señales izquierda y derecha se modifica con un decorrelador 69', 69'' usando el parámetro r.
Posteriormente, en etapas 70', 70'' respectivas, se retarda cada sub-banda de la señal izquierda mediante el valor TSL y la señal derecha se retarda mediante TSR dada la(cuantificada) desde los valores OTD e ITD extraídos del flujo de bits correspondiente a esa sub-banda. Los valores de TSL y TSR se calculan según las fórmulas proporcionadas anteriormente. Finalmente, las sub-bandas derecha e izquierda se ajustan a escala según la ILD para esa sub-banda en etapas 71', 71'' respectivas. Las etapas 72', 72'' de transformada respectivas convierten entonces las señales de salida al dominio de tiempo, al realizar las siguientes etapas: (1) insertando conjugados complejos a frecuencias negativas, (2) FFT inversa, (3) aplicación de funciones ventana, y (4) suma-solapamiento.
Como alternativa al esquema de codificación anterior, existen otras maneras posibles en las que la diferencia de fase podría codificarse. Por ejemplo, los parámetros podrían incluir una ITD y una clave de distribución determinada, por ejemplo, x. Entonces, el cambio de fase del canal derecho se codificaría como x^{\ddagger}ITD, mientras que el cambio de fase del canal izquierdo se codificaría como (1^{\ddagger}x)*ITD. Claramente, pueden utilizarse otros esquemas de codificación para implementar realizaciones de la invención.
Se observa que la presente invención puede implementarse en un hardware especializado, en un software que se ejecuta en un DSP (procesador de señal digital) o en un ordenador de uso universal. La presente invención puede realizarse en un medio tangible tal como un CD-ROM o un DVD-ROM que porta un programa informático para ejecutar un método de codificación según la invención. La invención puede realizarse también como una señal transmitida por una red de datos tal como internet o una señal transmitida por un servicio de radiodifusión. La invención tiene una aplicación particular en el campo de la descarga de internet. radio en internet, audio de estado sólido (SSA, Solid State Audio), esquemas de extensión de ancho de banda, por ejemplo, mp3PRO, CT-aacPlus (véase www.codingtechnologies.com) y la mayoría de esquemas de codificación de audio.

Claims (16)

1. Método de codificación de audio, comprendiendo el método:
generar una señal monoaural desde al menos dos canales de entrada de audio;
generar una señal codificada que incluye la señal monoaural y un conjunto de parámetros para permitir la reproducción de dos señales de salida de audio correspondiendo a un canal de entrada respectivo;
caracterizado porque:
los parámetros incluyen una indicación de desplazamiento global, siendo esto una medida de retardo entre la señal de salida monoaural codificada y una de las señales de entrada.
2. Método según la reivindicación 1, en el que para la transmisión se utiliza una combinación lineal del desplazamiento global y una fase entre canales o diferencia de tiempo.
3. Método según la reivindicación 1, en el que el desplazamiento global es un desplazamiento de tiempo global.
4. Método según la reivindicación 1, en el que el desplazamiento global es un desplazamiento de fase global.
5. Método según la reivindicación 1, en el que el desplazamiento global se determina por el retardo (o fase) que mejor se ajusta entre la señal de salida monoaural totalmente codificada y una de las señales de entrada.
6. Método según la reivindicación 5, en el retardo que mejor se ajusta corresponde al máximo en la función de correlación cruzada entre baldosas de tiempo/frecuencia correspondientes de las señales de entrada.
7. Método según la reivindicación 1, en el que el desplazamiento global se calcula con respecto a la señal de entrada de mayor amplitud.
8. Método según la reivindicación 1, en el que la diferencia de fase se codifica con un error de cuantificación menor que el desplazamiento global.
9. Codificador para codificar una señal de audio que comprende
medios para generar una señal monoaural desde al menos dos canales de entrada de audio;
medios para generar una señal codificada que incluye la señal monoaural y parámetros para permitir la reproducción de dos señales de salida de audio correspondiendo a un canal de entrada respectivo;
caracterizado porque:
los parámetros incluyen una indicación de desplazamiento global, siendo esto una medida de retardo entre la señal de salida monoaural codificada y una de las señales de entrada.
10. Aparato para suministrar una señal de audio, comprendiendo el aparato:
una entrada para recibir una señal de audio.
un codificador según la reivindicación 9 para codificar una señal de audio para obtener una señal de audio codificada, y una salida para suministrar la señal de audio codificada.
11. Señal de audio codificada, comprendiendo la señal:
una señal monoaural derivada de al menos dos canales de entrada de audio;
una señal codificada que incluye la señal monoaural y parámetros para permitir la reproducción de dos señales de salida de audio correspondiendo cada una a un canal de entrada respectivo;
caracterizada porque:
los parámetros incluyen una indicación de un desplazamiento global, siendo esto una medida de retardo entre la señal de salida monoaural codificada y una de las señales de entrada.
12. Señal de audio codificada según la reivindicación 11, en la que, para la transmisión se utiliza una combinación lineal del desplazamiento global y una fase entre canales o diferencia de tiempo.
13. Método para decodificar una señal de audio codificada que representa al menos dos canales de audio, incluyendo la señal de audio codificada una señal monoaural codificada y parámetros espaciales, caracterizado porque la señal codificada incluye parámetros que indican un desplazamiento global, siendo una medida del retardo entre la señal de salida monoaural codificada y uno de las canales de entrada, y porque el método comprende generar un par estéreo de señales de audio de salida desplazado en el tiempo y fase por un intervalo especificado por los parámetros.
14. Decodificador para decodificar una señal de audio codificada que representa al menos dos canales de audio, incluyendo la señal de audio codificada una señal monoaural codificada y parámetros espaciales, caracterizado porque la señal de audio codificada incluye parámetros que indican un desplazamiento global, siendo una medida del retardo entre la señal monoaural codificada y uno de las canales de audio, y porque el decodificador comprende medios para generar un par estéreo de señales de audio de salida desplazado en el tiempo y fase por un intervalo especificado por los parámetros.
15. Decodificador, según la reivindicación 14, en el que se utiliza una combinación lineal del desplazamiento global y una diferencia de fase o tiempo entre canales se usa para la transmisión.
16. Aparato para suministrar una señal de audio, decodificada comprendiendo el aparato:
una entrada para recibir una señal de audio codificada,
un decodificador según la reivindicación 14, para decodificar la señal de audio codificada para obtener una señal de salida multicanal,
una salida para suministrar o reproducir la señal de salida multicanal.
ES04709311T 2003-02-11 2004-02-09 Codificacion de audio. Expired - Lifetime ES2273216T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03100278 2003-02-11
EP03100278 2003-02-11

Publications (1)

Publication Number Publication Date
ES2273216T3 true ES2273216T3 (es) 2007-05-01

Family

ID=32865026

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04709311T Expired - Lifetime ES2273216T3 (es) 2003-02-11 2004-02-09 Codificacion de audio.

Country Status (9)

Country Link
US (2) US7181019B2 (es)
EP (1) EP1595247B1 (es)
JP (1) JP4431568B2 (es)
KR (1) KR101049751B1 (es)
CN (1) CN1748247B (es)
AT (1) ATE339759T1 (es)
DE (1) DE602004002390T2 (es)
ES (1) ES2273216T3 (es)
WO (1) WO2004072956A1 (es)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
KR20050021484A (ko) * 2002-07-16 2005-03-07 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
FR2852779B1 (fr) * 2003-03-20 2008-08-01 Procede pour traiter un signal electrique de son
ATE354160T1 (de) 2003-10-30 2007-03-15 Koninkl Philips Electronics Nv Audiosignalcodierung oder -decodierung
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
CN1973320B (zh) * 2004-04-05 2010-12-15 皇家飞利浦电子股份有限公司 立体声编码和解码的方法及其设备
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
BRPI0513255B1 (pt) * 2004-07-14 2019-06-25 Koninklijke Philips Electronics N.V. Dispositivo e método para converter um primeiro número de canais de áudio de entrada em um segundo número de canais de áudio de saída, sistema de áudio, e, meio de armazenamento legível por computador
DE102004042819A1 (de) 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
JP5017121B2 (ja) 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
EP1817767B1 (en) 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
JP5046652B2 (ja) * 2004-12-27 2012-10-10 パナソニック株式会社 音声符号化装置および音声符号化方法
JP5046653B2 (ja) * 2004-12-28 2012-10-10 パナソニック株式会社 音声符号化装置および音声符号化方法
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
ES2623551T3 (es) * 2005-03-25 2017-07-11 Iii Holdings 12, Llc Dispositivo de codificación de sonido y procedimiento de codificación de sonido
JP4521032B2 (ja) 2005-04-19 2010-08-11 ドルビー インターナショナル アクチボラゲット 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
US8214220B2 (en) 2005-05-26 2012-07-03 Lg Electronics Inc. Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal
JP2009500657A (ja) 2005-06-30 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
EP1946294A2 (en) 2005-06-30 2008-07-23 LG Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
WO2007004833A2 (en) 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
CN101213592B (zh) * 2005-07-06 2011-10-19 皇家飞利浦电子股份有限公司 用于参量多声道解码的设备和方法
US7411528B2 (en) 2005-07-11 2008-08-12 Lg Electronics Co., Ltd. Apparatus and method of processing an audio signal
US8577483B2 (en) 2005-08-30 2013-11-05 Lg Electronics, Inc. Method for decoding an audio signal
US7788107B2 (en) 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
KR20080049735A (ko) 2005-08-30 2008-06-04 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
US7765104B2 (en) 2005-08-30 2010-07-27 Lg Electronics Inc. Slot position coding of residual signals of spatial audio coding application
WO2007026763A1 (ja) 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
WO2007031905A1 (en) * 2005-09-13 2007-03-22 Koninklijke Philips Electronics N.V. Method of and device for generating and processing parameters representing hrtfs
KR100857108B1 (ko) 2005-09-14 2008-09-05 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
EP1764780A1 (en) * 2005-09-16 2007-03-21 Deutsche Thomson-Brandt Gmbh Blind watermarking of audio signals by using phase modifications
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US7716043B2 (en) 2005-10-24 2010-05-11 Lg Electronics Inc. Removing time delays in signal paths
EP1989920B1 (en) * 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
BRPI0716854B1 (pt) * 2006-09-18 2020-09-15 Koninklijke Philips N.V. Codificador para codificar objetos de áudio, decodificador para decodificar objetos de áudio, centro distribuidor de teleconferência, e método para decodificar sinais de áudio
US20100100372A1 (en) * 2007-01-26 2010-04-22 Panasonic Corporation Stereo encoding device, stereo decoding device, and their method
KR101080421B1 (ko) * 2007-03-16 2011-11-04 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치
JPWO2008132826A1 (ja) * 2007-04-20 2010-07-22 パナソニック株式会社 ステレオ音声符号化装置およびステレオ音声符号化方法
KR101425355B1 (ko) * 2007-09-05 2014-08-06 삼성전자주식회사 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법
KR101450940B1 (ko) 2007-09-19 2014-10-15 텔레폰악티에볼라겟엘엠에릭슨(펍) 멀티채널 오디오의 조인트 인핸스먼트
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
ES2379625T3 (es) 2007-09-28 2012-04-30 Lg Electronics Inc. Aparato y método para transmitir y recibir una señal
EP2186283A4 (en) * 2007-10-18 2011-03-09 Lg Electronics Inc METHOD AND SYSTEM FOR TRANSMITTING AND RECEIVING SIGNALS
KR101505831B1 (ko) 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
CN101149925B (zh) * 2007-11-06 2011-02-16 武汉大学 一种用于参数立体声编码的空间参数选取方法
WO2009064134A2 (en) * 2007-11-14 2009-05-22 Lg Electronics Inc. Method and system for transmitting and receiving signals
US8527282B2 (en) 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
JP5400059B2 (ja) * 2007-12-18 2014-01-29 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
KR101444102B1 (ko) * 2008-02-20 2014-09-26 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8355921B2 (en) 2008-06-13 2013-01-15 Nokia Corporation Method, apparatus and computer program product for providing improved audio processing
JP5425067B2 (ja) * 2008-06-27 2014-02-26 パナソニック株式会社 音響信号復号装置および音響信号復号装置におけるバランス調整方法
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
US8817992B2 (en) 2008-08-11 2014-08-26 Nokia Corporation Multichannel audio coder and decoder
WO2010042024A1 (en) 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
EP2381439B1 (en) * 2009-01-22 2017-11-08 III Holdings 12, LLC Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
WO2010098120A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
US8666752B2 (en) 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
CN101521013B (zh) * 2009-04-08 2011-08-17 武汉大学 空间音频参数双向帧间预测编解码装置
CN101533641B (zh) 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
ES2400661T3 (es) 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
US8250431B2 (en) * 2009-07-30 2012-08-21 Lsi Corporation Systems and methods for phase dependent data detection in iterative decoding
KR20110022252A (ko) * 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
WO2011029984A1 (en) * 2009-09-11 2011-03-17 Nokia Corporation Method, apparatus and computer program product for audio coding
WO2011039668A1 (en) 2009-09-29 2011-04-07 Koninklijke Philips Electronics N.V. Apparatus for mixing a digital audio
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
CN102157150B (zh) 2010-02-12 2012-08-08 华为技术有限公司 立体声解码方法及装置
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
KR101490725B1 (ko) * 2010-03-23 2015-02-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 비디오 디스플레이 장치, 오디오-비디오 시스템, 음향 재생을 위한 방법 및 로컬라이즈된 지각적 오디오를 위한 음향 재생 시스템
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
SG187950A1 (en) 2010-08-25 2013-03-28 Fraunhofer Ges Forschung Apparatus for generating a decorrelated signal using transmitted phase information
WO2012040898A1 (en) * 2010-09-28 2012-04-05 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
KR101930907B1 (ko) * 2011-05-30 2019-03-12 삼성전자주식회사 오디오 신호 처리 방법, 그에 따른 오디오 장치, 및 그에 따른 전자기기
CN104050969A (zh) 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
US9990935B2 (en) 2013-09-12 2018-06-05 Dolby Laboratories Licensing Corporation System aspects of an audio codec
US9911423B2 (en) * 2014-01-13 2018-03-06 Nokia Technologies Oy Multi-channel audio signal classifier
KR101500972B1 (ko) * 2014-03-05 2015-03-12 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
CN107358960B (zh) * 2016-05-10 2021-10-26 华为技术有限公司 多声道信号的编码方法和编码器
CN107358961B (zh) * 2016-05-10 2021-09-17 华为技术有限公司 多声道信号的编码方法和编码器
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
CN108877815B (zh) 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
KR102374934B1 (ko) * 2019-01-11 2022-03-15 붐클라우드 360, 인코포레이티드 사운드 스테이지 보존 오디오 채널 합산

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1186396B (it) * 1985-11-26 1987-11-26 Sgs Microelettronica Spa Sistema per la creazione di un effetto pseudostereo nella riproduzione di suone monofonico
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
WO1999012386A1 (en) * 1997-09-05 1999-03-11 Lexicon 5-2-5 matrix encoder and decoder system
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US6973184B1 (en) * 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications

Also Published As

Publication number Publication date
ATE339759T1 (de) 2006-10-15
DE602004002390T2 (de) 2007-09-06
US8831759B2 (en) 2014-09-09
US20060147048A1 (en) 2006-07-06
WO2004072956A1 (en) 2004-08-26
EP1595247B1 (en) 2006-09-13
CN1748247B (zh) 2011-06-15
JP2006518482A (ja) 2006-08-10
DE602004002390D1 (de) 2006-10-26
KR101049751B1 (ko) 2011-07-19
EP1595247A1 (en) 2005-11-16
KR20050095896A (ko) 2005-10-04
US7181019B2 (en) 2007-02-20
CN1748247A (zh) 2006-03-15
US20070127729A1 (en) 2007-06-07
JP4431568B2 (ja) 2010-03-17

Similar Documents

Publication Publication Date Title
ES2273216T3 (es) Codificacion de audio.
ES2677524T3 (es) Decodificador y método para decodificar una señal de audio, codificador y método para codificar una señal de audio
ES2773794T3 (es) Aparato y procedimiento para estimar una diferencia de tiempos entre canales
ES2880883T3 (es) Codificador, decodificador y métodos para la adaptación dinámica compatible inversamente de resolución de tiempo/frecuencia en la codificación de objetos de audio espacial
US7542896B2 (en) Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
ES2427278T3 (es) Transposición armónica mejorada de producto cruzado
ES2323294T3 (es) Dispositivo de decodificacion con una unidad de decorrelacion.
ES2539304T3 (es) Un aparato y un método para generar datos de salida por ampliación de ancho de banda
ES2259158T3 (es) Metodo y aparato decodificador audio.
ES2247466T3 (es) Mejora de codificacion de la fuente utilizando replicacion de la banda espectral.
ES2604758T3 (es) Codificación de señales de audio por transformada modificada deformada en el tiempo
ES2547232T3 (es) Método y aparato para procesar una señal
ES2673319T3 (es) Control de coherencia de fase para señales armónicas en códecs de audio perceptual
BRPI0305710B1 (pt) "apparatus and method of decoding of audio"
KR20100086000A (ko) 오디오 신호 처리 방법 및 장치
RU2006127273A (ru) Способ и устройство масштабирования сигнала по времени
BR112015007532B1 (pt) Codificador, decodificador e métodos para codificação de objeto de áudio espacial multirresolução compatível regressivo
KR20050107812A (ko) 다중-채널 신호들의 처리
ES2783975T3 (es) Codificación multicanal
JP2004053940A (ja) オーディオ復号化装置およびオーディオ復号化方法
BR112016030374B1 (pt) Calculadora e método para determinação de dados de correção de fase para um sinal de áudio