ES2658824T3 - Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia - Google Patents

Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia Download PDF

Info

Publication number
ES2658824T3
ES2658824T3 ES05786297.1T ES05786297T ES2658824T3 ES 2658824 T3 ES2658824 T3 ES 2658824T3 ES 05786297 T ES05786297 T ES 05786297T ES 2658824 T3 ES2658824 T3 ES 2658824T3
Authority
ES
Spain
Prior art keywords
audio
information
temporal envelope
decoded
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05786297.1T
Other languages
English (en)
Inventor
Mark Stuart Vinton
Alan Jeffrey Seefeldt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2658824T3 publication Critical patent/ES2658824T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Abstract

Método para codificar una de señal de audio en el que una o más señales de audio se codifican en un flujo binario que comprende información de audio e información secundaria relacionada con la información de audio y útil para decodificar el flujo binario, incluyendo la decodificación procesamiento que divide cada una de la una o más señales de audio en bloques de tiempo y actualiza al menos parte de la información secundaria según una frecuencia no superior a la velocidad de bloque, de modo que la información de audio, cuando se decodifica, tiene una resolución de envolvente temporal limitada por la velocidad de bloque, comprendiendo comparar la envolvente temporal de al menos una señal de audio y la envolvente temporal de una reconstrucción decodificada estimada de cada una de al menos una señal de audio mencionada, empleando dicha reconstrucción estimada al menos parte de la información de audio y al menos parte de la información secundaria, proporcionando la comparación representaciones de los resultados de la comparación, incluyendo las representaciones de los resultados de la comparación información de reformateo de envolvente temporal útil para mejorar la resolución de envolvente temporal de al menos parte de la información de audio cuando se decodifica; y la salida de al menos algunas de las representaciones de los resultados de la comparación para ser usadas por un decodificador o proceso de decodificación.

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia
Campo técnico
La presente invención se refiere a codificadores de audio basados en bloques, en los que cuando es decodificada la información de audio, ésta tiene una resolución de envolvente temporal limitada por la velocidad de bloque, que incluye codificadores, decodificadores y sistemas perceptuales y paramétricos de audio, que corresponden a métodos, a programas informáticos para implementar tales métodos y a un flujo binario producido por tales codificadores.
Técnica Anterior
Muchas técnicas de codificación de audio de velocidad binaria reducida están “basadas en bloques” ya que la codificación incluye procesamiento que divide cada una de la una o más señales de audio que están siendo codificadas en bloques de tiempo y actualiza al menos parte de la información secundaria asociada al audio codificado según una frecuencia no superior a la velocidad de bloque. Como resultado de ello, la información de audio, cuando se decodifica, tiene una resolución de envolvente temporal limitada por la velocidad de bloque. En consecuencia, la estructura detallada de las señales decodificadas de audio con respecto al tiempo no se mantiene durante períodos de tiempo más pequeños que la granularidad de la técnica de codificación (normalmente, en el intervalo de 8 a 50 milisegundos por bloque).
Tales técnicas de codificación de audio basadas en bloques incluyen no solamente técnicas perceptuales de codificación bien establecidas conocidas como AC-3, AAC y varias formas de MPEG en las que generalmente se mantienen canales discretos a través del proceso de codificación/decodificación, sino que también incluyen técnicas de codificación de velocidad binaria limitada recientemente introducidas, denominadas en algunas ocasiones “Codificación de pista binaural” y “Codificación paramétrica estéreo” en las que múltiples canales de entrada son de mezcla descendente y de mezcla ascendente a partir de un canal único a través del proceso de codificación/decodificación. Detalles de tales sistemas de codificación se encuentran en varios documentos que incluyen aquellos que se citan más adelante de acuerdo con el título “técnica anterior”. Como consecuencia del uso de un canal único en tales sistemas de codificación, las señales de salida reconstruidas son, forzosamente, versiones a escala de amplitud entre sí para un bloque particular, teniendo las diferentes señales de salida sustancialmente la misma estructura fina envolvente.
Aunque todas las técnicas de codificación de audio basadas en bloques pueden beneficiarse de una resolución de envolvente temporal mejorada de sus señales decodificadas de audio, la necesidad de tal mejora es particularmente grande en técnicas de codificación basadas en bloques que no mantienen canales discretos a través de todo el proceso de codificación/decodificación. Algunos tipos de señales de entrada, tales como, por ejemplo, un aplauso, son particularmente problemáticas para tales sistemas, haciendo que se estreche o colapse la imagen espacial percibida que es reproducida.
Descripción de los dibujos
La figura 1 es un diagrama de bloques funcional esquemático de un codificador o función de codificación que incluye aspectos de la presente invención.
La figura 2 es un diagrama de bloques funcional esquemático de un decodificador o función de decodificación que incluye aspectos de la presente invención.
Descripción de la invención
El ámbito de aplicación de la invención se define en las reivindicaciones adjuntas.
De acuerdo con un primer aspecto de la invención, se proporciona un método de codificación de señal de audio en el que una o más señales de audio son codificadas en un flujo binario que comprende información de audio e información secundaria que se refiere a la información de audio y que es útil para decodificar flujo binario, incluyendo la codificación procesamiento que divide cada una de la una o más señales de audio en bloques de tiempo y actualiza al menos parte de la información secundaria según una frecuencia no superior a la velocidad de bloque, de manera que la información de audio, una vez decodificada, tenga una resolución de envolvente temporal limitada por la velocidad de bloque. La comparación es efectuada entre la envolvente temporal de al menos una señal de audio y la envolvente temporal de una reconstrucción decodificada estimada de cada una de al menos una señal de audio mencionada, empleando dicha reconstrucción estimada al menos parte de la información de audio y al menos parte de la información secundaria, incluyendo representaciones de los resultados de comparación información de reformateo de envolvente temporal útil para mejorar la resolución de envolvente temporal de al menos parte de la información de audio cuando es decodificada. El método comprende además la salida de al menos algunas de las representaciones de los resultados de comparación para ser utilizadas por un decodificador o proceso de decodificación.
5
10
15
20
25
30
35
40
45
50
55
60
Además, se describe un método de codificación y decodificación de señal de audio en el que una o más señales de entrada de audio son codificadas en un flujo binario que comprende información de audio e información secundaria que se refiere a la información de audio y que es útil para decodificar flujo binario, el flujo binario es recibido y la información de audio es decodificada utilizando la información secundaria a fin de proporcionar una o más señales de salida de audio, incluyendo la codificación y la decodificación procesamiento que divide cada una de la una o más señales de entrada de audio y el flujo binario decodificado, respectivamente, en bloques de tiempo, actualizando la codificación al menos parte de la información secundaria según una frecuencia no superior a la velocidad de bloque, de manera que la información de audio, cuando sea decodificada, tenga una envolvente temporal que posea una resolución limitada por la velocidad de bloque. La comparación se realiza entre la envolvente temporal de al menos una señal de entrada de audio y la envolvente temporal de una reconstrucción decodificada estimada de cada una de al menos una señal de entrada de audio, empleando dicha reconstrucción estimada al menos parte de la información de audio y al menos parte de la información secundaria, proporcionando la comparación una representación de los resultados de la comparación, siendo tales representaciones útiles para mejorar la resolución de envolvente temporal de al menos parte de la información de audio cuando sea decodificada. La emisión de al menos algunas de las representaciones es realizada y la decodificación del flujo binario es efectuada, empleando la decodificación la información de audio, la información secundaria y las representaciones emitidas.
Además, se describe un método de decodificación de señal de audio en el que una o más señales de entrada de audio han sido codificadas en un flujo binario que comprende información de audio e información secundaria que se refiere a la información de audio y que es útil para decodificar flujo binario, incluyendo la codificación procesamiento que divide cada una de la una o más de las señales de entrada de audio en bloques de tiempo y actualiza al menos parte de la información secundaria según una frecuencia no superior a la velocidad de bloque, de manera que la información de audio, cuando es decodificada utilizando la información secundaria, tenga una resolución de envolvente temporal limitada por la velocidad de bloque, incluyendo la codificación además la comparación de la envolvente temporal de al menos una señal de entrada de audio y la envolvente temporal de una reconstrucción decodificada estimada de cada una de al menos una señal de entrada, empleando dicha reconstrucción estimada al menos parte de la información de audio y al menos parte de la información secundaria, proporcionando la comparación una representación de los resultados de la comparación, siendo tales representaciones útiles para mejorar la resolución de envolvente temporal de al menos parte de la información de audio cuando sea decodificada, e incluyendo además la codificación la emisión de al menos algunas de las representaciones. La recepción y decodificación del flujo binario se realizan, empleando la decodificación la información de audio, la información secundaria y las representaciones enviadas.
Otros aspectos descritos incluyen un aparato adaptado para realizar los métodos señalados anteriormente, un programa informático almacenado en un medio legible por ordenador para hacer que un ordenador realice los métodos señalados anteriormente, un flujo binario producido por los métodos señalados anteriormente y un flujo binario producido por un aparato adaptado para realizar los métodos señalados anteriormente.
Descripción detallada de la invención
La figura 1 muestra un ejemplo de un entorno de un codificador o proceso de codificación en el que pueden emplearse aspectos de la presente invención. Una pluralidad de señales de entrada de audio tales como señales PCM, muestras de tiempo de señales analógicas de audio respectivas, 1-n, son aplicadas a respectivos convertidores o funciones de conversión de dominio de tiempo a dominio de frecuencia (“T/F”) 2-1 a 2-n. Las señales de audio pueden representar, por ejemplo, direcciones espaciales tales como izquierda, central, derecha, etcétera. Cada T/F puede implementarse, por ejemplo, dividiendo las muestras de entrada de audio en bloques, formando ventanas de los bloques, superponiendo los bloques, transformando cada uno de los bloques formados como ventanas y superpuestos en el dominio de frecuencia mediante el cálculo de una transformada discreta de frecuencia (DFT) y dividiendo los espectros de frecuencia resultantes en bandas que simulan las bandas críticas del oído, por ejemplo, veintiuno bandas que utilizan, por ejemplo, la escala de banda equivalente-rectangular (ERB). Tales procesos DFT son bien conocidos en la técnica. Pueden emplearse otros parámetros y técnicas de conversión de dominio de tiempo a dominio de frecuencia. Ni los parámetros particulares ni la técnica particular son fundamentales para la invención. Sin embargo, con el fin de facilitar su explicación, la siguiente descripción acepta que se emplee tal técnica de conversión DFT.
Cada una de las salidas de dominio de frecuencia de T/F 2-1 a 2-n es un conjunto de coeficientes espectrales. Estos conjuntos pueden designarse Y[k]1 a Y[K]n, respectivamente. Todos estos conjuntos pueden aplicarse a un codificador o función de codificación basada en bloques (“codificador basado en bloques”) 4. El codificador basado en bloques puede ser, por ejemplo, cualquiera de los codificadores basados en bloques conocidos mencionados anteriormente solos o en algunas ocasiones en combinación o cualquier codificador basado en bloques que incluya variaciones de estos codificadores mencionados anteriormente. Aunque los aspectos de la invención son particularmente beneficiosos para usar en combinación con codificadores basados en bloques que no mantienen canales discretos durante la codificación y decodificación, los aspectos de la invención son útiles prácticamente en combinación con cualquier codificador basado en bloques.
Las salidas de un codificador común basado en bloques 4 pueden caracterizarse como “información de audio” e “información secundaria”. La información de audio puede comprender datos que representan múltiples canales de
5
10
15
20
25
30
35
40
45
50
55
60
señal como también es posible en sistemas de codificación basados en bloques tales como, por ejemplo, AC-3, AAC y otros, o, pueden comprender solamente un canal único derivado mediante la mezcla descendente de múltiples canales de entrada, tal como los sistemas de codificación de referencia binaria y los sistemas paramétricos de codificación estéreo antes mencionados (el canal de mezcla descendente en un codificador de cifrado de referencia binaria o un sistema paramétrico de codificación estéreo también pueden ser codificados de manera perceptual, por ejemplo, con AAC o alguna otra codificación adecuada). También puede comprender un canal único o múltiples canales derivados mediante la mezcla descendente de múltiples canales de entrada, tal como se describe en la solicitud provisional de patente US S.N. 60/588.256, presentada el 14 de Julio de 2004 por Davis et al., titulada “Low Bit Rate Audio Encoding and Decoding in Which Multiple Channels are Represented By Monophonic Channel and Auxiliary Information”. La información secundaria puede comprender datos que se refieren a la información de audio y es útil en su decodificación. En el caso de varios sistemas de codificación de mezcla descendente, la información secundaria puede comprender parámetros espaciales tales como, por ejemplo, diferencias de amplitud entre canales, diferencias de tiempo o fase entre canales y correlación cruzada entre canales.
La información de audio y la información secundaria procedentes del codificador basado en bloques 4 pueden aplicarse entonces a convertidores o funciones de conversión de dominio de frecuencia a dominio de tiempo correspondientes (“F/T”) 6 y 8 de manera que cada uno realice generalmente las funciones de inversión de una T/F descrita anteriormente, a saber, una FFT inversa, seguido de la adición de formación de ventanas y superposición. La información de dominio de tiempo de F/T 6 y 8 se aplica a un agrupador o a una función de agrupación de flujo binario (“agrupador de flujo binario”) 10 que proporciona una salida codificada de flujo binario. De manera alternativa, si el codificador va a proporcionar un flujo binario que representa información de dominio de frecuencia, F/T 6 y 8 pueden omitirse.
La información de audio de dominio de frecuencia y la información secundaria procedentes del codificador basado en bloques 4 se aplican también a un estimador o función de estimación de decodificación (“estimador de decodificación”) 14. El estimador de decodificación 14 puede simular al menos una parte de un decodificador o función de decodificación diseñada para decodificar el flujo binario codificado proporcionado por el agrupador de flujo binario 10. Un ejemplo de tal decodificador o función de decodificación se describe más adelante con respecto a la figura 2. El estimador de decodificación 14 puede proporcionar conjuntos de coeficientes espectrales X[k]1 a X[K]n que aproximan los conjuntos de coeficientes espectrales Y[k]1 a Y[K]n de señales de entrada de audio correspondientes que se espera que sean obtenidas en el decodificador o función de decodificación. Alternativamente, puede proporcionar tales coeficientes espectrales en una cantidad menor que todas las señales de entrada de audio para una menor cantidad que todos los bloques de tiempo de las señales de entrada de audio y/o para menos que todas las bandas de frecuencia (es decir, no puede proporcionar todos los coeficientes espectrales). Esto puede darse, por ejemplo, si se desea mejorar solamente las señales de entrada que representan canales que se consideran más importantes que otros. Como otro ejemplo, esto puede darse si se desea mejorar únicamente las partes de frecuencia más baja de señales en las que el oído es más sensible a los detalles finos de las envolventes temporales de forma de onda.
Cada una de las salidas de dominio de frecuencia de T/F 2-1 a 2-n, cada uno de los conjuntos de coeficientes espectrales Y[k]1 a Y[K]n, también se aplica a respectivos dispositivos o funciones de comparación (“comparación”) 12-1 a 12-n. Tales conjuntos se comparan con conjuntos correspondientes de bloques de tiempo correspondientes de coeficientes espectrales estimados X[k]1 a X[K]n en la comparación correspondiente 12-1 a 12-n. Cada resultado de la comparación en cada comparación 12-1 a 12-n se aplica a un calculador o función de cálculo de filtro (“cálculo de filtro”) 15-1 a 15-n. Esta información debe ser suficiente para cada cálculo de filtro con el objeto de definir los coeficientes de un filtro para cada bloque de tiempo, generando este filtro, cuando se aplica a una reconstrucción decodificada de una señal de entrada, la señal que tiene una envolvente temporal con una resolución mejorada. Es decir, el filtro volvería a configurar la señal, de modo que esta reproduzca más fielmente la envolvente temporal de la señal original. La resolución mejorada es una resolución más fina que la velocidad de bloque. Otros detalles de un filtro preferido se señalan más adelante.
Aunque el ejemplo de la figura 1 muestra la comparación y el cálculo de filtro en el dominio de frecuencia, en principio, la comparación y el cálculo de filtro pueden realizarse en el dominio de tiempo. Ya fueran realizados en el dominio de frecuencia o en el dominio de tiempo, solo se determinaría una configuración de filtro por bloque de tiempo (aunque puede aplicarse la misma configuración de filtro a varios bloques consecutivos de tiempo). Aunque, en principio, una configuración de filtro puede determinarse en base a una banda por banda (tal como por banda de la escala ERB), al hacerlo de este modo se requeriría el envío de un gran número de bits de información secundaria, lo que perdería la ventaja de la invención, a saber, mejorar la resolución de envolvente temporal con un bajo incremento en la velocidad binaria.
Cada medición de la comparación en cada comparación 12-1 a 12-n se aplica a un dispositivo o función de decisión (“decisión”) 16-1 a 16-n. Cada decisión compara la medición de la comparación frente a un umbral. Una medición de la comparación puede adoptar varias formas y no es fundamental. Por ejemplo, puede calcularse el valor absoluto de la diferencia de cada valor correspondiente de coeficiente y las diferencias sumadas a fin de proporcionar un número único cuyo valor indique el grado en el que las formas de onda de señal difieren entre si durante un bloque de tiempo. Este número puede ser comparado con un umbral tal que, si sobrepasa el umbral, se proporcionaría un indicador “si” al cálculo de filtro correspondiente. En ausencia de un indicador “si”, pueden impedirse los cálculos de
5
10
15
20
25
30
35
40
45
filtro para el bloque, o si se calculan, no pueden ser enviados por el cálculo de filtro. Tal información si/no para cada señal constituye un aviso que también puede aplicarse al agrupador de flujo binario 10 para su inclusión en el flujo binario (de esta manera, puede haber una pluralidad de avisos, uno para cada señal de entrada y cada uno de tales avisos puede representarse mediante un bit).
Alternativamente, cada decisión 16-1 a 16-n puede recibir información de un cálculo de filtro correspondiente 14-1 a 14-n en lugar o además de la información procedente de una comparación correspondiente 12-1 a 12-n. La decisión correspondiente 16 puede emplear las características calculadas de filtro (por ejemplo, sus magnitudes medias o pico) como base para la toma de una decisión o para ayudar en la toma de una decisión.
Como se menciona anteriormente, cada cálculo de filtro 14-1 a 14-n proporciona una representación de los resultados de la comparación, los cuales pueden constituir los coeficientes de un filtro, filtro que, cuando se aplica a una reconstrucción decodificada de una señal de entrada, origina la señal que tiene una envolvente temporal con una resolución mejorada. Si los coeficientes espectrales estimados X[k]1 a X[K]n fueran incompletos (en el caso de que el estimador de decodificación proporcionara coeficientes espectrales en una cantidad menor que todas las señales de entrada de audio para una menor cantidad que todos los bloques de tiempo de las señales de entrada de audio y/o para menos que todas las bandas de frecuencia), no puede haber salidas para cada comparación 12-1 a 12-n para todos los bloques de tiempo, bandas de frecuencia y señales de entrada. El lector debe observar que X[k]1 a X[K]n se refieren a salidas reconstruidas, mientras que Y[k]1 a Y[K]n se refieren a entradas.
La salida de cada cálculo de filtro 14-1 a 14-n puede aplicarse al ensamblador de flujo binario 10. Aunque la información de filtro puede emitirse por separado desde el flujo binario, se prefiere que sea enviada como parte del flujo binario y como parte de la información secundaria. Cuando los aspectos de la invención se aplican a sistemas existentes de codificación basada en bloques, la información adicional proporcionada por aspectos de la presente invención puede introducirse en partes de los flujos binarios de tales sistemas que se pretende que lleven información auxiliar.
En realizaciones prácticas, es probable que no solamente la información de audio sino también la información secundaria y los coeficientes de filtro sean cuantificados o codificados de algún modo para minimizar sus costes de transmisión. Sin embargo, la falta de cuantificación y descuantificación se muestra en las figuras con el fin de simplificar la presentación y debido a que tales detalles son bien conocidos y no ayudan a entender la invención.
Diseño de filtro de Wiener en el dominio de frecuencia
De preferencia, cada uno de los dispositivos o funciones de cálculo de filtro 14-1 a 14-n se caracteriza por un filtro FIR en el dominio de frecuencia que representa los cambios multiplicativos en el dominio de tiempo requeridos para obtener una reproducción más exacta de una envolvente temporal original del canal de señal. Este problema de filtro se puede formular al menos como un problema de cuadros, que a menudo se denomina diseño de filtro de Wiener. Véase, por ejemplo, X. Rong Li, Probability, Random Signals, and Statistics, CRC Press 1999, New York, págs. 423. La aplicación de técnicas de filtro de Wiener tiene la ventaja de reducir los bits adicionales requeridos para transmitir la información de reformateo de filtro a un decodificador. Normalmente, las aplicaciones convencionales del filtro de Wiener son diseñadas y aplicadas en dominio de tiempo.
El problema de diseño de filtro de menos cuadros de dominio de frecuencia puede definirse como sigue: dada la representación espectral DFT de una señal original Y[k] y la representación espectral DFT de una aproximación de tal canal original X[k], se calcula un conjunto de coeficientes de filtro (am) que minimiza la ecuación 1. Se observa que Y[k] y X[k] son valores complejos y, por tanto, en general, am también será un valor complejo.
imagen1
donde k es el índice espectral, E es el operador de expectativa y M es la longitud del filtro que está siendo diseñado.
La ecuación 1 puede ser nuevamente expresada utilizando expresiones de matriz como se muestra en la ecuación 2:
imagen2
donde
5
10
15
20
25
30
35
40
xl = [X[fc] X[k-1] ••• X\k-M + \\]
y
A =\a.Q a¡ ••• (Im-\ ] •
De este modo, mediante el ajuste de las derivadas parciales en la ecuación 2 con respecto a cada uno de los coeficientes de filtro en cero, es simple mostrar la solución al problema de minimización, el cual se da en la ecuación 3.
imagen3
donde
Rxx =
' E{Xt
X) E{xXX ■■ ■■ e(xkx;_mj
E{Xk
-XA e{xkXX • ■■ E(Xk_X:-,X
E(XK_tí+lXt)
e(xk_m+XA ■ " E(XK-M^Xk-M*\
Ryx=[E(YKX'k) E{YKX[_y) - E(YKX¡_M+l)].
y
La ecuación 3 define el cálculo de los coeficientes óptimos de filtro que minimizan el error entre el espectro original (Y[k]) y el espectro reconstruido (X[k]) de un canal particular. Generalmente, se calcula un conjunto de coeficientes de filtro para cada bloque de tiempo de cada señal de entrada.
En una realización práctica de aspectos de la invención, se emplea un filtro de Wiener de 12a orden, aunque la invención no se limita al uso de un filtro de Wiener de tal tamaño. Tal realización práctica emplea procesamiento en el dominio de frecuencia después de una DFT. En consecuencia, los coeficientes de filtro de Wiener son números complejos y cada filtro requiere la transmisión de veinticuatro números reales. Para transmitir de manera eficiente tal información de filtro a un decodificador, se puede utilizar cuantificación de vector (VQ) para codificar los coeficientes de cada filtro. Se puede utilizar un libro de códigos, de manera que solo tenga que emitirse un índice al decodificador para transmitir la información compleja de filtro de 12a orden. En una realización práctica, se ha encontrado útil un libro de códigos de tabla VQ que tiene 24 dimensiones y 16.536 entradas. La invención no se limita al uso de la cuantificación de vector, tampoco al uso de un libro de códigos.
Aunque la descripción anterior adopta el uso de una DFT para estimar el contenido espectral y para diseñar el filtro de Wiener, en general se puede utilizar cualquier transformación.
La figura 2 muestra un ejemplo de un entorno de decodificador o proceso de decodificación en el que pueden emplearse aspectos de la presente invención. Tal codificador o proceso de codificación puede ser adecuado para el funcionamiento en cooperación con un codificador o proceso de codificación, como se describe con respecto al ejemplo de la figura 1. Un flujo binario codificado, tal como el que se produce mediante la disposición de la figura 1, es recibido en cualquier modo adecuado de transmisión o almacenamiento de señal y es aplicado a un desagrupador de flujo binario 30 que desagrupa el flujo binario según sea necesario para separar la información codificada de audio de la información secundaria y avisos de sí/no (si estuvieran incluidos en el flujo binario). De preferencia, la información secundaria incluye un conjunto de coeficientes de filtro para usar en la mejora de la reconstrucción de cada una de la una o más de las señales de entrada que se aplicaron a la disposición de codificación de la figura 1.
En este ejemplo, se supone que existe una señal reproducida que corresponde a cada señal de entrada y que la información de reformateo de filtro de envolvente temporal se proporciona para cada señal reproducida, aunque esto no tiene por qué ser así, como se menciona anteriormente. De este modo, los conjuntos 1-n de información secundaria de coeficientes de filtro se muestran como salidas del desagrupador de flujo binario 30. La información
5
10
15
20
25
30
35
40
45
50
55
de coeficientes de filtro para cada señal de entrada se aplica a los respectivos filtros de reformateo 36-1 a 36-n, cuyo funcionamiento se explica más adelante. Cada uno de los filtros también puede recibir un aviso correspondiente de sí/no 31-1 a 31-n indicando si el filtro tiene que ser activo durante un bloque particular de tiempo.
La información secundaria procedente del agrupador de flujo binario 30 también puede incluir otra información tal como, por ejemplo, diferencias de amplitud entre canales, diferencias de tiempo o de fase entre canales y correlación cruzada entre canales en el caso de una codificación de referencia binaural o sistema paramétrico estéreo. Un decodificador basado en bloques 42 recibe la información secundaria procedente del desagrupador de flujo binario 30 junto con la información convertida de audio de dominio de tiempo-a-frecuencia del desagrupador de flujo binario 30. La información de audio del desagrupador 30 se aplica mediante un convertidor o función de conversión de dominio de tiempo a dominio de frecuencia (“T/F”) 46, que puede ser la misma que cualquiera de uno de los convertidores o funciones de conversión de dominio de frecuencia (“T/F”) 2-1 a 2-n de la figura 1.
El decodificador basado en bloques 42 proporciona una o más salidas, cada una de las cuales es una aproximación de una señal correspondiente de entrada en la figura 1. Aunque algunas señales de entrada no pueden tener una señal de salida correspondiente, el ejemplo de la figura 2 muestra señales de salida 1-n, cada una de las cuales es una aproximación que corresponde a la señal correspondiente de las señales de entrada 1-n de la figura 1. En este ejemplo, cada una de las señales de salida 1-n del decodificador 42 se aplica a un filtro de reformateo correspondiente 36-1 a 36-n, cado uno de los cuales se puede implementar como un filtro FIR. Los coeficientes de cada filtro FIR son controlados, en una base de bloques, a través de la información de filtro respectiva que se refiere a un canal particular de entrada cuya salida reconstruida será mejorada. De preferencia, el reformateo multiplicativo de la envolvente en el dominio de tiempo se consigue mediante la convolución de cada filtro FIR con una salida de decodificador basado en bloques en cada uno de los filtros 36-1 a 36-n. De esta manera, la configuración de envolvente temporal de acuerdo con los aspectos de la presente invención se aprovecha de la dualidad de frecuencia de tiempo, la convolución en el dominio de tiempo es equivalente a la multiplicación en el dominio de frecuencia y viceversa. Cada una de las señales de salida decodificadas y filtradas, se aplica después a los convertidores o funciones de conversión de dominio de frecuencia a dominio de tiempo respectivos (“F/T”) 44-1 a 44- n de manera que cada una realice las funciones inversas de una T/F descrita anteriormente, a saber, una FFT inversa, seguida de la adición de formación de ventanas y de superposición. Alternativamente, se puede emplear un filtro adecuado de reformateo de dominio de tiempo después de cada uno de los convertidores de dominio de frecuencia a tiempo. Por ejemplo, los n coeficientes polinomiales de una curva polinomial de enésimo orden pueden enviarse como información secundaria en lugar de coeficientes de filtro FIR y la curva aplicada mediante multiplicación en el dominio de tiempo. Aunque es preferible emplear técnicas de filtro de Wiener para transmitir la información de reformateo de filtro al decodificador, se pueden emplear otras técnicas de dominio de frecuencia y dominio de tiempo, tales como aquellas señaladas en la solicitud de Patente US S. N. 10/113.858 de Truman y Vinton, titulada “Broadband Frequency Translation for High Frequency Regeneration”, presentada el 28 de marzo de 2002 y publicada como US 2003/0187663 A1 el 2 de octubre de 2003.
Implementación
La invención puede implementarse en hardware o software, o en una combinación de ambos (por ejemplo, en series lógicas programables). A menos que se especifique de otro modo, los algoritmos incluidos como parte de la invención no están inherentemente relacionados con ningún ordenador concreto u otro aparato. En particular, pueden emplearse varias máquinas de uso general con programas escritos de acuerdo con las enseñanzas de este documento, o puede resultar más conveniente construir aparatos más especializados (por ejemplo, circuitos- integrados) para realizar las etapas de método requeridas. Por tanto, la invención puede implementarse en uno o más programas informáticos que se ejecuten en uno o más sistemas informáticos programables, comprendiendo cada uno al menos un procesador, al menos un sistema de almacenamiento de datos (que incluye una memoria volátil y no volátil y/o elementos de almacenamiento), al menos un dispositivo o puerto de entrada y al menos un dispositivo o puerto de salida. El código de programa se aplica a datos de entrada para realizar las funciones descritas en el presente documento y generar la información de salida. La información de salida se aplica a uno o más dispositivos de salida, en un modo conocido.
Cada programa puede implementarse en cualquier lenguaje informático deseado (que incluye lenguajes de programación de máquina, ensamble o procedimiento de alto nivel, lógico u orientado por objeto) para comunicarse con un sistema informático. En cualquier caso, el lenguaje puede ser un lenguaje compilado o interpretado.
De preferencia, cada programa informático se almacena o descarga en un dispositivo o medio de almacenamiento (por ejemplo, en una memoria o medio de estado sólido o medio magnético u óptico) que puede ser leído a través de un ordenador programable de uso general o especial, para configurar y hacer funcionar el ordenador cuando el medio o dispositivo de almacenamiento sea leído por el sistema informático para realizar los procedimientos descritos en el presente documento. También puede considerarse la implementación del sistema de la invención como medio de almacenamiento legible por ordenador, configurado con un programa informático, en el que el medio de almacenamiento configurado de este modo hace que el sistema informático funcione en un modo específico y predefinido para realizar las funciones descritas en el presente documento.
5
10
15
20
25
30
35
40
Se han descrito varias realizaciones de la invención. Sin embargo, se entenderá que pueden realizarse varias modificaciones sin apartarse del espíritu y ámbito de aplicación de la invención. Por ejemplo, algunas de las etapas descritas en el presente documento pueden ser independientes del orden y, por tanto, pueden realizarse en un orden diferente del descrito.
Técnica anterior
AC-3
Estándar ATSC A52/A: Estándar de compresión de audio digital (AC-3), Revisión A, Advanced Television Systems Cornmittee, 20 de agosto de 2001. El documento A/52A se encuentra disponible en la red mundial (WWW) en
http://www.atsc.org/standards.htrnl.
“Design and Implementation of AC-3 Coders,” de Steve Vernon, IEEE Trans. Consumer Electronics, vol. 41, núm. 3, agosto de 1995.
“The AC-3 Multichannel Coder” de Mark Davis, Audio Engineering Society Preprint 3774, Convención AES 95.°, octubre de 1993.
“High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications” de Bosi et al, Audio Engineering Society Preprint 3365, Convención AES 93.°, octubre de 1992.
Patentes US 5.583.962; 5.632.005; 5.633.981; 5.727.119; y 6.021.386.
AAC
ISO/IEC JTC1/SC29, “Information technology - very low bitrate audio-visual coding” lSO/lEC IS-14496 (parte 3, audio), 1996
1) ISO/IEC 13818-7. “MPEG-2 advanced audio coding, AAC”. Estándar Internacional, 1997;
M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, e Y. Oikawa: “ISO/IEC MPEG-2 Advanced Audio Coding”. Proc. de la Convención AES 101.°, 1996;
M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Y. Oikawa: “ISO/IEC MPEG-2 Advanced Audio Coding”, Diario de AES, vol. 45, núm. 10, octubre de 1997, págs. 789814;
Karlheinz Brandenburg: “MP3 and AAC explained”. Proc. Of the AES 17th International Conference on High Quality Audio Coding, Florencia, Italia, 1999; y
G.A. Soulodre et al.: “Subjective Evaluation of State-of-the-Art Two-Channel Audio Codecs” J. Audio Eng. Soc., vol. 46, núm. 3, págs., 164-177, marzo de 1998.
Estéreo de Intensidad MPEG
Patentes US 5.323.396; 5.539.829; 5.606.618 y 5.621.855.
Solicitud de patente publicada US 2001/0044713, publicada.
Codificación espacial y paramétrica
Solicitud de patente provisional US S.N. 60/588.256, presentada el 14 de julio de 2004 de Davis et al, titulada' “Low Bit Rate Audio Encoding and Decoding in Which Multiple Channels are Represented By Monophonic Channel and Auxiliary Information”.
Solicitud de patente publicada US 2003/0026441, publicada el 6 de febrero de 2003.
Solicitud de patente publicada US 2003/0035553, publicada el 20 de febrero de 2003,
Solicitud de patente publicada US 2003/0219130 (Baurngarte & Faller) publicada el 27 de noviembre de 2003,
Audio Engineering Society Paper 5852, marzo de 2003.

Solicitud de patente internacional publicada WO 03/090206, publicada el 30 de octubre de 2003

Solicitud de patente internacional publicada WO 03/090207, publicada el 30 de octubre de 2003

Solicitud de patente internacional publicada WO 03/090208, publicada el 30 de octubre de 2003
Solicitud de patente internacional publicada WO 03/007656, publicada el 22 de enero de 2003
5
10
15
20
25
Publicación de Solicitud de patente publicada US 2003/0236583 A1, Baumgarte et al, publicada el 25 de diciembre de 2003, “Hybrid Multi-Channel/Cue Coding/Decoding of Audio Signals” Solicitud S.N. 10/246.570.
“Binaural Cue Coding Applied to Stereo and Multi-Channel Audio Compression”, de Faller et al, Audio Engineering Society Convention Paper 5574, Convención 112.°, Munich, mayo de 2002.
“Why Binaural Cue Coding is Better than Intensity Stereo Coding” by Baumgarte et al, Audio Engineering Society Convention Paper 5575, Convención 112.° Munich, mayo de 2002.
“Design and Evaluatin of Binaural Cue Coding Schemes” de Baurngarte et al, Audio Engineering Society Convention Paper 5706, Convención 113.°, Los Ángeles, octubre de 2002.
“Efficient Representation of Spatial Audio Using Perceptual Parametrízation”, de Faller et al, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics 2001, New Paltz, Nueva York, octubre de 2001, págs. 199202.
“Estimation of Auditory Spatial Cues for Binaural Cue Coding” de Baurngarte et al, Proc. ICASSP 2002, Orlando, Florida, mayo de 2002, págs. II-1801-1804.
“Binaural Cue Coding: A Novel and Efficient Representation of Spatial Audio” de Faller et al, Proc. ICASSP 2002, Orlando, Florida, mayo de 2002, págs. II-1841-IM844.
“High-quality parametric spatial audio coding at low bitrates” de Breebaart et al, Audio Engineering Society Convention Paper 6072, Convención 116.°, Berlin, mayo de 2004.
“Audio Coder Enhancement using Scalable Binaural Cue Coding with Equalized Mixing” de Baurngarte et al, Audio Engineering Society Convention Paper 6060, Convención 116.°, Berlín, mayo de 2004.
“Low complexity parametric stereo coding” de Schuijers et al, Audio Engineering Society Convention Paper 6073, Convención 116.°, Berlín, mayo de 2004.
“Synthetic Ambience in Parametric Stereo Coding” de Engdegard et al, Audio Engineering Society Convention Paper 6074, Convención 116.°, Berlín, mayo de 2004.
Otras
Patente US 5.812.971, de Herre, “Enhanced Joint Stereo Coding Method Using Temporal Envelope Shaping” 22 de septiembre de 1998
“Intensity Stereo Coding” de Herre et al, Audio Engineering Society Preprint 3799, Convención 96.°, Amsterdam, 1994.

Claims (10)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    REIVINDICACIONES
    1. Método para codificar una de señal de audio en el que una o más señales de audio se codifican en un flujo binario que comprende información de audio e información secundaria relacionada con la información de audio y útil para decodificar el flujo binario, incluyendo la decodificación procesamiento que divide cada una de la una o más señales de audio en bloques de tiempo y actualiza al menos parte de la información secundaria según una frecuencia no superior a la velocidad de bloque, de modo que la información de audio, cuando se decodifica, tiene una resolución de envolvente temporal limitada por la velocidad de bloque, comprendiendo
    comparar la envolvente temporal de al menos una señal de audio y la envolvente temporal de una reconstrucción decodificada estimada de cada una de al menos una señal de audio mencionada, empleando dicha reconstrucción estimada al menos parte de la información de audio y al menos parte de la información secundaria, proporcionando la comparación representaciones de los resultados de la comparación, incluyendo las representaciones de los resultados de la comparación información de reformateo de envolvente temporal útil para mejorar la resolución de envolvente temporal de al menos parte de la información de audio cuando se decodifica; y
    la salida de al menos algunas de las representaciones de los resultados de la comparación para ser usadas por un decodificador o proceso de decodificación.
  2. 2. Método según la reivindicación 1, en el que una representación de los resultados de la comparación se expresa como un conjunto de coeficientes de un filtro, filtro que, cuando se aplica a una reconstrucción decodificada de una señal de entrada, origina la señal que tiene una envolvente temporal con una resolución mejorada.
  3. 3. Método según la reivindicación 2, en el que el filtro, cuando se aplica a una reconstrucción decodificada de una señal de entrada, reformatea la señal de manera que reproduzca más fielmente la envolvente temporal de la señal original.
  4. 4. Método según la reivindicación 2, en el que la resolución mejorada es una resolución más fina que la velocidad de bloque.
  5. 5. Método según la reivindicación 2, en el que dichos coeficientes son coeficientes de un filtro de Wiener.
  6. 6. Programa informático almacenado en un medio legible por ordenador para hacer que un ordenador realice los métodos de cualquiera de las reivindicaciones 1 a 5.
  7. 7. Codificador de señal de audio en el que una o más señales de audio son codificadas en un flujo binario que comprende información de audio e información secundaria que se refiere a la información de audio y que es útil para decodificar el flujo binario, incluyendo la codificación procesamiento que divide cada una de la una o más señales de audio en bloques de tiempo y actualiza al menos parte de la información secundaria según una frecuencia no superior a la velocidad de bloque, de manera que la información de audio, una vez decodificada, tenga una resolución de envolvente temporal limitada por la velocidad de bloque, comprendiendo
    medios para comparar la envolvente temporal de al menos una señal de audio y la envolvente temporal de una reconstrucción decodificada estimada de cada una de al menos una señal de audio mencionada, empleando dicha reconstrucción estimada al menos parte de la información de audio y al menos parte de la información secundaria, proporcionando la comparación representaciones de los resultados de la comparación, incluyendo las representaciones de los resultados de la comparación información de reformateo de envolvente temporal útil para mejorar la resolución de envolvente temporal de al menos parte de la información de audio cuando se decodifica, y
    medios para emitir al menos algunas de las representaciones de los resultados de la comparación para ser utilizadas por un decodificador o proceso de decodificación.
  8. 8. Método para la decodificación de señal de audio, comprendiendo el método
    recibir un flujo binario que incluye una señal codificada y extraer audio codificado e información secundaria de la señal codificada, siendo al menos parte de la información secundaria actualizada con una frecuencia menor que una velocidad de bloque de la información de audio de manera que la información de audio, una vez decodificada, tenga una resolución de envolvente temporal limitada por la velocidad de bloque, incluyendo el flujo binario información de reformateo de envolvente temporal útil para mejorar la resolución de envolvente temporal de al menos parte de la información de audio cuando se decodifica;
    decodificar el audio codificado; y
    reformatear el audio decodificado basándose al menos en parte en la información de reformateo de envolvente temporal extraída del flujo binario.
  9. 9. Decodificador de audio, comprendiendo el decodificador:
    un dispositivo de recepción de flujo binario configurado para recibir una señal codificada y extraer información de audio e información secundaria de la señal codificada, siendo al menos parte de la información secundaria
    actualizada según una frecuencia no superior a una velocidad de bloque de la información de audio de manera que la información de audio, una vez decodificada, tenga una resolución de envolvente temporal limitada por la velocidad de bloque y extraer información de reformateo de envolvente temporal útil para mejorar la resolución de envolvente temporal de al menos parte de la información de audio cuando se decodifica;
    5 un decodificador configurado para decodificar el audio codificado;
    un dispositivo de reformateo configurado para reformatear el audio decodificado basándose al menos en parte en la información de reformateo de envolvente temporal extraída del flujo binario.
  10. 10. Decodificador de audio según la reivindicación 9, en el que el decodificador está configurado para actualizar la información secundaria a una velocidad de bloque de la señal codificada.
    10 11. Decodificador de audio según la reivindicación 9, en el que el decodificador está configurado para decodificar
    múltiples canales de audio a partir de la señal codificada y reformatear cada canal de audio decodificado usando información de reformateo basándose en la señal de audio original correspondiente de canal decodificado.
ES05786297.1T 2004-08-25 2005-08-15 Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia Active ES2658824T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US60483604P 2004-08-25 2004-08-25
US604836P 2004-08-25
PCT/US2005/029157 WO2006026161A2 (en) 2004-08-25 2005-08-15 Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering

Publications (1)

Publication Number Publication Date
ES2658824T3 true ES2658824T3 (es) 2018-03-12

Family

ID=35636849

Family Applications (3)

Application Number Title Priority Date Filing Date
ES17193794T Active ES2899286T3 (es) 2004-08-25 2005-08-15 Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia
ES05786297.1T Active ES2658824T3 (es) 2004-08-25 2005-08-15 Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia
ES21195475T Active ES2923661T3 (es) 2004-08-25 2005-08-15 Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES17193794T Active ES2899286T3 (es) 2004-08-25 2005-08-15 Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES21195475T Active ES2923661T3 (es) 2004-08-25 2005-08-15 Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia

Country Status (15)

Country Link
US (3) US8255211B2 (es)
EP (4) EP4036914A1 (es)
JP (2) JP5038138B2 (es)
KR (3) KR20120006077A (es)
CN (3) CN101006494B (es)
AU (2) AU2005280392B2 (es)
BR (3) BRPI0514650B1 (es)
CA (1) CA2589623C (es)
ES (3) ES2899286T3 (es)
IL (3) IL181407A (es)
MX (1) MX2007001948A (es)
MY (2) MY151318A (es)
PL (3) PL3940697T3 (es)
TW (3) TWI393120B (es)
WO (1) WO2006026161A2 (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI393120B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
WO2006126843A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding audio signal
JP4988717B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US20080255859A1 (en) * 2005-10-20 2008-10-16 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
US8208641B2 (en) * 2006-01-19 2012-06-26 Lg Electronics Inc. Method and apparatus for processing a media signal
US8285556B2 (en) * 2006-02-07 2012-10-09 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
ES2362920T3 (es) * 2006-03-28 2011-07-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Método mejorado para la conformación de señales en reconstrucción de audio multicanal.
BRPI0813723B1 (pt) 2007-07-13 2020-02-04 Dolby Laboratories Licensing Corp método para controlar o nível de intensidade do som de eventos auditivos, memória legível por computador não transitória, sistema de computador e aparelho
CN101673545B (zh) * 2008-09-12 2011-11-16 华为技术有限公司 一种编解码方法及装置
EP2214161A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
WO2010098120A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN102884570B (zh) 2010-04-09 2015-06-17 杜比国际公司 基于mdct的复数预测立体声编码
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US9978379B2 (en) * 2011-01-05 2018-05-22 Nokia Technologies Oy Multi-channel encoding and/or decoding using non-negative tensor factorization
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
MY176406A (en) * 2012-08-10 2020-08-06 Fraunhofer Ges Forschung Encoder, decoder, system and method employing a residual concept for parametric audio object coding
EP2981956B1 (en) * 2013-04-05 2022-11-30 Dolby International AB Audio processing system
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
WO2019081089A1 (en) 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. MITIGATION OF NOISE AT THE LEVEL OF A DECODER
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
TW202334938A (zh) * 2021-12-20 2023-09-01 瑞典商都比國際公司 正交鏡像濾波器域中之沉浸式音訊及視訊服務空間重建濾波器庫
KR102446720B1 (ko) * 2022-02-18 2022-09-26 오드컨셉 주식회사 이미지 복원 모델, 및 이미지 복원 모델의 학습 방법
KR102423552B1 (ko) * 2022-02-28 2022-07-21 오드컨셉 주식회사 적대적 생성 신경망으로 구성된 상품 이미지 복원 및 합성 모델, 및 상품 이미지 복원 및 합성 모델의 학습 방법

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4875095A (en) * 1987-06-30 1989-10-17 Kokusai Denshin Denwa Kabushiki Kaisha Noise-shaping predictive coding system
US4943855A (en) * 1988-07-22 1990-07-24 At&T Bell Laboratories Progressive sub-band image coding system
US5539829A (en) 1989-06-02 1996-07-23 U.S. Philips Corporation Subband coded digital transmission system using some composite signals
US6289308B1 (en) 1990-06-01 2001-09-11 U.S. Philips Corporation Encoded wideband digital transmission signal and record carrier recorded with such a signal
NL9000338A (nl) 1989-06-02 1991-01-02 Koninkl Philips Electronics Nv Digitaal transmissiesysteem, zender en ontvanger te gebruiken in het transmissiesysteem en registratiedrager verkregen met de zender in de vorm van een optekeninrichting.
DE69031869D1 (de) * 1989-10-11 1998-02-05 Cias Inc Kode und vorrichtung für optimale fehlerdetektion und -verbesserung
EP0520068B1 (en) 1991-01-08 1996-05-15 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
NL9100173A (nl) 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
DE4320990B4 (de) * 1993-06-05 2004-04-29 Robert Bosch Gmbh Verfahren zur Redundanzreduktion
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
DE4331376C1 (de) * 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
BE1007616A3 (nl) * 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met vereenvoudigde broncodering.
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3365874B2 (ja) 1994-10-05 2003-01-14 富士写真フイルム株式会社 キノンジアジドの合成法およびこれを含むポジ型レジスト
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
GB9614209D0 (en) * 1996-07-05 1996-09-04 Univ Manchester Speech synthesis system
JP3259759B2 (ja) * 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JP4132154B2 (ja) * 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
TW382094B (en) * 1997-12-11 2000-02-11 Inventec Corp Base tone synchronous differential coding method and device thereof
US6529730B1 (en) * 1998-05-15 2003-03-04 Conexant Systems, Inc System and method for adaptive multi-rate (AMR) vocoder rate adaption
WO2002021794A2 (en) * 2000-09-08 2002-03-14 Findthedot,Inc. A method and system of connecting printed media to electronic information as a response to a request
US6614365B2 (en) * 2000-12-14 2003-09-02 Sony Corporation Coding device and method, decoding device and method, and recording medium
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
DE60307252T2 (de) * 2002-04-11 2007-07-19 Matsushita Electric Industrial Co., Ltd., Kadoma Einrichtungen, verfahren und programme zur kodierung und dekodierung
JP4399185B2 (ja) * 2002-04-11 2010-01-13 パナソニック株式会社 符号化装置および復号化装置
SE0201145L (sv) 2002-04-17 2003-10-07 Dirac Res Ab Digital audiokompensering
EP1500084B1 (en) 2002-04-22 2008-01-23 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
ATE354161T1 (de) 2002-04-22 2007-03-15 Koninkl Philips Electronics Nv Signalsynthese
BRPI0304542B1 (pt) 2002-04-22 2018-05-08 Koninklijke Philips Nv “Método e codificador para codificar um sinal de áudio de multicanal, sinal de áudio multicanal codificado, e, método e decodificador para decodificar um sinal de áudio de multicanal codificado”
US20040086130A1 (en) 2002-05-03 2004-05-06 Eid Bradley F. Multi-channel sound processing systems
KR100981699B1 (ko) 2002-07-12 2010-09-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
WO2004008437A2 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
US20040083417A1 (en) * 2002-10-29 2004-04-29 Lane Richard D. Multimedia transmission using variable error coding rate based on data importance
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
ATE390683T1 (de) 2004-03-01 2008-04-15 Dolby Lab Licensing Corp Mehrkanalige audiocodierung
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
BRPI0513255B1 (pt) * 2004-07-14 2019-06-25 Koninklijke Philips Electronics N.V. Dispositivo e método para converter um primeiro número de canais de áudio de entrada em um segundo número de canais de áudio de saída, sistema de áudio, e, meio de armazenamento legível por computador
TWI393120B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
US10113858B2 (en) 2015-08-19 2018-10-30 Medlumics S.L. Distributed delay-line for low-coherence interferometry
US9996281B2 (en) 2016-03-04 2018-06-12 Western Digital Technologies, Inc. Temperature variation compensation
CN113535073B (zh) 2020-04-22 2024-04-16 伊姆西Ip控股有限责任公司 管理存储单元的方法、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
IL214135A0 (en) 2011-08-31
TWI498882B (zh) 2015-09-01
JP5292498B2 (ja) 2013-09-18
CN102968996B (zh) 2015-06-10
KR20070051860A (ko) 2007-05-18
EP3279893B1 (en) 2021-09-22
ES2923661T3 (es) 2022-09-29
EP3940697B1 (en) 2022-06-22
TWI393120B (zh) 2013-04-11
CN101006494A (zh) 2007-07-25
ES2899286T3 (es) 2022-03-10
CN102270453A (zh) 2011-12-07
KR20110069179A (ko) 2011-06-22
IL201469A (en) 2012-07-31
AU2011200680B2 (en) 2012-05-24
AU2005280392A1 (en) 2006-03-09
TW200611240A (en) 2006-04-01
JP2012177939A (ja) 2012-09-13
CN101006494B (zh) 2011-09-07
AU2005280392B2 (en) 2011-02-24
JP2008511040A (ja) 2008-04-10
EP1784818A2 (en) 2007-05-16
MY151318A (en) 2014-05-15
JP5038138B2 (ja) 2012-10-03
TW201316327A (zh) 2013-04-16
PL3279893T3 (pl) 2022-02-07
BR122018077089B8 (pt) 2021-01-05
AU2011200680C1 (en) 2013-03-14
CA2589623C (en) 2014-10-28
US20080040103A1 (en) 2008-02-14
EP1784818B1 (en) 2017-11-15
PL3940697T3 (pl) 2022-08-22
BR122018077099B1 (pt) 2020-11-10
CN102270453B (zh) 2014-06-18
MX2007001948A (es) 2007-04-23
US7945449B2 (en) 2011-05-17
EP4036914A1 (en) 2022-08-03
TWI497485B (zh) 2015-08-21
WO2006026161A3 (en) 2006-05-04
US20080046253A1 (en) 2008-02-21
KR101253699B1 (ko) 2013-04-12
EP3279893A1 (en) 2018-02-07
BRPI0514650A (pt) 2008-06-24
MY163042A (en) 2017-07-31
US8255211B2 (en) 2012-08-28
TW201333933A (zh) 2013-08-16
IL181407A0 (en) 2007-07-04
AU2011200680A1 (en) 2011-03-10
IL181407A (en) 2011-10-31
US20080033731A1 (en) 2008-02-07
BR122018077089B1 (pt) 2020-11-10
PL1784818T3 (pl) 2018-04-30
IL201469A0 (en) 2011-07-31
KR101139880B1 (ko) 2012-05-02
IL214135A (en) 2015-10-29
CA2589623A1 (en) 2006-03-09
EP3940697A1 (en) 2022-01-19
CN102968996A (zh) 2013-03-13
BRPI0514650B1 (pt) 2019-09-24
KR20120006077A (ko) 2012-01-17
WO2006026161A2 (en) 2006-03-09

Similar Documents

Publication Publication Date Title
ES2658824T3 (es) Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia
RU2368074C2 (ru) Адаптивная группировка параметров для улучшенной эффективности кодирования
RU2367033C2 (ru) Многоканальное иерархическое аудиокодирование с компактной дополнительной информацией
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
KR20200091880A (ko) 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩 파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법
ES2641390T3 (es) Codificación y decodificación eficientes de una señal de audio multicanal con múltiples flujos secundarios
TWI325234B (en) Encoder, decoder, method for lossless encoding of information values describing an audio signal, method for decoding an encoded representation of information values describing an audio signal, computer program and storage medium
JP2015507228A (ja) マルチチャネルオーディオ信号の適応ダウン及びアップミキシングを実行するための方法及び装置
CN110634494B (zh) 多声道音频内容的编码
MX2007001969A (es) Ensamble de guia de fruta de carriles multiples que tiene extremos de reborde integrales para un extractor de jugo y metodos relacionados.
KR101786863B1 (ko) 고 주파수 복원 알고리즘들을 위한 주파수 대역 테이블 설계
KR101783967B1 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
AU2012205170B2 (en) Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering
KR101635099B1 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
KR20070025903A (ko) 멀티채널 오디오 코딩에서 효과적인 레지듀얼 신호의파라미터 밴드 수 비트스트림 구성방법
KR20160078321A (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
KR20080010981A (ko) 데이터 부호화/복호화 방법