ES2945463T3 - Método de codificación de señales de entrada de audio izquierda y derecha, codificador, decodificador y producto de programa informático correspondientes - Google Patents

Método de codificación de señales de entrada de audio izquierda y derecha, codificador, decodificador y producto de programa informático correspondientes Download PDF

Info

Publication number
ES2945463T3
ES2945463T3 ES19167336T ES19167336T ES2945463T3 ES 2945463 T3 ES2945463 T3 ES 2945463T3 ES 19167336 T ES19167336 T ES 19167336T ES 19167336 T ES19167336 T ES 19167336T ES 2945463 T3 ES2945463 T3 ES 2945463T3
Authority
ES
Spain
Prior art keywords
parameters
signals
signal
residual signal
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19167336T
Other languages
English (en)
Inventor
Erik Gosuinus Petrus Schuijers
Dirk Jeroen Breebaart
Francois Philippus Myburg
De Kerkhof Leon Maria Van
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Application granted granted Critical
Publication of ES2945463T3 publication Critical patent/ES2945463T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Stereophonic System (AREA)

Abstract

Se proporciona un método para codificar señales de entrada (1, r) para generar datos codificados (100). El método implica procesar las señales de entrada (1, r) para determinar los primeros parámetros (Φ1, Φ2) que describen la diferencia de fase relativa y la diferencia temporal entre las señales (1, r), y aplicar estos primeros parámetros (Φ1, Φ2) para procesar la señales de entrada para generar señales intermedias. El método consiste en procesar las señales intermedias para determinar segundos parámetros (α; IID, ρ) que describen la rotación angular de las primeras señales intermedias para generar una señal dominante (m) y una señal residual (s), teniendo la señal dominante (m) un magnitud o energía mayor que la de la(s) señal(es) residual(es). Estos segundos parámetros son aplicables para procesar las señales intermedias para generar las señales dominante (m) y residual (s). (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método de codificación de señales de entrada de audio izquierda y derecha, codificador, decodificador y producto de programa informático correspondientes
La presente invención se refiere a métodos de codificación de datos, por ejemplo, a un método para la codificación de datos de audio que utiliza la rotación de ángulo variable de los componentes de datos. Además, la invención también se refiere a codificadores que emplean tales métodos y a decodificadores que pueden funcionar para decodificar datos generados por esos codificadores.
Se conocen numerosos métodos contemporáneos para codificar datos de audio y/o imagen para generar datos de salida codificados correspondientes. Un ejemplo de un método contemporáneo para la codificación de audio es MPEG-1 Capa III conocido como MP3 y descrito en ISO/IEC JTC1/SC29/WG11 MPEG, IS 11172-3, Tecnología Informática - Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital hasta aproximadamente 1,5 Mbit/s, Parte 3: Audio, MPEG-1, 1992. Algunos de estos métodos contemporáneos están diseñados para mejorar la eficiencia de codificación, es decir, proporcionar una compresión de datos mejorada, mediante el empleo de codificación estéreo de medio/lateral (M/S) o codificación estéreo suma/diferencia como describen J.D. Johnston y A.J. Ferreira, "Codificación de transformación estéreo suma-diferencia", en Proc. IEEE, Int. Conf. Acoust., Speech and Signal Proc., San Francisco, CA, marzo de 1992, págs. II: págs. 569-572.
En la codificación M/S, una señal estéreo comprende las señales izquierda y derecha l[n], r[n] respectivamente, que se codifican como una señal de suma m[n] y una señal de diferencia s[n], por ejemplo aplicando el procesamiento como se describe en las Ecuaciones 1 y 2 (Ec. 1 y 2):
Figure imgf000002_0001
Cuando las señales l[n] y r[n] son casi idénticas, la codificación M/S puede proporcionar una compresión de datos significativa debido a que la señal de diferencia s[n] se aproxima a cero y, por lo tanto, transmite relativamente poca información, mientras que la señal de suma incluye efectivamente la mayor parte del contenido de información de la señal. En tal situación, la velocidad de bits requerida para representar las señales de suma y diferencia es casi la mitad de la requerida para codificar independientemente las señales l[n] y r[n].
Las Ecuaciones 1 y 2 son susceptibles de ser representadas mediante una matriz de rotación como en la Ecuación 3 (Ec. 3):
Figure imgf000002_0002
donde c es un coeficiente de escala constante que se utiliza a menudo para evitar el recorte.
Mientras que la Ecuación 3 corresponde efectivamente a una rotación de las señales l[n], r[n] en un ángulo de 45°, son posibles otros ángulos de rotación como se indica en la Ecuación 4 (Ec. 4) en donde a es un ángulo de rotación aplicado a la señales l[n], r[n] para generar las señales codificadas correspondientes m'[n], s'[n], descritas en lo sucesivo en relación con las señales dominante y residual, respectivamente:
Figure imgf000002_0003
El ángulo a se hace variable de forma beneficiosa para proporcionar una compresión mejorada para una amplia clase de señales l[n], r[n] al reducir el contenido de información presente en la señal residual s'[n] y concentrar el contenido de información en la señal dominante m'[n], es decir, minimizar la potencia en la señal residual s'[n] y, en consecuencia, maximizar la potencia en la señal dominante m'[n].
Las técnicas de codificación representadas por las Ecuaciones 1 a 4 no se aplican convencionalmente a señales de banda ancha, sino a subseñales, cada una de las cuales representa solo una parte más pequeña de un ancho de banda completo utilizado para transmitir señales de audio. Además, las técnicas de las Ecuaciones 1 a 4 también se aplican convencionalmente a las representaciones en el dominio de frecuencia de las señales l[n], r[n].
El documento WO 031085643 A1 divulga un método para la codificación de una señal multicanal, tal como una señal de audio estereofónica, que incluye al menos un primer componente de señal (L) y un segundo componente de señal (R). El método comprende los pasos de transformar al menos el primer y segundo componente de señal mediante una transformación predeterminada en una señal principal (y) que incluye la mayor parte de la energía de señal y al menos una señal residual (r) que incluye menos energía que la señal principal, estando parametrizada la transformación predeterminada por al menos un parámetro de transformación (0; y representando la señal multicanal al menos por la señal principal y el parámetro de transformación. Sin embargo, un problema con el documento WO 031085643 A1 es cómo codificar de manera eficiente señales estéreo que muestran un desplazamiento de fase considerable.
El documento WO 2004/008805 A1 divulga un método para la codificación de una señal de audio multicanal que incluye al menos un primer, segundo y tercer componente de señal. El primer y el segundo componente de señal están codificados por un primer codificador paramétrico para generar una señal codificada y un primer conjunto de parámetros de codificación. Esta señal codificada luego se codifica con una señal adicional que surge del tercer componente de señal mediante un segundo codificador paramétrico que resulta en una segunda señal codificada y un segundo conjunto de parámetros de codificación. Una señal codificada y los parámetros de codificación pueden utilizarse como una representación de la señal de audio multicanal. Sin embargo, el documento WO 2004/008805 A1 no divulga la codificación/decodificación optimizada para una señal estéreo.
El artículo "Codificación de sub-bandas de señales de audio digital estereofónicas" de Van Der Waal et al, Speech Processing 1 Toronto, 14-17 de mayo de 1991; Conferencia Internacional sobre Acústica, Habla y Procesamiento de Señales. ACASSP, Nueva York, IEEE, EE. UU., vol. CONF, 16, XP010043648, ISBN: 978-0-7803-0003-3 divulga un enfoque para la codificación de señales estéreo utilizando la correlación izquierda-derecha en sub-bandas de la señal estéreo.
En una patente estadounidense publicada con el n. ° US 5.621.855, se describe un método para la codificación de sub-banda de una señal digital que tiene un primer y segundo componente de señal, siendo la señal digital codificada en sub-banda para producir una primera señal de sub-banda que tiene un primer bloque de señal de muestra q en respuesta al primer componente de señal, y una segunda señal de sub-banda que tiene un segundo bloque de señal de muestra q en respuesta al segundo componente de señal, estando la primera y la segunda señal de sub-banda en la misma sub-banda y siendo el primer y segundo bloque de señal equivalentes en tiempo.
El primer y el segundo bloque de señal se procesan para obtener un valor de distancia mínimo entre representaciones puntuales de muestras equivalentes en tiempo. Cuando el valor de distancia mínima es inferior o igual a un valor de distancia umbral, se obtiene un bloque compuesto formado por muestras q al sumar los respectivos pares de muestras equivalentes en tiempo en el primer y segundo bloque de señal después de multiplicar cada una de las muestras del primer bloque por cos(a) y cada una de las muestras del segundo bloque de señal por -sin(a).
Aunque la aplicación del ángulo de rotación a antes mencionado es susceptible de eliminar muchas desventajas de la codificación M/S en la que solo se emplea una rotación de 45°, tales enfoques resultan problemáticos cuando se aplican a grupos de señales, por ejemplo, pares de señales estéreo, cuando se producen considerables desfases mutuos relativos de fase o de tiempo en estas señales. La presente invención está dirigida a abordar este problema. Un objeto de la presente invención es proporcionar un método para la codificación de datos.
De acuerdo con un aspecto de la presente invención, se proporciona un método para la codificación de señales de audio de entrada izquierda y derecha de acuerdo con la reivindicación 1. De acuerdo con otro aspecto de la presente invención, se proporciona un codificador para la codificación de señales de audio de entrada izquierda y derecha de acuerdo con la reivindicación 11. De acuerdo con otro aspecto de la presente invención, se proporciona un método para la decodificación datos codificados de acuerdo con la reivindicación 14.
La invención tiene la ventaja de que puede proporcionar una codificación de datos más eficaz.
Preferiblemente, en el método de codificación, solo una parte de la señal residual (s) se incluye en los datos codificados. Tal inclusión parcial de la señal residual (s) puede mejorar la compresión de datos alcanzable en los datos codificados.
Más preferiblemente, en el método, los datos codificados también incluyen uno o más parámetros indicativos de partes de la señal residual incluida en los datos codificados. Dichos parámetros indicativos son susceptibles de hacer que la subsiguiente decodificación de los datos codificados sea menos compleja.
Preferiblemente, los pasos (a) y (b) del método se implementan mediante una rotación compleja con las señales de entrada (l[n], r[n]) representadas en el dominio de frecuencia (l[k], r[k]). La implementación de la rotación compleja puede hacer frente de manera más eficiente a las diferencias temporales y/o de fase relativas que surgen entre la pluralidad de señales de entrada. Más preferiblemente, los pasos (a) y (b) se realizan en el dominio de frecuencia o en un dominio de sub-banda. "Sub-banda" debe interpretarse como una región de frecuencia más pequeña que un ancho de banda de frecuencia completo requerido para una señal.
Preferiblemente, el método se aplica en una subparte de un rango de frecuencia completo que abarca las señales de entrada (1, r). Más preferiblemente, otras sub-partes del rango de frecuencia completo se codifican utilizando técnicas de codificación alternativas, por ejemplo, codificación M/S convencional como se describió con anterioridad. Preferiblemente, el método incluye un paso para la manipulación de la señal residual (s) descartando información de tiempo-frecuencia perceptualmente no relevante presente en la señal residual (s), contribuyendo dicha señal residual (s) manipulada a los datos codificados (100), y correspondiendo dicha información perceptualmente no relevante a partes seleccionadas de una representación espectrotemporal de las señales de entrada. Descartar información perceptualmente no relevante permite que el método proporcione un mayor grado de compresión de datos en los datos codificados.
En el paso (b) del método, los segundos parámetros (a; IID, p) se derivan minimizando la magnitud o energía de la señal residual (s). Tal enfoque es computacionalmente eficiente para la generación de los segundos parámetros en comparación con enfoques alternativos para derivar los parámetros.
Preferiblemente, en el método, los segundos parámetros (a; IID, p) están representados mediante parámetros de diferencia de intensidad entre canales y parámetros de coherencia (IID, p). Tal implementación del método puede proporcionar compatibilidad hacia atrás con la codificación estéreo paramétrica existente y el hardware o software de decodificación asociado.
Preferiblemente, en los pasos (c) y (d) del método, los datos codificados se organizan en capas de importancia, dichas capas incluyen una capa base que transmite la señal dominante (m), una primera capa de mejora que incluye un primer y/o segundo parámetro correspondiente a parámetros de impartición estéreo, una segunda capa de mejora que transmite una representación de la señal residual (s). Más preferiblemente, la segunda capa de mejora se subdivide además en una primera subcapa para transmitir la información de tiempo-frecuencia más relevante de la señal residual (s) y una segunda subcapa para transmitir información de tiempo-frecuencia menos relevante de la señal residual (s). La representación de las señales de entrada mediante estas capas, y subcapas según sea necesario, puede mejorar la robustez frente a errores de transmisión de los datos codificados y hacerlos compatibles con hardware de decodificación más sencillo.
El codificador de acuerdo con la reivindicación 11 tiene la ventaja de que puede proporcionar una codificación de datos más eficaz.
Preferiblemente, el codificador comprende medios de procesamiento para manipular la señal residual (s) descartando información de tiempo-frecuencia perceptualmente no relevante presente en la señal residual (s), contribuyendo dicha señal residual (s) transformada a los datos codificados (100) y correspondiendo dicha información perceptualmente no relevante a partes seleccionadas de una representación espectrotemporal de las señales de entrada. Descartar información perceptualmente no relevante permite que el codificador proporcione un mayor grado de compresión de datos en los datos codificados.
Un método para decodificar datos codificados se define en la reivindicación 14.
El método proporciona la ventaja de ser capaz de decodificar eficientemente datos que han sido codificados eficientemente utilizando un método de acuerdo con el primer aspecto de la invención.
Preferiblemente, en el método, los datos codificados incluyen parámetros que indican qué partes de la señal residual (s) están codificadas en los datos codificados. La inclusión de dichos parámetros indicativos puede hacer que la decodificación sea eficiente y menos exigente desde el punto de vista computacional.
Ahora se describirán realizaciones de la invención, solo a modo de ejemplo, con referencia a los siguientes diagramas en donde:
La Figura 1 es una ilustración de secuencias de muestra para señales l[n], r[n] sujetas a retrasos de tiempo y fase mutuos relativos;
La Figura 2 es una ilustración de la aplicación de una transformada M/S convencional según las Ecuaciones 1 y 2 aplicada a las señales de la Figura 1 para generar las correspondientes señales de suma y diferencia m[n], s[n]; La Figura 3 es una ilustración de la aplicación de una transformada de rotación según la Ecuación 4 aplicada a las señales de la Figura 1 para generar las correspondientes señales dominante m[n] y residual s[n];
La Figura 4 es una ilustración de la aplicación de una transformada de rotación compleja de acuerdo con la invención según las Ecuaciones 5 a 15 para generar las correspondientes señales dominante m[n] y residual s[n] en donde la señal residual es de amplitud relativamente pequeña a pesar de que las señales de la Figura 1 tienen fase mutua relativa y retardo temporal;
La Figura 5 es un diagrama esquemático de un codificador de acuerdo con la invención;
La Figura 6 es un diagrama esquemático de un decodificador de acuerdo con la invención, siendo el codificador compatible con el codificador de la Figura 5;
La Figura 7 es un diagrama esquemático de un decodificador estéreo paramétrico;
La Figura 8 es un diagrama esquemático de un codificador estéreo paramétrico mejorado de acuerdo con la invención; y
La Figura 9 es un diagrama esquemático de un decodificador estéreo paramétrico mejorado de acuerdo con la invención, siendo el decodificador compatible con el codificador de la Figura 9.
En resumen, la presente invención se refiere a un método para la codificación de datos que representa un avance de los métodos de codificación M/S descritos anteriormente que emplean un ángulo de rotación variable. El método está diseñado por los inventores para que sea más capaz de codificar datos correspondientes a grupos de señales sujetas a un desfase considerable de fase y/o tiempo. Además, el método proporciona ventajas en comparación con las técnicas de codificación convencionales al emplear valores para el ángulo de rotación a que se pueden utilizar cuando las señales l[n], r[n] están representadas mediante sus representaciones equivalentes en el dominio de la frecuencia con valores complejos l[k], r[k] respectivamente.
El ángulo a puede ser de valor real y se puede aplicar una rotación de fase de valor real para "cohesionar" mutuamente las señales l[n], r[n] para adaptar los retardos temporales y/o de fase mutuos entre estas señales. Sin embargo, el uso de valores complejos para el ángulo de rotación a hace que la presente invención sea más fácil de implementar. Tal enfoque alternativo para implementar la rotación mediante el ángulo a debe interpretarse dentro del alcance de la presente invención.
Las representaciones de frecuencia-dominio de las mencionadas señales de tiempo-dominio l[n], r[n] derivan preferiblemente aplicando un procedimiento de ventana temporal como se describe en las Ecuaciones 5 y 6 (Ec. 5 y 6) para proporcionar señales con ventana lq[n], rq[n]:
Figure imgf000005_0001
en donde
q = un índice de marco de modo que q = 0, 1, 2, ... para indicar marcos de señal consecutivos;
H = tamaño de salto o tamaño de actualización; y
n = un índice de tiempo que tiene un valor en un rango de 0 a L-1 en donde un parámetro L es equivalente a la longitud de una ventana h[n].
Las señales con ventana lq[n], rq[n] son transformables al dominio de frecuencia mediante el uso de una transformada discreta de Fourier (DFT) o una transformada funcionalmente equivalente, como se describe en las Ecuaciones 7 y 8 (Ec. 7 y 8):
Figure imgf000005_0002
en donde un parámetro N representa una longitud de DFT de modo que N > L . Debido a que la DFT de una secuencia de valor real es simétrica, solo se conservan los primeros N/2+1 puntos después de la transformada. Para conservar la energía de la señal cuando se implementa la DFT, se emplea preferiblemente el siguiente escalado descrito en las Ecuaciones 9 y 10 (Ec. 9 y 10):
Figure imgf000006_0003
El método de la invención realiza operaciones de procesamiento de señales como se muestra en la Ecuación 11 (Ec.
11) para convertir las representaciones de señal de dominio de frecuencia l[k], r[k] en las Ecuaciones 7 y 8 en las correspondientes señales rotadas de suma y diferencia m"[k], s"[k] en el dominio de frecuencia:
Figure imgf000006_0001
en donde
a = ángulo de rotación variable de valor real;
91 = un ángulo común utilizado para maximizar la continuación de las señales sobre los límites asociados; y 92 = un ángulo utilizado para minimizar la energía de la señal residual s"[k] mediante la rotación de fase de la señal derecha r[k].
El uso del ángulo 91 es opcional. Además, las rotaciones según la Ecuación 11 se ejecutan cuadro por marco, es decir, dinámicamente en pasos de marco. Sin embargo, tales cambios dinámicos en la rotación de marco a marco pueden causar discontinuidades de señal en la señal suma m"[k] que pueden eliminarse al menos parcialmente mediante una selección adecuada del ángulo 91.
Además, el rango de frecuencia k = 0 ... N/2+1 de la Ecuación 11 se divide preferiblemente en subrangos, es decir, regiones. Para cada región durante la codificación, sus parámetros de ángulo correspondientes a, 91 y 92 se determinan, codifican y luego transmiten o trasladan manera independiente o de otra manera a un decodificador para la decodificación posterior. La subdivisión del rango de frecuencias permite captar mejor las propiedades de la señal durante la codificación, lo que puede dar lugar a mayores índices de compresión.
Después de implementar mapeos según las Ecuaciones 7 a 11, las señales m"[k], s"[k] se someten a una transformada discreta de Fourier inversa como se describe en las Ecuaciones 12 y 13 (Ec. 12 y 13):
Figure imgf000006_0002
en donde
mq[n] = representación dominante de tiempo-dominio; y
sq[n]= representación residual (diferencia) en tiempo-dominio.
Las representaciones dominantes y residuales se convierten luego en el método en representaciones en forma de ventanas a las que se aplica la superposición proporcionada por las operaciones de procesamiento descritas en las Ecuaciones 14 y 15 (Ec. 14 y 15):
Figure imgf000007_0001
Como alternativa, las operaciones de procesamiento del método de la invención como se describe en las Ecuaciones 5 a 15 son susceptibles, al menos en parte, de ser implementadas en la práctica al emplear bancos de filtros de modulación compleja. El procesamiento digital aplicado en hardware de procesamiento informático se puede emplear para implementar la invención.
Para ilustrar el método de la invención, se describirá ahora un ejemplo de procesamiento de señales de la invención. Para el ejemplo, se utilizan dos señales temporales como señales iniciales para ser procesadas utilizando el método, siendo definidas las dos señales por las Ecuaciones 16 y 17 (Ec. 16 y 17):
Figure imgf000007_0002
en donde zi[n], z2[n] y z3[n] son secuencias de ruido blanco mutuamente independientes de varianza unitaria. Para apreciar mejor el funcionamiento del método de la invención, en la Figura 1 se muestran partes de las señales l[n], r[n] descritas por las Ecuaciones 16 y 17.
En la Figura 2, se ilustran las señales de transformada M/S m[n] y s[n], estas señales de transformada derivan de las señales l[n],r[n] de las Ecuaciones 16 y 17 mediante procesamiento convencional de acuerdo con las Ecuaciones 1 y 2 Se observará a partir de la Figura 2 que tal enfoque convencional para generar las señales m[n] y s[n] a partir de las señales de las Ecuaciones 16 y 17 resulta en que la energía de la señal residual s[n] sea mayor que la energía de la señal de entrada r[n] en la Ecuación 17. Claramente, el procesamiento de señal de transformada M/S convencional aplicado a las señales de las Ecuaciones 16 y 17 es ineficaz al resultar en una compresión de señal porque la señal s[n] no es de magnitud insignificante.
Al emplear una transformada de rotación como se describe en la Ecuación 4, es posible que las señales de ejemplo l[n], r[n] reduzcan la energía residual en su señal residual correspondiente s[n] y, en consecuencia, mejoren su señal dominante m[n] como se ilustra en la Figura 3. Aunque el enfoque de rotación de la Ecuación 4 puede funcionar mejor que el procesamiento M/S convencional como se presenta en la Figura 2, los inventores descubrieron que es insatisfactorio cuando las señales l[n], r[n] están sujetas a desplazamientos mutuos relativos de fase y/o tiempo. Cuando las señales de muestra l[n], r[n] de las Ecuaciones 16 y 17 se someten a transformación al dominio de frecuencia, y luego se someten a una rotación de optimización compleja según las Ecuaciones 5 a 15, es factible reducir la energía de la señal residual s[n] hasta una magnitud comparativamente pequeña como se ilustra en la Figura 4.
A continuación se describirán realizaciones de hardware de codificador operable para implementar el procesamiento de señales como se describe en las Ecuaciones 5 a 15.
En la Figura 5, se muestra un codificador de acuerdo con la invención indicado generalmente por 10. El codificador 10 puede funcionar para recibir señales de entrada complementarias izquierda (1) y derecha (r) y codificar estas señales para generar un flujo de bits codificado (bs) 100. Además, el codificador 10 incluye una unidad de rotación de fase 20, una unidad de rotación de señal 30, un selector de tiempo/frecuencia 40, un primer codificador 50, un segundo codificador 60, una unidad de procesamiento de cuantificación de parámetros (Q) 70 y una unidad multiplexora de flujo de bits 80.
Las señales de entrada 1, r están acopladas a entradas de la unidad de rotación de fase 20 cuyas salidas correspondientes están conectadas a la unidad de rotación de señal 30. Las señales dominante y residual de la unidad de rotación de señal 30 se indican mediante m, s respectivamente. La señal dominante m se transmite a través del primer codificador 50 a la unidad multiplexora 80. Además, la señal residual s se acopla a través del selector de tiempo/frecuencia 40 al segundo codificador 60 y luego a la unidad multiplexora 80. Las salidas de parámetros de ángulo 91, 92 desde la unidad de rotación de fase 20 se acoplan a través de la unidad de procesamiento 70 a la unidad multiplexora 80. Además, una salida de parámetro de ángulo a se acopla desde la unidad de rotación de señal 30 a través de la unidad de procesamiento 70 a la unidad multiplexora 80. La unidad multiplexora 80 comprende la mencionada salida de flujo de bits codificados (bs) 100.
En funcionamiento, la unidad de rotación de fase 20 aplica procesamiento a las señales 1, r para compensar las diferencias de fase relativas entre ellas y generar así los parámetros 91, 92 en donde el parámetro 92 es representativo de dicha diferencia de fase relativa, pasando los parámetros 91, 92 a la unidad de procesamiento 70 para cuantificar y, por lo tanto, incluir como datos de parámetros correspondientes en el flujo de bits codificado 100. Las señales 1, r compensadas por diferencia de fase relativa pasan a la unidad de rotación de señal 30 que determina un valor optimizado para el ángulo a para concentrar una cantidad máxima de energía de señal en la señal dominante m y una cantidad mínima de energía de señal en la señal residual s. Las señales dominante y residual m, s luego pasan a través de los codificadores 50, 60 para ser convertidas a un formato adecuado para su inclusión en el flujo de bits 100. La unidad de procesamiento 70 recibe las señales de ángulo a, 91, 92 y las multiplexa junto con la salida de los codificadores 50, 60 para generar la salida de flujo de bits (bs) 100. Por lo tanto, el flujo de bits (bs) 100 comprende un flujo de datos que incluye representaciones de las señales dominante y residual m, s, junto con datos de parámetros de ángulo a, 91, 92 en donde el parámetro 92 es esencial y los parámetros 91 son opcionales pero, no obstante, es beneficioso incluirlos.
Los codificadores 50, 60 se implementan preferiblemente como dos codificadores de audio mono o, como alternativa, como un codificador mono dual. 0pcionalmente, determinadas partes de la señal residual s, por ejemplo, identificadas cuando se representan en un plano de tiempo-frecuencia, que no contribuyen perceptiblemente al flujo de bits 100, pueden descartarse en el selector de tiempo/frecuencia 40, proporcionando así una compresión de datos escalable como se aclara con mayor detalle a continuación.
El codificador 10 se puede utilizar opcionalmente para procesar las señales de entrada (1, r) en una parte de un rango de frecuencia completo que abarca las señales de entrada. Aquellas partes de las señales de entrada (1, r) no codificadas por el codificador 10 se codifican entonces en paralelo utilizando otros métodos, por ejemplo, utilizando codificación M/S convencional como se describió con anterioridad. Si es necesario, se puede implementar la codificación individual de las señales de entrada izquierda (1) y derecha (r).
El codificador 10 es susceptible de implementarse en hardware, por ejemplo, como un circuito integrado específico de la aplicación o un grupo de tales circuitos. Como alternativa, el codificador 10 puede implementarse en software que se ejecuta en hardware informático, por ejemplo, en un circuito integrado de procesamiento de señales controlado por software patentado o en un grupo de dichos circuitos.
En la Figura 6, un decodificador compatible con el codificador 10 se indica generalmente mediante 200. El decodificador 200 comprende un demultiplexor de flujo de bits 210, primer y segundo decodificador 220, 230, una unidad de procesamiento 240 para descuantificar parámetros, una unidad decodificadora de rotación de señal 250 y una unidad decodificadora de rotación de fase 260 que proporciona salidas decodificadas l', r' correspondiente a las señales de entrada 1, r entrada al codificador 10. El demultiplexor 210 está configurado para recibir el flujo de bits (bs) 100 generado por el codificador 10, por ejemplo, transmitido desde el codificador 10 al decodificador 200 por medio de un portador de datos, por ejemplo, un portador de datos de disco óptico como un CD o DVD, y/o a través de una red de comunicación, por ejemplo, Internet. Las salidas demultiplexadas del demultiplexor 210 están acopladas a las entradas de los decodificadores 220, 230 y a la unidad de procesamiento 240. El primer y segundo decodificador 220, 230 comprenden salidas decodificadas dominante y residual m', s' respectivamente que están acopladas a la unidad decodificadora de rotación 250. Además, la unidad de procesamiento 240 incluye una salida de ángulo de rotación a' que también está acoplada a la unidad decodificadora de rotación 250; el ángulo a' corresponde a una versión decodificada del mencionado ángulo a con respecto al codificador 10. Las salidas de ángulo 91', 92' corresponden a versiones descodificadas de los citados ángulos 91, 92 con respecto al codificador 10; esas salidas de ángulo 91', 92' se transmiten, junto con las salidas de señal dominante y residual decodificadas desde la unidad decodificadora de rotación 250 a la unidad decodificadora de rotación de fase 260 que incluye las salidas decodificadas 1', r' como se ilustra.
En funcionamiento, el decodificador 200 realiza una inversa de los pasos de codificación ejecutados dentro del codificador 10. Por lo tanto, en el decodificador 200, el flujo de bits 100 se demultiplexa en el demultiplexor 210 para aislar los datos correspondientes a las señales dominante y residual que son reconstituidos por los decodificadores 220, 230 para generar las señales dominante y residual m', s' decodificadas. Estas señales m', s' luego se rotan de acuerdo con el ángulo a' y luego se corrigen para la fase relativa utilizando los ángulos 91', 92' para regenerar las señales izquierda y derecha l', r'. Los ángulos 91', 92', a' se regeneran a partir de parámetros demultiplexados en el demultiplexor 210 y se aíslan en la unidad de procesamiento 240.
En el codificador 10, y por lo tanto también en el decodificador 200, es preferible transmitir en el flujo de bits 100 un valor IID y un valor de coherencia a en lugar del ángulo a mencionado con anterioridad. El valor de IID está dispuesto para representar una diferencia entre canales, es decir, que denota diferencias de magnitud variable de frecuencia y tiempo entre las señales izquierda y derecha 1, r. El valor de coherencia p denota coherencia variante de frecuencia, es decir, similaridad, entre las señales izquierda y derecha 1, r después de la sincronización de fase.
Sin embargo, por ejemplo, en el decodificador 200, el ángulo a es fácilmente derivable desde los valores de IID y p aplicando la Ecuación 18 (Ec. 18):
Figure imgf000009_0001
Un decodificador paramétrico se indica generalmente mediante 400 en la Figura 7, siendo este decodificador 400 complementario a los codificadores de acuerdo con la presente invención. El decodificador 400 comprende un demultiplexor 410 de flujo de bits, un decodificador 420, una unidad de descorrelación 430, una unidad de escalado 440, una unidad de rotación de señal 450, una unidad de rotación de fase 460 y una unidad de descuantificación 470. El demultiplexor 410 comprende una entrada para recibir la señal de flujo de bits (bs) 100 y cuatro salidas correspondientes para la señal m, datos s, datos de parámetros de ángulo, datos IID y datos de coherencia a, estas salidas están conectadas al decodificador 420 y a la unidad de descuantizador 470 como se muestra. Una salida del decodificador 420 se acopla a través de la unidad de descorrelación 430 para regenerar una representación de la señal residual s' para la entrada a la función de escalado 440. Además, una representación regenerada de la señal dominante m' se transmite desde la unidad decodificadora 420 a la unidad de escalado 440. La unidad de escalado 440 también se proporciona con IID' y datos de coherencia a' de la unidad de descuantificación 470. Las salidas de la unidad de escalado 440 están acopladas a la unidad de rotación de señal 450 para generar señales de salida intermedias. Estas señales de salida intermedias luego se corrigen en la unidad de rotación de fase 460 utilizando los ángulos 91', 92' decodificados en la unidad de descuantificación 470 para regenerar representaciones de las señales izquierda y derecha l', r'.
El decodificador 400 se distingue del decodificador 200 de la Figura 6 porque el decodificador 400 incluye la unidad de descorrelación 430 para estimar la señal residual s' en base a la señal dominante m' mediante procesos de descorrelación ejecutados dentro de la unidad de descorrelación 430. Además, la cantidad de coherencia entre las señales de salida izquierda y derecha l', r' se determina mediante una operación de escalado. La operación de escalado se ejecuta dentro de la unidad de escalado 440 y se refiere a una relación entre la señal dominante m' y la señal residual s'.
Refiriéndose a continuación a la Figura 8, se ilustra un codificador mejorado indicado generalmente mediante 500. El codificador 500 comprende una unidad de rotación de fase 510 para recibir señales de entrada izquierda y derecha 1, r respectivamente, una unidad de rotación de señal 520, un selector de tiempo/frecuencia 530, primer y segundo codificador 540, 550 respectivamente, una unidad de cuantificación 560 y un multiplexor 570 que incluye la salida de flujo de bits (bs) 100. Las salidas de ángulo 91, 92 desde la unidad de rotación de fase 510 se acoplan desde la unidad de rotación de fase 510 a la unidad de cuantificación 560. Además, las salidas con corrección de fase desde la unidad de rotación de fase 510 se conectan a través de la unidad de rotación de señal 520 y el selector de tiempo/frecuencia 530 para generar las señales dominante y residual m, s respectivamente, así como datos/parámetros de IID y coherencia a . Los datos/parámetros de IID y coherencia a se acoplan a la unidad cuantificadora 560, mientras que las señales dominante y residual m, s pasan a través del primer y segundo codificador 540, 550 para generar los datos correspondientes para el multiplexor 570. El multiplexor 570 también está dispuesto para recibir datos de parámetros que describen los ángulos (91, 92, la coherencia a y el IID. El multiplexor 570 puede funcionar para multiplexar datos desde los codificadores 540, 550 y la unidad de cuantificación 560 para generar el flujo de bits (bs) 100.
En el codificador 500, la señal residual s se codifica directamente en el flujo de bits 100. 0pcionalmente, la unidad selectora de tiempo/frecuencia 530 puede funcionar para determinar qué partes del plano de tiempo/frecuencia de la señal residual s son codificadas en el flujo de bits (bs) 100, determinando así la unidad 530 el grado en que la información residual se incluía en el flujo de bits 100 y por lo tanto afectaba un compromiso entre la compresión alcanzable en el codificador 500 y el grado de información incluida dentro del flujo de bits 100.
En la Figura 9, un decodificador paramétrico mejorado se indica generalmente mediante 600, siendo el decodificador 600 complementario al codificador 500 ilustrado en la Figura 8. El decodificador 600 comprende una unidad demultiplexora 610, un primer y segundo decodificador 620, 640 respectivamente, una unidad de descorrelación 630, una unidad combinadora 650, una unidad de escalado 660, una unidad de rotación de señal 670, una unidad de rotación de fase 680 y la unidad de descuantificación 690. La unidad demultiplexora 610 está acoplada para recibir el flujo de bits codificado (bs) 100 y proporcionar salidas demultiplexadas correspondientes al primer y segundo decodificador 620, 640 y a la unidad demultiplexora 690. Los decodificadores 620, 640 junto con la unidad de descorrelación 630 y la unidad combinadora 650 pueden funcionar para regenerar representaciones de las señales dominante y residual m', s' respectivamente. Estas representaciones están sujetas a procesos de escalado en la unidad de escalado 660 seguido de rotaciones en la unidad de rotación de señales 670 para generar señales intermedias que luego se rotan en fase en la unidad de rotación 680 en respuesta a los parámetros de ángulo generados por la unidad de descuantificación 690 para regenerar representaciones de las señales izquierda y derecha l', r'.
En el decodificador 600, el flujo de bits 100 se demultiplexa en flujos separados para la señal dominante m', para la señal residual s' y para los parámetros estéreo. Las señales dominante y residual m', s' son luego decodificadas por los decodificadores 620, 640 respectivamente. Aquellas partes espectrales/temporales de la señal residual s' que han sido codificadas en el flujo de bits 100 se comunican en el flujo de bits 100 ya sea implícitamente, es decir, al detectar áreas "vacías" en el plano de tiempo-frecuencia, o explícitamente, es decir, por medio de parámetros de señalización representativos decodificados del flujo de bits 100. La unidad de descorrelación 630 y la unidad combinadora 650 son operables para llenar áreas de tiempo-frecuencia vacías en la señal residual decodificada s' efectivamente con una señal residual sintética. Esta señal sintética se genera utilizando la señal dominante decodificada m' y la salida desde la unidad de descorrelación 650. Para todas las demás áreas de tiempofrecuencia, la señal residual s se aplica para construir la señal residual decodificada s'; para estas áreas, no se aplica escalado en la unidad de escalado 660. 0pcionalmente, para estas áreas, es beneficioso transmitir el ángulo a antes mencionado en el codificador 500 en lugar de datos de IID y coherencia p ya que la velocidad de datos requerida para transmitir el parámetro de ángulo a único es menor que la requerida para transmitir datos de parámetros de IID y coherencia p equivalentes. Sin embargo, la transmisión del parámetro de ángulo a en el flujo de bits 100 en lugar de datos de parámetros de IID y p hace que el codificador 500 y el decodificador 600 no sean compatibles con los sistemas estéreo paramétricos (PS) convencionales regulares que utilizan tales datos de IID y coherencia p .
Las unidades selectoras 40, 530 de los codificadores 10, 500 respectivamente están dispuestas preferiblemente para emplear un modelo de percepción al seleccionar qué áreas de tiempo-frecuencia de la señal residual s necesitan codificarse en el flujo de bits 100. Al codificar varios aspectos de tiempo-frecuencia de la señal residual s en los codificadores 10, 500, es posible lograr codificadores y decodificadores escalables de tasa de bits. Cuando las capas en el flujo de bits 100 son mutuamente dependientes, los datos codificados correspondientes a los aspectos de tiempo-frecuencia perceptualmente más relevantes se incluyen en una capa base incluida en las capas, con datos perceptiblemente menos importantes movidos a capas de refinamiento o mejora incluidas en las capas; "capa de mejora" también se denomina "capa de refinamiento". En tal disposición, la capa base comprende preferiblemente un flujo de bits correspondiente a la señal dominante m, una primera capa de mejora comprende un flujo de bits correspondiente a parámetros estéreo tales como los ángulos a, 91, 92 antes mencionados, y una segunda capa de mejora comprende un flujo de bits correspondiente a la señal residual s.
Tal disposición de capas en los datos de flujo de bits 100 permite que la segunda capa de mejora que transporta la señal residual s se pierda o descarte opcionalmente; además, el decodificador 600 ilustrado en la Figura 9 puede combinar las capas restantes decodificadas con una señal residual sintética como se describe anteriormente para regenerar una señal residual perceptualmente significativa para la apreciación del usuario. Además, si el decodificador 600 opcionalmente no se proporciona con el segundo decodificador 640, por ejemplo debido a restricciones de coste y/o complejidad, todavía es posible decodificar la señal residual s aunque con calidad reducida.
Otras reducciones de la tasa de bits en el flujo de bits (bs) 100 de lo anterior son posibles descartando los parámetros angulares codificados 91, 92 en el mismo. En tal situación, la unidad de rotación de fase 680 en el decodificador 600 reconstruye las señales de salida regeneradas l', r' utilizando ángulos de rotación predeterminados de valor fijo, por ejemplo, valor cero; esta reducción adicional de la tasa de bits aprovecha una característica según la cual el sistema auditivo humano es relativamente insensible a la fase en las frecuencias de audio más altas. Como ejemplo, los parámetros 92 se transmiten en el flujo de bits (bs) 100 y los parámetros 91 se descartan del mismo para lograr la reducción de la tasa de bits.
Los codificadores y decodificadores complementarios, según la invención, descritos anteriormente son potencialmente utilizables en una amplia gama de aparatos y sistemas electrónicos, por ejemplo, en al menos uno de los siguientes: Radio por Internet, transmisión por Internet, distribución de música electrónica (EMD), reproductores y grabadores de audio de estado sólido, así como productos de televisión y audio en general.
Aunque en lo que antecede se describe un método para la codificación de las señales de entrada (1, r) para generar el flujo de bits 100, y se elucidan métodos complementarios de decodificación del flujo de bits 100, se apreciará que la invención es susceptible de ser adaptada para codificar más de dos señales de entrada. Por ejemplo, la invención puede adaptarse para proporcionar la codificación de datos y la decodificación correspondiente para audio multicanal, por ejemplo, sistemas de cine doméstico de 5 canales. Sin embargo, dicha adaptación y ejemplo no entran dentro del alcance de las reivindicaciones.
En las reivindicaciones adjuntas, los números y otros símbolos incluidos entre paréntesis se incluyen para ayudar a comprender las reivindicaciones y de ninguna manera pretenden limitar el alcance de las reivindicaciones.
Se apreciará que las realizaciones de la invención descritas anteriormente son susceptibles de ser modificadas sin apartarse del alcance de la invención tal como se define en las reivindicaciones adjuntas.
Expresiones como "comprender", "incluir", "incorporar", "contener", "es" y "tener" deben interpretarse de manera no exclusiva al interpretar la descripción y sus reivindicaciones asociadas, es decir, interpretadas para permitir que otros elementos o componentes no definidos explícitamente también estén presentes. La referencia al singular también debe interpretarse como una referencia al plural y viceversa.

Claims (16)

REIVINDICACI0NES
1. Un método para la codificación de señales de audio de entrada izquierda y derecha (1, r) para generar los datos codificados correspondientes (100), comprendiendo el método los siguientes pasos:
(a) procesar las señales de entrada (1, r) para determinar los primeros parámetros (91, 92) que describen una modificación de al menos una de una diferencia de fase relativa y una diferencia temporal entre las señales de entrada (1, r), y aplicar estos primeros parámetros (91, 92) a la rotación de fase de las señales de entrada (1, r) para generar las señales intermedias correspondientes;
(b) procesar las señales intermedias para determinar segundos parámetros (a; IID, p) que describen la rotación de las señales intermedias requeridas para generar una señal dominante (m) y una señal residual (s), determinándose dichos segundos parámetros (a; IID, p) para minimizar la energía de dicha señal residual (s), teniendo dicha señal dominante (m) una energía superior a la de la señal residual (s), y aplicando estos segundos parámetros (a; IID, p) para procesar la señales intermedias para generar las señales dominante (m) y residual (s);
(c) cuantificar los primeros parámetros (91, 92), los segundos parámetros (a; IID, p), y codificar al menos una parte de la señal dominante (m) y la señal residual (s) para generar los datos cuantificados correspondientes; y
(d) multiplexar los datos cuantificados para generar los datos codificados (100);
en donde se determina el primero (91) de los primeros parámetros (91, 92) para maximizar la continuación de las señales sobre los límites asociados marco por marco para eliminar al menos parcialmente las discontinuidades en la señal dominante (m) y se determina un segundo (92) de los primeros parámetros (91, 92) para minimizar la energía de la señal residual (s) mediante la rotación de fase de la señal de entrada derecha (r).
2. Un método de acuerdo con la reivindicación 1, en donde solo una parte de la señal residual (s) se incluye en los datos codificados (100).
3. Un método de acuerdo con la reivindicación 2, en donde los datos codificados (100) también incluyen uno o más parámetros que indican qué partes de la señal residual están incluidas en los datos codificados (100).
4. Un método de acuerdo con la reivindicación 1, en donde los pasos (a) y (b) se implementan mediante una rotación compleja con las señales de audio de entrada (1, r) representadas en el dominio de frecuencia.
5. Un método de acuerdo con la reivindicación 4, en donde los pasos (a) y (b) se realizan independientemente en sub-bandas de las señales de audio de entrada (1, r).
6. Un método de acuerdo con la reivindicación 5, en donde otras sub-bandas no codificadas por el método se codifican utilizando técnicas de codificación alternativas.
7. Un método de acuerdo con la reivindicación 1, en donde, en el paso (c), dicho método incluye un paso para la manipulación de la señal residual (s) descartando información de tiempo-frecuencia perceptualmente no relevante presente en la señal residual (s), contribuyendo dicha señal residual (s) manipulada a los datos codificados (100) y correspondiendo dicha información no relevante a partes seleccionadas de una representación espectrotemporal de las señales de audio de entrada izquierda y derecha (1, r).
8. Un método de acuerdo con la reivindicación 1, en donde los segundos parámetros (a; IID, p) están representados mediante parámetros de diferencia de intensidad entre canales y parámetros de coherencia (IID, p).
9. Un método de acuerdo con la reivindicación 1, en donde, en los pasos (c) y (d), los datos codificados se organizan en capas de importancia, incluyendo dichas capas una capa base que transmite la señal dominante (m), una primera capa de mejora que incluye el primer (91, 92) y/o el segundo (a; IID, p) parámetro correspondiente a parámetros estéreo, transportando una segunda capa de mejora una representación de la señal residual (s).
10. Un método de acuerdo con la reivindicación 9, en donde la segunda capa de mejora se subdivide además en una primera subcapa para transmitir la información de tiempo-frecuencia más relevante de la señal residual (s) y una segunda subcapa para transmitir información de tiempo-frecuencia menos relevante de la señal residual (s).
11. Un codificador (10; 300; 500) para codificar señales de audio de entrada izquierda y derecha (1, r) para generar datos codificados correspondientes (100), comprendiendo el codificador:
(a) primeros medios de procesamiento (20; 310; 510) diseñados para procesar las señales de entrada (1, r) para determinar los primeros parámetros (91, 92) que describen una modificación de al menos una de una diferencia de fase relativa y una diferencia temporal entre las señales de entrada (1, r), siendo operables los primeros medios de procesamiento (20; 310; 510) para aplicar estos primeros parámetros (91, 92) a la rotación de fase de las señales de entrada (1, r) para generar las señales intermedias correspondientes;
(b) segundos medios de procesamiento (30, 40, 50, 60; 320, 340; 520, 530, 540, 550) para procesar las señales intermedias para determinar segundos parámetros (a; IID, p) que describen la rotación de las señales intermedias requeridas para generar una señal dominante (m) y una señal residual (s), determinándose dichos segundos parámetros (a; IID, p) para minimizar la energía de dicha señal residual (s), teniendo dicha señal dominante (m) una energía superior a la de la señal residual (s), siendo operables los segundos medios de procesamiento para aplicar estos segundos parámetros (a; IID, p) para procesar las señales intermedias para generar las señales dominante (m) y residual (s);
(c) medios de cuantificación (70; 360; 560) para cuantificar los primeros parámetros (91, 92), los segundos parámetros (a; IID, p), y al menos parte de la señal dominante (m) y la señal residual (s) para generar los datos cuantificados correspondientes; y
(d) medios de multiplexación para multiplexar los datos cuantificados para generar los datos codificados (100); en donde se determina el primero (91) de los primeros parámetros (91, 92) para maximizar la continuación de las señales sobre los límites asociados marco por marco para eliminar al menos parcialmente las discontinuidades en la señal dominante (m) y se determina un segundo (92) de los primeros parámetros (91, 92) para minimizar la energía de la señal residual (s) mediante la rotación de fase de la señal de entrada derecha (r).
12. Un codificador de acuerdo con la reivindicación 11, que incluye medios de procesamiento para manipular la señal residual (s) descartando información de tiempo-frecuencia perceptualmente no relevante presente en la señal residual (s), contribuyendo dicha señal residual (s) manipulada a los datos codificados (100) y correspondiendo dicha información perceptualmente no relevante a partes seleccionadas de una representación espectrotemporal de las señales de entrada.
13. Un codificador de acuerdo con la reivindicación 11, en donde la señal residual (s) se manipula, codifica y multiplexa en los datos codificados (100).
14. Un método para la decodificación de datos codificados (100), codificados mediante un método de acuerdo con la reivindicación 1, para regenerar las representaciones correspondientes (l', r') de las señales de audio de entrada izquierda y derecha (l, r), dichas señales de audio de entrada izquierda y derecha (1, r) son codificadas previamente para generar dichos datos codificados (100), comprendiendo el método los siguientes pasos:
(a) demultiplexar los datos codificados (100) para generar los datos cuantificados correspondientes;
(b) procesar los datos cuantificados para generar los correspondientes primeros parámetros (9'1, 92), segundos parámetros (a'; IID', p'), y al menos una señal dominante (m') y una señal residual (s'), teniendo dicha señal dominante (m') una energía superior a la de la señal residual (s');
(c) rotar las señales dominante (m') y residual (s') aplicando los segundos parámetros (a'; IID', p') para generar las señales intermedias correspondientes; y
(d) procesar las señales intermedias aplicando los primeros parámetros (9'1, 92) para regenerar la representación (l', r') de dichas señales de audio de entrada izquierda y derecha (l, r), describiendo los primeros parámetros (9'1, 92) una modificación de al menos uno de una diferencia de fase relativa y una diferencia temporal entre las señales de audio de entrada izquierda y derecha (l, r).
15. Un método de acuerdo con la reivindicación 14, en donde los datos codificados (100) incluyen parámetros que indican qué partes de la señal residual (s) están codificadas en los datos codificados (100).
16. Un producto de programa informático que comprende medios de código de programa informático adaptados para realizar todos los pasos de las reivindicaciones 1 a 10 o 14 cuando dicho programa se ejecuta en un ordenador.
ES19167336T 2004-04-05 2005-03-29 Método de codificación de señales de entrada de audio izquierda y derecha, codificador, decodificador y producto de programa informático correspondientes Active ES2945463T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04101405 2004-04-05
EP04103168 2004-07-05

Publications (1)

Publication Number Publication Date
ES2945463T3 true ES2945463T3 (es) 2023-07-03

Family

ID=34961999

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19167336T Active ES2945463T3 (es) 2004-04-05 2005-03-29 Método de codificación de señales de entrada de audio izquierda y derecha, codificador, decodificador y producto de programa informático correspondientes

Country Status (13)

Country Link
US (2) US7646875B2 (es)
EP (3) EP1735778A1 (es)
JP (1) JP5032978B2 (es)
KR (1) KR101135726B1 (es)
CN (2) CN1973320B (es)
BR (1) BRPI0509108B1 (es)
DK (1) DK3561810T3 (es)
ES (1) ES2945463T3 (es)
MX (1) MXPA06011396A (es)
PL (1) PL3561810T3 (es)
RU (1) RU2392671C2 (es)
TW (1) TWI387351B (es)
WO (1) WO2005098825A1 (es)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2392671C2 (ru) * 2004-04-05 2010-06-20 Конинклейке Филипс Электроникс Н.В. Способы и устройства для кодирования и декодирования стереосигнала
MX2007005261A (es) * 2004-11-04 2007-07-09 Koninkl Philips Electronics Nv Codificacion y descodificacion de un conjunto de senales.
RU2407068C2 (ru) * 2004-11-04 2010-12-20 Конинклейке Филипс Электроникс Н.В. Многоканальное кодирование и декодирование
EP1866911B1 (en) * 2005-03-30 2010-06-09 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
US8422555B2 (en) * 2006-07-11 2013-04-16 Nokia Corporation Scalable video coding
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8064624B2 (en) * 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
KR101426271B1 (ko) * 2008-03-04 2014-08-06 삼성전자주식회사 영상의 부호화, 복호화 방법 및 장치
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
CN101604524B (zh) * 2008-06-11 2012-01-11 北京天籁传音数字技术有限公司 立体声编码方法及其装置、立体声解码方法及其装置
RU2486609C2 (ru) * 2008-06-19 2013-06-27 Панасоник Корпорейшн Квантователь, кодер и их способы
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
CN102160113B (zh) * 2008-08-11 2013-05-08 诺基亚公司 多声道音频编码器和解码器
US9330671B2 (en) * 2008-10-10 2016-05-03 Telefonaktiebolaget L M Ericsson (Publ) Energy conservative multi-channel audio coding
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
KR20100089705A (ko) * 2009-02-04 2010-08-12 삼성전자주식회사 3차원 영상 부호화/복호화 장치 및 방법
CN101826326B (zh) * 2009-03-04 2012-04-04 华为技术有限公司 一种立体声编码方法、装置和编码器
TWI451664B (zh) * 2009-03-13 2014-09-01 Foxnum Technology Co Ltd 編碼器組合
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
US8301803B2 (en) * 2009-10-23 2012-10-30 Samplify Systems, Inc. Block floating point compression of signal data
CN101705113B (zh) * 2009-10-30 2012-12-19 清华大学 一种带引射器的气流床气化炉水冷循环系统
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
WO2011080916A1 (ja) * 2009-12-28 2011-07-07 パナソニック株式会社 音声符号化装置および音声符号化方法
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
EP2523472A1 (en) 2011-05-13 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
CN102226852B (zh) * 2011-06-13 2013-01-09 广州市晶华光学电子有限公司 一种数码体视显微镜的成像系统
JP5737077B2 (ja) * 2011-08-30 2015-06-17 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
TWI590234B (zh) * 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
KR20140017338A (ko) * 2012-07-31 2014-02-11 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9754596B2 (en) 2013-02-14 2017-09-05 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
GB2530311B (en) * 2014-09-19 2017-01-11 Imagination Tech Ltd Data compression
CN107251578B (zh) * 2015-02-25 2018-11-06 株式会社索思未来 信号处理装置
WO2017222582A1 (en) * 2016-06-20 2017-12-28 Intel IP Corporation Apparatuses for combining and decoding encoded blocks
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10839814B2 (en) * 2017-10-05 2020-11-17 Qualcomm Incorporated Encoding or decoding of audio signals
US10580420B2 (en) * 2017-10-05 2020-03-03 Qualcomm Incorporated Encoding or decoding of audio signals
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
CN114708874A (zh) 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN112997248A (zh) * 2018-10-31 2021-06-18 诺基亚技术有限公司 确定空间音频参数的编码和相关联解码
TWI702780B (zh) 2019-12-03 2020-08-21 財團法人工業技術研究院 提升共模瞬變抗擾度的隔離器及訊號產生方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
JP4327420B2 (ja) * 1998-03-11 2009-09-09 パナソニック株式会社 オーディオ信号符号化方法、及びオーディオ信号復号化方法
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
ATE556489T1 (de) * 1999-01-07 2012-05-15 Koninkl Philips Electronics Nv Wirksame kodierung von nebeninformationen in einer kodiereinrichtung
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
AU2003209957A1 (en) * 2002-04-10 2003-10-20 Koninklijke Philips Electronics N.V. Coding of stereo signals
DE60311794C5 (de) * 2002-04-22 2022-11-10 Koninklijke Philips N.V. Signalsynthese
KR100981699B1 (ko) 2002-07-12 2010-09-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
WO2004072956A1 (en) * 2003-02-11 2004-08-26 Koninklijke Philips Electronics N.V. Audio coding
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
RU2392671C2 (ru) * 2004-04-05 2010-06-20 Конинклейке Филипс Электроникс Н.В. Способы и устройства для кодирования и декодирования стереосигнала
MX2007005261A (es) * 2004-11-04 2007-07-09 Koninkl Philips Electronics Nv Codificacion y descodificacion de un conjunto de senales.
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme

Also Published As

Publication number Publication date
US7646875B2 (en) 2010-01-12
KR20070001207A (ko) 2007-01-03
JP5032978B2 (ja) 2012-09-26
BRPI0509108B1 (pt) 2019-11-19
DK3561810T3 (da) 2023-05-01
US20110106540A1 (en) 2011-05-05
CN1973320B (zh) 2010-12-15
TWI387351B (zh) 2013-02-21
KR101135726B1 (ko) 2012-04-16
JP2007531915A (ja) 2007-11-08
CN101887726B (zh) 2013-11-20
EP1944758A2 (en) 2008-07-16
BRPI0509108A (pt) 2007-08-28
MXPA06011396A (es) 2006-12-20
RU2392671C2 (ru) 2010-06-20
CN1973320A (zh) 2007-05-30
EP3561810B1 (en) 2023-03-29
EP1944758A3 (en) 2014-09-10
TW200603637A (en) 2006-01-16
US20070171944A1 (en) 2007-07-26
EP3561810A1 (en) 2019-10-30
US8254585B2 (en) 2012-08-28
CN101887726A (zh) 2010-11-17
PL3561810T3 (pl) 2023-09-04
EP1735778A1 (en) 2006-12-27
WO2005098825A1 (en) 2005-10-20
RU2006139036A (ru) 2008-05-20

Similar Documents

Publication Publication Date Title
ES2945463T3 (es) Método de codificación de señales de entrada de audio izquierda y derecha, codificador, decodificador y producto de programa informático correspondientes
ES2293556T3 (es) Codificacion basada en frecuencia de canales de audio en sistemas de codificacion multicanal parametrica.
AU2006228821B2 (en) Device and method for producing a data flow and for producing a multi-channel representation
KR101315077B1 (ko) 멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들
KR101158698B1 (ko) 복수-채널 인코더, 입력 신호를 인코딩하는 방법, 저장 매체, 및 인코딩된 출력 데이터를 디코딩하도록 작동하는 디코더
RU2608847C1 (ru) Кодирование звуковых сцен
JP7196268B2 (ja) マルチチャネル・オーディオ・コンテンツの符号化
KR20050021484A (ko) 오디오 코딩
WO2020009841A1 (en) Synchronizing enhanced audio transports with backward compatible audio transports
KR100636145B1 (ko) 확장된 고해상도 오디오 신호 부호화 및 복호화 장치
EP3818523A1 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
KR100891666B1 (ko) 믹스 신호의 처리 방법 및 장치
US11062713B2 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams
JP2005006018A (ja) 立体音響信号符号化装置、立体音響信号符号化方法および立体音響信号符号化プログラム
US20110051935A1 (en) Method and apparatus for encoding and decoding stereo audio