ES2286798T3

ES2286798T3 - Dispositivo y procedimiento para procesar una señal multicanal.

Info

Publication number: ES2286798T3
Application number: ES05715611T
Authority: ES
Inventors: Jurgen Herre; Michael Schug; Alexander Groeschl
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-03-01
Filing date: 2005-02-28
Publication date: 2007-12-01
Anticipated expiration: 2025-02-28
Also published as: PT1697930E; BRPI0507207A8; EP1697930B1; JP4413257B2; NO20064431L; BRPI0507207B1; RU2006134641A; CA2558161A1; JP2007525718A; US20070033056A1; DE502005000864D1; US7340391B2; CN1926608B; KR100823097B1; DE102004009954A1; CN1926608A; RU2332727C2; ATE364882T1; NO339114B1; IL177213A0

Abstract

Dispositivo para codificar una señal de audio multicanal, estando representada la señal multicanal por un bloque de valores espectrales en cada caso para al menos dos canales con las siguientes características; un dispositivo (12) para determinar una similitud entre un primer de los dos canales y un segundo de los dos canales, estando configurado el dispositivo (12) de determinación para calcular una primera ganancia de predicción a partir de una predicción del bloque del primer canal y una segunda ganancia de predicción a partir de una predicción del bloque del segundo canal o primeros coeficientes de reflexión para un primer filtro de predicción para el primera canal y segundos coeficientes de predicción para un segundo filtro de predicción del segundo canal, y para obtener (12c) la similitud empleando la primera ganancia de predicción y la segunda ganancia de predicción o empleando los primeros coeficientes de predicción y los segundos coeficientes de reflexión; un dispositivo (16) pararealizar un filtrado de predicción, estando configurado el dispositivo de realización para emplear un filtro de predicción común para realizar el filtrado de predicción para el bloque de valores espectrales del primer canal y el bloque de valores espectrales del segundo canal si una similitud es mayor que una similitud de umbral, o para emplear dos filtros de predicción diferentes para realizar el filtrado de predicción si la similitud es menor que una similitud de umbral.

Description

Dispositivo y procedimiento para procesar una señal multicanal.

La presente invención se refiere a codificadores de audio y especialmente a codificador de audio basados en transformaciones, es decir, en los que al comienzo del conducto del codificador se realiza una conversión de una representación temporal a una representación espectral.

Un codificador de audio conocido basado en transformaciones se muestra en la figura 3. El codificador mostrado en la figura 3 está representado en la norma internacional ISO/IEC 14496-3; 2001(E) apartado 4, página 4 y se conoce en la técnica como codificador AAC.

A continuación se representa el codificador conocido. En una entrada 1000 se alimenta una señal de audio que va a codificarse. Ésta se alimenta en primer lugar a una etapa 1002 de ajuste a escala en la que ese realiza un denominado control de amplificación AAC para fijar el nivel de la señal de audio. Se alimenta información secundaria a partir del ajuste a escala a un formateador 1004 de flujo de bits, tal como se representa mediante la flecha entre el bloque 1002 y el bloque 1004. La señal de audio ajustada a escala se alimenta a continuación a un banco 1006 de filtros MDCT. En el caso del codificador AAC el banco de filtros implementa una transformación de coseno discreta modificada con ventanas que se solapan un 50%, determinándose la longitud de ventana mediante un bloque 1008.

Dicho en general, el bloque 1008 está presente para que a las señales transitorias se les aplique funciones de ventana con ventanas más cortas, y para que a las señales más bien estacionarias se les aplique funciones de ventana con ventanas más largas. Esto sirve para que debido a las ventanas más cortas para señales transitorias se consiga una resolución en tiempo mayor (a expensas de la resolución en frecuencia), mientras que para señales más bien estacionarias se consiga una resolución en frecuencia mayor (a expensas de la resolución en tiempo) mediante ventanas más largas, prefiriéndose por tendencia las ventanas más largas dado que prometen una ganancia de codificación mayor. En la salida del banco 1006 de filtros, desde un punto de vista temporal, se presentan bloques de valores espectrales consecutivos que según la forma de realización del banco de filtro pueden ser coeficientes MDCT, coeficientes de Fourier o también señales de subbanda, presentando cada subbanda un ancho de banda limitado determinado, que se fija mediante el canal de subbanda correspondiente en el banco 1006 de filtros y presentando cada señal de subbanda un número determinado de valores de muestreo de subbanda.

A continuación se representa a modo de ejemplo el caso en el que el banco de filtros emite bloques consecutivos desde un punto de vista temporal de coeficientes espectrales MDCT, que dicho de manera general, representan en la salida 1000 espectros de corta duración consecutivos de la señal de audio que va a codificarse. Un bloque de valores espectrales MDCT se alimenta entonces en un bloque 1010 de procesamiento TNS en el que tiene lugar una formación de ruido temporal (TNS= formación de ruido temporal). La técnica TNS se emplea para formar la forma temporal del ruido de cuantificación dentro de cada ventana de la transformación. Con ello se consigue que un proceso de filtro se aplique en partes de los datos espectrales de cada canal. La codificación se realiza sobre una base de ventanas. Especialmente se ejecutan las siguientes etapas para aplicar la herramienta TNS en una ventana de datos espectrales, es decir en un bloque de valores espectrales.

En primer lugar se selecciona una gama de frecuencia para la herramienta TNS. Una selección adecuada consiste en cubrir con un filtro una gama de frecuencia de 1,5 kHz hasta la banda de factor de escala lo más alta posible. Ha de señalarse que esta gama de frecuencia depende de la velocidad de muestreo, tal como está especificado en la norma AAC (ISO/IEC 14496-3; 2001(E).

A continuación se realiza un cálculo LPC (LPC = linear predictive coding, codificación predictiva lineal), y concretamente con los coeficientes MDCT espectrales que se encuentran en la gama de frecuencia de destino seleccionada. Para un aumento de la estabilidad se descartan de este proceso coeficientes que corresponden a frecuencias por debajo de 2,5 kHz. Pueden emplearse para este cálculo LPC procedimientos LPC habituales, tal como se conocen del procesamiento de voz, por ejemplo el conocido algoritmo de Levinson-Durbin. El cálculo se realiza para la ordenación máxima permitida del filtro de formación de ruido.

Como resultado del cálculo LPC se obtiene la ganancia de predicción esperada PG. Además se obtienen los coeficientes de reflexión o coeficientes Parcor.

Cuando la ganancia de predicción no supera un umbral determinado, la herramienta TNS no se aplica. En este caso se escribe una información de control en el flujo de bits para que un codificador sepa que no se ha realizado ningún procesamiento TNS.

Sin embargo, si la ganancia de predicción supera un umbral se aplica el procesamiento TNS.

En una etapa siguiente los coeficientes de reflexión se cuantifican. La ordenación del filtro de formación de ruido empleado se determina mediante la eliminación de todos los componentes de reflexión con un valor absoluto menor que un umbral desde la "cola" del arreglo de coeficientes de reflexión. El número de los coeficientes de reflexión restantes se sitúa en el orden de magnitud del filtro de formación de ruido. Un umbral adecuado se sitúa en 0,1.

Los coeficientes de reflexión restantes se transforman normalmente en coeficientes de predicción lineales, siendo conocida esta técnica también como proceso "step-up".

Los coeficientes LPC calculados se emplean entonces como coeficientes de filtro de formación de ruido de codificación, es decir como coeficientes de filtro de predicción. Este filtro FIR se lleva a través de la gama de frecuencia de destino especificada. En la decodificación se emplea un filtro autoregresivo mientras que en la codificación se emplea un denominado filtro de promedio móvil (moving-average). Finalmente la información secundaria se alimenta al formateador de flujo de bits para la herramienta TNS, tal como se muestra mediante la flecha que se muestra entre el bloque 1010 de procesamiento TNS y el formateador 1004 de flujo de bits en la figura 3.

A continuación se ejecutan varias herramientas opcionales no mostradas en la figura 3, tal como por ejemplo una herramienta de predicción de larga duración, una herramienta de intensidad/acoplamiento, una herramienta de predicción, una herramienta de sustitución de ruido hasta que se llega finalmente a un codificador 1012 central/lateral. El codificador 1012 central/lateral está entonces activo cuando la señal de audio que va a codificarse es una señal multicanal, es decir, una señal estéreo con un canal izquierdo y un canal derecho. Hasta ahora, es decir, en la dirección de procesamiento antes del bloque 1012 en la figura 3 se procesaban el canal estéreo izquierdo y el derecho separados uno de otro, es decir, ajustados a escala, transformados mediante el banco de filtro, sometidos al procesamiento TNS o no.

En el codificador central/lateral se comprueba en primer lugar si es útil una codificación central/lateral, es decir si realmente trae consigo una ganancia de codificación. Una codificación central/lateral trae consigo una ganancia de codificación si el canal izquierdo y el derecho son más bien similares, dado que entonces el canal central, es decir, la suma del canal izquierdo y el derecho es casi igual al canal izquierdo o el derecho, independientemente del ajuste a escala mediante el factor ½, mientras que el canal lateral sólo presenta valores muy pequeños dado que es igual a la diferencia entre el canal izquierdo y el derecho. Con ello puede verse que entonces, si el canal izquierdo y el derecho son aproximadamente iguales, la diferencia es aproximadamente cero o bien solamente comprende valores muy pequeños que, así se espera, se cuantifican a cero en un cuantificador 1014 subsiguiente y por lo tanto pueden transmitirse de manera muy eficiente, dado que al cuantificador 1014 está conectado aguas abajo un codificador 1016 de entropía.

Al cuantificador 1014 se alimenta por un modelo 1020 psicoacústico una perturbación permitida por cada banda de factor de escala. El cuantificador trabaja iterativamente, es decir, se llama primero a un bucle de iteración externo que llama después a un bucle de iteración interno. Dicho en general, partiendo de valores iniciales de incrementos de cuantificador, se lleva a cabo en primer lugar una cuantificación de un bloque de valores en la entrada del cuantificador 1014. Especialmente el bucle interno cuantifica los coeficientes MDCT, necesitándose un determinado número de bits. El bucle externo calcula la distorsión y la energía modificada de los coeficientes empleando el factor de escala para de nuevo llamar a un bucle interno. Este proceso se itera hasta que se cumple una oración condicional determinada. Para cada iteración en el bucle de iteración externo se reconstruye a la vez la señal para calcular la perturbación introducida por la cuantificación y compararla con la perturbación permitida proporcionada por el modelo 1020 psicoacústico. Además, los factores de escala aumentan un nivel de iteración a iteración, y concretamente para cada iteración del bucle de iteración externo.

Entonces cuando se ha llegado a una situación en la que la perturbación de cuantificación introducida por la cuantificación está por debajo de la perturbación permitida determinada mediante el modelo psicoacústico, y cuando al mismo tiempo se cumplen requisitos de bits, concretamente, que no se supere una velocidad de transmisión máxima de bits, la iteración, es decir, el procedimiento de análisis por síntesis finaliza y se codifican los factores de escala obtenidos, tal como está realizado en el bloque 1014 y se alimenta en forma codificada al transformador 1004 de flujo de bits, tal como se indica mediante la flecha que está situada entre el bloque 1014 y el bloque 1004. Los valores cuantificados se alimentan entonces al codificador 1016 de entropía, que normalmente realiza una codificación de entropía empleando varias tablas de código Huffman para diferentes bandas de factores de escala para transmitir los valores cuantificados en un formato binario. Tal como se conoce, en la codificación de entropía en forma de codificación de Huffman se accede a tablas de códigos que se crean en función de una estadística de señales esperada, y en las que los valores que aparecen a menudo reciben palabras de código más cortas que los valores que aparecen con menos frecuencia. Los valores codificados por entropía se alimentan entonces también como información principal real al formateador 1004 de flujo de bits, que emite entonces según una sintaxis de flujo de bits determinada la señal de audio codificada en el lado de salida.

Tal como ya se ha expuesto, en el bloque 1010 de procesamiento TNS para la formación temporal del ruido de cuantificación dentro de una trama de codificador se emplea un filtrado de predicción.

En particular, la formación temporal del ruido de cuantificación se realiza mediante el filtrado de los coeficientes espectrales a través de la frecuencia en el codificador antes de la cuantificación y del filtrado inverso subsiguiente en el decodificador. El procesamiento TNS provoca que la envolvente del ruido de cuantificación se desplace temporalmente por debajo de la envolvente de la señal, para evitar artefactos de eco previo. La aplicación del TNS se produce de una estimación de la ganancia de predicción del filtrado, tal como se expone anteriormente. Los coeficientes de filtro para cada trama de codificador se determinan mediante una medida de correlación. El cálculo de los coeficientes de filtro se realiza separadamente para cada canal. Asimismo se transmiten separadamente en el flujo de bits codificado.

Lo desventajoso en la activación/desactivación del concepto TNS es el hecho de que para cada canal estéreo, cuando se ha activado una vez un procesamiento TNS debido a la buena ganancia de codificación esperada tiene lugar el filtrado TNS para cada canal de manera separada. Así esto no es problema todavía en el caso de canales relativamente diferentes. Sin embargo si el canal izquierdo y el derecho son relativamente similares, o sea el canal izquierdo y el derecho tienen en un ejemplo extremo exactamente la misma información útil, que por ejemplo un hablante y se diferencian solamente con vistas al ruido obtenido inevitablemente en los canales, así no obstante en el estado de la técnica para cada canal se emplea y se calcula un filtro TNS propio. Después de que el filtro TNS depende directamente del canal izquierdo o el derecho, y especialmente reacciona de manera relativamente sensible a los datos espectrales del canal izquierdo y del derecho, también en el caso de una señal en la que el canal izquierdo y el derecho son muy similares, es decir en el caso de una denominada "señal casi mono" se ejecuta para cada canal un procesamiento TNS con un filtro de predicción propio. Esto lleva a que debido a los diferentes coeficientes de filtro también tiene lugar una formación de ruido temporal diferente en los dos canales estéreos.

Lo desventajoso de este efecto es que puede llevar a artefactos audibles, dado que por ejemplo la imagen acústica de tipo mono original recibe un carácter estéreo no deseado mediante estas diferencias temporales.

El proceso conocido tiene sin embargo otra desventaja posiblemente todavía más seria. Mediante el procesamiento TNS, los valores de salida TNS, es decir los valores residuales espectrales se someten a una codificación central/lateral en el codificador 1002 central/lateral de la figura 3. Mientras que antes del procesamiento TNS los dos canales eran todavía relativamente iguales, esto ya no puede decirse después del procesamiento TNS. Mediante el efecto estéreo descrito, que se ha introducido mediante el procesamiento TNS separado, los valores residuales espectrales de los dos canales se hacen más desemejantes de lo que realmente serían. Esto lleva a una caída directa de la ganancia de codificación debido a la codificación central/lateral, lo que especialmente es desventajoso para aplicaciones en las que es necesaria una velocidad de transmisión de bits baja.

Resumiendo, la activación TNS conocida es por lo tanto problemática para señales estéreo que en ambos canales utilizan información de señal similar aunque no exactamente idéntica, tal como por ejemplo señales de voz similares a mono. Siempre que en la detección TNS se determinen para ambos canales coeficientes de filtro diferentes esto lleva a una formación temporalmente diferente del ruido de cuantificación en los canales. Esto puede llevar a artefactos audibles, dado que por ejemplo la imagen acústica de tipo mono original recibe mediante estas diferencias temporales un carácter estéreo no deseado. Además, tal como ya se ha expuesto, el espectro TNS modificado se somete en una etapa subsiguiente a una codificación central/lateral. Los filtros diferentes en ambos canales reducen adicionalmente la similitud de los coeficientes espectrales y con ello la ganancia central/lateral.

El documento DE 19829284 C2 da a conocer un procedimiento y un dispositivo para procesar una señal estéreo temporal y un procedimiento y un dispositivo para decodificar un flujo de bits de audio codificado empleando una predicción a través de la frecuencia. En función de la implementación, el canal izquierdo, el derecho y el mono pueden someterse a una predicción propia a través de la frecuencia, es decir a un procesamiento TNS. Así para cada canal puede realizarse una predicción propia completa. Alternativamente, en el caso de una predicción incompleta puede realizarse un cálculo de los coeficientes de predicción para el canal izquierdo que se emplean entonces para filtrar el canal derecho y el canal mono.

El objetivo de la presente invención consiste en crear un concepto para procesar una señal multicanal que permita menos artefactos y no obstante una buena compresión de la información.

Este objetivo se soluciona mediante un dispositivo para procesar una señal multicanal según la reivindicación 1, un procedimiento para procesar una señal multicanal según la reivindicación 11 o un programa informático según la reivindicación 12.

La presente invención se basa en el conocimiento de que entonces, cuando el canal izquierdo y el derecho son similares, es decir superan una medida de similitud, ha de emplearse para ambos canales el mismo filtrado TNS. Con ello se garantiza que mediante el procesamiento TNS no se introduce ningún artefacto pseudos-estéreo en la señal multicanal, dado que mediante el empleo del mismo filtro de predicción para ambos canales se consigue que tenga lugar también la formación temporal del ruido de cuantificación para ambos canales, es decir que no pueda oírse ningún artefacto pseudo-estéreo.

Además se garantiza que las señales no se vuelvan más desemejantes de lo que realmente deberían. La similitud de la señales después del filtrado TNS, es decir, la similitud de los valores residuales espectrales corresponde en este caso a la similitud de las señales de entrada en los filtros, y no como en el estado de la técnica, a la similitud e las señales de entrada que todavía se reduce mediante filtros diferentes.

Con ello una codificación central/lateral subsiguiente no tendrá ninguna pérdida de bits dado que las señales no se han hecho más desemejantes de lo que realmente son.

Naturalmente mediante el empleo del mismo filtro de predicción para ambas señales aparecerá una pequeña pérdida de la ganancia de predicción. Sin embargo esta pérdida no será tan grande dado que la sincronización del filtrado TNS para ambos canales de todos modos se utiliza solo cuando los dos canales son similares entre sí. Sin embargo, esta pequeña pérdida de la ganancia de predicción, tal como se ha demostrado, se compensará sin más mediante la ganancia central/lateral dado que mediante el procesamiento TNS no se introduce ninguna desemejanza adicional entre el canal izquierdo y el derecho que conduciría a una reducción de la ganancia de codificación central/lateral.

A continuación se explican detalladamente ejemplos de realización preferidos de la presente invención con referencia a los dibujos adjuntos. Muestran:

la figura 1, un diagrama de bloques de un dispositivo según la invención para procesar una señal multicanal,

la figura 2, una forma de realización preferida del dispositivo para determinar una similitud y del dispositivo para realizar el filtrado de predicción; y

la figura 3, un diagrama de bloques de un codificador de audio conocido según el estándar AAC.

La figura 1 muestra un dispositivo para procesar una señal multicanal, estando representada la señal multicanal mediante un bloque en cada caso de valores espectrales para al menos dos canales, tal como se muestra mediante L y R. Los bloques de valores espectrales se determinan, mediante por ejemplo, filtrado MDCT a través de un banco 10 de filtros MDCT de valores 1(t) o bien r(t) de muestreo de intervalo de tiempo para cada canal.

Los bloques de valores espectrales para cada canal se alimentan en un ejemplo de realización preferido de la presente invención a un dispositivo 12 para determinar una similitud entre los dos canales. Alternativamente el dispositivo para determinar la similitud entre los dos canales también puede realizarse, como se muestra en la figura 1, empleando valores 1(t) o bien r(t) de muestreo de intervalo de tiempo para cada canal. Sin embargo se prefiere emplear bloques de valores espectrales obtenidos del banco 10 de filtro para determinar la similitud dado que estos están influidos en la misma medida mediante posibles efectos del filtrado en el banco 10 de filtros.

El dispositivo 12 para determina la similitud entre el primer y el segundo canal es efectivo para generar una señal de control en un conducto 14 de control basándose en una medida de similitud o alternativamente una medida de disimilitud que al menos presenta dos estados de los cuales uno expresa que los bloques de valores espectrales de los dos canales son similares, o que en su otro estado dice que los bloques de valores espectrales son desemejantes para cada canal. La decisión sobre si domina la similitud o disimilitud puede tomarse empleando una medida de similitud preferiblemente numérica.

Así existen diferentes posibilidades para determinar la similitud entre los dos bloques de valores espectrales para cada canal, de los cuales una posibilidad es un cálculo de correlación cruzada que produce un valor que puede compararse entonces con un umbral de similitud predeterminado. Se conocen procedimientos de similitud alternativos, describiéndose a continuación una forma preferida.

Tanto el bloque de valores espectrales para el canal izquierdo como también el bloque de valores espectrales para el canal derecho se alimenta a un dispositivo 16 para realizar un filtrado de predicción. Especialmente un filtrado de predicción se realiza a través de la frecuencia, estando configurado el dispositivo para la realización para realizar la predicción a través de la frecuencia, para emplear un filtro 16a de predicción común para el bloque de valores espectrales del primer canal y para el bloque de valores espectrales del segundo canal, cuando la similitud es mayor que un similitud de umbral. Si por el contrario al dispositivo 16 para realizar el filtrado de predicción se le comunica por el dispositivo 12 para determinar una similitud que los dos bloques de valores espectrales para cada canal son desemejantes, es decir, tienen una similitud que es menor que una similitud de umbral, entonces el dispositivo 16 para realizar el filtrado de predicción aplicará diferentes filtros 16b en el canal izquierdo y el derecho.

Las señales de salida del dispositivo 16 son por lo tanto valores residuales espectrales del canal izquierdo en un salida 18a como también valores residuales espectrales del canal derecho en una salida 18b, habiéndose generado, según la similitud del canal izquierdo y del derecho, los valores residuales espectrales de los dos canales empleando el mismo filtro de predicción (caso 16a) o empleando diferentes filtros de predicción (caso 16b).

Según la implementación de codificador real los valores residuales espectrales del canal izquierdo y el derecho pueden alimentarse a un codificador de estéreo central/lateral bien directamente o bien según varios procesamientos, tal como están previstos por ejemplo en el estándar AAC, que emite en una salida 21a la señal central como mitad de la suma del canal izquierdo y el derecho, mientras que la señal lateral se emite como mitad de la diferencia del canal izquierdo y el derecho.

Tal como ya se ha expuesto, ahora la señal lateral, en el caso que existiera anteriormente una similitud alta entre los canales, debido a la sincronización del procesamiento TNS de los dos canales es más pequeña que en el caso en el que para canales diferentes se emplean diferentes filtros TNS, lo que por lo tanto, debido al hecho de que la señal lateral es más pequeña deja entrever una ganancia de codificación más alta.

A continuación se representa un ejemplo de realización preferido de la presente invención con referencia a la figura 2, en el que en el dispositivo 12 para determinar una similitud ya se ejecuta la primera fase del cálculo TNS, concretamente el cálculo de los coeficientes Parcor o de reflexión y de la ganancia de predicción para tanto el canal izquierdo como también el derecho, tal como se representa por los bloques 12a, 12b.

Por tanto este procesamiento TNS proporciona tanto los coeficientes de filtro para el filtro de predicción que finalmente va a emplearse como también la ganancia de predicción, necesitándose para ello en esta ganancia de predicción también para decidir si realmente debe realizarse un procesamiento TNS o no.

La ganancia de predicción para el primer canal, izquierdo que está indicado en la figura 2 con PG1, al igual que la ganancia de predicción para el canal derecho que está indicado en la figura 2 con PG2, se alimenta en un dispositivo de determinación de medida de similitud que está indicado en la figura 2 con 12c. Este dispositivo de determinación de similitud es eficaz para calcular la cantidad absoluta de la diferencia o la diferencia relativa de las dos ganancias de predicción y para ver si ésta se sitúa por debajo de un umbral S de desviación predeterminado. Si la cantidad absoluta de la diferencia de las ganancias de predicción se sitúa por debajo del umbral S, entonces se parte del hecho de que las dos señales son similares y la pregunta en el bloque 12c se responde con Sí. Si por el contrario se comprueba que la diferencia es mayor que el umbral S de similitud, entonces la pregunta se responde con No. En el caso de responder a esta pregunta con Sí en el dispositivo 16 se emplea un filtro común para los dos canales L y R, mientras que en el caso de responder a la pregunta en el bloque 12c con No se emplean filtros separados, es decir un procesamiento TNS tal como puede ejecutarse en el estado de la técnica.

Para ello al dispositivo 16 se alimenta un conjunto de coeficientes FKL de filtro para el canal izquierdo y un conjunto de coeficientes FKR para el canal derecho por los dispositivos 12a o bien 12b.

En un ejemplo de realización preferido de la presente invención para el filtrado mediante un filtro común se realiza una selección especial en un bloque 16c. En el bloque 16c se decide qué canal tiene la mayor energía. Si se comprueba que el canal izquierdo tiene la mayor energía entonces se emplean los coeficientes FKL de filtro calculados por el dispositivo 12a para el canal izquierdo para el filtrado común. Si por el contrario en el bloque 16c se comprueba que el canal derecho tiene mayor energía, entonces para el filtrado común se emplea el conjunto de coeficientes FKR de filtro que se ha calculado para el canal derecho en el dispositivo 12b.

Tal como se deduce de la figura 2, para la determinación de la energía pueden emplearse tanto la señal de tiempo como también la señal espectral. Debido al hecho de que en la señal espectral están incluidos artefactos de transformación que posiblemente ya han tenido lugar en la señal espectral, para la "decisión de la energía" en el bloque 16c se prefiere emplear las señales espectrales del canal izquierdo y el derecho.

En un ejemplo de realización preferido de la presente invención se utiliza una sincronización TNS, es decir el empleo de los mismos coeficientes de filtro para ambos canales, si las ganancias de predicción para el canal izquierdo y el derecho se diferencian en menos del tres por ciento. Si ambos canales se diferencian en más del tres por ciento la pregunta en el bloque 12c de la figura 2 se responde con "No".

Tal como ya se ha expuesto, en el sentido de una detección de la similitud sencilla y que requiere poco cálculo las ganancias de predicción de los dos canales se comparan durante el filtrado. Si una diferencia de las ganancias de predicción está por debajo de un umbral determinado, ambos canales se cargan con el mismo filtrado TNS para evitar los problemas descritos.

Alternativamente puede realizarse también una comparación de los coeficientes de reflexión de los dos filtros TNS calculados por separado.

De nuevo de manera alternativa puede conseguirse la determinación de similitud también empleando otros detalles de la señal, de manera que entonces, cuando se ha determinado una similitud, solamente debe calcularse el conjunto de coeficientes de filtro TNS para el canal que se utiliza para el filtrado de predicción de ambos canales estéreo. Esto tiene como ventaja que, cuando se observa la figura 2, y cuando las señales son similares solamente estará activo u el bloque 12a o el bloque 12b.

Además el concepto según la invención puede emplearse para los efectos de reducir adicionalmente la velocidad de transmisión de bits de la señal codificada. Mientras que en el empleo de dos coeficientes de reflexión diferentes se transmiten diferente información secundaria TNS para ambos canales, en el filtrado de los dos canales con el mismo filtro de predicción debe transmitirse solamente una vez información TNS para ambos canales. Por lo tanto mediante el concepto según la invención puede conseguirse también una reducción de la velocidad de transmisión de bits en el sentido de que se "ahorra" un conjunto de información secundaria TNS cuando el canal izquierdo y el derecho son similares.

El concepto según la invención no está limitado fundamentalmente a señales estéreo sino que podría aplicarse en un entorno multicanal entre diferentes pares de canales o también grupos de más de dos canales.

Para determinar la similitud, tal como ya se ha expuesto puede realizarse una determinación por separado para cada canal de la medida de correlación cruzada k entre el canal izquierdo y el derecho o una determinación de la ganancia de predicción TNS y los coeficientes de filtro TNS.

La decisión de sincronización se realiza, en el caso de que k supere un umbral (por ejemplo 0,6) y la codificación de estéreo MS esté activada. El criterio MS puede también omitirse.

En la sincronización se realiza una determinación del canal de referencia cuyo filtro TNS debe adoptarse para el otro canal, por ejemplo se emplea el canal con mayor energía como canal de referencia. Especialmente entonces se realiza una copia de los coeficientes de filtro TNS desde el canal de referencia al otro canal.

Finalmente se realiza una aplicación de los filtros TNS sincronizados o no sincronizados en el espectro.

Alternativamente se realiza una determinación de la ganancia de predicción TNS y de los coeficientes de filtro TNS para cada canal por separado. Después se toma una decisión. En el caso de que la ganancia de predicción de los dos canales se diferencie en no más de una determinada medida, por ejemplo 3%, la sincronización se lleva a cabo. En este caso el canal de referencia puede seleccionarse también de manera arbitraria cuando se puede partir de una similitud de los canales. También existe aquí una copia de los coeficientes de filtro TNS desde el canal de referencia al otro canal, después de lo cual tiene lugar una aplicación del filtro sincronizado o no sincronizado en el espectro.

Diferentes alternativas son las siguientes: si TNS se activa fundamentalmente en un canal depende de la ganancia de predicción en este canal. Si ésta supera un determinado umbral, se activa la TNS para este canal. Alternativamente también se hace una sincronización TNS para dos canales si solamente la TNS estaba activada en uno de los dos canales. La condición entonces es que por ejemplo la ganancia de predicción sea similar, es decir un canal se sitúa muy poco por encima del límite de activación y un canal muy poco por debajo del límite de activación. Desde esta comparación se deriva entonces la activación de TNS para ambos canales con los mismos coeficientes, o en determinadas circunstancias también la desactivación para ambos canales.

En función de las circunstancias el procedimiento según la invención para procesar una señal multicanal puede implementarse en hardware o en software. La implementación puede llevarse a cabo en un medio de memoria digital, especialmente un disquete o CD con señales de control que pueden leerse electrónicamente que pueden actuar conjuntamente con un sistema informático programable de manera que se lleva a cabo el procedimiento. En general la invención existe por lo tanto también en un producto de programa informático con un código de programa almacenado en un soporte que puede leerse por ordenador para la realización del procedimiento según la invención, cuando el producto de programa informático se ejecuta en un ordenador. Dicho de otro modo la invención puede realizarse tanto como un programa informático con un código de programa para llevar a acabo el procedimiento cuando el programa informático se ejecuta en un ordenador.

Claims

1. Dispositivo para codificar una señal de audio multicanal, estando representada la señal multicanal por un bloque de valores espectrales en cada caso para al menos dos canales con las siguientes características;

un dispositivo (12) para determinar una similitud entre un primer de los dos canales y un segundo de los dos canales, estando configurado el dispositivo (12) de determinación para calcular una primera ganancia de predicción a partir de una predicción del bloque del primer canal y una segunda ganancia de predicción a partir de una predicción del bloque del segundo canal o primeros coeficientes de reflexión para un primer filtro de predicción para el primera canal y segundos coeficientes de predicción para un segundo filtro de predicción del segundo canal, y para obtener (12c) la similitud empleando la primera ganancia de predicción y la segunda ganancia de predicción o empleando los primeros coeficientes de predicción y los segundos coeficientes de reflexión;

un dispositivo (16) para realizar un filtrado de predicción, estando configurado el dispositivo de realización

: para emplear un filtro de predicción común para realizar el filtrado de predicción para el bloque de valores espectrales del primer canal y el bloque de valores espectrales del segundo canal si una similitud es mayor que una similitud de umbral, o

: para emplear dos filtros de predicción diferentes para realizar el filtrado de predicción si la similitud es menor que una similitud de umbral.

2. Dispositivo según la reivindicación 1, en el que el dispositivo (16) de realización está configurado para emitir valores residuales espectrales como un resultado de la predicción, y

presentando además el dispositivo las siguientes características:

un dispositivo (20) para codificar en común valores residuales espectrales o valores del primer canal derivados de los valores residuales espectrales y de valores residuales espectrales o de valores derivados de valores residuales espectrales del segundo canal, si la similitud es mayor que una similitud de umbral.

3. Dispositivo según la reivindicación 2, en el que la codificación común es una codificación central/lateral.

4. Dispositivo según la reivindicación 3, en el que el dispositivo para la codificación (20) común está configurado para calcular una señal central basándose en la suma del primer y del segundo canal, y calcular una señal lateral basándose en la diferencia del primer y del segundo canal.

5. Dispositivo según una de las reivindicaciones anteriores en el que el bloque de valores espectrales para un canal representa un espectro de corta duración de este canal, o en el que el bloque de valores espectrales comprende una pluralidad de señales de pasabanda para una pluralidad de subbandas.

6. Dispositivo según una de las reivindicaciones anteriores en el que el dispositivo (16) de realización está configurado para realizar un procesamiento TNS.

7. Dispositivo según una de las reivindicaciones anteriores en el que el dispositivo (12) de determinación está configurado para calcular una correlación cruzada del primer y del segundo canal.

8. Dispositivo según la reivindicación 7, en el que el dispositivo (16) de realización está configurado para emplear un único filtro de predicción si la primera ganancia de predicción y la segunda ganancia de predicción se diferencian en menos o en un tres por ciento.

9. Dispositivo según la reivindicación 7, en el que el dispositivo (16) de realización está configurado para emplear un filtro de predicción como filtro de predicción común cuyos coeficientes se derivan del bloque de valores espectrales que contiene más energía que el otro bloque de valores espectrales.

10. Dispositivo según una de las reivindicaciones anteriores en el que el dispositivo (16) de realización está configurado para realizar un cálculo de autocorrelación para la predicción a través de la frecuencia y un cálculo LPC empleando el algoritmo de Levinson-Durbin con el bloque de valores espectrales, para obtener coeficientes Parcor o coeficientes de reflexión así como una ganancia de predicción y para filtrar el bloque de valores espectrales con los coeficientes Parcor para obtener valores residuales espectrales.

11. Procedimiento para codificar una señal de audio multicanal, estando representada la señal multicanal por un bloque de valores espectrales en cada caso para al menos dos canales con las siguientes etapas:

determinar (12) una similitud entre un primer de los dos canales y un segundo de los dos canales,

\newpage

: calculando una primera ganancia de predicción a partir de una predicción del bloque del primer canal y una segunda ganancia de predicción a partir de una predicción del bloque del segundo canal para obtener la similitud a partir de la primera ganancia de predicción y la segunda ganancia de predicción (12c), o

: calculando primeros coeficientes de reflexión para un primer filtro de predicción para el primer canal y segundos coeficientes de reflexión para un segundo filtro de predicción para el segundo canal para obtener la similitud empleando los primeros coeficientes de reflexión y los segundos coeficientes de reflexión;

: realizar un filtrado de predicción con un filtro de predicción común para el bloque de valores espectrales del primer canal y el bloque de valores espectrales del segundo canal si una similitud es mayor que una similitud de umbral, o

: realizar el filtrado de predicción con dos filtros de predicción diferentes para el bloque de valores espectrales del primer canal y el bloque de valores espectrales del segundo canal si la similitud es menor que una similitud de umbral.

12. Programa informático con un código de programa para realizar todas las etapas del procedimiento para codificar una señal de audio multicanal según la reivindicación 11 cuando el programa se ejecuta en un ordenador.