ES2295837T3

ES2295837T3 - Sistesis de una señal de audio monofonica sobre la base de una señal de audio multicanal codificada.

Info

Publication number: ES2295837T3
Application number: ES04720099T
Authority: ES
Inventors: Ari Lakaniemi; Pasi Ojala
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2004-03-12
Filing date: 2004-03-12
Publication date: 2008-04-16
Anticipated expiration: 2024-03-12
Also published as: BRPI0418665A; BRPI0418665B1; RU2006131451A; AU2004317678B2; CN1926610A; AU2004317678C1; CN1926610B; US7899191B2; DE602004010188T2; WO2005093717A8; WO2005093717A1; RU2381571C2; ATE378677T1; US20070208565A1; CA2555182C; CA2555182A1; EP1723639B1; AU2004317678A1; DE602004010188D1; JP2007529031A

Abstract

Método de síntesis de una señal de audio monofónica sobre la base de una señal de audio multicanal codificada disponible, comprendiendo dicha señal de audio multicanal codificada por lo menos para una parte de una banda de audiofrecuencia valores de parámetros independientes para cada uno de los canales de dicha señal de audio multicanal, comprendiendo dicho método por lo menos para una parte de una banda de audiofrecuencia: - combina los valores de parámetros de dichos canales múltiples en el dominio de los parámetros; y - utilizar dichos valores de parámetros combinados para sintetizar una señal de audio monofónica; en el que la combinación de dichos valores de parámetros se controla para por lo menos un parámetro basándose en información sobre la actividad respectiva en dichos canales múltiples.

Description

Síntesis de una señal de audio monofónica sobre la base de una señal de audio multicanal codificada.

Campo de la invención

La presente invención se refiere a un método de síntesis de una señal de audio monofónica sobre la base de una señal de audio multicanal codificada disponible, comprendiendo dicha señal de audio multicanal codificada por lo menos para una parte de una banda de audiofrecuencia valores de parámetros independientes para cada uno de los canales de la señal de audio multicanal. La invención se refiere asimismo a un decodificador de audio correspondiente, a un sistema de codificación correspondiente y a un producto de programa de software correspondiente.

Antecedentes de la invención

Los sistemas de codificación de audio son bien conocidos a partir del estado de la técnica. Los mismos se utilizan en particular para transmitir o almacenar señales de audio.

Uno de los sistemas de codificación de audio que se utiliza para la transmisión de señales de audio comprende un codificador en un extremo transmisor y un decodificador en un extremo receptor. El extremo transmisor y el extremo receptor pueden ser, por ejemplo, terminales móviles. Al codificador se le suministra una señal de audio que va a ser transmitida. El codificador es responsable de adaptar la velocidad de los datos de audio entrantes a un nivel de velocidad binaria en el cual no se infrinjan las condiciones de ancho de banda en el canal de transmisión. Idealmente, en este proceso de codificación el codificador descarta de la señal de audio únicamente información irrelevante. A continuación, la señal de audio codificada es transmitida por el extremo transmisor del sistema de codificación de audio y recibida en el extremo receptor del sistema de codificación de audio. El decodificador en el extremo receptor invierte el proceso de codificación para obtener una señal de audio decodificada con un deterioro reducido o no
audible.

Si el sistema de codificación de audio se utiliza para archivar datos de audio, los datos de audio codificados proporcionados por el codificador se almacenan en alguna unidad de almacenamiento, y el decodificador decodifica datos de audio recuperados a partir de esta unidad de almacenamiento, por ejemplo, para que sean presentados por parte de algún reproductor de medios. En esta alternativa, el objetivo es que el codificador logre una velocidad binaria que sea lo más baja posible, para ahorrar espacio de almacenamiento.

Dependiendo de la velocidad binaria permitida, a una señal de audio se le pueden aplicar diferentes esquemas de codificación.

En la mayoría de los casos, una banda de frecuencias inferior y una banda de frecuencias superior de una señal de audio están en correlación mutua. Por esta razón típicamente los algoritmos de extensión del ancho de banda con códec de audio en primer lugar dividen en dos bandas de frecuencia el ancho de banda de la señal de audio que se va a codificar. A continuación, la banda de frecuencias inferior es procesada de forma independiente por el denominado códec central, mientras que la banda de frecuencias superior se procesa usando información sobre los parámetros de codificación y señales de la banda de frecuencias inferior. El uso de parámetros de la codificación de la banda de frecuencias baja en la codificación de la banda de frecuencias alta reduce significativamente la velocidad binaria resultante en la codificación de la banda alta.

La figura 1 presenta un sistema típico de codificación y decodificación con división de banda. El sistema comprende un codificador de audio 10 y un decodificador de audio 20. El codificador de audio 10 incluye un banco de filtros de análisis de dos bandas 11, un codificador de banda baja 12 y un codificador de banda alta 13. El decodificador de audio 20 incluye un decodificador de banda baja 21, un decodificador de banda alta 22 y un banco de filtros de síntesis de dos bandas 23. El codificador 12 y el decodificador 21 de banda baja pueden ser, por ejemplo, el codificador y decodificador normalizados de Banda Ancha con Multivelocidad Adaptativa (AMR-WB), mientras que el codificador 13 y el decodificador 22 de banda alta pueden comprender una cualquiera de entre las siguientes opciones: un algoritmo de codificación independiente, un algoritmo de extensión de ancho de banda o una combinación de ambos. A título de ejemplo, se considera que el sistema presentado usa como algoritmo de codificación con división de banda el códec AMR-WB ampliado (AMR-WB+).

Una señal de audio de entrada 1 es procesada en primer lugar por el banco de filtros de análisis de dos bandas 11, en el cual la banda de frecuencias de audio se divide en una banda de frecuencias inferior y una banda de frecuencias superior. Con fines ilustrativos, la figura 2 presenta un ejemplo de una respuesta de frecuencia de un banco de filtros de dos bandas para el caso de la AMR-WB+. Una banda de audio de 12 kHz se divide en una banda L de entre 0 kHz y 6,4 kHz y una banda H de entre 6,4 kHz y 12 kHz. Por otra parte, en el banco de filtros de análisis de dos bandas 11, las bandas de frecuencia resultantes se diezman de forma ajustada. Es decir, la banda de frecuencias baja se diezma a 12,8 kHz y la banda de frecuencias alta se remuestrea a 11,2 kHz.

A continuación, la banda de frecuencias baja y la banda de frecuencias alta se codifican de forma mutuamente independiente por parte, respectivamente, del codificador de banda baja 12 y el codificador de banda alta 13.

Con este fin, el codificador de banda baja 12 comprende algoritmos de codificación de señales fuente completas. Los algoritmos incluyen un tipo de algoritmo de predicción lineal con excitación por código algebraico (ACELP) y un algoritmo basado en transformadas. El algoritmo utilizado concretamente se selecciona basándose en las características de la señal correspondientes a la señal de audio introducida respectivamente. El algoritmo ACELP se selecciona típicamente para codificar señales de voz y transitorios, mientras que el algoritmo basado en transformadas se selecciona típicamente para codificar señales de tipo musical y de tipo tono con vistas a tratar más satisfactoriamente la resolución frecuencial.

En un códec AMR-WB+, el codificador de banda alta 13 utiliza una codificación de predicción lineal (LPC) para modelar la envolvente espectral de la señal de banda de alta frecuencia. A continuación, la banda de alta frecuencia se puede describir por medio de coeficientes de filtrado de síntesis LPC los cuales definen las características espectrales de la señal sintetizada, y de factores de ganancia para una señal de excitación los cuales controlan la amplitud de la señal de audio sintetizada de banda alta de frecuencias. La señal de excitación de la banda alta se copia del codificador de banda baja 12. Para la transmisión se proporcionan únicamente los coeficientes LPC y los factores de ganancia.

La salida del codificador de banda baja 12 y del codificador de banda alta 13 se multiplexan en un único flujo continuo de bits 2.

El flujo continuo de bits multiplexado 2 se transmite, por ejemplo, a través de un canal de comunicaciones hacia el decodificador de audio 20, en el cual se decodifica por separado la banda de frecuencias baja y la banda de frecuencias alta.

En el decodificador de banda baja 21, el procesado en el codificador de banda baja 12 se invierte para sintetizar la señal de audio de banda baja de frecuencias.

En el decodificador de banda alta 22, se genera una señal de excitación mediante el remuestreo de una excitación de banda baja de frecuencias proporcionada por el decodificador de banda baja 21 a la frecuencia de muestreo usada en la banda alta de frecuencias. Es decir, la señal de excitación de la banda baja de frecuencias se reutiliza para la decodificación de la banda alta de frecuencias transponiendo la señal de la banda baja de frecuencias en la banda alta de frecuencias. Alternativamente, para la reconstrucción de la señal de la banda alta de frecuencias se podría generar una señal de excitación aleatoria. A continuación, se reconstruye la señal de la banda alta de frecuencias filtrando la señal de excitación escalada a través del modelo LPC de banda alta definido por los coeficientes LPC.

En el banco de filtros de síntesis de dos bandas 23, las señales de la banda baja de frecuencias y las señales de la banda alta de frecuencias decodificadas se sobremuestrean a la frecuencia de muestreo original y se combinan en una señal de audio de salida sintetizada 3.

La señal de audio de entrada 1 que se va a codificar puede ser una señal de audio monofónica o una señal de audio multicanal que contenga por lo menos una señal de un primer y de un segundo canal. Uno de los ejemplos de señal de audio multicanal es una señal de audio estereofónica, que está compuesta por una señal de canal izquierdo y una señal de canal derecho.

Para un funcionamiento estereofónico de un códec AMR-WB+, la señal de audio de entrada se divide igualmente en una señal de banda baja de frecuencias y una señal de banda alta de frecuencias en el banco de filtros de análisis de dos bandas 11. El codificador de banda baja 12 genera una señal monofónica combinando las señales del canal izquierdo y las señales del canal derecho en la banda baja de frecuencias. La señal monofónica se codifica tal como se ha descrito anteriormente. Adicionalmente, el codificador de banda baja 12 usa una codificación paramétrica para codificar las diferencias de las señales del canal izquierdo y derecho en la señal monofónica. El codificador de banda alta 13 codifica el canal izquierdo y el canal derecho por separado determinando coeficientes LPC y factores de ganancia independientes para cada uno de los canales.

En el caso de que la señal de audio de entrada 1 sea una señal de audio multicanal, pero el dispositivo que va a presentar la señal de audio sintetizada 3 no soporte una salida de audio multicanal, el flujo continuo de bits multicanal entrante 2 debe ser convertido por el decodificador de audio 20 en una señal de audio monofónica. En la banda baja de frecuencias, la conversión de la señal multicanal en una señal monofónica es directa, ya que el decodificador de banda baja 21 puede simplemente omitir los parámetros de estereofonía en el flujo continuo de bits recibido y decodificar únicamente la parte monofónica. No obstante para la banda alta de frecuencias, se requiere un procesado mayor ya que en el flujo continuo de bits no hay disponible ninguna parte de la señal monofónica independiente de la banda alta de frecuencias.

Convencionalmente, el flujo continuo de bits estereofónico para la banda alta de frecuencias se decodifica por separado para las señales del canal izquierdo y derecho, y a continuación se crea la señal monofónica combinando las señales del canal izquierdo y derecho en un proceso de submezcla. Este planteamiento se ilustra en la Figura 3.

La Figura 3 presenta esquemáticamente detalles del decodificador de banda alta 22 de la Figura 1 para una salida de una señal de audio monofónica. Con este fin, el decodificador de banda alta comprende una parte de procesado de canal izquierdo 30 y una parte de procesado de canal derecho 33. La parte de procesado de canal izquierdo 30 incluye un mezclador 31, el cual está conectado a un filtro de síntesis LPC 32. La parte de procesado de canal derecho 33 incluye del mismo modo un mezclador 34, el cual está conectado a un filtro de síntesis LPC 35. La salida de ambos filtros de síntesis LPC 32, 35 está conectada a un mezclador adicional 36.

Una señal de excitación de banda baja de frecuencias que es proporcionada por el decodificador de banda baja 21 es alimentada a uno de los mezcladores 31 y 34. El mezclador 31 aplica los factores de ganancia para el canal izquierdo en la señal de excitación de banda baja de frecuencias. A continuación, el filtro de síntesis LPC 32 reconstruye la señal de banda alta del canal izquierdo filtrando la señal de excitación escalada a través de un modelo LPC de banda alta definido por los coeficientes LPC para el canal izquierdo. El mezclador 34 aplica los factores de ganancia para el canal derecho en la señal de excitación de la banda baja de frecuencias. A continuación, el filtro de síntesis LPC 35 reconstruye la señal de banda alta del canal derecho filtrando la señal de excitación escalada a través de un modelo LPC de banda alta definido por los coeficientes LPC para el canal derecho.

A continuación, el mezclador 36 convierte la señal reconstruida de la banda alta de frecuencias del canal izquierdo y la señal reconstruida de la banda alta de frecuencias del canal derecho en una señal de banda alta de frecuencias monofónica calculando su media en el dominio del tiempo.

En principio, éste es un planteamiento sencillo y útil. No obstante, el mismo requiere una síntesis independiente de canales múltiples, incluso aunque al final se necesite solamente una señal de un único canal.

El documento US 5.274.740 da a conocer un método en el cual los valores de parámetros de canales múltiples se combinan antes de la síntesis, evitando de este modo la necesidad de una síntesis independiente de canales múltiples.

Si la señal de entrada de audio multicanal 1 está desequilibrada de tal manera que la mayor parte de la energía de la señal de audio multicanal reside en uno de los canales, una mezcla directa de los multicanales mediante el cálculo de su media dará como resultado una atenuación de la señal combinada. En un caso extremo, uno de los canales está completamente en silencio, lo cual conduce a un nivel de energía de la señal combinada que es la mitad del nivel de energía del canal de entrada activo original.

El documento EP-A-1 377 123 da a conocer un método que permite que el nivel de energía y/o sonoridad de las señales de salida de un mezclador coincidan con el nivel de energía y/o sonoridad de las señales de entrada del mezclador.

Sumario de la invención

Uno de los objetivos de la invención consiste en reducir la carga de procesado que se requiere para sintetizar una señal de audio monofónica basándose en una señal de audio multicanal codificada.

Se propone un método de síntesis de una señal de audio monofónica basándose en una señal de audio multicanal codificada disponible, según la reivindicación independiente 1.

Por otra parte, se propone un decodificador de audio para sintetizar una señal de audio monofónica basándose en una señal de audio multicanal codificada disponible, según la reivindicación independiente 9.

Por otra parte, se propone un sistema de codificación, el cual comprende además del decodificador propuesto un codificador de audio que proporciona la señal de audio multicanal codificada, según la reivindicación independiente 17.

Finalmente, se propone un producto de programa de software, en el cual se almacena un código de software para sintetizar una señal de audio monofónica basándose en una señal de audio multicanal codificada disponible, según la reivindicación independiente 19. La señal de audio multicanal codificada comprende por lo menos para una parte de la banda de frecuencias de una señal de audio multicanal original valores de parámetros independientes para cada uno de los canales de la señal de audio multicanal. El código de software propuesto realiza las etapas del método propuesto cuando se ejecuta en un decodificador de audio.

La señal de audio multicanal codificada puede ser, en particular, aunque no de forma exclusiva, una señal de audio estereofónica codificada.

La invención tiene su origen en la consideración de que para obtener una señal de audio monofónica, se puede evitar una decodificación independiente de los canales múltiples disponibles, si los valores de los parámetros que están disponibles para estos canales múltiples se combinan ya en el dominio de los parámetros antes de la decodificación. A continuación, los valores de los parámetros combinados se pueden usar para una decodificación de canal individual, tal como en el documento US nº 5.274.740.

Esta técnica permite ahorrar carga de procesado en un decodificador y reduce la complejidad del decodificador. Si los canales múltiples son canales estereofónicos que se procesan en un sistema con división de banda, por ejemplo, se puede ahorrar aproximadamente la mitad de la carga de procesado requerida para un filtrado de síntesis de banda alta de frecuencias en comparación con la realización del filtrado de síntesis de banda alta de frecuencias por separado para ambos canales y la mezcla de las señales resultantes del canal izquierdo y derecho.

En una de las formas de realización de la invención, los parámetros comprenden factores de ganancia para cada uno de los canales múltiples y coeficientes de predicción lineal para cada uno de los canales múltiples.

La combinación de los valores de los parámetros se puede realizar de una manera estática, por ejemplo, calculando en general la media de los valores de los parámetros disponibles para todos los canales. No obstante, de forma ventajosa, la combinación de los valores de los parámetros se controla para por lo menos un parámetro basándose en información sobre la actividad respectiva en los canales múltiples. Esto permite lograr una señal de audio monofónica con características espectrales y con un nivel de señal lo más próximos posibles a las características espectrales y al nivel de la señal de un canal activo respectivo, y por lo tanto permite lograr una calidad de audio mejorada de la señal de audio monofónica sintetizada.

Si la actividad en un primer canal es significativamente mayor que en segundo canal, se puede considerar que el primer canal es un canal activo, mientras que se puede considerar que el segundo canal es un canal silencioso el cual no proporciona básicamente ninguna contribución audible a la señal de audio original. En el caso de que exista un canal silencioso, los valores de los parámetros correspondientes a por lo menos uno de los parámetros se omiten completamente de forma ventajosa cuando se combinan los valores de los parámetros. Como consecuencia, la señal monofónica sintetizada será similar al canal activo. En la totalidad del resto de casos, los valores de los parámetros se pueden combinar, por ejemplo, formando la media o una media ponderada por todos los canales. Para una media ponderada, el peso asignado a un canal aumenta con su actividad relativa en comparación con el otro canal o canales. Para realizar la combinación también se pueden utilizar otros métodos. Del mismo modo, los valores de parámetros correspondientes a un canal silencioso que no se van a omitir se pueden combinar con los valores de los parámetros de un canal activo mediante promediado o algún otro método.

La información sobre la actividad respectiva en los canales múltiples la pueden formar varios tipos de información. Puede venir dada por ejemplo por un factor de ganancia para cada uno de los canales múltiples, por una combinación de factores de ganancia sobre un periodo breve de tiempo para cada uno de los canales múltiples, o por coeficientes de predicción lineal para cada uno de los canales múltiples. La información de actividad puede venir dada por el nivel de energía en por lo menos parte de la banda de frecuencias de la señal de audio multicanal para cada uno de los canales múltiples, o por información colateral independiente sobre la actividad recibida desde un codificador que proporciona la señal de audio multicanal codificada.

Para obtener la señal de audio multicanal codificada, una señal de audio multicanal original se puede dividir por ejemplo en una señal de banda baja de frecuencias y una señal de banda alta de frecuencias. A continuación, la señal de banda baja de frecuencias se puede codificar de una manera convencional. Además, la señal de banda alta de frecuencias se puede codificar por separado para los canales múltiples según una manera convencional, lo cual da como resultado valores de parámetros para cada uno de los canales múltiples. A continuación, por lo menos la parte de la banda de altas frecuencias

\hbox{codificada de la
señal completa de audio multicanal codificada  se puede tratar según
la invención.}

No obstante, debe entenderse que para evitar un desequilibrio entre la banda baja de frecuencias y la banda alta de frecuencias, por ejemplo, un desequilibrio en el nivel de la señal, también pueden tratarse según la invención valores de parámetros multicanal de una parte de banda baja de frecuencias de la señal completa. Alternativamente, en principio, podrían no descartarse los valores de parámetros correspondientes a canales silenciosos en la banda de alta frecuencias que influyen en el nivel de la señal, sino únicamente los valores de parámetros correspondientes a canales silenciosos que influyen en las características espectrales de la señal.

La invención se puede implementar por ejemplo, aunque no de forma exclusiva, en un sistema de codificación basado en la AMR-WB+.

A partir de la siguiente descripción detallada haciendo referencia con los dibujos adjuntos se pondrán de manifiesto otros objetivos y características de la presente invención.

Breve descripción de las figuras

La Figura 1 es un diagrama de bloques esquemático de un sistema de codificación con división de banda;

la Figura 2 es un diagrama de la respuesta en frecuencia de un banco de filtros de dos bandas;

la Figura 3 es un diagrama de bloques esquemático de un decodificador de banda alta convencional para una conversión de estereofonía a monofonía;

la Figura 4 es un diagrama de bloques esquemático de un decodificador de banda alta para una conversión de estereofonía a monofonía;

la Figura 5 es un diagrama que ilustra la respuesta en frecuencia para señales estereofónicas y para la señal monofónica que resulta con el decodificador de banda alta de la Figura 4;

la Figura 6 es un diagrama de bloques esquemático de un decodificador de banda alta para la conversión de estereofonía a monofonía según una de las formas de realización de la invención;

la Figura 7 es un diagrama de flujo que ilustra el funcionamiento en un sistema que utiliza el decodificador de banda alta de la Figura 6;

la Figura 8 es un diagrama de flujo que ilustra una primera opción para la combinación de parámetros en el diagrama de flujo de la figura 7; y

la Figura 9 es un diagrama de flujo que ilustra una segunda opción para la combinación de parámetros en el diagrama de flujo de la Figura 7.

Descripción detallada de la invención

Se considera que la invención se implementará en el sistema de la Figura 1, al que por lo tanto se hará referencia en adelante. Al codificador de audio 10 se le suministra una señal de audio de entrada estereofónica 1 para su codificación, mientras que el decodificador de audio 20 debe suministrar una señal de audio monofónica decodificada 3 para su presentación.

Para poder suministrar dicha señal de audio monofónica 3 con una baja carga de procesado, el decodificador de banda alta 22 del sistema se puede realizar de la manera siguiente.

La Figura 4 es un diagrama de bloques esquemático de este decodificador de banda alta 22. Una entrada de excitación de banda baja del decodificador de banda alta 22 está conectada a través de un mezclador 40 y un filtro de síntesis LPC 41 a la salida del decodificador de banda alta 22. El decodificador de banda alta 22 comprende adicionalmente un bloque de promediado de ganancia 42 el cual está conectado al mezclador y un bloque de promediado LPC 43 el cual está conectado al filtro de síntesis LPC 41.

El sistema funciona de la manera siguiente.

Una señal estereofónica introducida en el codificador de audio 10 es dividida por el banco de filtros de análisis de dos bandas 11 en una banda baja de frecuencias y una banda alta de frecuencias. Un codificador de banda baja 11 codifica la señal de audio de banda baja de frecuencias tal como se ha descrito anteriormente. Un codificador de banda alta AMR-WB+ 12 codifica la señal estereofónica de banda alta por separado para los canales izquierdo y derecho. Más específicamente, determina factores de ganancia y coeficientes de predicción lineal para cada uno de los canales tal como se ha descrito anteriormente.

La señal de banda baja de frecuencias monofónica codificada, los valores de los parámetros de la banda baja de frecuencias estereofónicos y los valores de los parámetros de la banda alta de frecuencias estereofónicos se transmiten en un flujo continuo de bits 2 hacia el decodificador de audio 20.

El decodificador de banda baja 21 recibe la parte de la banda baja de frecuencias del flujo continuo de bits para su decodificación. En esta decodificación, dicho decodificador omite los parámetros de estereofonía y decodifica únicamente la parte monofónica. El resultado es una señal de audio de banda baja de frecuencias monofónica.

El decodificador de banda alta 22 recibe por un lado los valores de los parámetros de la banda alta de frecuencias del flujo continuo de bits transmitido y por otro lado la señal de excitación de banda baja obtenida a la salida del decodificador de banda baja 21.

Los parámetros de la banda alta de frecuencias comprenden respectivamente un factor de ganancia del canal izquierdo, un factor de ganancia del canal derecho, coeficientes LPC del canal izquierdo y coeficientes LPC del canal derecho. En el bloque de promediado de ganancia 42, se promedian los factores de ganancia respectivos para el canal izquierdo y el canal derecho, y el mezclador 40 usa el factor de ganancia medio para escalar la señal de excitación de banda baja. La señal resultante se suministra para el filtrado al filtro de síntesis LPC 41.

En el bloque de promediado LPC 43, se combinan los coeficientes de predicción lineal respectivos para el canal izquierdo y el canal derecho. En la AMR-WB+, la combinación de los coeficientes LPC de ambos canales se puede realizar, por ejemplo, calculando la media sobre los coeficientes recibidos en el dominio del Par Espectral de Inmitancia (ISP). A continuación, los coeficientes medios se usan para configurar el filtro de síntesis LPC 41, al cual se somete la señal escalada de excitación de banda baja.

La señal de excitación de banda baja escalada y filtrada forma la señal de audio de banda alta monofónica deseada.

La señal de audio de banda baja monofónica y la señal de audio de banda alta monofónica se combinan en el banco de filtros de síntesis de dos bandas 23, y se da salida a la señal sintetizada resultante 3 para su presentación.

En comparación con un sistema que utilice el codificador de banda alta de la Figura 3, un sistema que utilice el codificador de banda alta de la Figura 4 presenta la ventaja de que únicamente requiere aproximadamente la mitad del poder de procesado para generar la señal sintetizada ya que la misma se genera únicamente una vez.

\newpage

No obstante, debe señalarse que sigue existiendo el problema mencionado anteriormente que consiste en una posible atenuación en la señal combinada en el caso de una entrada de audio estereofónica que tenga una señal activa en solamente uno de los canales.

Además, para señales de entrada de audio estereofónicas con solamente un canal activo, el promediado de los coeficientes de predicción lineal conlleva un efecto colateral no deseado de "aplanamiento" del espectro en la señal combinada resultante. En lugar de presentar las características espectrales del canal activo, la señal combinada presenta unas características espectrales algo distorsionadas debido a la combinación del espectro "real" del canal activo y un espectro prácticamente plano o de tipo aleatorio del canal silencioso.

Este efecto se ilustra en la Figura 5. La Figura 5 es un diagrama que representa la amplitud con respecto a la frecuencia para tres respuestas en frecuencia diferentes del filtro de síntesis LPC calculadas sobre una trama de 80 ms. Una línea continua representa la respuesta en frecuencia del filtro de síntesis LPC de un canal activo. Una línea de puntos representa la respuesta en frecuencia del filtro de síntesis LPC de un canal silencioso. Una línea de trazos representa la respuesta en frecuencia del filtro de síntesis LPC que resulta cuando se promedian los módulos LPC de ambos canales en el dominio ISP. Puede observarse que el filtro LPC promediado crea un espectro el cual no se parece mucho a ninguno de los espectros reales. En la práctica este fenómeno se puede percibir como una reducción de la calidad de audio en la banda alta de frecuencias.

Para poder proporcionar una señal de audio monofónica 3 no solamente con una baja carga de procesado sino además evitando las limitaciones que no se resuelven con el decodificador de banda alta de la Figura 4, el decodificador de banda alta 22 del sistema de la Figura 1 se puede realizar de acuerdo con una de las formas de realización de la invención.

La Figura 6 es un diagrama de bloques esquemático de dicho decodificador de banda alta 22. Una entrada de excitación de banda baja del decodificador de banda alta 22 está conectada a través de un mezclador 60 y un filtro de síntesis LPC 61 a la salida del decodificador de banda alta 22. El decodificador de banda alta 22 comprende además un módulo lógico de selección de ganancia 62 que está conectado al mezclador 60, y un módulo lógico de selección LPC 63 que está conectado al filtro de síntesis LPC 61.

A continuación se describirá el procesado en un sistema que utiliza el codificador de banda alta 22 de la Figura 6 haciendo referencia a la Figura 7. La Figura 7 es un diagrama de flujo que representa, en su parte superior, el procesado en el codificador de audio 10 y, en su parte inferior, el procesado en el decodificador de audio 20 del sistema. La parte superior y la parte inferior están divididas por una línea de trazos horizontal.

El banco de filtros de análisis de dos bandas 11 divide una entrada de la señal de audio estereofónica 1 hacia el codificador en una banda baja de frecuencias y una banda alta de frecuencias. Un codificador de banda baja 12 codifica la banda baja de frecuencias. Un codificador de banda alta AMR-WB+ 13 codifica la banda alta de frecuencias por separado para los canales izquierdo y derecho. Más específicamente, determina factores de ganancia dedicados y coeficientes de predicción lineal para ambos canales como parámetros de banda alta de frecuencias.

La señal de banda baja de frecuencias monofónica codificada, los valores de los parámetros de la banda baja de frecuencias de estereofonía y los valores de los parámetros de la banda alta de frecuencia de estereofonía se transmiten en un flujo continuo de bits 2 hacia el decodificador de audio 20.

El decodificador de banda baja 21 recibe la parte del flujo continuo de bits 2 relacionada con la banda baja de frecuencias, y decodifica dicha parte. En la decodificación, el decodificador de banda baja 21 omite los parámetros de estereofonía recibidos y decodifica únicamente la parte monofónica. El resultado es una señal de audio monofónica de banda baja.

El decodificador de banda alta 22 recibe por un lado un factor de ganancia del canal izquierdo, un factor de ganancia del canal derecho, coeficientes de predicción lineal para el canal izquierdo y coeficientes de predicción lineal para el canal derecho, y por otro lado la señal de excitación de banda baja obtenida a la salida del decodificador de banda baja 21. La ganancia del canal izquierdo y la ganancia del canal derecho se usan al mismo tiempo como información de actividad del canal. Debe indicarse que, alternativamente, el codificador de banda alta 13 podría proporcionar como parámetro adicional alguna otra información de actividad del canal que indique la distribución de actividad en la banda alta de frecuencias para el canal izquierdo y el canal derecho.

Se evalúa la información de actividad del canal, y el módulo lógico de selección de ganancia 62 combina en un único factor de ganancia los factores de ganancia correspondientes al canal izquierdo y al canal derecho según dicha evaluación. A continuación, la ganancia seleccionada se aplica a la señal de excitación de la banda baja de frecuencias suministrada por el decodificador de banda baja 21 por medio del mezclador 60.

Por otra parte, el módulo lógico de selección de modelo LPC 63 combina los coeficientes LPC correspondientes al canal izquierdo y al canal derecho según la evaluación, en un único conjunto de coeficientes LPC. El modelo LPC combinado se suministra al filtro de síntesis LPC 61. El filtro de síntesis LPC 61 aplica el modelo LPC seleccionado a la señal de excitación de la banda baja de frecuencias, escalada, suministrada por el mezclador 60.

A continuación, la señal resultante de audio de banda alta de frecuencias se combina en el banco de filtros de síntesis de dos bandas 23 con la señal de audio de la banda baja de frecuencias, monofónica, en una señal de audio monofónica de banda completa, a la cual se le puede dar salida para su presentación por parte de un dispositivo o una aplicación que no sea capaz de procesar señales de audio estereofónicas.

La evaluación propuesta de la información de actividad del canal y la subsiguiente combinación de los valores de los parámetros, que se indican en el diagrama de flujo de la Figura 7 en forma de un bloque con líneas dobles, se pueden implementar de diferentes maneras. Se presentarán dos opciones haciendo referencia a los diagramas de flujo de las Figuras 8 y 9.

En la primera opción ilustrada en la Figura 8, en primer lugar los factores de ganancia correspondientes al canal izquierdo se promedian sobre la duración de una trama, y del mismo modo, los factores de ganancia correspondientes al canal derecho se promedian sobre la duración de una trama.

A continuación, la ganancia promediada del canal derecho se resta de la ganancia promediada del canal izquierdo, dando como resultado una cierta diferencia de ganancia para cada trama.

En el caso de que la diferencia de ganancia sea inferior a un primer valor de umbral, los factores de ganancia combinados para esta trama se fijan de manera que sean iguales a los factores de ganancia proporcionados para el canal derecho. Por otra parte, los modelos LPC combinados correspondientes a esta trama se fijan de manera que sean iguales a los modelos LPC proporcionados para el canal derecho.

En el caso de que la diferencia de ganancia sea mayor que un segundo valor de umbral, los factores de ganancia combinados correspondientes a esta trama se fijan de manera que sean iguales a los factores de ganancia proporcionados para el canal izquierdo. Por otra parte, los modelos LPC combinados correspondientes a esta trama se fijan de manera que sean iguales a los modelos LPC proporcionados para el canal izquierdo.

En la totalidad del resto de casos, los factores de ganancia combinados correspondientes a esta trama se fijan de manera que sean iguales a la media con respecto al factor de ganancia respectivo para el canal izquierdo y el factor de ganancia respectivo para el canal derecho. Los modelos LPC combinados para esta trama se fijan de manera que sean iguales a la media con respecto al modelo LPC respectivo para el canal izquierdo y el modelo LPC respectivo para el canal derecho.

El primer valor de umbral y el segundo valor de umbral se seleccionan dependiendo de la sensibilidad y tipo requeridos de la aplicación para la cual se necesita la conversión de estereofonía a monofonía. Son valores adecuados, por ejemplo, -20 dB para el primer valor de umbral y 20 dB para el segundo valor de umbral.

De este modo, si uno de los canales se puede considerar como un canal silencioso mientras que el otro canal se puede considerar como un canal activo durante una trama respectiva, debido a las grandes diferencias en los factores de ganancia medios, los factores de ganancia y los modelos LPC del canal silencioso se desprecian para la duración correspondiente a la trama. Esto es posible gracias a que el canal silencioso no presenta ninguna contribución audible a la salida de audio mezclada. Dicha combinación de valores de parámetros garantiza que las características espectrales y el nivel de la señal son lo más cercanos posibles al canal activo respectivo.

Debe indicarse que en lugar de omitir los parámetros de estereofonía, el decodificador de banda baja también podría formar valores de parámetros combinados y aplicarlos a la parte monofónica de la señal, exactamente tal como se ha descrito para el procesado de la banda alta de frecuencias.

En la segunda opción de la combinación de valores de parámetros ilustrada en la Figura 9, los factores de ganancia para el canal izquierdo y los valores de ganancia para el canal derecho, respectivamente, también se promedian con respecto a la duración de una trama.

A continuación, la ganancia promediada del canal derecho se resta de la ganancia promediada del canal izquierdo, dando como resultado una cierta diferencia de ganancia para cada una de las tramas.

En el caso de que la diferencia de ganancia sea menor que un primer valor de umbral bajo, los modelos LPC combinados correspondientes a esta trama se fijan de manera que sean iguales a los modelos LPC proporcionados para el canal derecho.

En el caso de que la diferencia de ganancia sea mayor que un segundo valor de umbral alto, los modelos LPC combinados correspondientes a esta trama se fijan de manera que sean iguales a los modelos LPC proporcionados para el canal izquierdo.

En la totalidad del resto de casos, los modelos LPC combinados correspondientes a esta trama se fijan de manera que sean iguales a la media con respecto al modelo LPC respectivo para el canal izquierdo y el modelo LPC respectivo para el canal derecho.

\newpage

En cualquiera de los casos, los factores de ganancia combinados correspondientes a la trama se fijan de manera que sean iguales a la media con respecto al factor de ganancia respectivo para el canal izquierdo y al factor de ganancia respectivo para el canal derecho.

Los coeficientes LPC tienen un efecto directo únicamente sobre las características espectrales de la señal sintetizada. De este modo, la combinación únicamente de los coeficientes LPC da como resultado las características espectrales deseadas, aunque no resuelve el problema de la atenuación de la señal. No obstante, esta opción presenta la ventaja de que se conserva el equilibrio entre la banda baja de frecuencias y la banda alta de frecuencias, en el caso de que la banda baja de frecuencias no se mezcle según la invención. La conservación del nivel de la señal en la banda alta de frecuencias cambiaría el equilibrio entre las bandas bajas de frecuencias y las bandas altas de frecuencias introduciendo señales con una sonoridad relativamente demasiado elevada en la banda alta de frecuencias, derivando así en una posible reducción de la calidad subjetiva del audio.

Claims

1. Método de síntesis de una señal de audio monofónica sobre la base de una señal de audio multicanal codificada disponible, comprendiendo dicha señal de audio multicanal codificada por lo menos para una parte de una banda de audiofrecuencia valores de parámetros independientes para cada uno de los canales de dicha señal de audio multicanal, comprendiendo dicho método por lo menos para una parte de una banda de audiofrecuencia:

-: combina los valores de parámetros de dichos canales múltiples en el dominio de los parámetros; y

-: utilizar dichos valores de parámetros combinados para sintetizar una señal de audio monofónica;

en el que la combinación de dichos valores de parámetros se controla para por lo menos un parámetro basándose en información sobre la actividad respectiva en dichos canales múltiples.

2. Método según la reivindicación 1, en el que dichos parámetros comprenden factores de ganancia para cada uno de dichos canales múltiples y coeficientes de predicción lineal para cada uno de dichos canales múltiples.

3. Método según una de las reivindicaciones anteriores, en el que dicha información sobre la actividad respectiva en dichos canales múltiples incluye por lo menos uno de entre:

-: un factor de ganancia para cada uno de dichos canales múltiples;

-: una combinación de factores de ganancia durante un periodo breve de tiempo para cada uno de dichos canales múltiples;

-: los coeficientes de predicción lineal para cada uno de dichos canales múltiples;

-: el nivel de energía en por lo menos parte de la banda de frecuencias de dicha señal de audio multicanal para cada uno de dichos canales múltiples; y

-: la información colateral independiente sobre dicha actividad recibida desde un extremo codificador que proporciona dicha señal de audio multicanal codificada.

4. Método según una de las reivindicaciones anteriores, en el que en el caso de que dicha información sobre la actividad en dichos canales múltiples indique que la actividad en un primero de entre dichos canales múltiples es considerablemente menor que en por lo menos otro de dichos canales múltiples, se desprecia el valor de por lo menos un parámetro que esté disponible para dicho primer canal.

5. Método según la reivindicación 4, en el que en el caso de que dicha información sobre la actividad en dichos canales múltiples indique que la actividad en un primero de entre dichos canales múltiples es considerablemente menor que en por lo menos otro de dichos canales múltiples, se promedian los valores de por lo menos otro parámetro que estén disponibles para dichos canales múltiples.

6. Método según una de las reivindicaciones anteriores, en el que en el caso de que dicha información sobre la actividad en dichos canales múltiples no indique que la actividad en uno de dichos canales múltiples es considerablemente menor que en por lo menos otro de dichos canales múltiples, se promedian los valores de dichos parámetros que están disponibles para dichos canales múltiples.

7. Método según una de las reivindicaciones anteriores, en el que dicha señal multicanal es una señal estereo-
fónica.

8. Método según una de las reivindicaciones anteriores, que comprende las etapas anteriores que consisten en dividir una señal de audio multicanal original en una señal de banda baja de frecuencias y una señal de banda alta de frecuencias, codificar dicha señal de baja frecuencia, y codificar dicha señal de banda alta de frecuencias por separado para dichos canales múltiples, dando como resultado dichos valores de parámetros para cada uno de dichos canales múltiples, en el que por lo menos los valores de los parámetros resultantes para dicha señal de banda alta de frecuencias se combinan para sintetizar dicha señal de audio monofónica.

9. Decodificador de audio para sintetizar una señal de audio monofónica sobre la base de una señal de audio multicanal codificada disponible, comprendiendo dicha señal de audio multicanal codificada por lo menos para una parte de la banda de frecuencias de una señal de audio multicanal original valores de parámetros independientes para cada uno de los canales de dicha señal de audio multicanal, comprendiendo dicho decodificador de audio:

-: por lo menos una parte de selección de parámetros adaptada para combinar valores de parámetros de dichos canales múltiples en el dominio de los parámetros por lo menos para una parte de la banda de frecuencias de dicha señal de audio multicanal; y

-: una parte de síntesis de señales de audio adaptada para sintetizar una señal de audio monofónica por lo menos para una parte de la banda de frecuencias de dicha señal de audio multicanal basándose en valores de parámetros combinados proporcionados por dicha por lo menos una parte de selección de parámetros;

en el que dicha parte de selección de parámetros está adaptada para combinar dichos valores de parámetros para por lo menos un parámetro basándose en información sobre la actividad respectiva en dichos canales múltiples.

10. Decodificador de audio según la reivindicación 9, en el que dichos parámetros comprenden factores de ganancia para cada uno de dichos canales múltiples y coeficientes de predicción lineal para cada uno de dichos canales múltiples.

11. Decodificador de audio según una de las reivindicaciones 9 a 10, en el que dicha información sobre la actividad respectiva en dichos canales múltiples incluye por lo menos uno de entre:

-: un factor de ganancia para cada uno de dichos canales múltiples;

-: coeficientes de predicción lineal para cada uno de dichos canales múltiples;

-: el nivel de energía en por lo menos parte de la banda de frecuencias de dicha señal de audio multicanal para cada uno de dichos canales múltiples; e

-: información colateral independiente sobre dicha actividad recibida desde un extremo codificador que proporciona dicha señal de audio multicanal codificada.

12. Decodificador de audio según una de las reivindicaciones 9 a 11, en el que dicha parte de selección de parámetros está adaptada para despreciar en dicha combinación el valor de por lo menos un parámetro que esté disponible para un primero de entre dichos canales múltiples, en el caso de que dicha información sobre la actividad en dichos canales múltiples indique que la actividad en dicho primer canal es considerablemente menor que en por lo menos otro de dichos canales múltiples.

13. Decodificador de audio según la reivindicación 12, en el que dicha parte de selección de parámetros está adaptada para promediar los valores de por lo menos otro parámetro que estén disponibles para dichos canales múltiples en dicha combinación, en el caso de que dicha información sobre la actividad en dichos canales múltiples indique que la actividad en un primero de entre dichos canales múltiples es considerablemente menor que en por lo menos otro de dichos canales múltiples.

14. Decodificador de audio según una de las reivindicaciones 9 a 13, en el que dicha parte de selección de parámetros está adaptada para promediar los valores de dichos parámetros que están disponibles para dichos canales múltiples, en el caso de que dicha información sobre la actividad en dichos canales múltiples no indique que la actividad en uno de dichos canales múltiples es considerablemente menor que en por lo menos otro de dichos canales múltiples.

15. Decodificador de audio según una de las reivindicaciones 9 a 14, en el que dicha señal multicanal es una señal estereofónica.

16. Terminal móvil que comprende un decodificador de audio según una de las reivindicaciones 9 a 15.

17. Sistema de codificación que incluye un codificador de audio que proporciona una señal de audio multicanal codificada, comprendiendo dicha señal de audio multicanal codificada por lo menos para una parte de la banda de frecuencias de una señal de audio multicanal original valores de parámetros independientes para cada uno de los canales de dicha señal de audio multicanal, y un decodificador de audio según una de las reivindicaciones 9 a 15.

18. Sistema de codificación según la reivindicación 17, en el que dicho codificador de audio comprende un componente de evaluación adaptado para determinar información sobre la actividad en dichos canales múltiples y adaptado para proporcionar dicha información para ser usada por dicho decodificador de audio.

19. Producto de programa de software en el que se almacena un código de software para sintetizar una señal de audio monofónica sobre la base de una señal de audio multicanal codificada disponible, comprendiendo dicha señal de audio multicanal codificada por lo menos para una parte de la banda de frecuencias de una señal de audio multicanal original valores de parámetros independientes para cada uno de los canales de dicha señal de audio multicanal, realizando dicho código de software las etapas del método según una de las reivindicaciones 1 a 8 cuando se ejecuta en un decodificador de audio.