ES2093250T5

ES2093250T5 - Descodificador para la presentacion por un numero variable de canales de campos de sonido multidimensional.

Info

Publication number: ES2093250T5
Application number: ES92903819T
Authority: ES
Inventors: Mark Franklin Davis; Craig Campbell Todd
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 1991-01-08
Filing date: 1992-01-08
Publication date: 2005-04-01
Anticipated expiration: 2012-01-08
Also published as: ATE144364T1; EP0519055B2; DE69214523T3; CA2077668A1; US5400433A; JPH05505504A; AU649786B2; JP3197012B2; KR920704540A; ES2093250T3; AU1194292A; CA2077668C; EP0519055B1; DK0519055T3; DE69214523T2; KR100228687B1; WO1992012608A1; DE69214523D1; US5274740A; SG49884A1

Abstract

LA INVENCION SE REFIERE EN GENERAL A LA REPRESENTACION DE SEÑALES MULTIPLEX. DE MANERA MAS PARTICULAR, ESTA INVENCION SE REFIERE A LA DECODIFICACION DE SEÑALES DE AUDIO MULTIPLEX QUE REPRESENTAN CAMPOS ACUSTICOS MULTIDIMENSIONALES MEDIANTE UNO O MAS CANALES DE SALIDA, EN DONDE LA COMPLEJIDAD DE LA DECODIFICACION ES LIGERAMENTE PROPORCIONAL AL NUMERO DE CANALES UTILIZADAS PARA PRESENTAR LA SEÑAL DECODIFICADA QUE PUEDE SER DIFERENTE DEL NUMERO DE CANALES DE SALIDA.

Description

Descodificador para la presentación por un número variable de canales de campos de sonido multidimensional.

Campo técnico

La invención se refiere en general a la reproducción de señales multicanal. Más en particular, la invención se refiere a la descodificación de señales acústicas multicanal que representan campos de sonido multidimensionales expedidos por dos o más canales de expedición, en que la complejidad de la descodificación es aproximadamente proporcional al número de canales usado para presentar la señal descodificada, que puede diferir del número de canales de expedición.

Antecedentes de la técnica

Un objetivo para una reproducción de alta fidelidad de sonidos grabados o transmitidos es la presentación en otro tiempo o posición tan fielmente como sea posible de una representación de un campo de sonido "original", dadas las limitaciones del sistema de presentación o reproducción. Un campo de sonido es definido como un conjunto de presiones de sonido que son una función del tiempo y el espacio. De este modo, la reproducción de alta fidelidad pretende recrear las presiones acústicas que existían en el campo de sonido original en una región en torno a un oyente.

Idealmente, las diferencias entre el campo de sonido original y el campo de sonido reproducido son inaudibles, o si no son inaudibles pasan por lo menos relativamente desapercibidas para la mayoría de los oyentes. Dos medidas generales de fidelidad son la "calidad del sonido" y la "localización del campo de sonido".

La calidad del sonido incluye características de reproducción tales como el intervalo de frecuencias (anchura de banda), la precisión de los niveles relativos de amplitud a través del intervalo de frecuencias (timbre), el intervalo de niveles de amplitud de sonido (intervalo dinámico), la precisión de la fase y la amplitud armónicas (nivel de distorsión), y el nivel de amplitud y la frecuencia de sonidos espúreos y artificios no presentes en el sonido original (ruido). Aunque la mayoría de los aspectos de la calidad del sonido son susceptibles de ser medidos por instrumentos, en los sistemas prácticos las características del sistema de audición humano (efectos psicoacústicos) hacen inaudibles o hacen pasar relativamente desapercibidas ciertas desviaciones medibles o mensurables respecto a los sonidos "originales".

La localización del campo de sonido es una medida de fidelidad espacial. La preservación de la dirección aparente (tanto acimut como elevación) y de la distancia de una fuente de sonido es conocida algunas veces como localización angular y de profundidad, respectivamente. En el caso de ciertas grabaciones de orquestas y otras grabaciones, esta localización pretende transmitir al oyente la situación física real de los músicos y sus instrumentos. Con respecto a otras grabaciones, en particular grabaciones de múltiples pistas producidas en un estudio, la direccionalidad angular y la profundidad pueden no albergar ninguna relación con cualquier disposición "real" de fuentes de sonido y la localización es meramente una parte de la impresión artística general que se pretende transmitir al oyente. Por ejemplo, una voz que parece originarse en un punto específico en el espacio puede ser añadida a un campo de sonido pregrabado. En cualquier caso, un propósito de los sistemas de reproducción multicanal de alta fidelidad es reproducir aspectos espaciales de un campo de sonido en desarrollo, sea real o sintetizado. En lo que respecta a la calidad del sonido, en los sistemas prácticos las variaciones medibles en la localización son, bajo ciertas condiciones, inaudibles o pasan relativamente desapercibidas debido a las características de la audición humana.

Es suficiente reconocer que un productor de campos de sonido puede desarrollar señales grabadas o transmitidas que, en conjunción con un sistema de reproducción, presentarán a un oyente humano un campo de sonido que posee características específicas en calidad de sonido y localización del campo de sonido. El campo de sonido presentado al oyente puede constituir una aproximación estrecha del campo de sonido ideal pretendido por el productor o puede desviarse de él dependiendo de muchos factores que incluyen el equipo de reproducción y el entorno acústico de reproducción.

Un campo de sonido capturado para la transmisión o la reproducción es representado habitualmente en algún punto por una o más señales eléctricas. Tales señales constituyen usualmente uno o más canales en el punto de captura del campo de sonido ("canales de captura"), en el punto de transmisión o grabación del campo de sonido ("canales de transmisión"), y en el punto de presentación del campo de sonido ("canales de presentación"). Aunque dentro de algunos límites cuando el número de estos canales de sonido se incrementa, la capacidad para reproducir campos de sonido complejos se incrementa, consideraciones prácticas imponen límites al número de tales canales.

En la mayoría de los casos, si no en todos, el productor de campos de sonido trabaja en un sistema relativamente bien definido en el cual hay entornos y configuraciones de canales de presentación conocidos. Por ejemplo, se espera generalmente que una grabación estereofónica de dos canales sea presentada a través o bien de dos canales de presentación ("estereofónica") o de un canal de presentación ("monofónica"). La grabación es optimizada habitualmente para sonar bien a la mayoría de los oyentes que tienen un equipo de reproducción o bien estereofónico o bien monofónico. Como otro ejemplo, una grabación de múltiples canales en estéreo con sonido de ambiente para películas es realizada suponiendo que los cines tendrán o bien una disposición conocida, generalmente estándar para presentar los canales izquierdo, central, derecho, bajo y de ambiente o bien, alternativamente, una reproducción monofónica "Academy" clásica. Tales grabaciones son realizadas también suponiendo que serán reproducidas por equipos domésticos de reproducción que abarcan desde sistemas de un único canal de presentación tales como un pequeño altavoz en un equipo de televisión hasta sistemas relativamente sofisticados de múltiples canales de presentación con sonido de ambiente.

Se usan a veces diversas técnicas para reducir el número de canales de transmisión requeridos para transportar señales que representan campos de sonido multidimensionales. Un ejemplo de una técnica tal es un sistema de matrices 4-2-4 que combina cuatro canales en dos canales de transmisión para la transmisión o el almacenamiento, de los cuales son extraídos cuatro canales de presentación para la reproducción. Idealmente, tales técnicas no deben crear variaciones audibles en el campo de sonido cuando es presentado.

Tales técnicas pueden ser usadas sin desviarse del alcance de la presente invención; sin embargo, puede no ser siempre deseable hacerlo. El uso de estas técnicas hace necesario desarrollar el concepto de un "canal de expedición". Un canal de expedición representa un canal discreto de codificador, o un conjunto de información que es codificada independientemente. Un canal de expedición corresponde a un canal de transmisión en sistemas que no usan técnicas para reducir el número de canales de transmisión. Por ejemplo, un sistema de matrices 4-2-4 lleva cuatro canales de expedición sobre dos canales de transmisión, ostensiblemente para la reproducción utilizando cuatro canales de presentación. La presente invención está dirigida hacia la selección de un número de canales de presentación que difiere del número de canales de expedición.

Un ejemplo de una técnica simple que genera un canal de presentación en respuesta a dos canales de expedición es la suma de dos canales de expedición para formar un canal de presentación. Si una señal es muestreada y codificada digitalmente utilizando la modulación por impulsos codificados (MIC), la suma de dos canales de expedición puede ser realizada en el dominio digital añadiendo muestras de MIC que representan a cada canal y convirtiendo las muestras sumadas en una señal analógica mediante la utilización de un convertidor de digital a analógico (CDA). La suma de dos señales codificadas en MIC puede ser realizada también en el dominio analógico convirtiendo las muestras de MIC para cada canal de expedición en una señal analógica mediante la utilización de dos convertidores CDA y sumando las dos señales analógicas. Se prefiere habitualmente realizar la suma en el dominio digital porque un sumador digital es generalmente más preciso y menos costoso de implementar que utilizar un segundo CDA de alta precisión.

Esta técnica se hace mucho más compleja, sin embargo, si las muestras de señales son codificadas digitalmente en una forma no lineal en vez de ser codificadas en MIC lineal. Formas no lineales puede ser generadas por métodos de codificación tales como cuantificación logarítmica, normalización de representaciones en coma flotante, y asignación adaptativa de bits para representar cada muestra.

Las representaciones no lineales son usadas frecuentemente en sistemas de codificador/descodifica-
dor para reducir la cantidad de información requerida para representar la señal codificada. Tales representaciones pueden ser transportadas por canales de transmisión con capacidad de información reducida, tales como vías de transmisión de menor anchura de banda o ruidosas, o por medios de grabación con menor capacidad de almacenamiento.

Las representaciones no lineales no necesitan reducir los requerimientos de información. Pueden ser usadas varias formas de empaquetamiento de la información sólo para facilitar la detección y corrección de errores de transmisión. Los términos amplios "formateado" y "formatear" serán usados aquí para hacer referencia a representaciones no lineales y para obtener tales representaciones, respectivamente. Los términos "desformateado" y "desformatear" harán referencia a representaciones lineales reconstruidas y a la obtención de tales representaciones lineales reconstruidas, respectivamente.

Debe mencionarse que lo que constituye una representación "lineal" depende de los métodos de procesamiento de señales empleados. Por ejemplo, una representación en coma flotante es lineal para un procesador de señales digitales (PSD) que puede realizar aritmética con operandos en coma flotante, pero tal representación es no lineal para un PSD que sólo puede realizar aritmética de enteros. El significado de "lineal" será discutido adicionalmente en conexión con los modos para llevar a cabo la invención, más adelante.

Un descodificador debe utilizar técnicas de desformateado inversas a las técnicas de formateado utilizadas para formatear la información para obtener una representación como la MIC que puede ser sumada como se ha descrito arriba.

Dos técnicas de codificación que utilizan el formateado para reducir los requerimientos de información son la codificación de subbanda y la codificación de transformada. Los codificadores de subbanda y de transformada intentan reducir la cantidad de información transmitida en bandas de frecuencia particulares en que la imprecisión de codificación o el ruido de codificación resultante es enmascarado psicoacústicamente por componentes espectrales contiguos. Los efectos de enmascaramiento psicoacústico usualmente pueden ser explotados de modo más eficiente si las anchuras de banda de las bandas de frecuencia son elegidas de modo conmensurable con las anchuras de banda de las "bandas críticas" del oído humano. Véase, en general, el Audio Engineering Handbook, K. Blair Benson ed., McGraw-Hill, San Francisco, 1988, páginas 1.40-1.42 y 4.8-4.10. En toda la descripción que sigue, el término "subbanda" se referirá a partes de la anchura de banda de la señal útil, implementadas bien por un codificador de subbanda auténtica, por un codificador de transformada, o por otra técnica. El término "codificador de subbanda" se referirá a los codificadores de subbanda auténtica, codificadores de transformada, u otras técnicas que trabajan sobre dichas "subbandas".

Las señales en una forma formateada no pueden ser sumadas directamente; por lo tanto, cada uno de los dos canales de expedición debe ser descodificado antes de que puedan ser combinados por suma. Generalmente, las técnicas de descodificación tales como la descodificación de subbanda son relativamente costosas de implementar. Por lo tanto, la presentación monofónica de una señal de dos canales cuesta aproximadamente el doble que una presentación monofónica de una señal de un canal. El coste es aproximadamente el doble porque se necesita un descodificador costoso para cada canal de expedición.

Un método de la técnica anterior que evita gravar el coste de la presentación monofónica de señales de dos canales es la aplicación de matrices. Es importante distinguir la aplicación de matrices para reducir el número de canales de presentación de la aplicación de matrices para reducir el número de canales de transmisión. Aunque son matemáticamente similares, cada técnica está dirigida a muy diferentes aspectos de la transmisión y reproducción de señales.

Un ejemplo simple de la aplicación de matrices codifica dos canales, A y B, en unos canales de expedición de SUMA y DIFERENCIA de acuerdo con

SUMA = A + B,

y

DIFERENCIA = A - B.

Para una reproducción estereofónica de dos canales, un sistema de presentación puede obtener la señal de dos canales original utilizando dos descodificadores para descodificar cada canal de expedición y desaplicando las matrices de los canales descodificados de acuerdo con

A' = 1/2 \cdot(SUMA + DIFERENCIA),

y

B' = 1/2 \cdot(SUMA - DIFERENCIA).

La notación A' y B' es usada para representar el hecho de que en los sistemas prácticos, las señales recuperadas al desaplicar las matrices generalmente no corresponden exactamente a las señales originales a las que se aplicaron matrices.

Para una reproducción monofónica, un sistema de presentación puede obtener una suma de la señal original de dos canales utilizando sólo un descodificador para descodificar el canal de expedición de SUMA.

Aunque la aplicación de matrices resuelve el problema del coste desproporcionado de la presentación monofónica de dos canales de expedición, sufre de lo que puede ser percibido como modulación de ruido de canales cruzados cuando se usa en conjunción con técnicas de codificación que reducen los requerimientos de información de la señal codificada. Por ejemplo, la "compresión-expansión" puede ser usada para señales analógicas, y varios métodos de reducción de la velocidad de transmisión de bits pueden ser usados para señales digitales. La aplicación de tales técnicas estimula el ruido en la señal de salida del descodificador. La intención y la expectativa es que este ruido sea enmascarado por la señal acústica que lo estimuló, y por lo tanto que sea inaudible. Cuando tales técnicas son empleadas en señales a las que se han aplicado matrices, la señal de salida de las matrices puede ser incapaz de enmascarar el ruido.

Supóngase que un codificador por matrices codifica los canales A y B, en que sólo el canal B contiene una señal acústica. Normalmente, se introducirá ruido en los canales de SUMA y DIFERENCIA cuando las señales de SUMA y DIFERENCIA son codificadas para la transmisión con un compresor-expansor analógico o una técnica digital de reducción de la velocidad de transmisión de bits. Durante la descodificación, el canal de presentación A' se obtendrá a partir de la suma de los canales de expedición de SUMA y DIFERENCIA. Aunque el canal de presentación A' no contendrá ninguna señal acústica, contendrá la suma del ruido de modulación analógica o el ruido de codificación digital introducido independientemente en cada uno de los canales de expedición de SUMA y de DIFERENCIA. El canal de presentación A' no contendrá ninguna señal acústica para enmascarar psicoacústicamente el ruido. Además, el ruido en el canal A' puede no ser enmascarado por la señal acústica en el canal B' porque el oído puede discernir habitualmente el ruido de las señales acústicas, especialmente cuando el ruido y la señal tienen diferente localización angular.

Otro método de la técnica anterior está expuesto en el documento EP-A-0.372.601 y en Kate, y col., "Digital Audio Carrying Extra Information," ICASSP 90 Proceedings, Abril de 1990, vol. 2, páginas 1097-1100. De acuerdo con esta técnica, una señal acústica primaria es dividida en señales de subbanda y cada señal de subbanda es cuantificada utilizando un valor qstep de paso de cuantificación tal que el ruido de cuantificación resultante está estimado que sea justo inaudible. Una señal auxiliar, preferentemente una que está correlacionada con la señal acústica primaria, es dividida en señales de subbanda y cada señal de subbanda es atenuada y cuantificada en un intervalo de valores desde -1/2 qstep hasta +1/2 qstep y añadida a la respectiva señal de subbanda acústica primaria cuantificada. Las señales de subbanda compuestas son pasadas a través de un banco de filtro de síntesis para generar una señal de banda ancha que tenga un formato compatible con los receptores existentes.

Los receptores con descodificadores especiales pueden recuperar la señal acústica auxiliar cuantificada. El descodificador especial divide la señal de banda ancha en señales de subbanda, determina el mismo valor qstep de paso de cuantificación utilizado en el codificador para recuperar las señales de subbanda acústicas primarias cuantificadas, y obtiene las señales de subbanda acústicas auxiliares a partir de la diferencia entre las dos. La señal acústica auxiliar es recuperada invirtiendo los efectos de la atenuación aplicada en el codificador y aplicando un banco de filtro de síntesis a las señales de subbanda resultantes.

Los receptores existentes pueden reproducir la señal acústica primaria sin descodificadores especiales; la señal acústica especial no es percibida porque está combinada en la señal de banda ancha de una manera tal que está enmascarada por la energía espectral en la señal acústica primaria.

Por un lado, esta técnica proporciona unos costes de implementación muy bajos para receptores que no reproducen la señal acústica auxiliar porque no se necesita ningún descodificador especial. Por otro lado, esta técnica produce unos costes de implementación muy elevados para receptores que reproducen la señal auxiliar, independientemente del número de canales de presentación, porque se necesita tanto un banco de filtro de análisis como un banco de filtro de síntesis para cada señal acústica auxiliar. Además, esta técnica requiere una cuantificación perceptiva y requiere el uso de un formato de señales de banda ancha que puede imponer unos requerimientos de velocidad de transmisión de bits y/o de anchura de banda de canal que no sean óptimos.

Las técnicas usadas para controlar el número de canales de presentación se convierten en un problema aún mayor cuando están implicados más de dos canales de expedición. Por ejemplo, las bandas sonoras de películas contienen típicamente cuatro canales: izquierdo, central, derecho y de ambiente. Algunas propuestas actuales para películas futuras y aplicaciones avanzadas de televisión sugieren cinco canales más un sexto subcanal de frecuencias bajas de anchura de banda limitada. Cuando unas señales de múltiples canales en una forma formateada son expedidas a los consumidores para la reproducción en equipos domésticos monofónicos y de dos canales, surge la cuestión de cómo obtener de modo económico una señal apta para la presentación de uno y dos canales al tiempo que se evita el efecto de modulación de ruido de canales cruzados descrito arriba.

Descripción de la invención

Es un objetivo de la presente invención procurar la descodificación de uno o más canales de expedición de señales codificadas para representar en una forma formateada un campo de sonido multidimensional sin artificios percibidos como modulación de ruido de canales cruzados, en que la complejidad o coste de la descodificación es aproximadamente proporcional al número de canales de presentación. Aunque un descodificador que incorpora la presente invención puede ser implementado utilizando técnicas analógicas o digitales o incluso una combinación híbrida de tales técnicas, la invención es implementada de modo más conveniente utilizando técnicas digitales y las realizaciones preferidas descritas aquí son implementaciones digitales.

De acuerdo con las enseñanzas de la presente invención, en una realización, un descodificador de transformada recibe una señal codificada en una forma formateada que comprende uno o más canales de expedición. Una representación desformateada es generada para cada canal de expedición. Cada canal de información desformateada es distribuido en una o más transformadas inversas para la síntesis de la señal de salida, una transformada inversa para cada canal de presentación.

Como se ha descrito arriba, la presente invención se aplica a codificadores de subbanda implementados por una de varias técnicas. Una implementación preferida utiliza una transformada, más en particular una transformada del dominio de tiempo al dominio de frecuencias de acuerdo con la técnica de cancelación de la enajenación en el dominio de tiempo (TDAC, del inglés "Time Domain Aliasing Cancellation"). Véase Princen y Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation," IEEE Trans. on Acoust., Speech, Signal Proc., vol. ASSP-34, 1986, páginas 1153-1161. Un ejemplo de un sistema de codificador/descodificador por transformada que utiliza una transformada TDAC es proporcionado en la publicación de solicitud de patente internacional número WO 90/09022, publicada el 9 de Agosto de 1990.

Las diversas características de la invención y sus realizaciones preferidas son expuestas en mayor detalle en los siguientes modos para llevar a cabo la invención y en los dibujos adjuntos.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques funcional que ilustra la estructura básica de una realización que incorpora la invención, distribuyendo cuatro canales de expedición en dos canales de presentación.

\newpage

La figura 2 es un diagrama de bloques funcional que ilustra la estructura básica de un descodificador de subbanda de un único canal.

La figura 3 es un diagrama de bloques funcional que ilustra la estructura básica de un descodificador de subbanda de múltiples canales que distribuye cuatro canales de expedición descodificados en dos canales de presentación.

La figura 4 es una diagrama de bloques funcional que ilustra la estructura básica de una realización que incorpora la invención, distribuyendo cuatro canales de expedición en un canal de presentación.

Modos para llevar a cabo la invención

La figura 2 ilustra la estructura básica de un típico descodificador 200 de subbanda de un único canal. Las señales de subbanda codificadas recibidas del canal 202 de expedición son desformateadas a una forma lineal por el desformateador 204, y el sintetizador 206 genera a lo largo del canal 208 de presentación una representación de anchura de banda completa de la señal recibida. Debe apreciarse que una implementación práctica de un descodificador puede incorporar características adicionales tales como un circuito intermedio para el canal 202 de expedición, y un convertidor de digital a analógico y un filtro de paso bajo para el canal 208 de presentación, que no se muestran.

Como se ha mencionado brevemente arriba, el desformateador 204 debe obtener una representación lineal utilizando un método inverso al usado por un codificador acompañante que generó la representación no lineal. En una realización práctica, tales representaciones no lineales son usadas generalmente para reducir los requerimientos de información impuestos sobre los canales de transmisión y los medios de almacenamiento. El desformateado incluye generalmente operaciones simples que pueden ser realizadas de forma relativamente rápida y son relativamente baratas de implementar.

El sintetizador 206 representa un banco de filtro de síntesis para descodificadores digitales de subbanda auténtica, y representa una transformada inversa para descodificadores digitales de transformada. La síntesis de señales para cualquier tipo de descodificador es intensiva desde el punto de vista de cálculo, requiriendo muchas operaciones complejas. De este modo, el sintetizador 206 requiere típicamente mucho más tiempo para sus operaciones e incurre en costes de implementación mucho mayores que los requeridos por el desformateador 204.

La figura 3 ilustra la estructura básica de un descodificador típico que recibe y descodifica cuatro canales de expedición para la presentación por dos canales de expedición. La señal codificada recibida de cada uno de los canales 302a-302d de expedición es pasada a través de respectivamente uno de los descodificadores 300a-300d, que comprenden cada uno respectivamente uno de los desformateadores 304a-304d y respectivamente uno de los sintetizadores 306a-306d, respectivamente. La señal sintetizada es pasada desde cada descodificador a lo largo de respectivamente una de las vías 308a-308d al distribuidor 310, que combina los cuatro canales sintetizados en dos canales de presentación 312a y 312b. El distribuidor 310 incluye generalmente operaciones simples que pueden ser realizadas de modo relativamente rápido utilizando instrumentos que son relativamente baratos de implementar.

La mayoría del coste requerido para implementar el descodificador ilustrado en la figura 3 está representado por los sintetizadores. El número de sintetizadores es igual al número de canales de expedición; así, el coste de implementación es aproximadamente proporcional al número de canales de expedición.

La síntesis de señales es lineal si, ignorando pequeños errores de redondeo aritméticos, las señales combinadas antes de la síntesis producen la misma señal de salida que la producida combinando las señales después de la síntesis. La síntesis es lineal para muchas implementaciones de los descodificadores; por lo tanto, es posible a menudo poner un distribuidor entre los desformateadores y los sintetizadores de un tal descodificador de múltiples canales. Una estructura tal está descrita más plenamente a continuación y está ilustrada en la figura 1. De esta manera, el coste de la implementación es aproximadamente proporcional al número de canales de presentación. Esto es altamente deseable en aplicaciones tales como las propuestas para sistemas de televisión avanzados que pueden recibir cinco canales de expedición, pero que proporcionarán sólo uno o dos canales de presentación.

En este contexto, es posible apreciar mejor el significado del término "lineal" descrito arriba. Brevemente, cualquier representación es considerada lineal si satisface dos criterios: (1) puede constituir una entrada directa para el sintetizador, y (2) permite formar directamente combinaciones lineales tales como suma o resta que satisfacen la propiedad de linealidad para síntesis de señales descrita arriba.

La figura 1 ilustra una realización de un descodificador de acuerdo con la presente invención, que forma dos canales de presentación a partir de cuatro canales de expedición. El descodificador recibe información codificada desde cuatro canales 102a-102d de expedición que desformatea utilizando los desformateadores 104a-104d, uno para cada canal de expedición. El distribuidor 108 combina las señales desformateadas recibidas de las vías 106a-106d en dos señales, que pasa por las vías 110a y 110b a los sintetizadores 112a y 112b, respectivamente. Cada uno de los sintetizadores genera una señal que pasa respectivamente por uno de los canales 114a y 114b de presentación.

Una persona experimentada en la técnica debe apreciar fácilmente que la presente invención puede ser aplicada a una amplia variedad de implementaciones de un descodificador de subbanda auténtica y de transformada. Los detalles de la implementación para desformateadores y sintetizadores están más allá del alcance de esta descripción; sin embargo, uno puede obtener detalles de implementación por referencia a cualquiera de varias solicitudes de patente internacional: publicación número WO 90/09022 publicada el 9 de Agosto de 1990, publicación número WO 90/09064 publicada el 9 de Agosto de 1990, y publicación número WO 91/16769 publicada el 31 de Octubre de 1991.

Una realización de un descodificador de transformada de acuerdo con la presente invención comprende unos desformateadores y sintetizadores sustancialmente similares a los descritos en la publicación número WO 90/09022. De acuerdo con esta realización, en referencia a la figura 1, una señal binaria en serie que comprende coeficientes de transformada en el dominio de frecuencias, agrupados en subbandas, es recibida desde cada uno de los canales 102a-102d de expedición. Cada desformateador 104a-104d almacena transitoriamente la señal binaria en bloques de información, establece el número de bits asignados adaptativamente a cada coeficiente de la transformada en el dominio de frecuencias por el codificador de la señal binaria, y reconstruye una representación lineal para cada coeficiente de la transformada en el dominio de frecuencias. El distribuidor 108 recibe los coeficientes linealizados de la transformada en el dominio de frecuencias desde las vías 106a-106d, los combina como sea apropiado, y distribuye la información del dominio de frecuencias entre las vías 110a y 110b. Cada uno de los sintetizadores 112a y 112b genera muestras en el dominio de tiempo en respuesta a la información en el dominio de frecuencias recibida desde las vías 110a y 110b por aplicación de una transformada de Fourier rápida inversa que implementa la transformada TDAC inversa mencionada arriba. Aunque no se muestran características subsiguientes en la figura 1, las muestras en el dominio de tiempo son pasadas por los canales 114a y 114b de presentación, son almacenadas transitoriamente y combinadas para formar una representación en el dominio de tiempo de la señal codificada original, y convertidas subsiguientemente de la forma digital a la forma analógica por un CDA.

Suponiendo que los cuatro canales 102a-102d de expedición en la figura 1 representan los canales izquierdo (L), central (C), derecho (R), y de ambiente (S) de un sistema acústico de cuatro canales, una realización típica del distribuidor 108 combina estos canales para formar una representación estereofónica de dos canales como sigue:

(1)L' = L + 0,7071 \cdot C + 0,5 \cdot S

(2)R' = R + 0,7071 \cdot C + 0,5 \cdot S

donde

L' = canal izquierdo de presentación, y

R' = canal derecho de presentación.

Para un descodificador de transformada, estas combinaciones representan la suma de los coeficientes de la transformada en el dominio de frecuencias. Se entiende que normalmente se combinan sólo coeficientes que representan el mismo intervalo de frecuencias espectrales. Por ejemplo, supóngase que cada canal de expedición transporta una representación en el dominio de frecuencias de una señal de 20 kHz de anchura de banda transformada por una transformada de 256 puntos. El coeficiente X(0) de la transformada en el dominio de frecuencias para cada canal de expedición representa la energía espectral de la señal codificada transportada por el respectivo canal de expedición centrada en torno a 0 Hz, y el coeficiente X(1) para cada canal de expedición representa la energía espectral de la señal codificada para el respectivo canal de expedición centrada en torno a 78,1 Hz (20 kHz/256). De este modo, el coeficiente X(1) para el canal L' de presentación está formado a partir de la suma ponderada de los coeficientes X(1) a partir de cada canal de expedición de acuerdo con la ecuación 1. Las ecuaciones 1 y 2 pueden ser reescritas como

(3)X(i) _{L'} = X(i) _{L} + 0,7071 \cdot X(i) _{C} + 0,5 \cdot X(i) _{S}

(4)X(i) _{R'} = X(i) _{R} + 0,7071 \cdot X(i) _{C} + 0,5 \cdot X(i) _{S}

en donde X(i)_{Z} = coeficiente i de la transformada para el canal Z.

Para un descodificador de subbanda auténtica, estas combinaciones representan la suma de las correspondientes muestras en el dominio de tiempo en cada subbanda. De este modo, las ecuaciones 1 y 2 pueden ser reescritas como

(5)x_{j} (nt) _{L'} = x_{j} (nt) _{L} + 0,7071 \cdot x_{j} (nt) _{C} + 0,5 \cdot x_{j} (nt) _{S}

(6)x_{j} (nt) _{R'} = x_{j} (nt) _{R} + 0,7071 \cdot x_{j} (nt) _{C} + 0,5 \cdot x_{j} (nt) _{S}

donde x_{j}(nt)_{Z} = muestra de la señal en el instante de tiempo nt en la subbanda j del canal Z.

La figura 4 representa una aplicación de la presente invención utilizada para formar un canal 414 de presentación a partir de cuatro canales 402a-402d de expedición. Una ecuación combinatoria típica para el distribuidor 408 en esta aplicación es

(7)M' = 0,7071 \cdot L + C + 0,7071 \cdot R + S

donde M' = canal monofónico de presentación.

Las formas precisas de las combinaciones proporcionadas por el distribuidor variarán de acuerdo con la aplicación.

Aunque se prevé que la presente invención será usada normalmente para obtener un número de canales de presentación menor que el de canales de expedición existentes, la invención no está limitada a ello. El número de canales de presentación puede ser el mismo o mayor que el número de canales de expedición, siendo utilizado el distribuidor para preparar los canales de presentación de acuerdo con las necesidades de una aplicación deseada.

Claims

1. Un descodificador para descodificar señales acústicas multicanal que representan un campo de sonido multidimensional expedido por una pluralidad de canales de expedición, transportando cada canal de expedición información en forma de una representación no lineal de coeficientes de transformada de dominio de frecuencia, que comprende: unos medios (116, 416) de recepción para recibir dicha pluralidad de canales de expedición (102a-102d; 402a-402d), unos medios (104a-104d; 404a-404d) de desformateado que responden a dichos medios de recepción para desformatear dicha representación no lineal de coeficientes de transformada de cada canal de expedición a una representación lineal respectiva de dichos coeficientes de transformada, y unos medios (112a-112b; 412) de síntesis para aplicar un dominio de frecuencia a la transformada de dominio de tiempo para generar señales de salida en respuesta a dichas representaciones lineales de coeficientes de transformada, caracterizado porque unos medios (108, 408) de distribución, interpuestos entre dichos medios de desformateado y dichos medios de síntesis que responden a dichos medios de desformateado generan una o más señales intermedias, en que por lo menos una señal intermedia es generada a partir de la suma de coeficientes de transformada que representan las mismas frecuencias espectrales de dos o más de dichas representaciones lineales, y dichos medios de síntesis generan una señal de salida respectiva en respuesta a cada una de dichas señales intermedias.

2. Un descodificador para descodificar señales acústicas multicanal que representan un campo de sonido multidimensional expedido por una pluralidad de canales de expedición, transportando cada canal de expedición información en forma de una representación no lineal de señales de subbanda, que comprende: unos medios (116; 416) de recepción para recibir dicha pluralidad de canales de expedición (102a-102d; 402a-402d), unos medios (104a-104d; 404a-404d) de desformateado que responden a dichos medios de recepción para desformatear dicha representación no lineal de señales de subbanda de cada canal de expedición en una representación lineal respectiva de señales de subbanda, y unos medios (112a-112b; 412) de síntesis para aplicar un banco de filtro de síntesis de subbanda para generar señales de salida en respuesta a dichas representaciones lineales de señales de subbanda, caracterizado porque unos medios (108; 408) de distribución, interpuestos entre dichos medios de desformateado y dichos medios de síntesis que responden a dichos medios de desformateado generan una o más señales intermedias, en que por lo menos una señal intermedia es generada a partir de la suma de muestras de dominio de tiempo correspondientes en cada subbanda correspondiente de dos o más de dichas representaciones lineales, y dichos medios de síntesis generan una señal de salida respectiva en respuesta a cada una de dichas señales intermedias.

3. Un descodificador de acuerdo con la reivindicación 1 ó 2, en que dicha representación lineal tiene unos requerimientos de capacidad de información mayores que dichos canales de expedición de información formateada.