ES2856423T3 - Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia - Google Patents

Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia Download PDF

Info

Publication number
ES2856423T3
ES2856423T3 ES16176048T ES16176048T ES2856423T3 ES 2856423 T3 ES2856423 T3 ES 2856423T3 ES 16176048 T ES16176048 T ES 16176048T ES 16176048 T ES16176048 T ES 16176048T ES 2856423 T3 ES2856423 T3 ES 2856423T3
Authority
ES
Spain
Prior art keywords
inter
audio
bitstream
saoc
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16176048T
Other languages
English (en)
Inventor
Andreas Hölzer
Jürgen Herre
Johannes Hilpert
Jonas Engdegard
Heiko Purnhagen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Dolby International AB filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2856423T3 publication Critical patent/ES2856423T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un decodificador de señal de audio de codificación de objeto de audio espacial MPEG, MPEG-SAOC, (100; 420) para proporcionar una representación de señal de mezcla ascendente (130; 484a a 484M) sobre la base de una representación de señal de mezcla descendente (110; 430) y una información paramétrica relacionada con el objeto (112; 432) de un MPEG-SAOC, y que depende de una información de interpretación (120; 482), comprendiendo el aparato: un determinador de parámetro de objeto (140; 464, 468, 474) configurado para obtener valores de correlación inter- objeto (142) para una pluralidad de pares de objetos de audio, en el que el determinador de parámetro de objeto está configurado para evaluar un parámetro de señalización de flujo de bits para decidir si evaluar valores de parámetros de transmisión de flujo de bits de correlación inter-objeto individuales para obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionadas u obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parámetro de flujo de bits de correlación inter-objeto común dependiente de la frecuencia/tiempo; y un procesador de señal (150;480) configurado para obtener la representación de señal de mezcla ascendente sobre la base de la representación de señal de mezcla descendente y usando los valores de correlación inter- objeto para una pluralidad de pares de objetos de audio relacionados y la información de interpretación; en el que la información paramétrica relacionada con el objeto (112;432) comprende datos de diferencia de nivel de objeto, el parámetro de señalización de flujo de bits y comprende además los valores de parámetros de flujo de bits de correlación inter-objeto individuales o el valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia; en el que el determinador de parámetro de objeto (140; 464, 468, 474) está configurado para evaluar una información de relación entre objetos, describiendo si dos objetos de audio están relacionados entre sí; y en el que el determinador de parámetro de objeto está configurado para obtener selectivamente valores de correlación inter-objeto para pares de objetos de audio para los cuales la información de relación entre objetos indica una relación usando el valor de parámetro de flujo de bits de correlación inter-objeto dependiente del tiempo/frecuencia, y para fijar valores de correlación inter-objeto para pares de objetos de audio para los cuales la información de relación entre objetos indica que no hay relación, a un valor predefinido; en el que los elementos diagonales ||s1||2, ||s2||2, ..., ||sN||2 de una matriz de covarianza de variante de tiempo/frecuencia se reconstruyen directamente con los datos de diferencia de nivel de objeto, y en el que los elementos no diagonales de la matriz de covarianza se dan por los valores de correlación inter-objeto IOCmn según ρmn =- sm ·- sn- ·IOCmn, en la que las señales s1, s2, ..., sN representan los objetos de audio.

Description

DESCRIPCIÓN
Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
Campo técnico
[0001] Las realizaciones según la invención están relacionadas con la codificación y decodificación de objeto de audio espacial MPEG.
Antecedentes de la invención
[0002] En la técnica del procesamiento de audio, la transmisión de audio y el almacenamiento de audio, hay un creciente deseo de manejar contenidos de multicanal para mejorar la impresión auditiva. El uso de contenido de audio multicanal produce significativas mejoras para el usuario. Por ejemplo, se puede obtener una impresión auditiva tridimensional, lo cual produce una mejor satisfacción del usuario en aplicaciones de entretenimiento. Sin embargo, el contenido de audio multicanal también es útil para entornos profesionales, por ejemplo, en aplicaciones de conferencias telefónicas, porque se puede mejorar la inteligibilidad del locutor usando una reproducción de audio multicanal.
[0003] Sin embargo, también es deseable tener una buena solución de compromiso entre calidad de audio y requisitos de tasa de bits para evitar una excesiva carga de recursos causada por aplicaciones multicanal.
[0004] Recientemente se han propuesto técnicas paramétricas para la transmisión eficiente en cuanto a la tasa de bits y/o almacenamiento de múltiples objetos de audio, por ejemplo, Codificación Binaural (Tipo I) (véase, por ejemplo, referencia [BCC]), Codificación Redundante (véase, por ejemplo, la referencia [JSC], y Codificación de Objeto de Audio Espacial Mp eG (SAOC) (véase, por ejemplo, referencias [SAOC1], [SAOC2] y la referencia no publicada [SAOC]).
[0005] Estas técnicas tienen el objetivo de reconstruir perceptualmente la escena de audio de salida deseada en lugar de una coincidencia de forma de onda.
[0006] La figura 8 muestra un resumen del sistema de tal sistema (aquí: MPEG SAOC). Además, la figura 9a muestra un resumen del sistema de tal sistema (aquí: MPEG SAOC).
[0007] El sistema MPEG SAOC 800 mostrado en la figura 8 comprende un codificador SAOC 810 y un decodificador SAOC 820. El codificador SAOC 810 recibe una pluralidad de señales de objeto x1 a xn, las cuales pueden ser representadas, por ejemplo, como señales en el dominio de tiempo o como señales en el dominio de tiempo-frecuencia (por ejemplo, en forma de un conjunto de coeficientes de transformada de una transformada de tipo Fourier, o en forma de señales de sub-banda QMF). El codificador SAOC 810 típicamente también recibe coeficientes de mezcla descendente d1 a dN, los cuales están asociados con las señales de objeto x1 a xn. Pueden estar disponibles conjuntos separados de coeficientes de mezclado descendente para cada canal de la señal de mezcla descendente. El codificador SAOC 810 típicamente está configurado para obtener un canal de la señal de mezcla descendente combinando las señales de objeto x1 a xn según los coeficientes de mezcla descendente asociados d1 a dN. Típicamente, hay menos canales de mezcla descendente que señales de objeto x1 a xn. Para permitir (al menos aproximadamente) una separación (o tratamiento separado) de las señales de objeto en el lado del decodificador SAOC 820, el codificador SAOC 810 proporciona tanto una o más señales de mezcla descendente (designadas como canales de mezcla descendente) 812 como una información complementaria 814. La información complementaria 814 describe características de las señales de objeto x1 a xn, para permitir un procesamiento específico de objeto del lado del decodificador.
[0008] El decodificador SAOC 820 está configurado para recibir tanto la una o más señales de mezcla descendente 812 como la información complementaria 814. Además, el decodificador SAOC 820 típicamente está configurado para recibir una información de interacción de usuario y/o una información de control de usuario 822, que describe una configuración de interpretación deseada. Por ejemplo, la información de interacción de usuario/información de control de usuario 822 puede describir una configuración de altavoz y la ubicación espacial deseada de los objetos, que proporcionan las señales de objeto x1 a xn.
[0009] El decodificador SAOC 820 está configurado para proporcionar, por ejemplo, una pluralidad de señales de canal de mezcla ascendente decodificadas y1 a yM. Las señales de canal de mezcla ascendente pueden estar asociadas, por ejemplo, con altavoces individuales de una disposición de interpretación de múltiples altavoces. El decodificador SAOC 820 puede comprender, por ejemplo, un separador de objeto 820a, que está configurado para reconstruir, al menos aproximadamente, las señales de objeto xi a xn sobre la base de la una o más señales de mezcla descendente 812 y la información complementaria 814, obteniendo de ese modo señales de objeto reconstruidas 820b. Sin embargo, las señales de objeto reconstruidas 820b pueden desviarse un poco de las señales de objeto originales x1 a xn, por ejemplo, porque la información complementaria 814 no es suficiente para una reconstrucción perfecta debido a las restricciones de tasa de bits. El decodificador SAOC 820 puede comprender además un mezclador 820c, que puede estar configurado para recibir las señales de objeto reconstruidas 820b y la información de interacción de usuario/información de control de usuario 822, y para proporcionar, sobre la base del mismo, las señales de canal de mezcla ascendente y1 a yM. El mezclador 820 puede estar configurado para usar la información de interacción de usuario/información de control de usuario 822 para determinar la contribución de las señales de objeto reconstruidas individuales 820b a las señales de canal de mezcla ascendente y1 a yM. La información de interacción de usuario/información de control de usuario 822 puede comprender, por ejemplo, parámetros de interpretación (también designados como coeficientes de interpretación), que determinan la contribución de las señales de objeto reconstruidas individuales 822 a las señales de canal de mezcla ascendente y1 a yM.
[0010] Sin embargo, se debe apreciar que en muchas realizaciones, la separación de objetos, que se indica mediante el separador de objetos 820a en la figura 8, y la mezcla, que se indica mediante el mezclador 820c en la figura 8, se realizan en una única etapa. Con este fin, se pueden computar parámetros generales que describen una asignación directa de la una o más señales de mezcla descendente 812 en las señales de canal de mezcla ascendente y1 a yM. Estos parámetros pueden computarse sobre la base de la información complementaria y la información de interacción de usuario/información de control de usuario 820.
[0011] Tomando como referencia ahora las figuras 9a, 9b y 9c, se describirán diferentes aparatos para obtener una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendente e información complementaria relacionada con el objeto. La figura 9a muestra un diagrama de bloques esquemático de un sistema MPEG SAOC 900 que comprende un decodificador SAOC 920. El decodificador SAOC 920 comprende, como bloques funcionales separados, un decodificador de objeto 922 y un mezclador/representador 926. El decodificador de objeto 922 proporciona una pluralidad de señales de objeto reconstruidas 924 en dependencia de la representación de señal de mezcla descendente (por ejemplo, en forma de una o más señales de mezcla descendente representadas en el dominio de tiempo o en el dominio de tiempo-frecuencia) e información complementaria relacionada con el objeto (por ejemplo, en forma de metadatos de objeto). El mezclador/representador 924 recibe las señales de objeto reconstruidas 924 asociadas con una pluralidad de N objetos y proporciona, sobre la base de los mismos, una o más señales de canal de mezcla ascendente 928. En el decodificador SAOC 920, la extracción de las señales de objeto 924 se realiza por separado de la mezcla/interpretación, lo cual permite una separación de la funcionalidad de decodificación de objeto, de la mezcla/interpretación pero produce una complejidad de computación relativamente alta.
[0012] Tomando como referencia ahora la figura 9b, se analizará brevemente otro sistema MPEG SAOC 930, el cual comprende un decodificador SAOC 950. El decodificador SAOC 950 proporciona una pluralidad de señales de canal de mezcla ascendente 958 en dependencia de una representación de señal de mezcla descendente (por ejemplo, en forma de una o más señales de mezcla descendente) y una información complementaria relacionada con el objeto (por ejemplo, en forma de metadatos de objeto). El decodificador SAOC 950 comprende un decodificador de objeto y mezclador/representador combinados, que está configurado para obtener las señales de canal de mezcla ascendente 958 en un procedimiento de mezcla colectivo sin una separación de la decodificación de objeto y la mezcla/interpretación, en el que los parámetros para dicho procedimiento de mezcla ascendente colectivo son dependientes tanto de la información complementaria relacionada con el objeto como de la información de interpretación. El procedimiento de mezcla ascendente colectivo depende también de la información de mezcla descendente, que se considera como parte de la información complementaria relacionada con el objeto.
[0013] Para resumir lo anterior, la provisión de las señales de canal de mezcla ascendente 928, 958 puede realizarse en un procedimiento de una etapa o en un procedimiento de dos etapas.
[0014] Tomando como referencia ahora la figura 9c, se describirá un sistema MPEG SAOC 960. El sistema SAOC 960 comprende un transcodificador SAOC a MPEG Surround 980, en lugar de un decodificador SAOC.
[0015] El transcodificador SAOC a MPEG Surround comprende un transcodificador de información complementaria 982, que está configurado para recibir la información complementaria relacionada con el objeto (por ejemplo, en forma de metadatos de objeto) y, opcionalmente, información sobre la una o más señales de mezcla descendente y la información de interpretación. El transcodificador de información complementaria también está configurado para proporcionar una información complementaria de MPEG Surround (por ejemplo, en forma de un flujo de bits de MPEG Surround) sobre la base de un dato recibido. Por consiguiente, el transcodificador de información complementaria 982 está configurado para transformar una información complementaria (paramétrica) relacionada con el objeto, que se descarga del codificador de objeto, en una información complementaria (paramétrica) relacionada con el canal, tomando en consideración la información de interpretación y, opcionalmente, la información acerca del contenido de la una o más señales de mezcla descendente.
[0016] Opcionalmente, el transcodificador SAOC a MPEG Surround 980 puede ser configurado para manipular la una o más señales de mezcla descendente, descritas por ejemplo, por la representación de señal de mezcla descendente, para obtener una representación de señal de mezcla descendente manipulada 988. Sin embargo, el manipulador de señal de mezcla descendente 986 puede omitirse, de tal forma que la representación de señal de mezcla descendente de salida 988 del transcodificador SAOC a MPEG Surround 980 sea idéntica a la representación de señal de mezcla descendente de entrada del transcodificador SAOC a MPEG Surround. El manipulador de señal de mezcla descendente 986 puede usarse, por ejemplo, si la información complementaria de MPEG Surround relacionada con el canal 984 no permite proporcionar una impresión auditiva deseada sobre la base de la representación de señal de mezcla descendente de entrada del transcodificador SAOC a MPEG Surround 980, que puede ser el caso en algunas constelaciones de interpretación.
[0017] Por consiguiente, el transcodificador SAOC a MPEG Surround 980 proporciona la representación de señal de mezcla descendente 988 y el flujo de bits MPEG Surround 984 de tal forma que una pluralidad de señales de canal de mezcla ascendente, que representan los objetos de audio según la información de interpretación introducida en el transcodificador SAOC a MPEG Surround 980, puede generarse usando un decodificador MPEG Surround que recibe el flujo de bits MPEG Surround 984 y la representación de señal de mezcla descendente 988.
[0018] Para resumir lo anterior, pueden usarse diferentes conceptos para decodificar señales de audio codificadas por SAOC. En algunos casos, se usa un decodificador SAOC, que proporciona señales de canal de mezcla ascendente (por ejemplo, señales de canal de mezcla ascendente 928, 958) en dependencia de la representación de señal de mezcla descendente y la información complementaria paramétrica relacionada con el objeto. Los ejemplos para este concepto se pueden ver en las figuras 9a y 9b. Como alternativa, la información de audio codificada con SAOC puede ser transcodificada para obtener una representación de señal de mezcla descendente (por ejemplo, una representación de señal de mezcla descendente 988) y una información complementaria relacionada con el canal (por ejemplo, el flujo de bits MPEG Surround relacionado con el canal 984), que puede usarse por un decodificador MPEG Surround para proporcionar las señales de canal de mezcla ascendente deseadas.
[0019] En el sistema MPEG SAOC 800, un esquema del sistema del cual se da en la figura 8, y también en el sistema MPEG SAOC 900, un esquema del sistema del cual se da en la figura 9, el procesamiento general se realiza de una manera selectiva en frecuencia y puede describirse como se indica a continuación dentro de cada banda de frecuencia:
■ N señales de objeto de audio de entrada X1 a xn son de mezcla descendente como parte del procesamiento de codificador SAOC. Para una mono mezcla descendente, los coeficientes de mezcla descendente se representan por di a dN. Además, el codificador SAOC 810, 910 extrae información complementaria 814 que describe las características de los objetos de audio de entrada. Una parte importante de esta información complementaria consiste en relaciones de las potencias de objetos y correlaciones unos con respecto a otros, es decir, diferencias a nivel de objeto (OLD) en correlaciones inter-objeto (IOC).
■ La señal o señales en mezcla descendente 812, 912 e información complementaria 814, 914 se transmiten y/o se almacenan. Con este fin, la señal de audio de mezcla descendente puede ser comprimida usando codificadores de audio perceptuales conocidos tales como MPEG-1, Capa II o III (también conocido como "mp3"), Codificación de Audio Avanzada MPEG (AAC), o cualquier otro codificador de audio.
■ En el extremo de recepción, el decodificador SAOC 820, 920 trata conceptualmente de recuperar las señales de objeto originales ("separación de objeto") usando la información complementaria transmitida 814, 914 (y, naturalmente, la una o más señales de mezcla descendente 812, 912). Estas señales de objeto aproximadas (también designadas como señales de objeto reconstruidas 820b, 924) entonces se mezclan en una escena objetivo representada por M canales de salida de audio (que pueden estar representados, por ejemplo, por las señales de canal de mezcla ascendente y1 a yM 928) usando una matriz de interpretación. Para una salida mono, los coeficientes de la matriz de interpretación se dan por n a rN
■ Efectivamente, la separación de las señales de objeto es raramente ejecutada (o incluso nunca se ejecuta), ya que tanto la etapa de separación (indicada por el separador de objetos 820a, 922) como la etapa de mezcla (indicada por el mezclador 820c, 926) se combinan en una única etapa de transcodificación, que con frecuencia da como resultado una enorme reducción de complejidad de computación.
[0020] Se ha encontrado que tal esquema es muy eficiente, tanto en términos de tasa de bits de transmisión (sólo es necesario transmitir unos pocos canales de mezcla descendente más alguna información complementaria en lugar de N señales de audio de objetos) como en complejidad de computación (la complejidad de computación se refiere principalmente al número de canales de salida en lugar de al número de objetos de audio). Ventajas adicionales para el usuario en el extremo de recepción incluyen la libertad de elegir un esquema de interpretación de su elección (mono, estéreo, envolvente, reproducción por auricular virtualizada, etc.) y la característica de interactividad del usuario: la matriz de interpretación, y por lo tanto, la escena de salida, puede ajustarse y cambiarse de forma interactiva por el usuario a voluntad, por preferencia personal u otros criterios. Por ejemplo, es posible ubicar los locutores de un grupo juntos en un área espacial para maximizar discriminación de otros locutores restantes. Esta interactividad se logra proporcionando una interfaz de usuario de decodificador:
Para cada objeto de sonido transmitido, se puede ajustar su nivel relativo y (para interpretación no mono) posición espacial de interpretación. Esto puede ocurrir en tiempo real conforme el usuario cambia la posición de los deslizadores de la interfaz de usuario gráfica (GUI) asociada (por ejemplo, nivel de objeto =+5 dB, posición de objeto = -30 grados).
[0021] A continuación, se dará una breve referencia a técnicas, las cuales se han aplicado previamente en el campo de codificación de audio basada en canales.
[0022] El documento US 11/032.689 describe un procedimiento para combinar varios valores de referencia en un solo transmitido para ahorrar información complementaria.
[0023] Esta técnica también se aplica a la "codificación de audio jerárquica multicanal con información complementaria compacta" en el documento US 60/671.544.
[0024] Sin embargo, se ha descubierto que la información paramétrica relacionada con el objeto, que se usa para una codificación de un contenido de audio multicanal, comprende una tasa de bits comparativamente alta en algunos casos.
[0025] Por consiguiente, es un objetivo de la presente invención crear un concepto, que permita una provisión, almacenamiento o transmisión de un contenido de audio multicanal con una información complementaria compacta. Resumen de la invención
[0026] Este objetivo se logra mediante un decodificador de señal de audio, un codificador de señal de audio, un procedimiento para proporcionar una representación de señal de mezcla ascendente, un procedimiento para proporcionar una representación de flujo de bits y un programa informático como se define en las reivindicaciones independientes.
[0027] Se observa que los ejemplos y realizaciones que se mencionan en la siguiente parte de la descripción y que no están dentro del alcance de las reivindicaciones no forman parte de la invención reivindicada y son solo ejemplos útiles para comprender la invención.
[0028] Una realización según la invención crea un decodificador de señal de audio para proporcionar una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto y en dependencia de una información de interpretación. El aparato comprende un determinador de parámetro de objeto configurado para obtener valores de correlación interobjeto para una pluralidad de pares de objetos de audio. El determinador de parámetro de objeto está configurado para evaluar un parámetro de señalización de flujo de bits para decidir si evaluar valores de parámetros de transmisión de flujo de bits de correlación inter-objeto individuales para obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionadas u obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parámetro de flujo de bits de correlación inter-objeto común. El decodificador de señal de audio también comprende un procesador de señal configurado para obtener la representación de señal de mezcla ascendente sobre la base de la representación de señal de mezcla descendente y usando los valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados y la información de interpretación.
[0029] Este decodificador de señal de audio está basado en la idea clave de que una tasa de bits requerida para codificar valores de correlación inter-objeto puede ser excesivamente alta en algunos casos en los cuales es necesario considerar correlaciones entre muchos pares de objetos de audio para obtener una buena impresión auditiva, y que una tasa de bits requerida para codificar valores de correlación inter-objeto puede ser significativamente reducida en tales casos usando un parámetro de flujo de bits de correlación inter-objeto en lugar de valores de parámetros de flujo de bits de correlación inter-objeto sin comprometer significativamente la impresión auditiva.
[0030] Se ha encontrado que en situaciones en las que hay notables correlaciones inter-objeto entre muchos pares de objetos de audio, lo cual debe ser considerado para obtener una buena impresión auditiva, una consideración de las correlaciones inter-objeto normalmente dará como resultado un alto requisito de tasa de bits para los valores de parámetros de flujo de bits de correlación inter-objeto. Sin embargo, se ha encontrado que en tal situación, en la que hay una correlación inter-objeto no despreciable entre muchos pares de objetos, se puede lograr una buena impresión auditiva meramente codificando un único valor de parámetro de flujo de bits de correlación inter-objeto común, y derivando los valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados a partir de tal valor de parámetro de flujo de bits de correlación inter-objeto común. Por consiguiente, la correlación entre muchos objetos de audio puede ser considerada con suficiente precisión en la mayoría de los casos, mientras se mantiene el esfuerzo para la transmisión del valor de parámetro de flujo de bits de correlación inter-objeto suficientemente pequeño.
[0031] Por lo tanto, el concepto analizado anteriormente da como resultado una pequeña demanda de tasa de bits para la información complementaria relacionada con el objeto en algunos entornos acústicos en los que hay una correlación inter-objeto no despreciable entre muchas señales de objeto de audio diferentes, mientras que todavía se logra una impresión auditiva suficientemente buena.
[0032] En una realización preferida, el determinador de parámetro de objeto está configurado para fijar el valor de correlación inter-objeto para todos los pares de objetos de audio relacionados diferentes a un valor común definido por el valor de parámetro de flujo de bits de correlación inter-objeto. Se ha encontrado que esta solución sencilla produce una impresión auditiva suficientemente buena en muchas situaciones relevantes.
[0033] En una realización preferida, el determinador de parámetro de objeto está configurado para evaluar una información de relación entre objetos que describe si dos objetos están relacionados entre sí o no. El determinador de parámetro de objeto además está configurado para obtener selectivamente valores de correlación inter-objeto para pares de objetos de audio para los cuales la información de relación entre objetos indica una relación usando el valor de parámetro de flujo de bits de correlación inter-objeto, y para fijar valores de correlación inter-objeto para pares de objetos de audio para los cuales la información de relación entre objetos indica que no hay relación, a un valor predefinido (por ejemplo, a cero). Por consiguiente, se puede distinguir, con alta eficiencia de tasa de bits, entre objetos de audio relacionados y no relacionados. Por lo tanto, se evita la asignación de un valor de correlación inter-objeto no nulo a pares de objetos de audio, los cuales no están (aproximadamente) relacionados. Por consiguiente, se evita una degradación de una impresión auditiva y es posible una separación entre objetos de audio aproximadamente no relacionados. Además, la señalización de objetos de audio relacionados y no relacionados puede realizarse con muy alta eficiencia de tasa de bits, porque la relación entre objetos de audio típicamente no varía en el tiempo sobre un trozo de audio, de tal forma la tasa de bits requerida para esta señalización típicamente es muy baja. Por lo tanto, el concepto descrito produce una muy buena solución de compromiso entre eficiencia de tasa de bits e impresión auditiva.
[0034] En una realización preferida, el determinador de parámetro de objeto está configurado para evaluar una información de relación entre objetos que comprende una bandera de un bit para cada combinación de diferentes objetos de audio, en el que la bandera de un bit asociada con una combinación dada de diferentes objetos de audio indica si los objetos de audio de la combinación dada están relacionados o no. Tal información puede ser transmitida muy eficientemente y da como resultado una significativa reducción de la tasa de bits requeridos para lograr una buena impresión auditiva.
[0035] En una realización preferida, el determinador de parámetro de objeto está configurado para fijar los valores de correlación inter-objeto para todos los pares de objetos de audio relacionados diferentes a un valor común definido por el valor de parámetro de flujo de bits de correlación inter-objeto.
[0036] En una realización preferida, el determinador de parámetro de objeto comprende un analizador sintáctico de flujo de bits configurado para hacer el análisis sintáctico de una representación de flujo de bits de un contenido de audio para obtener el parámetro de señalización de flujo de bits y los parámetros de flujo de bits de correlación inter-objeto individuales o el parámetro de flujo de bits de correlación inter-objeto común. Usando un analizador sintáctico de flujo de bits, se puede obtener el parámetro de señalización de flujo de bits y los parámetros de flujo de bits de correlación inter-objeto individuales o el parámetro de flujo de bits de correlación inter-objeto común con muy buena eficiencia de implementación.
[0037] En una realización preferida, el decodificador de señal de audio está configurado para combinar un valor de correlación inter-objeto asociado con un par de objetos de audio relacionados con un parámetro de diferencia de nivel de objeto que describe un nivel de objeto de un primer objeto de audio del par de objetos de audio relacionados y con un valor de parámetro de diferencia de nivel de objeto que describe un nivel de objeto de un segundo objeto de audio del par de objetos de audio relacionados para obtener un valor de covarianza asociado con el par de objetos de audio relacionados. Por consiguiente, es posible establecer el valor de covarianza asociado con un par de objetos de audio relacionados de tal forma que el valor de covarianza esté adaptado al par de objetos de audio aunque se use un parámetro de correlación inter-objeto común. Por lo tanto, se pueden obtener diferentes valores de covarianza para diferentes pares de objetos de audio. En particular, se puede obtener un gran número de diferentes valores de covarianza usando el valor de parámetro de flujo de bits de correlación inter-objeto común.
[0038] En una realización preferida, el decodificador de señal de audio está configurado para manejar tres o más objetos de audio. En este caso, el determinador de parámetro de objeto está configurado para proporcionar valores de correlación inter-objeto para cada par de objetos de audio diferentes. Se ha encontrado que los valores significativos pueden ser obtenidos usando el concepto inventivo incluso si hay un número relativamente grande de objetos de audio, los cuales están todos relacionados entre sí. Obtener valores de correlación inter-objeto de muchas combinaciones de objetos de audio es particularmente útil cuando se codifica y decodifica señales de objeto de audio usando una información complementaria paramétrica relacionada con el objeto.
[0039] En una realización preferida, el determinador de parámetro de objeto está configurado para evaluar el parámetro de señalización de flujo de bits, que está incluido en una porción de flujo de bits de configuración, para decidir si evaluar valores de parámetros de transmisión de flujo de bits de correlación inter-objeto individuales para obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionadas u obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parámetro de flujo de bits de correlación inter-objeto común. En esta realización, el determinador de parámetro de objeto está configurado para evaluar una información de relación entre objetos, que está incluida en la porción de flujo de bits de configuración, para determinar si los objetos de audio están relacionados o no. Además, el determinador de parámetro de objeto está configurado para evaluar un valor de parámetro de flujo de bits de correlación inter-objeto común, el cual está incluido en una porción de tasa de bits de datos de trama, para todas las tramas del contenido de audio si se decide obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parámetro de flujo de bits de correlación inter-objeto común. Por consiguiente, se obtiene una alta eficiencia de tasa de bits, porque la información de relación entre objetos comparativamente grande es evaluada sólo una vez por trozo de audio (el cual está definido por la presencia de una porción de flujo de bits de configuración), mientras que el valor de parámetro de flujo de bits de correlación inter-objeto común comparativamente pequeño es evaluado para cada trama del trozo de audio, es decir, múltiples veces por trozo de audio. Esto refleja el hallazgo que la relación entre objetos de audio típicamente no cambia dentro de un trozo de audio o sólo cambia muy raramente. Por consiguiente, se puede obtener una buena impresión auditiva a una tasa de bits razonablemente baja.
[0040] Como alternativa, sin embargo, el uso de un valor de parámetro de flujo de bits de correlación inter­ objeto común podría ser señalizado en una porción de flujo de bits de datos de trama, lo cual permitiría, por ejemplo, una adaptación flexible a contenidos de audio variables.
[0041] Una realización según la invención crea un codificador de señal de audio para proporcionar una representación de flujo de bits sobre la base de una pluralidad de señales de objeto de audio. El codificador de señal de audio comprende un mezclador descendente configurado para proporcionar una señal de mezcla descendente sobre la base de las señales de objeto de audio y en dependencia de los parámetros de mezcla descendente que describen las contribuciones de las señales de objeto de audio a uno o más canales de la señal de mezcla descendente. El codificador de señal de audio también comprende un proveedor de parámetros configurado para proporcionar un valor de parámetro de flujo de bits de correlación inter-objeto común asociado con una pluralidad de pares de señales de objeto de audio relacionadas y para proporcionar también un parámetro de señalización de flujo de bits que indica que se proporciona el valor de parámetro de flujo de bits de correlación inter-objeto común en lugar de una pluralidad de parámetros de flujo de bits de correlación inter-objeto individuales. El codificador de señal de audio también comprende un formateador de flujo de bits configurado para proporcionar un flujo de bits que comprende una representación de la señal de mezcla descendente, una representación del valor de parámetro de flujo de bits de correlación inter-objeto común y el parámetro de señalización de flujo de bits.
[0042] Esta realización, según la invención, permite proporcionar un flujo de bits que representa un contenido de audio multicanal con información complementaria compacta. Al proporcionar un valor de parámetro de flujo de bits de correlación inter-objeto común, la información complementaria relacionada con el objeto se mantiene compacta, mientras que sigue proporcionando información eficaz para una reproducción del contenido de audio multicanal con una buena impresión auditiva. Además, cabe señalar que el codificador de señal de audio aquí descrito proporciona las mismas ventajas que se han analizado con respecto al decodificador de señal de audio.
[0043] En una realización preferida, el proveedor de parámetros está configurado para proporcionar el valor de parámetro de flujo de bits de correlación inter-objeto común en dependencia de una relación entre una suma de términos de potencia cruzada y una suma de términos de potencia promedio. Se ha encontrado que tal valor de parámetro de flujo de bits de correlación inter-objeto puede calcularse con un esfuerzo de cálculo moderado, mientras que sigue proporcionando una impresión auditiva precisa en la mayoría de los casos.
[0044] En otra realización según la invención, el proveedor de parámetros está configurado para proporcionar un valor constante predeterminado como el valor de parámetro de flujo de bits de correlación inter-objeto común. Se ha encontrado que, en algunos casos, la provisión de un valor constante tiene sentido. Por ejemplo, para determinadas disposiciones de micrófonos estándar en ciertos tipos de salas de conferencias, un valor constante puede ser muy adecuado para representar una impresión auditiva deseada. Por consiguiente, el esfuerzo computacional se puede minimizar mientras se proporciona una buena impresión auditiva en muchas aplicaciones estándar del concepto de la invención.
[0045] En otra realización preferida, el proveedor de parámetros está configurado para proporcionar también una información de relación entre objetos que describe si dos objetos de audio están relacionados entre sí. El decodificador de audio puede explotar tal información de relación entre objetos, como se ha analizado anteriormente. Por consiguiente, se puede asegurar que el valor de parámetro de flujo de bits de correlación inter-objeto común solo se aplique para dichos objetos de audio, que, de hecho, están relacionados entre sí, pero no se aplique a objetos de audio completamente no relacionados.
[0046] En una realización preferida, el proveedor de parámetros está configurado para evaluar selectivamente una correlación inter-objeto de objetos de audio para los que la información de relación entre objetos indica una relación para un cálculo del valor de parámetro de flujo de bits de correlación inter-objeto común. Esto permite tener un valor de parámetro de flujo de bits de correlación inter-objeto particularmente significativo.
[0047] Otras realizaciones según la invención crean un procedimiento para proporcionar una representación de señal de mezcla ascendente y un procedimiento para proporcionar una representación de flujo de bits. Estos procedimientos se basan en las mismas ideas que el decodificador de audio y el codificador de audio analizados anteriormente.
[0048] Otra realización según la invención crea un flujo de bits que representa una señal de audio multicanal. El flujo de bits comprende una representación de una señal de mezcla descendente que combina señales de audio de una pluralidad de objetos de audio. El flujo de bits también comprende una información complementaria paramétrica relacionada con el objeto que describe las características de los objetos de audio. La información complementaria paramétrica relacionada con el objeto comprende un parámetro de señalización de flujo de bits que indica si el flujo de bits comprende valores de parámetros de flujo de bits de correlación inter-objeto individuales o un valor de parámetro de flujo de bits de correlación inter-objeto común. Por consiguiente, el flujo de bits permite un uso flexible para la transmisión de diferentes tipos de contenido de los canales de audio. En particular, el flujo de bits permite tanto la transmisión de los valores de parámetros de flujo de bits de correlación inter-objeto individuales o del valor de parámetro del flujo de bits de correlación inter-objeto común, lo que sea más adecuado para la escena auditiva. Por consiguiente, el flujo de bits es adecuado para manejar ambos casos en los que hay un número comparativamente pequeño de objetos de audio relacionados para los que se debe transmitir información de correlación inter-objeto detallada (objeto-individual) y para los casos en los que hay un número comparativamente grande de objetos de audio relacionados para los cuales una transmisión de valores de parámetros de flujo de bits de correlación inter-objeto objetos individuales daría como resultado una demanda de tasa de bits excesivamente alta y para los cuales un valor de parámetro de flujo de bits de correlación inter-objeto común aún permite una reproducción con una buena impresión auditiva.
Breve descripción de las figuras
[0049] Las realizaciones según la invención se describirán posteriormente con referencia a las figuras adjuntas, en las que:
la figura 1 muestra un diagrama esquemático de bloques de un decodificador de señal de audio según una realización de la invención;
la figura 2 muestra un diagrama esquemático de bloques de un codificador de señal de audio según una realización de la invención;
la figura 3 muestra una representación esquemática de un flujo de bits según una realización de la invención;
la figura 4 muestra un diagrama de bloques esquemático de un sistema MPEG SAOC usando un único cálculo de parámetro de correlación inter-objeto;
la figura 5 muestra una representación de sintaxis de una información de configuración específica de SAOC, que puede ser parte de un flujo de bits;
la figura 6 muestra una representación de sintaxis de una información de trama SAOC, que puede ser parte de un flujo de bits;
la figura 7 muestra una tabla que representa una cuantificación de parámetros del parámetro de correlación inter­ objeto;
la figura 8 muestra un diagrama de bloques esquemático de un sistema MPEG SAOC de referencia;
la figura 9a muestra un diagrama de bloques esquemático de un sistema de SAOC de referencia usando un decodificador y un mezclador separados;
la figura 9b muestra un diagrama de bloques esquemático de un sistema SAOC de referencia usando decodificador y mezclador integrados; y
la figura 9c muestra un diagrama de bloques esquemático de un sistema SAOC de referencia usando un transcodificador SAOC a MPEG.
Descripción detallada de las realizaciones
1. Decodificador de señal de audio según la figura 1
[0050] A continuación se describirá un decodificador de señal de audio 100 haciendo referencia a la figura 1, la cual muestra un diagrama esquemático de bloques de un tal decodificador de señal de audio 100.
[0051] En primer lugar se describirán señales de entrada y salida del decodificador de señal de audio 100. Posteriormente, se describirá la estructura del decodificador de señal de audio 100 y finalmente, se analizará la funcionalidad del decodificador de señal de audio 100.
[0052] El decodificador de señal de audio 100 está configurado para recibir una representación de señal de mezcla descendente 110, la cual típicamente representa una pluralidad de señales de objeto de audio, por ejemplo, en forma de una representación de señal de audio de un canal o una representación de señal de audio de dos canales.
[0053] El decodificador de señal de audio 100 también recibe una información paramétrica relacionada con el objeto 112, la cual típicamente describe objetos de audio, los cuales están incluidos en la representación de señal de mezcla descendente 110.
[0054] Por ejemplo, la información paramétrica relacionada con el objeto 112 describe niveles de objeto de los objetos de audio, los cuales están representados por la representación de señal de mezcla descendente 110, usando valores de diferencia de nivel de objeto (OLD).
[0055] Además, la información paramétrica relacionada con el objeto 112 típicamente representa características de correlación inter-objeto de los objetos de audio, los cuales están representados por la representación de señal de mezcla descendente 110. La información paramétrica relacionada con el objeto típicamente comprende un parámetro de señalización de flujo de bits (también designado aquí "bsOneIOC"), el cual señaliza si la información paramétrica relacionada con el objeto comprende valores de parámetros de flujo de bits de correlación inter-objeto individuales asociados a pares individuales de objetos de audio, o un valor de parámetro de flujo de bits de correlación inter-objeto común con una pluralidad de pares de objetos de audio. Por consiguiente, la información paramétrica relacionada con el objeto comprende los valores de parámetros de flujo de bits de correlación inter-objeto individuales o el valor de parámetro de flujo de bits de correlación inter-objeto común, según el parámetro de señalización de flujo de bits "bsOneIOC".
[0056] La información paramétrica relacionada con el objeto 112 también puede comprender información de mezcla descendente describiendo un mezclado descendente de los objetos de audio individuales que forman la representación de señal de mezcla descendente. Por ejemplo, la información paramétrica relacionada con el objeto comprende una información de ganancia de mezcla descendente DMG describiendo una contribución de las señales de objeto de audio a la representación de señal de mezcla descendente 110. Además, opcionalmente, la información paramétrica relacionada con el objeto puede comprender una información de diferencia de nivel de canal de mezcla descendente DCLD que describe diferencias de ganancia entre diferentes canales de mezcla descendente.
[0057] El decodificador de señal 100 también está configurado para recibir información de interpretación 120, por ejemplo, desde una interfaz de usuario para introducir dicha información de interpretación. La información de interpretación describe la asignación de las señales de los objetos de audio a canales de mezcla ascendente. Por ejemplo, la información de interpretación 120 puede adoptar la forma de una matriz de interpretación (o entradas de la misma). Como alternativa, la información de interpretación 120 puede comprender una descripción de una posición de interpretación deseada (por ejemplo, en términos de coordenadas espaciales) de los objetos de audio e intensidades (o volúmenes) deseadas para los objetos de audio.
[0058] El decodificador de señal de audio 100 proporciona una representación de señal de mezcla ascendente 130, la cual constituye una representación interpretada de las señales de objeto de audio descritas por la representación de señal de mezcla descendente y la información paramétrica relacionada con el objeto. Por ejemplo, la representación de señal de mezcla ascendente puede adoptar la forma de señales de canal de audio individuales, o puede adoptar la forma de una representación de señal de mezcla descendente en combinación con una información complementaria paramétrica relacionada con el canal (por ejemplo, información complementaria MPEG-Surround).
[0059] El decodificador de señal de audio 100 está configurado para proporcionar la representación de señal de mezcla ascendente 130 sobre la base de la representación de señal de mezcla descendente 110 y la información paramétrica relacionada con el objeto 112 y en dependencia de la información de interpretación 120. El aparato 100 comprende un determinador de parámetro de objeto 140, el cual está configurado para obtener valores de correlación inter-objeto (al menos) para una pluralidad de pares de objetos de audio relacionados sobre la base de la información paramétrica relacionada con el objeto 112. Con este fin, el determinador de parámetro de objeto 140 está configurado para evaluar el parámetro de señalización de flujo de bits (bsOneIOC") para decidir si evaluar valores de parámetros de transmisión de flujo de bits de correlación inter-objeto individuales para obtener los valores de correlación inter­ objeto para una pluralidad de pares de objetos de audio relacionadas u obtener los valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parámetro de flujo de bits de correlación inter-objeto común. Por consiguiente, el determinador de parámetro de objeto 140 está configurado para proporcionar los valores de correlación inter-objeto 142 para una pluralidad de pares de objetos de audio relacionados sobre la base de valores de parámetros de flujo de bits de correlación inter-objeto individuales si el parámetro de señalización de flujo de bits indica que no está disponible un valor de parámetro de flujo de bits de correlación inter­ objeto común. De manera similar, el determinador de parámetro de objeto determina los valores de correlación inter­ objeto 142 para una pluralidad de pares de objetos de audio relacionados sobre la base del valor de parámetro de flujo de bits de correlación inter-objeto común si el parámetro de señalización de flujo de bits indica que un tal valor de parámetro de flujo de bits de correlación inter-objeto común está disponible.
[0060] El determinador de parámetro de objeto típicamente proporciona otros valores relacionados con el objeto, como, por ejemplo, valores de diferencia de nivel de objeto OLD, valores de ganancia de mezcla descendente DMG y (opcionalmente) valores de diferencia de nivel de canal de mezcla descendente DCLD sobre la base de la información paramétrica relacionada con el objeto 112.
[0061] El decodificador de señal de audio 100 también comprende un procesador de señal 150, el cual está configurado para obtener la representación de señal de mezcla ascendente 130 sobre la base de la representación de señal de mezcla descendente 110 y usando los valores de correlación inter-objeto 142 para una pluralidad de pares de objetos de audio relacionados y la información de interpretación 120. El procesador de señal 150 también usa los otros valores relacionados con el objeto, como valores de diferencia de nivel de objeto, valores de ganancia de mezcla descendente y valores de diferencia de nivel de canal de mezcla descendente.
[0062] El procesador de señal 150 puede, por ejemplo, estimar características estadísticas de una representación de señal de mezcla ascendente deseada 130 y procesar la representación de señal de mezcla descendente de tal forma que la representación de señal de mezcla ascendente 130 que derive de la representación de señal de mezcla descendente comprende las características estadísticas deseadas. Como alternativa, el procesador de señal 150 puede intentar separar las señales de objeto de audio de la pluralidad de objetos de audio, que están combinadas en la representación de señal de mezcla descendente 110, usando el conocimiento acerca de las características de objeto y el procedimiento de mezcla descendente. Por consiguiente, el procesador de señal puede calcular una regla de procesamiento (por ejemplo, una regla de escala o una regla de combinación lineal), la cual permitirá una reconstrucción de las señales de objeto de audio individuales o al menos de señales de audio que tienen características estadísticas similares a las señales de objeto de audio individuales. El procesador de señal 150 luego puede aplicar la interpretación deseada para obtener la representación de señal de mezcla ascendente. Naturalmente, el cómputo de las señales de objeto de audio reconstruidas, las cuales aproximan las señales de objeto de audio individuales, y la interpretación pueden combinarse en una única etapa de procesamiento para reducir la complejidad de computación.
[0063] Para sintetizar lo anterior, el decodificador de señal de audio está configurado para proporcionar la representación de señal de mezcla ascendente 130 sobre la base de la representación de señal de mezcla descendente 110 y la información paramétrica relacionada con el objeto 112 usando la información de interpretación 120. La información paramétrica relacionada con el objeto 112 es evaluada para tener un conocimiento acerca de las características estadísticas de las señales de objeto de audio individuales y de la relación entre las señales de objeto de audio individuales, que es requerida por el procesador de señal 150. Por ejemplo, la información paramétrica relacionada con el objeto 112 se usa para obtener una matriz de varianza estimada que describe valores de covarianza estimados de las señales de objeto de audio individuales. La matriz de covarianza estimada después se aplica por el procesador de señal 150 para determinar una regla de procesamiento (por ejemplo, como se ha analizado anteriormente) para derivar la representación de señal de mezcla ascendente 130 a partir de la representación de señal de mezcla descendente 110, en la que, naturalmente, también puede ser aprovechada otra información relacionada con el objeto.
[0064] El determinador de parámetro de objeto 140 comprende diferentes modos para obtener los valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados, lo cual constituye una importante información de entrada para el procesador de señal 150. En un primer modo, los valores de correlación inter-objeto son determinados usando valores de parámetros de flujo de bits de correlación inter-objeto individuales. Por ejemplo, puede ser un valor de parámetro de flujo de bits de correlación inter-objeto individual para cada par de objetos de audio relacionados, de tal forma que el determinador de parámetro de objeto 140 simplemente mapea tal valor de parámetro de flujo de bits de correlación inter-objeto individual sobre uno o dos valores de correlación interobjeto con un par dado de objetos de audio relacionados. Por otro lado, también hay un segundo modo de operación, en el que el determinador de parámetro de objeto 140 meramente lee un único valor de parámetro de flujo de bits de correlación inter-objeto del flujo de bits y proporciona una pluralidad de valores de correlación inter-objeto para una pluralidad de diferentes pares de objetos de audio relacionados sobre la base de este único valor de parámetro de flujo de bits de correlación inter-objeto. Por consiguiente, los valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados pueden, por ejemplo, ser idénticos al valor representado por el valor único de parámetro de flujo de bits de correlación inter-objeto común, o pueden ser derivados del mismo valor de parámetro de flujo de bits de correlación inter-objeto común. El determinador de parámetro de objeto 140 es conmutable entre dicho primer modo y dicho segundo modo en dependencia del parámetro de señalización de flujo de bits ("bsOneIOC").
[0065] Por consiguiente, hay diferentes modos para la provisión de los valores de correlación inter-objeto, los cuales pueden ser aplicados por el determinador de parámetro de objeto 140. Si hay un número relativamente pequeño de pares de objetos de audio relacionados, los valores de correlación inter-objeto de dichos pares de objetos de audio relacionados típicamente son determinados (en dependencia del parámetro de señalización de flujo de bits) individualmente por el determinador de parámetro de objeto, lo cual permite una representación particularmente precisa de las características de dichos pares de objetos de audio relacionados y, en consecuencia, ofrece la posibilidad de reconstruir las señales de objeto de audio individuales con buena precisión en el procesador de señal 150. Por lo tanto, típicamente es posible proporciona una buena impresión auditiva en un caso así en el cual sólo las correlaciones entre un número comparativamente pequeño de pares de objetos de audio relacionados son relevantes.
[0066] El segundo modo de operación del determinador de parámetro de objeto, en el cual se usa un valor de parámetro de flujo de bits de correlación inter-objeto común para obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados, típicamente se usa en casos en los cuales hay correlaciones no despreciables entre una pluralidad de pares de objetos de audio. Tales casos no podrían ser manejados convencionalmente sin aumentar excesivamente la tasa de bits de un flujo de bits que representa tanto la representación de señal de mezcla descendente 110 como la información paramétrica relacionada con el objeto 112. El uso de un valor de parámetro de flujo de bits de correlación inter-objeto común produce ventajas específicas si hay correlaciones no despreciables entre un número comparativamente grande de pares de objetos de audio, cuyas correlaciones no comprenden variaciones acústicamente significativas. En este caso, es posible considerar las correlaciones con moderado esfuerzo de tasa de bits, lo cual produce un compromiso razonablemente bueno entre requisito de tasa de bits y calidad de la impresión auditiva.
[0067] Por consiguiente, el decodificador de señal de audio 100 es capaz de manejar eficientemente diferentes situaciones, concretamente, situaciones en las que hay sólo unos pocos pares de objetos de audio relacionados, cuya correlación inter-objeto debe ser tenida en cuenta con alta precisión, y situaciones en las que hay un gran número de pares de objetos de audio relacionados, cuyas correlaciones inter-objeto no deben ser despreciadas completamente pero tienen alguna similitud. El decodificador de señal de audio 100 es capaz de manejar ambas situaciones con buena calidad de impresión auditiva.
2. Codificador de señal de audio según la figura 2
[0068] A continuación se describirá un codificador de señal de audio 200 haciendo referencia a la figura 2, la cual muestra un diagrama esquemático de bloques de un tal codificador de señal de audio 200.
[0069] El codificador de señal de audio 200 está configurado para recibir una pluralidad de señales de objeto de audio 210a a 210N. Las señales de objeto de audio 210a a 210N pueden ser, por ejemplo, señales de un canal o señales de dos canales representando diferentes objetos de audio.
[0070] El codificador de señal de audio 200 también está configurado para proporcionar una representación de flujo de bits 220, que describe la escena de auditorio representada por las señale de objeto de audio 210a a 210N en una manera compacta y eficiente en cuando a tasa de bits.
[0071] El codificador de señal de audio 200 comprende un mezclador descendente 220, el cual está configurado para recibir señales de objeto de audio 210a a 210N y para proporcionar una señal de mezcla descendente 232 sobre la base de las señales de objeto de audio 210a a 210N. El mezclador descendente 230 está configurado para proporcionar la señal de mezcla descendente 232 en dependencia de parámetros de mezcla descendente que describen contribuciones de las señales de objeto de audio 210a a 210N a los uno o más canales de la señal de mezcla descendente.
[0072] El codificador de señal de audio también comprende un proveedor de parámetros 240, el cual está configurado para proporcionar un valor de parámetro de flujo de bits de correlación inter-objeto común 242 asociado con una pluralidad de señales de objeto de audio relacionadas 210a a 210N. El proveedor de parámetros 240 también está configurado para proporcionar un parámetro de señalización de flujo de bits 244 que indica que se proporciona el valor de parámetro de flujo de bits de correlación inter-objeto común 242 en lugar de una pluralidad de parámetros de flujo de bits de correlación inter-objeto individuales (asociados individualmente con diferentes pares de objetos de audio).
[0073] El codificador de señal de audio 200 también comprende un formateador de flujo de bits 250, el cual está configurado para proporcionar una representación de flujo de bits 250 que comprende una representación de la señal de mezcla descendente 232 (por ejemplo, una representación de la señal de mezcla descendente 232), una representación del valor de parámetro de flujo de bits de correlación inter-objeto común 242 (por ejemplo, una representación cuantificada y codificada de ello) y el parámetro de señalización de flujo de bits 244 (por ejemplo, en forma de un valor de parámetro de un bit).
[0074] El codificador de señal de audio 200 en consecuencia proporciona una representación de flujo de bits 220, la cual representa la escena de audio descrita por las señales de objeto de audio 210a a 210N con buena precisión. En particular, la representación de flujo de bits 220 comprende una información complementaria compacta si muchas de las señales de objeto de audio 210a a 210N están relacionadas entre sí, es decir, comprenden una correlación inter-objeto no despreciable. En este caso, se proporciona el valor de parámetro de flujo de bits de correlación inter-objeto común 242 en lugar de los valores de parámetros de flujo de bits de correlación inter-objeto individuales, asociados individualmente con pares de objetos de audio. Por consiguiente, el codificador de señal de audio puede proporcionar una representación de flujo de bits compacta 220 en cualquier caso, tanto si hay muchos pares de señales de objeto de audio correlacionados 210a a 210N como si hay sólo unos pocos pares de señales de objeto de audio relacionadas 210a a 210N. En particular, la representación de flujo de bits 220 puede comprender la información requerida por el decodificador de señal de audio 100 como una información de entrada, concretamente, la representación de señal de mezcla descendente 110 y la información paramétrica relacionada con el objeto 112. Por lo tanto, el proveedor de parámetros 240 puede estar configurado para proporcionar información paramétrica relacionada con el objeto adicional que describe las señales de objeto de audio 210a a 210N así como también el procedimiento de mezcla descendente realizado por el mezclador descendente 230. Por ejemplo, el proveedor de parámetros 240 puede proporcionar adicionalmente una información de diferencia de nivel de objeto OLD que describe los niveles de objeto (o diferencias de nivel de objeto) de las señales de objeto de audio 210a a 210N. Además, el proveedor de parámetros 240 puede proporcionar una información de ganancia de mezcla descendente DMG que describe ganancias de mezcla descendente aplicadas a las señales de objeto de audio individuales 210a a 210N cuando se forma el uno o más canales de la señal de mezcla descendente 232. También, opcionalmente, se pueden proporcionar valores de diferencia de nivel de canal de mezcla descendente DCLD, que describen diferencias de ganancia de mezcla descendente entre diferentes canales de la señal de mezcla descendente 232, mediante el proveedor de parámetros 240 para su inclusión en la representación de flujo de bits 220.
[0075] Para resumir lo anterior, el codificador de señal de audio proporciona eficientemente la información paramétrica relacionada con el objeto requerida para una reconstrucción de la escena de audio descrita por las señales de objeto de audio 210a a 210N con una buena impresión auditiva, en la que se usa un valor de parámetro de flujo de bits de correlación inter-objeto común compacto si hay un gran número de pares de objetos de audio relacionados. Esto se señaliza usando el parámetro de señalización de flujo de bits 244. Por lo tanto, se evita una excesiva carga de flujo de bits en tal caso.
[0076] A continuación se describirán detalles adicionales con respecto a la provisión de una representación de flujo de bits.
3. Flujo de bits según la figura 3
[0077] La figura 3 muestra una representación esquemática de un flujo de bits 300, según una realización de la invención.
[0078] El flujo de bits 300 puede servir, por ejemplo, como un flujo de bits de entrada del decodificador de señal de audio 100, que lleva la representación de señal de mezcla descendente 110 y la información paramétrica relacionada con el objeto 112. El flujo de bits 300 puede proporcionarse como un flujo de bits de salida 220 por el codificador de señal de audio 200.
[0079] El flujo de bits 300 comprende una representación de señal de mezcla descendente 310, la cual es una representación de una señal de mezcla descendente multicanal (por ejemplo, la señal de mezcla descendente 232) combinando señales de audio de una pluralidad de objetos de audio. El flujo de bits 300 también comprende información complementaria paramétrica relacionada con el objeto 320 que describe características de los objetos de audio, cuyas señales de objeto de audio están representadas, de forma combinada, por la representación de señal de mezcla descendente 310. La información complementaria paramétrica relacionada con el objeto 320 comprende un parámetro de señalización de flujo de bits 322 que indica si el flujo de bits comprende parámetros de flujo de bits de correlación inter-objeto individuales (asociados individualmente con diferentes pares de objetos de audio) o un valor de parámetro de flujo de bits de correlación inter-objeto común (asociados con una pluralidad de diferentes pares de objetos de audio).
[0080] La información complementaria paramétrica relacionada con el objeto también comprende una pluralidad de valores de parámetros de flujo de bits de correlación inter-objeto individuales 324a, lo cual está indicado por un primer estado del parámetro de señalización de flujo de bits 322, o un valor de parámetro de flujo de bits de correlación inter-objeto común, lo cual está indicado por un segundo estado del parámetro de señalización de flujo de bits 322.
[0081] Por consiguiente, el flujo de bits 300 puede ser adaptada a características de relación de las señales de objeto de audio 210a a 210N adaptando el formato del flujo de bits 300 para contener una representación de valores de parámetros de flujo de bits de correlación inter-objeto individuales o una representación de un valor de parámetro de flujo de bits de correlación inter-objeto común.
[0082] En consecuencia, el flujo de bits 300 puede proporcionar la oportunidad de codificar eficientemente diferentes tipos de escenas de audio con una información complementaria compacta, mientras que mantiene la oportunidad de obtener una buena impresión auditiva para el caso en el que hay sólo unos pocos objetos de audio fuertemente correlacionados.
[0083] Posteriormente, se analizarán detalles adicionales con respecto al flujo de bits.
4. El sistema MPEG SAOC según la figura 4
[0084] A continuación se describirá un sistema MPEG SAOC usando un cálculo de parámetro de IOC único, tomando como referencia la figura 4.
[0085] El sistema MPEG SAOC 400 según la figura 4 comprende un codificador SAOC 410 y un decodificador SAOC 420.
[0086] El codificador SAOC 410 está configurado para recibir, por ejemplo, una pluralidad de L señales de objeto de audio 420a a 420N. El codificador SAOC 410 está configurado para proporcionar una representación de señal de mezcla descendente 430 y una información complementaria 432, que están incluidas, preferentemente, pero no necesariamente, en un flujo de bits.
[0087] El codificador SAOC 410 comprende un procesamiento de mezcla descendente de SAOC 440, que recibe las señales de objeto de audio 420a a 420N y proporciona la representación de señal de mezcla descendente 430 en base a lo mismo. El codificador SAOC 410 también comprende un extractor de parámetro 444, que puede recibir las señales de objeto 420a a 420N y también opcionalmente, puede recibir una información acerca del procesamiento de mezcla descendente de SAOC 440 (por ejemplo, uno o más parámetros de mezcla descendente). El extractor de parámetro 444 comprende un único calculador de correlación inter-objeto 448, que está configurado para calcular un único valor de correlación inter-objeto (común) asociado con una pluralidad de pares de objetos de audio. Además, el único calculador de correlación inter-objeto 448 está configurado para proporcionar una única señalización de correlación inter-objeto 452, que indica si se usa un único valor de correlación inter-objeto en lugar de valores de correlación inter-objeto de par de objeto individual. El calculador de correlación inter-objeto único 448 puede decidir, por ejemplo, sobre la base de un análisis de la señales de objeto de audio 420a a 420N, si se proporciona un único valor de correlación inter-objeto común (o, como alternativa, una pluralidad de valores de parámetros de correlación inter-objeto individuales asociados individualmente con pares de señales de objeto de audio). Sin embargo, el calculador de correlación inter-objeto único 448 también puede recibir una información de control externa que determina si se debe calcular un valor de correlación inter-objeto común (por ejemplo, un valor de parámetro de flujo de bits) o valores de correlación inter-objeto individuales (por ejemplo, valores de parámetros de flujo de bits).
[0088] El extractor de parámetro 444 también está configurado para proporcionar una pluralidad de parámetros que describen las señales de objeto de audio 420a a 420N, como, por ejemplo, parámetros de diferencia de nivel de objeto. El extractor de parámetro 444 también está configurado preferentemente para proporcionar parámetros que describen la mezcla descendente, como, por ejemplo, un conjunto de parámetros de ganancia de mezcla descendente DMG y un conjunto de parámetros de diferencia de nivel de canal de mezcla descendente DCLD.
[0089] El codificador SAOC 410 comprende una cuantificación 456, que cuantifica los parámetros proporcionados por el extractor de parámetro 444. Por ejemplo, el parámetro de correlación inter-objeto común puede ser cuantificado por la cuantificación 456. Además, los parámetros de diferencia de nivel de objeto, los parámetros de ganancia de mezcla descendente y los parámetros de diferencia de nivel de canal de mezcla descendente también pueden cuantificarse por la cuantificación 456. Por consiguiente, los parámetros cuantificados son obtenidos mediante la cuantificación 456.
[0090] El codificador SAOC 410 también comprende una codificación sin ruido 460, que está configurada para codificar los parámetros cuantificados proporcionados por la cuantificación 456. Por ejemplo, la codificación sin ruido puede codificar sin ruido el parámetro de correlación inter-objeto común cuantificado y también otros parámetros cuantificados (por ejemplo, OLD, DMG y DCLD).
[0091] Por consiguiente, el codificador SAOC 410 proporciona la información complementaria 432 de tal forma que la información complementaria comprende la señalización de IOC única 452 (la cual puede ser considerada como un parámetro de señalización de flujo de bits) y los parámetros codificados sin ruido proporcionados por la codificación sin ruido 480 (los cuales pueden ser considerados como valores de parámetros de flujo de bits).
[0092] El decodificador SAOC 420 está configurado para recibir la información complementaria 432 proporcionada por el codificador SAOC 410 y la representación de señal de mezcla descendente 430 proporcionada por el codificador SAOC 410.
[0093] El decodificador SAOC 420 comprende una decodificación sin ruido 464, que está configurada para revertir la codificación sin ruido 460 de la información complementaria 432 realizada en el codificador 410. El decodificador SAOC 420 también comprende una descuantificación 468, la cual también puede ser considerada como una cuantificación inversa (aunque, estrictamente hablando, la cuantificación no es reversible con precisión perfecta), en la que la descuantificación 468 está configurada para recibir la información complementaria decodificada 466 desde la decodificación sin ruido 464. La descuantificación 468 proporciona los parámetros descuantificados 470, por ejemplo, el valor de correlación inter-objeto común decodificado y descuantificado proporcionado por el calculador de correlación inter-objeto único 448 y también valores de diferencia de nivel de objeto OLD decodificados y descuantificados, valores de ganancia de mezcla descendente DMG decodificados y descuantificados y valores de diferencia de nivel de canal de mezcla descendente DCLD. El decodificador SAOC 420 también comprende un único expansor de correlación inter-objeto 474, que está configurado para proporcionar una pluralidad de valores de correlación inter-objeto asociados con una pluralidad de pares de objetos de audio relacionados sobre la base del valor de correlación-inter-objeto común. Sin embargo, se debe apreciar que el expansor de correlación inter-objeto único 474 puede disponerse antes de la decodificación sin ruido 464 y la descuantificación 468 en algunas realizaciones. Por ejemplo, el expansor de correlación inter-objeto único 474 puede estar integrado en un analizador sintáctico de flujo de bits, el cual recibe un flujo de bits que comprende tanto la representación de señal de mezcla descendente 430 como la información complementaria 432.
[0094] El decodificador SAOC 420 también comprende un procesamiento y mezcla de decodificador SAOC 480, el cual está configurado para recibir la representación de señal de mezcla descendente 430 y los parámetros decodificados incluidos (en forma codificada) en la información complementaria 432. Por lo tanto, el procesamiento y mezcla de decodificador SAOC 480 puede recibir, por ejemplo, uno o dos valores de correlación inter-objeto para cada par de (diferentes) objetos de audio), en el que el uno o dos valores de correlación inter-objeto pueden ser nulos para objetos de audio no relacionados y no nulos para objetos de audio relacionados. Además, el procesamiento y mezcla de decodificador SAOC 480 puede recibir valores de diferencia de nivel de objeto para cada objeto de audio. Además, el procesamiento y mezcla de decodificador SAOC 480 puede recibir valores de ganancia de mezcla descendente y (opcionalmente) valores de diferencia de nivel de canal de mezcla descendente que describen la mezcla descendente realizada en el procesamiento de mezcla descendente de SAOC 440. Por consiguiente, el procesamiento y mezcla de decodificador SAOC 480 puede proporcionar una pluralidad de señales de canal 484a a 484N en dependencia de la representación de señal de mezcla descendente 430, los parámetros de información complementaria incluidos en la información complementaria 432 y una información de interacción 482, que describe una interpretación deseada de los objetos de audio. Sin embargo, ha de apreciarse que los canales 484a a 484N pueden ser representados ya sea en forma de señales de canal de audio individuales o bien en forma de una representación paramétrica, como por ejemplo, una representación multicanal según el estándar MPEG Surround (que comprende, por ejemplo, una señal de mezcla descendente MPEG Surround e información complementaria de MPEG Surround relacionada con el canal). En otras palabras, tanto una representación de señal de audio de canal individual como una representación paramétrica de señal de audio multicanal serán consideradas como una representación de señal de mezcla ascendente dentro de la presente descripción.
[0095] A continuación se describirán algunos detalles con respecto a la funcionalidad del codificador SAOC 410 y del decodificador SAOC 420.
[0096] La información complementaria de SAOC, que se analizará a continuación, desempeña un papel importante en la codificación SAOC y la decodificación SAOC. La información complementaria de SAOC describe los objetos de entrada (objetos de audio) por medio de su matriz de covarianza variante de tiempo/frecuencia. Las N señales de objeto 420a a 420N (algunas veces también designadas como "objetos") pueden ser escritas en filas en una matriz:
Figure imgf000014_0001
[0097] Aquí, las entradas si(l) designan valores espectrales de un objeto de audio que tiene índice de objeto de audio i para una pluralidad de porciones temporales que tienen índices de tiempo 1. Un bloque de señal de L muestras representa la señal en un intervalo de tiempo y frecuencia que es una parte de la inclinación motivada perceptualmente del plano de tiempo-frecuencia que se aplica para la descripción de propiedades de señal.
[0098] Por lo tanto, la matriz de covarianza se da como
Figure imgf000014_0002
con
Figure imgf000015_0001
[0099] La matriz de covarianza típicamente es usada por el procesamiento y mezcla de decodificador SAOC 480 para obtener las señales de canal 484a a 484N.
[0100] Los elementos de la diagonal pueden ser reconstruidos directamente en el lado del decodificador SAOC con los datos de OLD, y los elementos fuera de la diagonal se dan por las correlaciones inter-objeto (IOC) como
Figure imgf000015_0002
[0101] Ha de apreciarse que los valores de diferencia de nivel de objeto describen sm y sn.
[0102] El número de valores de correlación inter-objeto necesario para transferir toda la matriz de covarianza es N*N/2-N/2. Como este número puede hacerse grande (por ejemplo, para un número N grande de señales de objeto), dando como resultado una alta demanda de bis, el codificador SAOC 410 (así como el codificador de señal de audio 200), opcionalmente, puede transmitir sólo valores de correlación inter-objeto seleccionados para pares de objetos, los cuales están señalizados como "relacionados" entre sí. Esta información "relacionada con" opcional es, por ejemplo, transferida estadísticamente en un elemento de sintaxis de configuración específico de SAOC del flujo de bits, que puede designarse, por ejemplo, con "SAOCSpecificConfigO". Se supone que los objetos que no están relacionados entre sí, son no relacionados, es decir, su correlación inter-objeto es igual a cero.
[0103] Sin embargo, existen escenarios de aplicaciones donde todos los objetos (o casi todos los objetos) están relacionados entre sí. Un ejemplo de un tal escenario de aplicación es una conferencia telefónica con una configuración de micrófono y acústica ambiente con un alto grado de entrecruzamiento de voz inter-micrófono. En estos casos, se necesitará la transmisión de todos los valores de IOC (si se usó el mecanismo convencional mencionado anteriormente), pero usualmente excederá el presupuesto de bits deseado. Como una alternativa, suponer que todos los objetos no están correlacionados inducirá a un gran error en el modelo y, por lo tanto, producirá una calidad de audio subóptima de la escena interpretada.
[0104] La suposición subyacente del enfoque propuesto es que para ciertos escenarios de aplicación de SAOC, fuentes de sonido no correlacionadas dan como resultado objetos de entrada de SAOC correlacionados debido al ambiente acústico en que se hallan y debido a las técnicas de registro aplicadas.
[0105] Considerando una configuración de conferencia telefónica, por ejemplo, el impacto de la reverberación ambiente y el imperfecto aislamiento de los locutores individuales conducen a objetos de SAOC correlacionados a pesar de que el habla de los sujetos individuales no está correlacionado. Estas circunstancias acústicas y la correlación resultante pueden describirse aproximadamente con un único valor variable con la frecuencia y con el tiempo.
[0106] Por lo tanto, el procedimiento propuesto evita la alta demanda de tasa de bits de transferir todas las correlaciones de objeto deseadas. Esto se hace calculando un único valor de IOC dependiente del tiempo y la frecuencia en un módulo "calculador de IOC único" 448 específico en el codificador SAOC (véase la figura 4). El uso de la característica "IOC único" es señalizado en la información de SAOC (por ejemplo, usando el parámetro de señalización de flujo de bits "bsOneIOC"). El valor único de IOC por intervalo de tiempo/frecuencia después se transmite en lugar de todos los valores de IOC separados (por ejemplo, usando el valor de parámetro de flujo de bits de correlación inter-objeto común).
[0107] En una aplicación típica, el encabezado de flujo de bits (por ejemplo, el elemento "SAOCSpecificConfigO" según la norma de SAOC no prepublicada [SAOC]) incluye un bit indicando si se usa señalización "IOC único" o IOC "normal". A continuación se analizarán algunos detalles con respecto a esta cuestión.
[0108] Los datos de trama de carga útil (por ejemplo, el elemento "SAOCFrame()" en la norma de SAOC no pre-publicada [SAOC]) entonces incluye IOC comunes para todos los objetos o varios IOC dependiendo del modo "IOC único" o "normal".
[0109] Por lo tanto, un analizador sintáctico de flujo de bits (que puede ser parte del decodificador SAOC) para los datos de carga útil en el decodificador puede designarse según el ejemplo a continuación (que se formula en un pseudocódigo C):
if (iocMode == SINGLE_IOC)
{
readlocDataFromBitstream(l) ;
}
else
{
readlocDataFromBitstream (numberOfTransmittedlocs) ;
}
[0110] Según el ejemplo anterior, el analizador sintáctico de flujo de bits verifica si una bandera "iocMode" (también designada con "bsOneIOC" a continuación) indica que hay sólo un único valor de parámetro de flujo de bits de correlación inter-objeto (lo cual es señalado por el valor de parámetro "SINGLEJOC"). Si el analizador sintáctico encuentra que hay sólo un único valor de correlación inter-objeto, el analizador sintáctico de flujo de bits lee una unidad de datos de correlación inter-objeto (es decir, un valor de parámetro de flujo de bits de correlación inter-objeto) de flujo de bits, lo cual está indicado por la operación readIocDataFromBitstream(1)". Si, por el contrario, el analizador de sintáctico de flujo de bits encuentra que la bandera "iocMode" no indica el uso de un único valor de correlación inter­ objeto (común), el analizador sintáctico de flujo de bits lee un número diferente de unidades de datos de correlación inter-objeto (por ejemplo, valores de parámetros de flujo de bits de correlación inter-objeto) del flujo de bits, lo cual está indicado por la función "readIocDataFromBitstream (numberOfTransmittedIocs)"). El número ("numberOfTransmittedIocs") de unidades de datos de correlación inter-objeto leído en este caso típicamente está determinado por un número de pares de objetos de audio relacionados.
[0111] Como alternativa, la señalización "IOC único" puede estar presente en la trama de carga útil (por ejemplo, en el elemento denominado "SAOCFrame()" en la Norma de SAOC no pre-publicada) para permitir conmutación dinámica entre el modo de IOC único y el modo de IOC normal en una base por trama.
5. Implementación del lado del codificador del cálculo de un parámetro de flujo de bits de correlación inter-objeto común
[0112] A continuación, se describirán algunas implementaciones preferidas para el cálculo de IOC único (IOCúnico).
5.1. Cálculo usando términos de potencia cruzada
[0113] En una realización preferida del codificador SAOC 410, el valor de parámetro de flujo de bits de correlación inter-objeto común IOCúnico puede computarse según la siguiente ecuación:
Figure imgf000016_0001
con los términos de potencia cruzada
Figure imgf000016_0002
donde n y k son instancias de tiempo y frecuencia (o índices de tiempo y frecuencia) para los cuales se aplica el parámetro de SAOC.
[0114] En otras palabras, el valor de parámetro de flujo de bits de correlación inter-objeto común IOCúnico puede computarse en dependencia de una relación entre una suma de términos cruzados nrg¡j (en el que el índice de objeto i es típicamente diferente del índice de objeto j) y una suma de valores de energía promedio (cuyos valores de energía promedio representan, por ejemplo, una media geométrica entre los valores de energía nrgii y nrgjj).
[0115] La suma puede realizarse, por ejemplo, para todos los pares de objetos de audio diferentes, o sólo para pares de objetos de audio relacionados.
[0116] El término de potencia cruzada nrgij puede ser formado, por ejemplo, como una suma sobre productos de conjugado complejo (siendo uno de los factores complejo conjugado) de coeficientes espectrales sink, sjnk asociados con las señales de objeto de audio del par de objetos de audio bajo consideración para una pluralidad de instancias (que tienen índices de tiempo n) y/o una pluralidad de instancias de frecuencia (que tienen índices de frecuencia k).
[0117] Una parte real de dicha relación puede formarse (por ejemplo, mediante una operación Re{}) para tener un valor de parámetro de flujo de bits de correlación inter-objeto común lOCúnico, de valor real, como se muestra en la ecuación anterior.
5.2. Uso de un valor constante
[0118] En otra realización preferida, se puede elegir un valor constante c para obtener el valor de parámetro de flujo de bits de correlación inter-objeto común IOCúnico según
IOCúnico _ c
siendo c una constante.
[0119] Esta constante c podría describir, por ejemplo, habla cruzada independiente del tiempo y la frecuencia de una habitación con acústica específica (cantidad de reverberación) donde tiene lugar una conferencia telefónica.
[0120] La constante c puede ser fijada, por ejemplo, según una estimación de la acústica de la sala, lo cual puede realizarse por el codificador SAOC. Como alternativa, la constante c puede introducirse a través de una interfaz de usuario, o puede estar predeterminada en el codificador SAOC 410.
6. Determinación del lado del decodificador de los valores de correlación inter-objeto para todos los pares de objeto [0121] A continuación, se describirá ahora cómo se pueden obtener los valores de correlación inter-objeto para todos los pares de objetos.
[0122] En el lado del decodificador (por ejemplo, en el decodificador SAOC 420), se usa el parámetro de correlación inter-objeto (flujo de bits) (IOCúnico) para determinar los valores de correlación inter-objeto para todos los pares de objetos. Esto se hace, por ejemplo, en el módulo "Expansor de IOC Único" 474 (véase la figura 4).
[0123] Un procedimiento preferido es una simple operación de copia. La copia puede aplicarse con o sin considerar la información "relacionada con" transportada, por ejemplo, en el encabezado de flujo de bits de SAOC (por ejemplo, en la porción "SAOCSpecificConfiguration()").
[0124] En una realización preferida, se puede realizar una copia sin información "relacionada con" (es decir, sin transferir o considerar una información "relacionada con") de la siguiente manera:
lOCmn = IOCúnico, para todos m, n con m t n.
[0125] Por lo tanto, todos los valores de correlación inter-objeto para pares de diferentes objetos de audio se fijan al valor de parámetro de (flujo de bits de) correlación inter-objeto común.
[0126] En otra realización preferida se realiza una copia con información "relacionada con" (es decir, teniendo en cuenta la información "relacionada con"), por ejemplo, de la siguiente manera:
lOCmn— Í^^^úníco, para todos m,n con m ¿n y relatedTo(m,n) = 1
1 0, para todos m,n con m ¿n y relatedTo(m,n) = 0
[0127] Por consiguiente, uno o incluso dos valores de correlación inter-objeto asociados con un par de objetos de audio (que tienen índices de objeto de audio m y n) se ajustan al valor IOCúnico especificado, por ejemplo, mediante el valor de parámetro de flujo de bits de correlación inter-objeto común, si la información de relación entre objetos "relatedTo(m,n)" indica que dichos objetos de audio están relacionados entre sí. De otro modo, es decir, si la información de relación entre objetos "relatedTo(m,n)" indica que los objetos de audio de un par de objetos de audio no están relacionados, uno o incluso dos valores de correlación inter-objeto asociados con el par de objetos de audio se fijan a un valor predeterminado, por ejemplo, a cero.
[0128] Sin embargo, son posibles diferentes procedimientos de distribución, por ejemplo, teniendo en cuenta las potencias de objeto. Por ejemplo, los valores de correlación inter-objeto que se refieren a objetos con potencia relativamente baja podrían ser fijados a valores altos, tal como 1 (correlación total), para minimizar la influencia del filtro de descorrelación en el decodificador SAOC.
7. Concepto de decodificador usando elementos de flujo de bits según las figuras 5 y 6
[0129] A continuación se describirá un concepto de decodificador de un decodificador de señal de audio usando los elementos de sintaxis de flujo de bits según las figuras 5 y 6. Ha de apreciarse aquí que la sintaxis de flujo de bits y el concepto de evaluación de flujo de bits, que se describirá con referencia a las figuras 5 y 6, pueden aplicarse, por ejemplo, en el decodificador de señal de audio 100 según la figura 1 y en el decodificador de señal de audio 420 según la figura 4. Además, cabe apreciar que el codificador de señal de audio 200 según la figura 2 y el decodificador de señal de audio 410 según la figura 4 pueden adaptarse para proporcionar elementos de sintaxis de flujo de bits como se analiza con respecto a las figuras 5 y 6.
[0130] Por consiguiente, el flujo de bits que comprende la representación de señal de mezcla descendente 110 y la información paramétrica relacionada con el objeto 112 y/o la representación de flujo de bits 220 y/o el flujo de bits 300 y/o un flujo de bits que comprende la información de mezcla descendente 430 y la información complementaria 432, pueden proporcionarse según la siguiente descripción.
[0131] Un flujo de bits de SAOC, que puede proporcionarse por los codificadores SAOC descritos anteriormente y los cuales pueden evaluarse por los decodificadores SAOC descritos anteriormente puede comprender una porción de configuración específica de SAOC, que se describirá a continuación haciendo referencia a la figura 5, que muestra una representación de sintaxis de tal porción de configuración específica de SAOC "SAOCSpecificConfigO".
[0132] La información de configuración específica de SAOC comprende, por ejemplo, información de configuración de frecuencia de muestreo, que describe una frecuencia de muestreo usada por un codificador de señal de audio y/o a ser usada por un decodificador de señal de audio. La información de configuración específica de SAOC también comprende una información de configuración de modo de bajo retardo, la cual describe si ha sido usado un modo de bajo retardo por un codificador de señal de audio y/o debe ser usado por un decodificador de señal de audio. La información de configuración específica de SAOC también comprende una información de configuración de resolución de frecuencia, que describe una resolución de frecuencia usada por un codificador de señal de audio y/o a ser usada por un decodificador de señal de audio. La información de configuración específica de SAOC también comprende una información de configuración de longitud de trama que describe una longitud de trama de tramas usadas por el codificador SAOC y/o a ser usadas por el decodificador SAOC. La información de configuración específica de SAOC también comprende una información de configuración de número de objetos la cual describe un número de objetos de audio. Esta información de configuración de número de objetos, que también es designada con "bsNumObjects", por ejemplo, describe el valor N, que se ha usado anteriormente.
[0133] La información de configuración específica de SAOC también comprende una información de configuración de relación entre objetos. Por ejemplo, puede haber un bit de flujo de bits cada par de diferentes objetos de audio. Sin embargo, la relación entre objetos de audio puede estar representada, por ejemplo, mediante una matriz cuadrada de N x N que tiene una entrada de un bit para cada combinación de objetos de audio. Las entradas de dicha matriz que describen la relación de un objeto consigo mismo, es decir, elementos de la diagonal, pueden fijarse en uno, lo cual indica que un objeto está relacionado consigo mismo. Dos entradas, concretamente una primera entrada que tiene un primer índice i y un segundo índice j, y una segunda entrada que tiene un primer índice j y un segundo índice i, pueden asociarse con cada par de diferentes objetos de audio que tienen índices de objeto de audio i y j. Por consiguiente, un único bit de flujo de bits determina los valores de dos entradas de la matriz de relación entre objetos, que se ajustan a valores idénticos.
[0134] Como se puede ver, un primer índice de objeto de audio i va desde i = 0 hasta i = bsNumObjects (para bucle exterior). Una entrada de diagonal "bsRelatedTo[i][i]" se ajusta a uno para todos los valores de i. Para un primer índice de objeto de audio i, los bits que describen una relación entre el objeto de audio i y los objetos de audio j (que tienen índice de objeto de audio j) están incluidos en el flujo de bits para j = i 1 hasta j = bsNumOjects. Por consiguiente, las entradas de la matriz de relación "bsRelatedTo[i][j]", que describen una relación entre objetos de audio que tienen índices de objeto de audio i y j, se fijan al valor dado en el flujo de bits. Además, una entrada de matriz de relación entre objetos "bsRelatedTo[j][i]" se ajusta al mismo valor, es decir, el valor de la entrada de matriz "bsRelatedTo[i][j]". Para más detalles se hace referencia a la representación de sintaxis de la figura 5.
[0135] La información de configuración específica de SAOC también comprende una información de configuración de transmisión de energía absoluta, que describe si un codificador de audio ha incluido una información de energía absoluta dentro del flujo de bits, y/o si un decodificador de audio debe evaluar una información de configuración de transmisión de energía absoluta incluida en el flujo de bits.
[0136] La información de configuración específica de SAOC también comprende una información de configuración de número de canal de mezcla descendente, que describe un número de canales de mezcla descendente usado por el codificador de audio y/o a usarse por el decodificador de audio. La información de configuración específica de SAOC también puede comprender información de configuración adicional, la cual no es relevante para la presente solicitud, y puede omitirse opcionalmente.
[0137] La información de configuración específica de SAOC también comprende una información de configuración de correlación inter-objeto (también designada en esta invención como un "parámetro de señalización de flujo de bits") que describe si se incluye un valor de parámetro de flujo de bits de correlación inter-objeto común en el flujo de bits de SAOC, o si se incluyen valores de parámetros de flujo de bits de correlación inter-objeto individuales de par de objetos, en el flujo de bits de SAOC. Dicha información de configuración de correlación inter-objeto común puede ser designada, por ejemplo, con "bsOneIOC" y puede ser un valor de un bit.
[0138] La información de configuración específica de SAOC también puede comprender una información de configuración de unidad de control de distorsión.
[0139] Además, la información de configuración específica de SAOC puede comprender uno o más bits de relleno, los cuales son designados con "ByteAlignO", y los cuales pueden usarse para ajustar las longitudes de la información de configuración específica de SAOC. Además, la información de configuración específica de SAOC puede comprender información de configuración adicional opcional "SAOCExtensionConfig()" que no es de relevancia para la presente solicitud y que no se analizará aquí por esa razón.
[0140] Se ha de apreciar aquí que la información de configuración específica de SAOC puede comprender más o menos que la información de configuración descrita anteriormente. En otras palabras, parte de la información de configuración descrita anteriormente puede omitirse en algunas realizaciones, y también se puede incluir información de configuración adicional en algunas realizaciones.
[0141] Sin embargo, se ha de apreciar que la información de configuración específica de SAOC puede incluirse, por ejemplo, una vez por trozo de audio en un flujo de bits de SAOC. Sin embargo, la información de configuración específica de SAOC opcionalmente puede ser incluida más frecuentemente en el flujo de bits.
[0142] No obstante, típicamente se proporciona la información de configuración específica de SAOC para una pluralidad de tramas de SAOC, porque la información de configuración específica de SAOC proporciona un espacio de carga de bits significativo.
[0143] A continuación se describirá la sintaxis de una trama de SAOC haciendo referencia a la figura 6, que muestra una representación de sintaxis de tal trama de SAOC. La trama de SAOC comprende valores de diferencia de nivel de objeto OLD codificados, los cuales pueden incluirse en banda y por objeto de audio.
[0144] La trama de SAOC también comprende valores de energía absoluta NRG codificados, los cuales pueden ser considerados como opcionales, y los cuales pueden ser incluidos en banda.
[0145] La trama de SAOC también comprende valores de correlación inter-objeto IOC codificados, los cuales pueden proporcionarse en banda, es decir, por separado para una pluralidad de bandas de frecuencia, y para una pluralidad de combinaciones de objetos de audio.
[0146] A continuación se describirá el flujo de bits con respecto a las operaciones que pueden realizarse por un analizador sintáctico de flujo de bits que analiza la sintaxis del flujo de bits.
[0147] El analizador sintáctico de flujo de bits puede, por ejemplo, inicializar variables k, iocldx1, iocldx2 a un valor de cero en una primera etapa preparatoria.
[0148] Posteriormente, el analizador sintáctico de flujo de bits puede realizar un análisis sintáctico para una pluralidad de valores del primer índice de objeto de audio i = 0 e i = bsNumObjects (para bucle exterior). El analizador sintáctico de flujo de bits puede, por ejemplo, fijar un valor de índice de correlación inter-objeto idxloc[i][i] que describe una relación entre el objeto de audio que tiene índice de objeto de audio i y en sí mismo, a cero, lo cual indica una correlación completa.
[0149] Posteriormente, un analizador sintáctico de flujo de bits puede evaluar el flujo de bits para determinar valores j de un segundo índice de objeto de audio entre i 1 y bsNumObjects. Si los objetos de audio que tienen índices de objeto de audio i y j están relacionados, lo cual está indicado por un valor no nulo de la entrada de matriz de relación entre objetos "bsRelatedTo[i][j]", el analizador sintáctico de flujo de bits realiza un algoritmo 610, y en otro caso, el analizador sintáctico de flujo de bits fija en cinco el índice de correlación inter-objeto asociado con los objetos de audio que tienen índices de objeto de audio i y j (operación "idxIOC[i][j] = 5"), que describe una correlación nula. Por lo tanto, para pares de objetos de audio para los cuales la matriz de relación entre objetos indica que no hay relación, el valor de correlación inter-objeto se fija en cero. Para pares de objetos de audio relacionados, sin embargo, el parámetro de señalización de flujo de bits "bsOneIOC", el cual está incluido en la configuración específica de SAOC, es evaluado para decidir cómo proceder. Si el parámetro de señalización de flujo de bits "bsOneIOC" indica que hay valores de parámetros de correlación inter-objeto individuales por par de objeto, una pluralidad de índices de relación inter-objeto idxIOCI[i][j] (que pueden ser considerados como valores de parámetros de flujo de bits de relación inter­ objeto) se extraen del flujo de bits para bandas de frecuencia "numBands" usando la función "EcDataSaoc", en la dicha función puede usarse para decodificar los índices de relación inter-objeto.
[0150] Sin embargo, si el parámetro de señalización de flujo de bits "bsOneIOC" indica que se usa un valor de parámetro de flujo de bits de correlación inter-objeto común para una pluralidad de pares de objetos de audio, y el parámetro de flujo de bits "bsRelatedTo[i][j]" indica que los objetos de audio que tienen índices de objeto de audio i y j están relacionados, se lee un único conjunto de una pluralidad de índices de correlación inter-objeto "idxIOC[i][j]" del flujo de bits usando la función "EcDataSaoc" para una pluralidad de bandas de frecuencia numBands, en las que sólo se lee un único índice de correlación inter-objeto para cualquier banda de frecuencia dada. Sin embargo, tras la re­ ejecución del algoritmo 610, se copia un índice de correlación inter-objeto leído previamente idxIOC[iocldx1][iocldx2] sin evaluar el flujo de bits. Esto se asegura mediante el uso de la variable k, la cual es inicializada a cero y se aumenta tras la evaluación del primer conjunto de índices de correlación inter-objeto idxIOC[i][j].
[0151] Para resumir, para cada combinación de dos objetos de audio, primero se evalúa si los dos objetos de audio de tal combinación están señalados como relacionados entre sí (por ejemplo, verificando si el valor "bsRelatedTo[i][j]" adopta un valor nulo o no). Si los objetos de audio del par de objetos de audio están relacionados, se realiza el procesamiento 610 adicional. En otro caso, el valor "idxIOC[i][j]" asociado con este par de objetos de audio (sustancialmente no relacionados), se fija en un valor predeterminado, por ejemplo, un valor predeterminado que indica una correlación inter-objeto nula.
[0152] En el procesamiento 610, se lee un valor de flujo de bits para cada par de objetos de audio (que se señala para que comprenda objetos de audio relacionados) si la señalización "bsOneIOC" está inactiva. En otro caso, es decir, si la señalización "bsOneIOC" está activa, sólo se lee un valor de flujo de bits para un par de objetos de audio, y la referencia a dicho par se mantiene ajustando los valores de índice iocIdx1 e iocldx2 para apuntar a este valor leído. El valor leído único se usa para otros pares de objetos de audio (los cuales están señalados como relacionados entre sí) si la señalización "bsOneIOC" está activa.
[0153] Finalmente, también se asegura que un mismo valor de índice de correlación inter-objeto está asociado a ambas combinaciones de dos objetos de audio diferentes dados, sin importar de cuál de los dos objetos de audio dados es el primer objeto de audio y cuál de los objetos de audio dados es el segundo objeto de audio.
[0154] Además, ha de apreciarse que la trama de SAOC típicamente comprende los valores de ganancia de mezcla descendente (DMG) codificados sobre una base por objeto de audio.
[0155] Además, la trama de SAOC típicamente comprende diferencias de nivel de canal de mezcla descendente (DCLD) codificadas, las cuales opcionalmente pueden ser incluidas sobre una base por objeto de audio.
[0156] La trama de SAOC además comprende opcionalmente valores de ganancia de mezcla descendente de post-procesamiento (PDG) codificados, que pueden incluirse de una manera en banda y por canal de mezcla descendente.
[0157] Además, la trama de SAOC puede comprender parámetros de unidad de control de distorsión, que determinan la aplicación de medidas de control de distorsión.
[0158] Además, la trama de SAOC puede comprender uno o más bits de relleno "ByteAlign()".
[0159] Además, una trama de SAOC puede comprender datos de extensión "SAOCExtensionFrame()", los cuales, sin embargo, no son relevantes para la presente solicitud y no serán analizados en detalle aquí por esa razón.
[0160] Haciendo referencia a la figura 7 se describirá ahora un ejemplo para una cuantificación ventajosa del parámetro de correlación inter-objeto.
[0161] Como se puede observar, una primera fila 710 de la tabla de la figura 7, describe el índice de cuantificación idx, que está en un intervalo entre cero y siete. Este índice de cuantificación puede ser asignado a la variable "idxIOC[i]fj]". Una segunda fila 720 de la tabla de la figura 7 muestra el valor de correlación inter-objeto asociado, y está en el intervalo entre -0,99 y 1. Por consiguiente, los valores de los parámetros "idxIOC[i][j]" pueden asignarse sobre valores de correlación inter-objeto inversamente cuantificados usando la asignación de la tabla de la figura 7.
[0162] Para concluir, una porción de configuración de SAOC "SAOCSpecificConfigQ" comprende preferentemente un parámetro de flujo de bits "bsOneIOC" que indica si sólo un único parámetro de IOC es transferido común a todos los objetos que tienen relación entre sí, señalado por "bsRelatedTo[i][j] =1". Los valores de correlación inter-objeto están incluidos en el flujo de bits de forma codificada "EcDataSaoc (IOC,k,numBands)". Un conjunto "idxIOC[i][j]" se rellena sobre la base de uno o más valores de correlación inter-objeto codificados. Las entradas del conjunto "idxIOC[i][j]" se asignan sobre valores inversamente cuantificados usando la tabla de asignación de la figura 7, para obtener valores de correlación inter-objeto inversamente cuantificados. Los valores de correlación inter-objeto inversamente cuantificados, que están designados con IOCij, se usan para obtener entradas de una matriz de covarianza. Con este propósito también se aplican parámetros de diferencia de nivel de objeto inversamente cuantificados, los cuales son designados con OLDi.
[0163] La matriz de covarianza E de tamaño N x N con los elementos e,j representa una aproximación de la matriz de covarianza de señal original E “ SS* y se obtiene a partir de los parámetros OLD e IOC como
Figure imgf000021_0001
7. Alternativas de implementación
[0164] Si bien se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos además representan una descripción del correspondiente procedimiento, donde un bloque o dispositivo corresponde a una etapa del procedimiento o una característica de una etapa del procedimiento. De manera análoga, los aspectos descritos en el contexto de una etapa de procedimiento además representan una descripción de un bloque o artículo o característica correspondiente de un correspondiente aparato. Algunas o la totalidad de las etapas del procedimiento pueden ejecutarse por medio de (o usando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunas de una o más de las etapas del procedimiento más importantes pueden ejecutarse por tal aparato.
[0165] La señal de audio codificada de la invención puede ser almacenada en un medio de almacenamiento digital, o puede ser transmitida en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión cableado, tal como Internet.
[0166] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene señales de control electrónicamente legibles almacenadas en el mismo, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal forma que se realiza el respectivo procedimiento. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0167] Algunas realizaciones de acuerdo a la invención comprenden un portador de datos que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema informático programable, de tal forma que se realiza de los procedimientos descritos en esta invención.
[0168] Generalmente, las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, siendo código de programa operativo para realizar uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse, por ejemplo, en un portador legible por máquina.
[0169] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, almacenados en un portador legible por máquina.
[0170] En otras palabras, una realización del procedimiento de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador.
[0171] Una realización adicional del procedimiento de la invención es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los procedimientos descritos en esta invención. El portador de datos, el medio de almacenamiento digital o el medio grabado son típicamente tangibles y/o no transitorios.
[0172] Una realización adicional del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa informático para realizar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales, por ejemplo, puede configurarse para transferirse por medio de una conexión de comunicación de datos, por ejemplo, a través de Internet.
[0173] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable, configurado para o adaptado para realizar uno de los procedimientos descritos en esta invención.
[0174] Una realización adicional comprende una computadora que tiene instalado en la misma el programa informático para realizar uno de los procedimientos descritos en esta invención.
[0175] En algunas realizaciones, se puede utilizar un dispositivo lógico programable (por ejemplo una matriz de compuertas programables en el campo) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programables de campo puede cooperar con un microprocesador a fin de llevar a cabo uno de los procedimientos que se describen en esta invención. Generalmente, los procedimientos se realizan, preferentemente, por cualquier aparato de hardware.
[0176] Las realizaciones descritas anteriormente son simplemente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles que se describen en esta invención serán evidentes para los expertos en la técnica. Por lo tanto, se tiene la intención de limitarse solamente por el alcance de las reivindicaciones de patente inminentes, y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de esta invención.
8. Referencias
[0177]
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752 [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007
[SAOC2] J. Engdegárd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", l24th AES Convention, Amsterdam 2008, Preprint 7377
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.

Claims (5)

REIVINDICACIONES
1. Un decodificador de señal de audio de codificación de objeto de audio espacial MPEG, MPEG-SAOC, (100; 420) para proporcionar una representación de señal de mezcla ascendente (130; 484a a 484M) sobre la base de una representación de señal de mezcla descendente (110; 430) y una información paramétrica relacionada con el objeto (112; 432) de un MPEG-SAOC, y que depende de una información de interpretación (120; 482), comprendiendo el aparato:
un determinador de parámetro de objeto (140; 464, 468, 474) configurado para obtener valores de correlación interobjeto (142) para una pluralidad de pares de objetos de audio,
en el que el determinador de parámetro de objeto está configurado para evaluar un parámetro de señalización de flujo de bits para decidir si evaluar valores de parámetros de transmisión de flujo de bits de correlación inter-objeto individuales para obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionadas u obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parámetro de flujo de bits de correlación inter-objeto común dependiente de la frecuencia/tiempo; y
un procesador de señal (150;480) configurado para obtener la representación de señal de mezcla ascendente sobre la base de la representación de señal de mezcla descendente y usando los valores de correlación inter­ objeto para una pluralidad de pares de objetos de audio relacionados y la información de interpretación;
en el que la información paramétrica relacionada con el objeto (112;432) comprende datos de diferencia de nivel de objeto, el parámetro de señalización de flujo de bits y comprende además los valores de parámetros de flujo de bits de correlación inter-objeto individuales o el valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia;
en el que el determinador de parámetro de objeto (140; 464, 468, 474) está configurado para evaluar una información de relación entre objetos, describiendo si dos objetos de audio están relacionados entre sí; y en el que el determinador de parámetro de objeto está configurado para obtener selectivamente valores de correlación inter-objeto para pares de objetos de audio para los cuales la información de relación entre objetos indica una relación usando el valor de parámetro de flujo de bits de correlación inter-objeto dependiente del tiempo/frecuencia, y para fijar valores de correlación inter-objeto para pares de objetos de audio para los cuales la información de relación entre objetos indica que no hay relación, a un valor predefinido;
en el que los elementos diagonales ||s-i||2, ||s2||2, ..., ||sn||2 de una matriz de covarianza de variante de tiempo/frecuencia se reconstruyen directamente con los datos de diferencia de nivel de objeto, y
en el que los elementos no diagonales de la matriz de covarianza se dan por los valores de correlación inter-objeto IOCmn según pmn =ii Smi -i Snii IOCmn, en la que las señales s-i, s2, ..., sn representan los objetos de audio.
2. Un codificador de señal de audio de codificación de objeto de audio espacial MPEG, MPEG-SAOC, (200; 410) para proporcionar una representación de flujo de bits sobre la base de una pluralidad de señales de objeto de audio (210a a 210N, 420a a 420N), comprendiendo el codificador de señal de audio:
un mezclador descendente (230; 440) configurado para proporcionar una señal de mezcla descendente (232; 430) sobre la base de las señales de objeto de audio y en dependencia de los parámetros de mezcla descendente que describen las contribuciones de las señales de objeto de audio a uno o más canales de la señal de mezcla descendente; y
un proveedor de parámetros (240; 444, 450, 460) configurado para proporcionar valores de diferencia de nivel de objeto, un valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia (242) asociado con una pluralidad de pares de señales de objeto de audio relacionadas, y también para proporcionar un parámetro de señalización de flujo de bits (244; 452) que indica que se proporciona el valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia en lugar de una pluralidad de valores de parámetros de flujo de bits de correlación inter-objeto individuales;
en el que el proveedor de parámetros está configurado para proporcionar también una información de relación entre objetos que describe si dos objetos de audio están relacionados entre sí; y un formateador de flujo de bits (250) configurado para proporcionar un flujo de bits que comprende una representación de la señal de mezcla descendente, una representación del valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia y el parámetro de señalización de flujo de bits;
en el que el codificador de señal de audio está configurado para usar un MPEG-SAOC.
3. Un procedimiento para proporcionar una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto de una codificación de objeto de audio espacial MPEG, MPEG-SAOC, y en dependencia de una información de interpretación, comprendiendo el procedimiento:
obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio, en el que un parámetro de señalización de flujo de bits se evalúa para decidir si evaluar valores de parámetros de flujo de bits de correlación inter-objeto individuales, para obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados, o para obtener valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia; y
obtener la representación de señal de mezcla ascendente sobre la base de la representación de señal de mezcla descendente y usando los valores de correlación inter-objeto para una pluralidad de pares de objetos de audio relacionados y la información de interpretación;
en el que se evalúa una información de relación entre objetos, que describe si dos objetos de audio están relacionados entre sí, y
en el que los valores de correlación inter-objeto se obtienen selectivamente para pares de objetos de audio, para los que la información de relación entre objetos indica una relación, usando el valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia, y
en el que los valores de correlación inter-objeto se ajustan a un valor predefinido para pares de objetos de audio, para los cuales la información de relación entre objetos indica que no hay relación; y
en el que la información paramétrica relacionada con el objeto comprende datos de diferencia de nivel de objeto, el parámetro de señalización de flujo de bits y además comprende los valores de parámetros de flujo de bits de correlación inter-objeto individuales o el valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia;
en el que el procedimiento realiza una decodificación de audio MPEG-SAOC; y
en el que los elementos diagonales ii s-iii 2, ii s2ii 2, ..., ii snII 2 de una matriz de covarianza de variante de tiempo/frecuencia se reconstruyen directamente con los datos de diferencia de nivel de objeto, y
en el que los elementos no diagonales de la matriz de covarianza se dan por los valores de correlación inter-objeto IOCmn según pmn =ii Smi i s j IOCmn, en la que las señales s-i, s2, ..., sn representan los objetos de audio.
4. Un procedimiento para proporcionar una representación de flujo de bits sobre la base de una pluralidad de señales de objeto de audio, comprendiendo el procedimiento:
proporcionar una señal de mezcla descendente sobre la base de las señales de objeto de audio y en dependencia de los parámetros de mezcla descendente que describen las contribuciones de las señales de objeto de audio al uno o más canales de la señal de mezcla descendente; y
proporcionar un valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia asociado con una pluralidad de pares de señales de objeto de audio relacionadas; y proporcionar un parámetro de señalización de flujo de bits que indica que se proporciona el valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia en lugar de una pluralidad de valores de parámetros de flujo de bits de correlación inter-objeto individuales; y
proporcionar una información de relación entre objetos que describe si dos objetos de audio están relacionados entre sí,
proporcionar un flujo de bits que comprende una representación de la señal de mezcla descendente, una representación del valor de parámetro de flujo de bits de correlación inter-objeto común dependiente del tiempo/frecuencia y el parámetro de señalización del flujo de bits;
en el que el procedimiento realiza una codificación de audio por codificación de objeto de audio espacial MPEG, MPEG-SAOC.
5. Un programa informático para realizar el procedimiento según la reivindicación 3 o la reivindicación 4 cuando el programa informático se ejecuta en un ordenador.
ES16176048T 2009-09-29 2010-09-28 Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia Active ES2856423T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24668109P 2009-09-29 2009-09-29
US36950510P 2010-07-30 2010-07-30
EP10171406 2010-07-30

Publications (1)

Publication Number Publication Date
ES2856423T3 true ES2856423T3 (es) 2021-09-27

Family

ID=77830020

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16176048T Active ES2856423T3 (es) 2009-09-29 2010-09-28 Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia

Country Status (1)

Country Link
ES (1) ES2856423T3 (es)

Similar Documents

Publication Publication Date Title
ES2644520T3 (es) Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
JP6687683B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
US9578435B2 (en) Apparatus and method for enhanced spatial audio object coding
JP5917777B2 (ja) 3dオーディオのための強化されガイドされるダウンミクス能力を提供するための装置および方法
AU2014295207B2 (en) Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
ES2649739T3 (es) Procedimiento y descodificador para un concepto paramétrico de codificación de objetos de audio espacial generalizado para casos de mezcla descendente/mezcla ascendente de multicanal
BR112016001141B1 (pt) Codificador de áudio, decodificador de áudio e métodos que usam sinais residuais codificados em conjunto
CN107077861B (zh) 音频编码器和解码器
ES2654792T3 (es) Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal
CN114175151A (zh) Ivas比特流的编码和解码
ES2856423T3 (es) Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
KR20160081844A (ko) 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치