ES2691546T3 - Aparato y procedimiento para la codificación de objetos de audio espacial que emplea objetos ocultos para la manipulación de mezclas de señales - Google Patents

Aparato y procedimiento para la codificación de objetos de audio espacial que emplea objetos ocultos para la manipulación de mezclas de señales Download PDF

Info

Publication number
ES2691546T3
ES2691546T3 ES14700929.4T ES14700929T ES2691546T3 ES 2691546 T3 ES2691546 T3 ES 2691546T3 ES 14700929 T ES14700929 T ES 14700929T ES 2691546 T3 ES2691546 T3 ES 2691546T3
Authority
ES
Spain
Prior art keywords
signals
audio
additional
signal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14700929.4T
Other languages
English (en)
Inventor
Thorsten Kastner
Jürgen HERRE
Falko Ridderbusch
Cornelia Falch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2691546T3 publication Critical patent/ES2691546T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un aparato para codificar uno o más objetos de audio para obtener una señal codificada, en el que el aparato comprende: un mezclador descendente (110) para mezclar de manera descendente uno o más objetos de audio para obtener una o más señales mezcladas descendentes no procesadas, un módulo de procesamiento (120) para procesar una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas, en el que el módulo de procesamiento (120) es configurado para procesar una o más señales mezcladas descendentes no procesadas mediante la codificación de una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas, un calculador de señales (130) para calcular una o más señales adicionales, en el que el calculador de señales (130) comprende una unidad de decodificación (240) y un combinador (250), en el que la unidad de decodificación (240) es configurada para decodificar una o más señales mezcladas descendentes procesadas para obtener una o más señales decodificadas, y en el que el combinador (250) es configurado para generar cada una de una o más señales adicionales mediante la generación de una señal de diferencia entre una o más de las señales decodificadas, y una de una o más señales mezcladas descendentes no procesadas, un generador de información de objeto (140) para generar información de objeto de audio paramétrica para uno o más objetos de audio e información paramétrica adicional para una o más señales adicionales, y una interfaz de salida (150) para enviar la señal codificada, comprendiendo la señal codificada la información de objeto de audio paramétrica para uno o más objetos de audio y la información paramétrica adicional para una o más señales adicionales.

Description

DESCRIPCIÓN
Aparato y procedimiento para la codificación de objetos de audio espacial que emplea objetos ocultos para la manipulación de mezclas de señales 5
[0001] La presente invención se refiere al procesamiento de señales de audio y, en particular, a un
decodificador, un codificador, un sistema, procedimientos y un programa informático para la codificación de objetos de audio espacial que emplea objetos ocultos para la manipulación de mezclas de señales.
10 [0002] El procesamiento de señales de audio se vuelve cada vez más importante. Recientemente, han sido
propuestas técnicas paramétricas para la transmisión eficaz de la velocidad de bits y/o almacenamiento de escenas de audio que contiene objetos de audio múltiples en el campo de la codificación de audio [BCC, JSC, SAOC, SAOC1, sAoC2] y, además, en el campo de la separación de fuentes de información [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Esas técnicas tienen como propósito reconstruir una escena de audio de salida deseada o un objeto de una 15 fuente de audio deseado sobre la base de información lateral adicional que describe la escena de audio transmitida y/o almacenada y/o los objetos de una fuente de audio en la escena de audio.
[0003] Un codificador de audio multicanal ejemplar se describe en el documento US 2011/0040566 A1. La Figura 11 describe un sistema según el estado de la técnica que ilustra el ejemplo de MPEG SAOC (MPEG = Grupo
20 de Expertos en Imágenes en Movimiento; SAOC = Codificación de Objetos de Audio Espacial). En particular, la Figura 11 ilustra un resumen del sistema MPEG SAOC.
Según el estado de la técnica, el procesamiento general es llevado a cabo con frecuencia de una forma selectiva de frecuencia y puede, por ejemplo, ser descrito del siguiente modo dentro de cada banda de frecuencia:
N señales de objeto de audio de entrada s1... sn son mezcladas a P canales x1... xp como parte del procesamiento 25 de un mezclador 912 de un codificador SAOC 910 del estado de la técnica. Puede ser empleada una matriz de mezclado descendente que comprenda los elementos dn,..., dN,p. Además, un estimador de información lateral 914 del codificador SAOC 910 extrae información lateral que describe las características de los objetos de audio de entrada. Para el MPEG SAOC, las relaciones de las potencias de objetos una con respecto a otra son una forma básica de esa información lateral.
30 Posteriormente, las señales mezcladas descendentes y la información lateral pueden ser transmitidas y/o almacenadas. Hasta este punto, la señal de audio de mezclado descendente puede ser codificada, por ejemplo comprimida, por un codificador de audio perceptual 920 del estado de la técnica, como el codificador de audio MPEG-1 Capa II o III (también conocido como mp3) o un codificador de audio de Codificación de Audio Avanzado (AAC) MPEG, etc.
35
[0004] En el extremo receptor, las señales codificadas pueden ser descodificadas por primera vez, por ejemplo, por un decodificador de audio perceptual 940 del estado de la técnica, como un decodificador de audio MPEG-1 Capa II o III, un decodificador de audio de Codificación de Audio Avanzado (AAC) MPEG. Entonces, un decodificador SAOC 950 del estado de la técnica trata de restablecer conceptualmente las señales de objeto
40 originales, por ejemplo, conduciendo la “separación de objetos” de las señales mezcladas descendentes (decodificadas) mediante el uso de la información lateral transmitida la cual, por ejemplo, pudo haber sido generada por un estimador de información lateral 914 de un codificador SAOC 910, como se ha explicado anteriormente. Para el propósito de restablecer las señales de objeto originales conduciendo la separación de objetos, el decodificador SAOC 950 comprende un separador de objetos 952, por ejemplo un separador de objetos virtual. El separador de 45 objetos 952 puede entonces proporcionar las señales de objeto aproximadas Si,., Sn a un renderizador 954 del decodificador SAOC 950, donde el renderizador 954 mezcla entonces las señales de objeto aproximadas si,..., Sn en una escena blanco representada por M canales de salida de audio yi,...,yM, por ejemplo, empleando una matriz de renderización. Los coeficientes n,1...rN,M en la Figura 11 pueden indicar, por ejemplo, algunos de los coeficientes de la matriz de renderización. La escena blanco deseada puede, en un caso especial, ser la renderización de una sola 50 señal de una fuente de la mezcla (escenario de separación de fuentes), pero también puede ser cualquier otra escena acústica arbitraria.
[0005] Sin embargo, el procesamiento según el estado de la técnica tiene varias desventajas:
Los sistemas del estado de la técnica se restringen al procesamiento de señales de fuentes de audio únicamente. El 55 procesamiento de señales en el codificador y el decodificador es llevado a cabo bajo la suposición, de que ningún procesamiento de señales adicionales es aplicado a las señales de la mezcla o a las señales de objeto de fuentes originales. El desempeño de esos sistemas disminuye si esta suposición no se sostiene más.
Un ejemplo destacado, el cual infringe esta suposición, es el uso de un codificador de audio en la cadena de procesamiento para reducir la cantidad de datos que va a ser almacenada y/o transmitida para transportar
eficazmente las señales mezcladas descendentes. La compresión de señales altera perceptualmente las señales mezcladas descendentes. Este tiene el efecto de que el desempeño de la separación de objetos en el sistema de decodificación disminuya y, de este modo, la calidad percibida de la escena blanco renderizada disminuya también. [ISS5, ISS6].
5
[0006] El objetivo de la presente invención es proporcionar conceptos mejorados para la codificación y decodificación de audio. El objetivo de la presente invención es resuelto por un aparato según la reivindicación 1, por un sistema según la reivindicación 5, por un procedimiento según la reivindicación 13, por un programa informático según la reivindicación 14.
10 Se proporciona un aparato para codificar uno o más objetos de audio para obtener una señal codificada. El aparato comprende un mezclador descendente para mezclas descendentes de uno o más objetos de audio para obtener una o más señales mezcladas descendentes no procesadas. Además, el aparato comprende un módulo de procesamiento para procesar una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas. Además, el aparato comprende un calculador de señales para 15 calcular una o más señales adicionales, donde el calculador de señales es configurado para calcular cada una de una o más señales adicionales sobre la base de una diferencia entre una de una o más señales mezcladas descendentes procesadas y una de una o más señales mezcladas descendentes no procesadas. Además, el aparato comprende un generador de información de objeto para generar información de objeto de audio paramétrica para uno o más objetos de audio e información paramétrica adicional para la señal adicional. Además, el aparato 20 comprende una interfaz de salida para producir la señal codificada, y la señal codificada comprende la información de objeto de audio paramétrica para uno o más objetos de audio y la información paramétrica adicional para una o más señales adicionales.
[0007] Según la invención, el módulo de procesamiento está configurado para procesar una o más señales 25 mezcladas descendentes no procesadas para codificar una o más señales mezcladas descendentes no procesadas
para obtener una o más señales mezcladas descendentes procesadas. Según la invención, el calculador de señales puede comprender una unidad de decodificación y un combinador. La unidad de decodificación puede ser configurada para decodificar una o más señales mezcladas descendentes procesadas para obtener una o más señales decodificadas. Además, el combinador puede ser configurado para generar cada una de una o más señales 30 adicionales generando una señal de diferencia entre una de una o más señales decodificadas y una de una o más señales mezcladas descendentes no procesadas.
[0008] Según una forma de realización, cada una de una o más señales mezcladas descendentes no procesadas puede comprender una pluralidad de las primeras muestras de señal, siendo cada una de las primeras
35 muestras de señal asignadas a uno de una pluralidad de puntos en el tiempo. Cada una de una o más señales decodificadas puede comprender una pluralidad de las segundas muestras de señal, siendo cada una de las segundas muestras de señal asignada a uno de la pluralidad de puntos en el tiempo. El calculador de señales puede comprender además una unidad de alineación con el tiempo que está configurado para alinear con el tiempo una de una o más señales decodificadas y una de una o más señales mezcladas descendentes no procesadas, de modo 40 que una de las primeras muestras de señal de la señal mezclada descendente no procesada sea asignada a una de las segundas muestras de señal de la señal decodificada, siendo la primera muestra de señal de la señal mezclada descendente no procesada y la segunda muestra de señal de la señal decodificada asignada al mismo punto en el tiempo de la pluralidad de puntos en el tiempo. En una forma de realización, el módulo de procesamiento puede ser configurado para procesar una o más señales mezcladas descendentes no procesadas aplicando un efecto de audio 45 sobre al menos una de una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas. Según una forma de realización, puede ser asignado un valor de energía de objeto de audio a cada uno de uno o más objetos de audio, y puede ser asignado un valor de energía adicional a cada una de una o más señales de audio. El generador de información de objeto puede ser configurado para determinar un valor de energía de referencia, de modo que el valor de energía de referencia sea mayor que o igual 50 al valor de energía de objeto de audio de cada uno de uno o más objetos de audio, de modo que el valor de energía de referencia sea mayor que o igual al valor de energía adicional de cada una de una o más señales de audio. Además, el generador de información de objeto puede ser configurado para determinar la información de objeto de audio paramétrica determinando una diferencia de nivel de objeto de audio para cada objeto de audio de uno o más objetos de audio, de modo que la diferencia de nivel de objeto de audio indique una relación del valor de energía de 55 objeto de audio del objeto de audio al valor de energía de referencia, o de modo que la diferencia de nivel de objeto de audio indique una diferencia entre el valor de energía de referencia y el valor de energía de objeto de audio del objeto de audio. Además, el generador de información de objeto puede ser configurado para determinar la información de objeto adicional determinando una diferencia de nivel de objeto adicional por cada señal adicional de una o más señales adicionales, de modo que la diferencia de nivel de objeto adicional indique una relación del valor
de energía adicional de la señal adicional al valor de energía de referencia, de modo que la diferencia de nivel del objeto adicional indique una diferencia entre el valor de energía de referencia y el valor de energía adicional de la señal adicional. En una forma de realización, el módulo de procesamiento puede comprender un módulo de efecto acústico y un módulo de codificación. El módulo de efecto acústico puede ser configurado para aplicar un efecto 5 acústico sobre al menos una de una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes ajustadas acústicamente. Además, el módulo de codificación puede ser configurado para codificar una o más señales mezcladas descendentes ajustadas acústicamente para obtener una o más señales procesadas.
10 [0009] Además, un sistema puede comprender un aparato para codificar según una de las formas de
realización anteriormente descritas, y un aparato para decodificar una señal codificada, donde el aparato para codificar está configurado para proporcionar una o más señales mezcladas descendentes procesadas y la señal codificada al aparato para decodificar que está configurada para decodificar la señal codificada. El aparato para decodificar comprende una interfaz para recibir una o más señales mezcladas descendentes procesadas, y para 15 recibir la señal codificada. Además, el aparato para decodificar comprende un generador de escena de audio para generar una escena de audio que comprende una pluralidad de señales de audio espacial sobre la base de una o más señales mezcladas descendentes procesadas, indicando la información de objeto de audio paramétrica, la información paramétrica adicional, y la información de renderización la colocación de uno o más objetos de audio en la escena de audio, en la que el generador de escena de audio está configurado para atenuar o eliminar una señal 20 de salida representada por la información paramétrica adicional en la escena de audio.
[0010] Según una forma de realización, la información paramétrica adicional puede depender de una o más señales adicionales, donde las señales adicionales indican una diferencia entre una de una o más señales mezcladas descendentes procesadas y una de una o más señales mezcladas descendentes no procesadas, donde
25 una o más señales mezcladas descendentes no procesadas indican un mezclado descendente de uno o más objetos de audio, donde una o más señales mezcladas descendentes procesadas resultan del procesamiento de una o más señales mezcladas descendentes no procesadas. En una forma de realización, el generador de escena de audio puede comprender un generador de objeto de audio y un renderizador. El generador de objeto de audio puede ser configurado para generar uno o más objetos de audio sobre la base de una o más señales mezcladas 30 descendentes procesadas, la información de objeto de audio paramétrica y la información paramétrica adicional. El renderizador puede ser configurado para generar la pluralidad de señales de audio espacial de la escena de audio sobre la base de uno o más objetos de audio, información de objeto de audio paramétrica e información de renderización. Según una forma de realización, el renderizador puede ser configurado para generar una pluralidad de señales de audio espacial de la escena de audio sobre la base de uno o más objetos de audio, la información 35 paramétrica adicional, y la información de renderización, donde el renderizador puede ser configurado para atenuar o alimentar la señal de salida representada por la información paramétrica adicional en la escena de audio dependiendo de uno o más coeficientes de renderización comprendidos por la información de renderización.
[0011] En una forma de realización, el aparato para decodificar puede comprender además una interfaz de 40 usuario para ajustar uno o más coeficientes de renderización para determinar si la señal de salida representada por
la información paramétrica adicional está atenuada o eliminada en la escena de audio.
[0012] Según una forma de realización, el generador de escena de audio puede ser configurado para generar la escena de audio que comprende una pluralidad de señales de audio espacial sobre la base de una o más señales
45 mezcladas descendentes procesadas, la información de objeto de audio paramétrica, la información paramétrica adicional, y la información de transformación de imágenes o renderización que indica una colocación de uno o más objetos de audio en la escena de audio, donde el generador de escena de audio puede ser configurado para no generar uno o más objetos de audio para generar la escena de audio.
50 [0013] En una forma de realización, el aparato para decodificar puede comprender además un decodificador
de audio para decodificar una o más señales mezcladas descendentes procesadas para obtener una o más señales decodificadas, donde el generador de escena de audio puede ser configurado para generar la escena de audio que comprende la pluralidad de señales de audio espacial sobre la base de una o más señales decodificadas, la información de objeto de audio paramétrica, la información paramétrica adicional, y la información de renderización. 55 En otra forma de realización, el generador de escena de audio puede ser configurado para generar la escena de audio empleando la fórmula
Y = R'S'
S' = G'X'
G' = E'D't(d'H'D,t) *
*
y
en la que Y es una primera matriz que indica la escena de audio, en la que Y comprende una pluralidad de filas que indican la pluralidad de señales de audio espacial, en la que R’ es una segunda matriz que indica la información de 5 renderización, en la que S es una tercera matriz, donde X’ es una cuarta matriz que indica una o más señales mezcladas descendentes procesadas, en la que G' es una quinta matriz, en la que D' es una sexta matriz, que es una matriz de mezclado descendente, y en la que E’ es una séptima matriz que comprende una pluralidad de séptimos coeficientes de matriz, en la que los séptimos coeficientes de matriz son definidos por la fórmula:
EC - IOC’j%/OLD'OLD'
en la que E’i,j es uno de los séptimos coeficientes de matriz en la fila i y la columna j, siendo i un índice de fila y siendo j un índice de columna, donde IOC'i,j indica un valor de correlación cruzada, y donde OLD’i indica un primer valor de energía, y donde OLD’j indica un segundo valor de energía.
15
[0014] Además, se proporciona un procedimiento para codificar uno o más objetos de audio para obtener una señal codificada. El procedimiento comprende:
- Mezclado de manera descendente de uno o más objetos de audio para obtener una o más señales mezcladas descendentes no procesadas.
- Procesado de una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas.
- Cálculo de una o más señales adicionales calculando cada una de una o más señales adicionales sobre la base de una diferencia entre una de una o más señales mezcladas descendentes procesadas y una de una o más señales mezcladas descendentes no procesadas.
- Generación de información de objeto de audio paramétrica para uno o más objetos de audio e información paramétrica adicional para una o más señales adicionales de audio. Y:
- Envío de la señal codificada, comprendiendo la señal codificada la información de objeto de audio paramétrica para uno o más objetos de audio y la información paramétrica adicional para una o más señales adicionales.
[0015] Además, se proporciona un programa informático para implementar uno o más de los procedimientos descritos anteriormente, cuando es ejecutado en un ordenador o procesador de señales.
[0016] Según formas de realización, los conceptos de codificación de objeto paramétrica son 35 mejorados/extendidos proporcionando alteraciones/manipulaciones del objeto de fuente o señales mezcladas como
objetos ocultos adicionales. Incluyendo esos objetos ocultos en el proceso de estimación de información lateral y en la separación de objetos (virtuales) se obtiene como resultado una calidad perceptual mejorada de la escena acústica renderizada. Los objetos ocultos pueden, por ejemplo, describir señales generadas artificialmente como la señal de error de codificación de un codificador de audio perceptual que sean aplicadas a las señales mezcladas 40 descendentes, pero que pueden, por ejemplo, también ser una descripción de otro procesamiento no lineal que sea aplicado a las señales mezcladas descendentes, por ejemplo, reverberación. Debido al carácter de esos objetos ocultos, no se pretende principalmente que sean renderizados en el lado de la decodificación, sino usados para mejorar el proceso de separación de objetos (virtual) y, de este modo, mejorar la calidad percibida de la escena acústica renderizada. Esto se logra renderizando los objetos ocultos con un nivel de reproducción de cero 45 (“enmudecimiento”). De esta manera, el proceso de renderización en el decodificador es controlado
20
25
30
10
automáticamente de modo que tienda a suprimir los componentes indeseables representados por los objetos ocultos y de este modo mejorar la calidad subjetiva de la escena/señal renderizada. Según una forma de realización, el módulo de codificación puede ser un codificador de audio perceptual.
5 [0017] Los conceptos proporcionados son inter alia ventajosos puesto que son capaces de proporcionar una
mejora en la calidad de audio incluyendo información de objeto oculto de una forma completamente compatible con el decodificador. Esto significa que las mejoras descritas en la calidad de la señal de salida pueden ser obtenidas sin ninguna necesidad de cambiar los decodificadores existentes/desplegados (por ejemplo SAOC) que han sido estandarizados bajo ISO/MPEG, y no puede ser modificada sin infringir el cumplimiento con la especificación del 10 SAOC estándar (o reexpedición del estándar que sería un proceso que requiere mucho tiempo y costoso).
[0018] En lo sucesivo, se hará referencia a los “objetos ocultos”. Deberá observarse que en algunas formas
de realización, la información paramétrica adicional puede, por ejemplo, representar uno o más objetos ocultos.
15 [0019] En lo sucesivo, las formas de realización de la presente invención son descritas con mayor detalle con
referencia a las Figuras en las cuales:
La Figura 1 ilustra un aparato para codificar uno o más objetos de audio para obtener una señal codificada según una forma de realización,
20 La Figura 2 ilustra un aparato para codificar uno o más objetos de audio para obtener una señal codificada según otra forma de realización,
La Figura 3 ilustra un aparato para codificar uno o más objetos de audio para obtener una señal codificada según una forma de realización adicional,
La Figura 4 ilustra un aparato para codificar uno o más objetos de audio para obtener una señal codificada según 25 otra forma de realización,
La Figura 5 ilustra un módulo de procesamiento 120 de un aparato para codificar según una forma de realización,
La Figura 6 ilustra un aparato para decodificar una señal codificada según una forma de realización,
La Figura 7 ilustra un aparato para decodificar una señal codificada según otra forma de realización,
La Figura 8 ilustra un aparato para decodificar una señal codificada según una forma de realización adicional,
30 La Figura 9 ilustra un aparato para decodificar una señal codificada según otra forma de realización,
La Figura 10 ilustra un sistema según una forma de realización,
La Figura 11 ilustra un sistema según el estado de la técnica que ilustra el ejemplo de MPEG SAOC.
[0020] La Figura 1 ilustra un aparato para codificar uno o más objetos de audio para obtener una señal 35 codificada según una forma de realización.
[0021] El aparato comprende un mezclador descendente 110 para mezclar de manera descendente uno o más objetos de audio para obtener una o más señales mezcladas descendentes no procesadas. Para este propósito, el mezclador descendente de la Figura 1 recibe uno o más objetos de audio y los mezcla de forma
40 descendente, por ejemplo, aplicando una matriz de mezclado descendente para obtener una o más señales mezcladas descendentes no procesadas.
[0022] Además, el aparato comprende un módulo de procesamiento 120 para procesar una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas. El
45 módulo de procesamiento 120 recibe una o más señales mezcladas descendentes no procesadas del mezclador descendente y las procesa para obtener una o más señales procesadas.
[0023] Por ejemplo, el módulo de procesamiento 120 puede ser un módulo de codificación, por ejemplo un codificador perceptual, y puede ser configurado para procesar una o más señales mezcladas descendentes no
50 procesadas codificando una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas. El módulo de procesamiento 120 puede, por ejemplo, ser un codificador de audio perceptual, por ejemplo un codificador de audio MPEG-1 Capa II o III (también conocido como mp3) o un codificador de audio de Codificación de Audio Avanzada (AAC) MEPG, etc.
55 [0024] O, por ejemplo, el módulo de procesamiento 120 puede ser un módulo de efecto de audio y puede ser
configurado para procesar una o más señales mezcladas descendentes no procesadas aplicando un efecto de audio sobre al menos una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas.
[0025] Además, el aparato comprende un calculador de señales 130 para calcular una o más señales adicionales. El calculador de señal 130 está configurado para calcular cada una de una o más señales sobre la base de una diferencia entre una de una o más señales mezcladas descendentes procesadas y una de una o más señales mezcladas descendentes no procesadas.
5
[0026] El calculador de señales 130 puede, por ejemplo, calcular una señal de diferencia entre una de una o más señales mezcladas descendentes procesadas o una de una o más señales mezcladas descendentes no procesadas para generar una de una o más señales adicionales.
10 [0027] Sin embargo, en otras formas de realización, el calculador de señales 130 puede, en lugar de
determinar una señal de diferencia, determinar cualquier tipo de diferencia entre una de una o más señales mezcladas descendentes procesadas y una de una o más señales mezcladas descendentes no procesadas para generar una de una o más señales adicionales. El calculador de señales 130 puede calcular entonces una señal adicional sobre la base de la diferencia determinada entre las dos señales.
15
[0028] Además, el aparato comprende un generador de información de objeto 140 para crear información de
objeto de audio paramétrica para uno o más objetos de audio e información paramétrica adicional para la señal adicional.
20 [0029] Por ejemplo, para determinar la información de objeto de audio paramétrica e información paramétrica
adicional pueden ser determinadas las diferencias de nivel de objeto. Por ejemplo, puede ser asignado un valor de energía de objeto de audio a cada uno de uno o más objetos de audio, y puede ser asignado un valor de energía adicional a cada una de una o más señales adicionales.
25 [0030] El generador de información de objeto 140 puede ser configurado para determinar un valor de energía
de referencia, de modo que el valor de energía de referencia sea mayor que o igual al valor de energía de objeto de audio de cada uno de uno o más objetos de audio, y de modo que el valor de energía de referencia sea mayor que o igual al valor de energía adicional de cada una de una o más señales adicionales.
30 [0031] Además, el generador de información de objeto 140 puede ser configurado para determinar la
información de objeto de audio paramétrica determinando una diferencia de nivel de objeto de audio para cada objeto de audio de uno o más objetos de audio, de modo que la diferencia de nivel de objeto de audio indique una relación del valor de energía de objeto de audio del objeto de audio al valor de energía de referencia, o de modo que la diferencia de nivel de objeto de audio indique una diferencia entre el valor de energía de referencia y el valor de 35 energía de objeto de audio de dicho objeto de audio.
[0032] Además, el generador de información de objeto 140 puede ser configurado para determinar la información de objeto adicional determinando una diferencia de nivel de objeto adicional para cada señal adicional de una o más señales adicionales, de modo que la diferencia de nivel de objeto adicional indique una relación del
40 valor de energía adicional de la señal adicional al valor de energía de referencia, o de modo que la diferencia de
nivel de objeto adicional indique una diferencia entre el valor de energía de referencia y el valor de energía adicional
de dicha señal adicional.
[0033] Por ejemplo, el valor de energía de objeto de audio de cada uno de los objetos de audio puede ser 45 pasado al generador de información de objeto 140 como información lateral. El valor de energía de cada una de las
señales adicionales también puede ser pasado al generador de información de objeto 140 como información lateral. O, en otras formas de realización, el generador de información de objeto 140 puede calcular por sí mismo los valores de energía de cada una de las señales adicionales, por ejemplo, elevando al cuadrado cada uno de los valores de muestra de una de las señales adicionales, sumando los valores de muestra hasta obtener una resultado intermedio, 50 y calculando la raíz cuadrada del resultado intermedio para obtener el valor de energía de la señal adicional. El generador de información de objeto 140 puede entonces, por ejemplo, determinar el valor de energía más grande de todos los objetos de audio y todas las señales adicionales como el valor de energía de referencia.
[0034] Entonces, el generador de información de objeto 140 puede determinar por ejemplo la relación del
55 valor de energía adicional de una señal adicional y el valor de energía de referencia como la diferencia de nivel de
objeto adicional. Por ejemplo, si un valor de energía adicional es 3,0 y el valor de energía de referencia es 6,0,
entonces la diferencia de nivel de objeto adicional es 0,5.
[0035] De manera alternativa, el generador de información de objeto 140 puede determinar por ejemplo la
diferencia del valor de energía de referencia y el valor de energía adicional de una señal adicional como la diferencia nivel de objeto adicional. Por ejemplo, si un valor de energía adicional es 7,0 y el valor de energía de referencia es 10,0, entonces la diferencia de nivel de objeto adicional es de 3,0. Calcular la diferencia de nivel de objeto adicional determinando la diferencia es particularmente adecuado, si los valores de energía son expresados con respecto a 5 una escala logarítmica.
[0036] En otras formas de realización, la información paramétrica puede comprender también información
sobre Coherencia Interobjeto entre objetos de audio espacial y/u objetos ocultos.
10 [0037] Además, el aparato comprende una interfaz de salida 150 para enviar la señal codificada. La señal
codificada comprende la información de objeto de audio paramétrica para uno o más objetos de audio y la información paramétrica adicional para una o más señales adicionales. Para este propósito, en algunas formas de realización, la interfaz de salida 150 puede ser configurada para generar la señal codificada de modo que la señal codificada comprenda la información de objeto de audio paramétrica para uno o más objetos de audio y la
15 información paramétrica adicional para una o más señales de audio. O, en otras formas de realización, el generador de información de objeto 140 puede generar ya la señal codificada de modo que la señal codificada comprenda la información de objeto de audio paramétrica para uno o más objetos de audio y la información paramétrica adicional para una o más señales adicionales y pase la señal codificada a la interfaz de salida 150.
20 [0038] La Figura 2 ilustra un aparato para codificar uno o más objetos de audio para obtener una señal
codificada según otra forma de realización. En la forma de realización de la Figura 2, el módulo de procesamiento 120 es configurado para procesar una o más señales mezcladas descendentes no procesadas mediante la codificación de una o más señales mezclada descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas. El calculador de señales 130 de la Figura 2 comprende una unidad de
25 decodificación 240 y un combinador 250. La unidad de decodificación 240 es configurada para decodificar una o más señales mezcladas descendentes procesadas para obtener una o más señales decodificadas. Además, el combinador 250 es configurado para generar cada una de una o más señales adicionales generando una señal de diferencia entre una de una o más señales decodificadas y una de una o más señales mezcladas descendentes no procesadas.
30
[0039] Las formas de realización se basan en el descubrimiento de que después de que los objetos de audio espacial han sido mezclados de manera descendente, las señales mezcladas descendentes resultantes pueden ser (de manera no intencional o intencionalmente) modificadas por un módulo de procesamiento subsecuente. Proporcionando un generador de información lateral el cual codifica información sobre las modificaciones de las
35 señales mezcladas descendentes como información lateral de objeto oculto, por ejemplo, como objetos ocultos, esos efectos pueden no ser eliminados cuando se reconstruyan los objetos de audio espacial (en particular, cuando las modificaciones de las señales mezcladas descendentes no fueran intencionales), o pueden decidirse, en qué grado/en qué cantidad las modificaciones (intencionales) de las señales mezcladas descendentes deberán ser renderizadas, cuando se generen canales de audio a partir de los objetos de audio espacial reconstruidos.
40
[0040] En la forma de realización de la Figura 2, la unidad decodificadora 240 ya genera una o más señales decodificadas sobre el lado del codificador de modo que una o más señales decodificadas puedan ser comparadas con una o más señales mezcladas descendentes no procesadas para determinar una diferencia causada por la codificación realizada por el módulo de procesamiento 120.
45
[0041] La Figura 3 ilustra un aparato para codificar uno o más objetos de audio para obtener una señal codificada según una forma de realización adicional. Cada una de una o más señales mezcladas descendentes no procesadas puede comprender una pluralidad de primeras muestras de señal, siendo cada una de las primeras muestras de señal asignada a uno de una pluralidad de puntos en el tiempo. Cada una de una o más señales
50 descodificadas puede comprender una pluralidad de segundas muestras de señal, siendo asignada cada una de las segundas muestras de señal a uno de la pluralidad de puntos en el tiempo.
[0042] La forma de realización de la Figura 3 difiere de la forma de realización de la Figura 2 en que el calculador de señales comprende además una unidad de alineación con el tiempo 345 que es configurada para
55 alinear con el tiempo una de una o más señales decodificadas y una de una o más señales mezcladas descendentes no procesadas, de modo que una de las primeras muestras de señal de la señal mezclada descendente no procesada sea asignada a una de las segundas muestras de señal de la señal decodificada, siendo la primera muestra de señal de la señal mezclada descendente no procesada y la segunda muestra de señal de la señal decodificada asignadas al mismo punto en el tiempo de la pluralidad de puntos en el tiempo.
[0043] En otras palabras, puesto que el procesamiento por el módulo de procesamiento 120 y la decodificación por la unidad de decodificación 240 consumen tiempo, las señales mezcladas descendentes no procesadas y las señales mezcladas descendentes decodificadas deberán ser alineadas en el tiempo para
5 compararlas y determinar diferencias entre ellas, respectivamente.
[0044] La Figura 4 ilustra un aparato para codificar uno o más objetos de audio para obtener una señal codificada según otra forma de realización. En particular, la Figura 4 ilustra un aparato para codificar uno o más objetos de audio generando información paramétrica adicional la cual parametriza una o más señales adicionales
10 (por ejemplo, una o más señales de error de codificación) por parámetros adicionales. Esos parámetros adicionales pueden ser referidos como “objetos ocultos”, como sobre un lado del decodificador, pueden ser ocultados a un usuario.
[0045] El aparato de la Figura 4 comprende un mezclador 110 (un mezclador descendente), un codificador de 15 audio como el módulo de procesamiento 120, un calculador de señales 130 y un generador de información de objeto
140 (el cual también puede ser referido como un estimador de información lateral). El calculador de señales 130 es indicado por líneas discontinuas y comprende una unidad de decodificación 240 (“decodificador de audio”), una unidad de alineación con el tiempo 345 y un combinador 250.
20 [0046] En la forma de realización de la Figura 4, el combinador 250 puede, por ejemplo, formar al menos una
diferencia, por ejemplo, al menos una señal de diferencia, entre al menos una de las señales mezcladas descendentes (alineadas con el tiempo) y al menos una de las señales codificadas (alineadas con el tiempo). El mezclador 110 y el estimador de información lateral 260 pueden estar comprendidos por un módulo codificador de SAOC.
25
[0047] Los códecs de audio perceptuales producen alteraciones de señal de las señales mezcladas descendentes las cuales pueden ser descritas por una señal de ruido de codificación. Esta señal de ruido de codificación puede causar degradaciones de señal perceptibles cuando se usan las capacidades de renderización flexibles en el lado de la decodificación [ISS5, ISS6]. El ruido de codificación puede ser descrito como un objeto
30 oculto que no pretende ser renderizado en el lado de la decodificación. Este puede ser parametrizado de manera similar a las señales de objeto de fuente “reales”.
[0048] De manera más específica, esto puede, por ejemplo, hacerse del siguiente modo:
35 - Las señales mezcladas descendentes son codificadas/decodificadas por el códec de audio (o procesadas por otro algoritmo) para obtener al menos una señal decodificada (la codificación puede, por ejemplo, ser realizada por el módulo de procesamiento 120; la decodificación puede, por ejemplo, ser realizada por la unidad de decodificación 240)
- Las señales mezcladas descendentes decodificadas (alineadas con el tiempo) son sustraídas entonces de las 40 señales mezcladas descendentes (originales) x1 ... xp, dando como resultado una o más señales de diferencia (que
son señales de combinación) las cuales representan una o más señales (de ruido) de error (de procesamiento) de codificación q1 ... qp.
- Las señales de error q1... qp (señales de diferencia) y los parámetros de mezclado de la señal de error dq,1 ... dq,p (las cuales se fijan en 1 por defecto) son proporcionados al estimador información lateral 140 (parte de análisis de
45 objetos) de un codificador SAOC dando como resultado la información paramétrica del objeto de ruido (oculto) adicional. Para MPEG SAOC, las relaciones de las potencias de objeto (objetos oculto y fuente de audio) uno con respecto al otro son calculadas como la forma más básica de esa información lateral. El objeto de ruido oculto adicional representa información lateral de objeto oculto.
- La información paramétrica del objeto de ruido adicional es agregada a la información lateral de SAOC que ha sido 50 generada por el codificador de SAOC a partir de los objetos reales. (La información lateral de SAOC puede ser
considerada como información lateral objeto de audio. Esa información lateral de objeto audio, por ejemplo, describe características de dos o más objetos de audio espacial sobre la base de dos o más objetos de audio espacial).
[0049] La Figura 5 ilustra un módulo de procesamiento 120 de un aparato para codificar según una forma de 55 realización. El módulo de procesamiento 120 comprende un módulo de efecto acústico 122 y un módulo de
codificación 121. El módulo de efecto acústico 122 es configurado para aplicar un efecto acústico sobre al menos una de una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes ajustadas acústicamente. Además, el módulo de codificación 121 es configurado para codificar una o más señales mezcladas descendentes ajustadas acústicamente para obtener una o más señales procesadas.
[0050] Los puntos de señal A y C pueden ser alimentados al generador de información de objeto 140. De
este modo, el generador de información de objeto puede determinar el efecto del módulo de efecto acústico 122 y un
módulo de codificación 121 sobre la señal mezclada descendente no procesada y puede generar en consecuencia
5 información paramétrica adicional para representar ese efecto.
[0051] Opcionalmente, la señal en el punto B también puede ser alimentada al generador de información de objeto 140. Mediante esto, el generador de información de objeto 140 puede determinar el efecto individual del módulo de efecto acústico 122 sobre la señal mezclada descendente no procesada teniendo en cuenta las señales
10 en A y B. Esto puede ser realizado por ejemplo formando señales de diferencia entre las señales en A y las señales en B.
[0052] Además, mediante esto, el generador de información de objeto 140 puede determinar el efecto
individual del módulo de codificación 121 teniendo en cuenta las señales B y C. Esto puede ser realizado, por
15 ejemplo, decodificando las señales en el punto C y formando señales de diferencia entre esas señales decodificadas y las señales en B.
[0053] La Figura 6 ilustra un aparato para decodificar una señal codificada según una forma de realización. La señal codificada comprende información de objeto de audio sobre uno o más objetos de audio, e información
20 paramétrica adicional.
[0054] El aparato comprende una interfaz 210 para recibir una o más señales mezcladas descendentes procesadas, y para recibir las señales codificadas. La información paramétrica adicional refleja un procesamiento efectuado sobre una o más señales mezcladas descendentes no procesadas para obtener una o más señales
25 mezcladas descendentes procesadas.
[0055] Además, el aparato comprende un generador de escena de audio 220 para generar una escena de audio que comprende una pluralidad de señales de audio espacial sobre la base de una o más señales mezcladas descendentes procesadas, la información de objeto de audio paramétrica, la información paramétrica adicional, y la
30 información de renderización. La información de renderización indica la colocación de uno o más objetos de audio en la escena de audio. El generador de escena de audio 220 es configurado para atenuar o eliminar una señal de salida representada por la información paramétrica adicional en la escena de audio.
[0056] Por ejemplo, con respecto a la codificación de objetos de audio espacial (SAOC) es bien sabido en la 35 técnica, cómo colocar uno o más objetos de audio sobre la base de la información de renderización, cuando uno o
más objetos de audio sean codificados por una o más señales mezcladas descendentes procesadas y por información de objeto de audio paramétrica.
[0057] Según esta forma de realización, sin embargo, la interfaz es configurada además para recibir 40 información paramétrica adicional la cual refleja un procesamiento efectuado sobre una o más señales mezcladas
descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas. De este modo, la información paramétrica adicional refleja el procesamiento como el conducido por ejemplo, por un aparato para codificar según la Figura 1.
45 [0058] De este modo, en una forma de realización particular, la información paramétrica adicional puede
depender de una o más señales adicionales, donde las señales adicionales indican una diferencia entre una de una o más señales mezcladas descendentes procesadas y una de una o más señales mezcladas descendentes no procesadas, donde una o más señales mezcladas descendentes no procesadas indican el mezclado descendente de uno o más objetos de audio, y donde una o más señales mezcladas descendentes procesadas resultan del 50 procesamiento de una o más señales mezcladas descendentes no procesadas.
[0059] Los decodificadores del estado de la técnica, los cuales recibirían las señales mezcladas descendentes procesadas y la señal codificada generada por el aparato para codificar según la Figura 1 no usarían la información paramétrica adicional comprendida por la señal codificada. En su lugar, generarían la escena de
55 audio usando únicamente las señales mezcladas descendentes procesadas, la información de objeto de audio paramétrica de la señal codificada y la información de renderización.
[0060] El aparato para decodificar según la forma de realización de la Figura 6, sin embargo, usa la información paramétrica adicional de la señal codificada. Esto permite al aparato decodificar para deshacer o
deshacer parcialmente el procesamiento realizado por el módulo de procesamiento 120 del aparato para codificar según la Figura 1.
[0061] La información paramétrica adicional puede indicar, por ejemplo, una señal de diferencia entre una de
5 las señales mezcladas descendentes no procesadas de la Figura 1 y una de las señales mezcladas descendentes procesadas de la Figura 1. Tal señal de diferencia puede ser considerada como una señal de salida de la escena de audio. Por ejemplo, cada una de las señales mezcladas descendentes procesadas puede ser considerada como una combinación de una de las señales mezcladas descendentes no procesadas y una señal de diferencia.
10 [0062] El generador de escena de audio 220 puede ser configurado entonces, por ejemplo, para atenuar o
eliminar esta señal de salida en la escena de audio, de modo que únicamente la señal mezclada descendente no procesada sea reproducida de nuevo, o de modo que la señal mezclada descendente no procesada sea reproducida de nuevo y la señal de diferencia sea solo parcialmente reproducida de nuevo por ejemplo, dependiendo de la información de renderización.
15
[0063] La Figura 7 ilustra un aparato para decodificar una señal codificada según otra forma de realización. El generador de escena de audio 220 comprende un generador de objeto de audio 610 y un renderizador 620.
[0064] El generador de objeto de audio 610 es configurado para generar uno o más objetos de audio sobre la 20 base de una o más señales mezcladas descendentes procesadas, la información de objeto de audio paramétrica y la
información paramétrica adicional.
[0065] El renderizador 620 es configurado para generar la pluralidad de señales de audio espacial de la escena de audio sobre la base de uno o más objetos de audio, la información de objeto de audio paramétrica y la
25 información de renderización.
[0066] Según una forma de realización, el renderizador 620 puede, por ejemplo, ser configurado para generar una pluralidad de señales de audio espacial de la escena de audio sobre la base de uno o más objetos de audio, la información paramétrica adicional, y la información de renderización, donde el renderizador 620 puede ser
30 configurado para atenuar o eliminar la señal de salida representada por la información paramétrica adicional en la escena de audio dependiendo de uno o más coeficientes de renderización comprendidos por la información de la renderización.
[0067] La Figura 8 ilustra un aparato para decodificar una señal codificada según una forma de realización 35 adicional. En la Figura 8, el aparato comprende además una interfaz de usuario 710 para ajustar uno o más de los
coeficientes de renderización para determinar si la señal de salida representada por la información paramétrica adicional es atenuada o eliminada en la escena de audio. Por ejemplo, la interfaz de usuario puede permitir al usuario ajustar uno de los coeficientes de renderización a 0.5 indicando que una señal de salida representada por la información paramétrica adicional se suprime parcialmente. O, por ejemplo, la interfaz de usuario puede permitir al 40 usuario ajustar uno de los coeficientes de renderización a 0 indicando que una señal de salida representada por la información paramétrica adicional se suprime por completo. O, por ejemplo, la interfaz de usuario puede permitir al usuario ajustar uno de los coeficientes de renderización a 1 indicando que una señal de salida representada por la información paramétrica adicional no se suprime del todo.
45 [0068] Según una forma de realización alternativa, el generador de escena de audio 220 puede ser
configurado para generar la escena de audio que comprende una pluralidad de señales de audio espacial sobre la base de una o más señales mezcladas descendentes procesadas, la información de objeto de audio paramétrico, la información paramétrica adicional e información de renderización que indique la colocación de uno o más objetos de audio en la escena de audio, donde el generador de escena de audio puede ser configurado para generar uno o más 50 objetos de audio para generar la escena de audio.
[0069] La Figura 9 ilustra un aparato para decodificar una señal codificada según otra forma de realización.
En la forma de realización de la Figura 9, el aparato comprende además un decodificador de audio 510 para decodificar una o más señales mezcladas descendentes procesadas (referida como “mezcla descendente 55 codificada”) para obtener una o más señales decodificadas, donde el generador de escena es configurado para generar la escena de audio que comprende la pluralidad de señales de audio espacial sobre una de una o más señales decodificadas, la información de objeto de audio paramétrica, la información paramétrica adicional, y la información de renderización.
[0070] En el aparato de la Figura 9, el aparato comprende además un decodificador de audio 510 para decodificar una o más señales mezcladas descendentes procesadas, las cuales son alimentadas desde la interfaz (no mostrada) en el decodificador 510. Las señales decodificadas resultantes son entonces alimentadas al generador de objeto de audio (en la Figura 9 referidos como un separador de objeto virtual 520) de un generador de
5 escena de audio 220, el cual es, en la forma de realización de la Figura 9 un decodificador de SAOC. El generador de escena de audio 220 comprende, además, el renderizador 530.
[0071] En particular, la Figura 9 ilustra una decodificación/renderización de SAOC correspondiente con la supresión de objetos ocultos según una forma de realización.
10
[0072] En la Figura 9, la información lateral adicional, por ejemplo del codificador de la Figura 4, puede ser usada en el lado de la decodificación, por ejemplo, por el decodificador de la Figura 9, para suprimir el ruido de codificación, mejorando de este modo la calidad percibida de la escena acústica renderizada. De manera más específica, esto puede ser efectuado del siguiente modo:
15
1) La información del objeto oculto adicional, es incorporada como un objeto adicional en el proceso de separación de objetos (virtual). El error de codificación es tratado de la misma manera que un objeto de fuente de audio “regular”. El objeto adicional puede ser representado como parte de la información paramétrica adicional.
20 2) Cada uno de los N objetos de audio es separado de la mezcla suprimiendo las N-1 señales de fuente interferente y las señales de error de codificación q1 ... qP. Esto da como resultado una estimación mejorada de las señales de objeto de audio en comparación con el caso cuando únicamente son considerados objetos (de fuente) de audio (no ocultos) regulares en este paso. Cabe destacar que puede ser calculada una estimación del error de codificación de la misma manera.
25
3) La escena de audio deseada (también referida como “escena blanco acústica”) es generada por renderizado de las estimaciones de fuente de audio mejoradas §1, ... Sn multiplicando por las señales de objeto de audio estimadas con los coeficientes de renderización en consecuencia. Cualquier señal de error de codificación estimada calculada adicionalmente es omitida en el proceso de renderización.
30
[0073] En la práctica, en un sistema parecido al MPEG-D SAOC, el segundo y el tercer paso pueden llevarse a cabo en un proceso de transcodificación eficaz simple.
[0074] En otras formas de realización, el concepto de objeto de audio oculto también puede ser utilizado para 35 deshacer o controlar ciertos efectos de audio en el lado del decodificador los cuales son aplicados a la mezcla de
señales en el lado del codificador. Cualquier efecto aplicado a los canales de mezclado descendente puede causar una degradación del proceso de separación de objetos en el decodificador. Cancelar este efecto, por ejemplo deshaciendo el efecto de audio aplicado de las señales mezcladas descendentes sobre el lado de decodificación mejora el desempeño del paso de separación y de este modo mejora la calidad percibida de la escena acústica 40 renderizada. Para un tipo de operación más continua, la cantidad de efecto que aparece en la salida de audio renderizada puede ser controlada controlando el nivel de renderización del objeto oculto en el decodificador de SAOC. La renderización del objeto oculto (el cual es representado por la información paramétrica adicional) con un nivel de cero da como resultado la supresión casi total del efecto aplicado en la señal de salida renderizada. La renderización del objeto oculto con un nivel bajo da como resultado un nivel bajo de efecto aplicado en la señal de 45 salida renderizada.
[0075] Como un ejemplo, la aplicación de un reverberador a los canales de mezcla descendente puede ser hecha transmitiendo una versión parametrizada de la reverberación como un objeto oculto (efectos) y aplicando la renderización de decodificación de SAOC regular con un nivel de reproducción de cero para el objeto oculto
50 (efectos).
[0076] De manera más específica, esto puede ser efectuado del siguiente modo:
En el lado del codificador, es aplicado un efecto de audio (por ejemplo un reverberado) a las señales mezcladas descendentes X1 ... xp dando como resultado una señal mezclada descendente modificada X1'... x'p.
55
[0077] Las señales mezcladas descendentes alineadas con el tiempo y procesadas X1'... x'p son sustraídas de las señales mezcladas descendentes (originales) no procesadas X1 ... xp, resultando en las señales de reverberación q1 ... qp (señales de efecto).
[0078] Las señales de efecto qi ... qp y los parámetros de mezclado de la señal de efecto dq,i ... dq,p son
proporcionados a la parte de análisis de objetos del codificador de SAOC dando como resultado la información paramétrica del objeto de efecto (oculto) adicional.
5 [0079] Una descripción parametrizada de la señal de efecto es derivada y agregada como información del
objeto oculto adicional (efectos) de la información lateral generada por el estimador de información lateral de SAOC dando como resultado una información lateral enriquecida transmitida/almacenada.
[0080] En el lado del decodificador, la información de objeto oculto es incorporada como un objeto adicional 10 en el proceso de separación del objeto (virtual). El objeto oculto (señal de efecto) es tratado de la misma manera que
el objeto de fuente de audio "regular".
[0081] Cada uno de los N objetos de audio es separado de la mezcla suprimiendo las N-1 señales de una fuente interferente y las señales de efecto qi... qp. Esto da como resultado una estimación mejorada de las señales
15 de objeto de audio originales en comparación con el caso cuando únicamente son considerados los objetos de una fuente de audio (no ocultos) regular en este paso. Adicionalmente, una estimación de la señal de reverberación puede ser calculada de la misma manera.
[0082] La escena blanco acústica deseada se genera renderizando la estimación de la fuente de audio 20 mejorada Si,...,Sn multiplicando las señales de objeto de audio estimadas con los coeficientes de renderización en
consecuencia. El objeto oculto (señal de reverberación) puede ser suprimido casi totalmente (renderizando la señal de reverberación con un nivel de cero) o, si se desea, aplicado con un cierto nivel ajustando el nivel de renderización del objeto (efectos) oculto en consecuencia.
25 [0083] En otras formas de realización, el generador de objeto de audio 520 puede pasar información sobre el
objeto oculto h al renderizador 530.
[0084] De este modo, en esa forma de realización, el generador de objeto de audio 520 usa la información lateral del objeto oculto para dos propósitos:
30
Por un lado, el generador de objeto de audio 520 usa la información lateral del objeto oculto para reconstruir los objetos de audio espacial originales Si,...,Sn. Esos objetos de audio espacial originales Si,...,Sn no reflejan entonces las modificaciones de las señales mezcladas descendentes Xi,...,Xp realizadas sobre el lado del codificador, por ejemplo por un módulo de efecto de audio.
35
[0085] Por otro lado, el generador de objeto de audio 520 pasa la información lateral del objeto oculto que comprende información acerca de modificaciones laterales del codificador (por ejemplo intencionales) de las señales mezcladas descendentes xi ... xp al renderizador 530, por ejemplo como un objeto oculto h el cual puede recibir el renderizador de objeto de audio como información lateral del objeto oculto.
40
[0086] El renderizador 530 puede controlar entonces si el objeto oculto recibido h es renderizado o no en la escena de sonido. El renderizador 530 puede ser configurado además para controlar la cantidad del efecto de audio en uno o más canales de audio dependiendo del nivel de renderización del efecto de audio. Por ejemplo, el renderizador 530 puede recibir información de control que proporcione un nivel de renderización del efecto de audio.
45
[0087] Por ejemplo, el renderizador 530 puede ser configurado para controlar la cantidad de modo que el nivel de renderización de una o más señales de combinación sea configurable. El nivel de renderización puede indicar en qué grado el renderizador 530 renderiza las señales de combinación, por ejemplo las señales de diferencia que representan el efecto acústico aplicado sobre codificador lateral, lo que es indicado por la información
50 lateral del objeto oculto. Por ejemplo, un nivel de renderización de cero puede indicar que las señales de combinación están completamente suprimidas, mientras que un nivel de renderización 1 puede indicar que las señales de combinación no están del todo suprimidas. Un nivel de renderización s con 0 < s < 1 puede indicar que las señales de combinación están parcialmente suprimidas.
55 [0088] En lo sucesivo, será explicado el manejo del objeto oculto para un ejemplo de SAOC. Debería
observarse que la información sobre objetos ocultos puede ser considerada como una información paramétrica adicional.
[0089] Primero, son introducidos términos y definiciones:
S matriz de N señales de objeto de audio originales (N filas) (que representan los objetos de audio descritos anteriormente)
S matriz de N señales de objeto de audio originales estimadas (N filas)
5 X matriz de P canales de mezcla descendentes no procesados (P filas) (que representan las señales mezcladas descendentes descritas anteriormente)
X' matriz de P canales de mezcla descendentes procesados (P filas) (que representan las señales procesadas descritas anteriormente)
Y matriz de M canales de salida renderizados (M filas); usando las señales de la fuente original
10 Y matriz de M canales de salida renderizados (M filas); usando las señales de la fuente estimada
D matriz de mezcla descendente de tamaño P veces N
G matriz de estimación de fuente de tamaño N veces P
OLDi energía del objeto de la fuente (uno de los objetos de audio espacial) si, i= I,... N; calculada como se define en SAOC
15 IOC, relación cruzada entre el objeto de la fuente (uno de los objetos de audio espacial) si, y sj, i, ,j= I,. N; calculada como se define en SAOC R matriz de renderización de tamaño M veces N
[0090] La estimación de la fuente del objeto si,...,sn dentro del SAOC sin usar información lateral del objeto
20 oculto (un tipo de información paramétrica adicional), por ejemplo sin consideración de los objetos ocultos, puede ser realizada del siguiente modo:
G = EDT(DEDT)J con: E1( = IOC.^OLD.OLD,
S = GX' = EDt(DEDt)1 X'
25 [0091] Esto produce la mejor estimación de la fuente original (objeto de audio espacial) si,...,sn en un sentido
del error cuadrático mínimo únicamente para el caso en el que X es igual a X'.
[0092] Si X'^X, por ejemplo debido a la codificación/compresión de la mezcla descendente o reverberación aplicada a la mezcla descendente, la estimación no produce la mejor estimación posible de las fuentes originales.
30
[0093] La escena blanco deseada puede ser calculada como:
A A
Y = RS
35 [0094] Ahora, es considerada la estimación usando la información lateral del objeto oculto (un tipo de
información paramétrica adicional), por ejemplo, estimación de la fuente del objeto si,...,sn bajo consideración de las alteraciones de la matriz descendente como objetos ocultos según una forma de realización.
[0095] Si se consideran las alteraciones de la señal (codificación, efecto de reverberación) en el proceso de 40 separación, puede ser realizada una estimación mejorada de las fuentes originales si,...,sn.
[0096] Dentro de SAOC, esas alteraciones pueden, en su forma más simple, ser interpretadas como objetos ocultos adicionales en la mezcla descendente y consideradas en el proceso de estimación de la fuente.
45 [0097] Se considera ahora el cálculo mediante el uso de la información lateral del objeto oculto, por ejemplo,
de un objeto oculto que consiste de P canales de señal. Para este propósito, son introducidos algunos términos y definiciones adicionales.
G' matriz de estimación de fuente de tamaño (N + P) veces P; considerando las fuentes y objetos ocultos originales, OLD'i energía de las fuentes y objetos ocultos originales Si, i = 1, ... (N + P); calculada como se define en SAOC,
50 IOC'i,j correlación cruzada entre todos los objetos (fuentes y objetos ocultos originales si y sj, i, j = 1, ... (N +
P); calculada como se define en el SAOC. Nota: la correlación cruzada entre las fuentes originales y los objetos
ocultos puede en la mayoría de los casos ser asumida como cero y no tiene que haber sido calculada,
D' matriz de mezcla descendente de M veces (N + P), que describe los coeficientes de mezclado de las fuentes y objetos ocultos originales, los cuales son 1 por defecto para los objetos ocultos (por ejemplo, la información relacionada de la mezcla descendente),
5 S’ matriz del objeto de audio original estimado y las señales de objeto oculto de tamaño (N + P),
R' matriz de renderización de tamaño M veces (N + P).
[0098] La estimación mejorada de las fuentes originales si ... sn puede ser calculada como:
G' = E'D,t(d,E'D,t)' con: EL = IOCLJOLD'OLD'
Si py *
I o V-J -fV
[0099] Esto produce una estimación mejorada de los objetos de la fuente original si ... sn.
[0100] A diferencia del procesamiento por defecto, las partes de la señal de los objetos ocultos son
15 suprimidas en las estimaciones s’i ... s’n de las fuentes originales. Cabe destacar que esto produce también una estimación del objeto oculto.
[0101] La escena blanco deseada puede ser calculada entonces del siguiente modo:
20
Y = R'Sr
[0102] Dependiendo del escenario de aplicación:
-los objetos ocultos pueden ser omitidos de la renderización ajustando los coeficientes de renderización en 25 consecuencia de R a cero (este sería el escenario por defecto para suprimir el ruido de codificación de la codificación de la señal mezclada descendente) o -renderizada con un nivel igual a cero.
[0103] Por ejemplo, la renderización del objeto oculto con un nivel bajo da como resultado un nivel bajo del 30 objeto oculto (por ejemplo, reverberación) en la señal de salida renderizada.
[0104] La Figura 10 ilustra un sistema según una forma de realización. El sistema comprende un aparato para codificar uno o más objetos de audio 810 según una de las formas de realización descritas anteriormente, y un aparato para decodificar una señal codificada 820 según una de las formas de realización descritas anteriormente.
35
[0105] El aparato para codificar 810 es configurado para proporcionar una o más señales mezcladas descendentes procesadas y una señal codificada al aparato para decodificar 820, la señal codificada que comprende información de objeto de audio paramétrica para uno o más objetos de audio e información paramétrica adicional para una o más señales adicionales. El aparato para decodificar 820 es configurado para generar una escena de
40 audio que comprende una pluralidad de señales de audio espacial sobre la base de la información de objeto de audio paramétrica, la información paramétrica adicional, y la información de renderización que indique una colocación de uno o más objetos de audio en la escena de audio.
[0106] Aunque algunos aspectos han sido descritos en el contexto de un aparato, está claro que esos 45 aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo
corresponde a un paso del procedimiento o una característica de una etapa del procedimiento. De manera análoga, los aspectos descritos en el contexto de una etapa del procedimiento también representan una descripción de un bloque correspondiente o elemento o característica de un aparato correspondiente.
50 [0107] La señal descompuesta de la invención puede ser almacenada en un medio de almacenamiento digital
o puede ser transmitida sobre un medio de transmisión como un medio de transmisión inalámbrica o un medio de
transmisión alámbrica, como Internet. Dependiendo de ciertos requisitos de implementación, las formas de realización de la invención pueden ser implementadas en hardware o en software. La implementación puede ser efectuada mediante el uso de un medio de almacenamiento digital, por ejemplo una unidad de disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tenga señales de 5 control legibles electrónicamente almacenadas en él, que cooperen (o sean capaces de cooperar) con un sistema informático programable de modo que sea efectuado el procedimiento respectivo. Algunas formas de realización según la invención comprenden un soporte de datos no transitorio que tiene señales de control legibles electrónicamente, las cuales son capaces de cooperar con un sistema informático programable, de modo que uno de los procedimientos descritos aquí sea realizado. De manera general, las formas de realización de la presente 10 invención pueden ser implementadas como un producto de programa informático con un código de programa, pudiendo el código de programa operar para efectuar uno de los procedimientos cuando el producto de programa informático sea ejecutado en un ordenador. El código de programa puede ser almacenado por ejemplo en un soporte legible por máquina. Otras formas de realización comprenden el programa informático para efectuar uno de los procedimientos descritos aquí, almacenados en un soporte legible por máquina. En otras palabras, una forma de 15 realización del procedimiento de la invención es, por lo tanto, un programa informático que tiene un código de programa para efectuar uno de los procedimientos descritos en esta invención, cuando el programa informático sea ejecutado en un ordenador. Una forma de realización más de los procedimientos de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, registrado en él, el programa informático para efectuar uno de los procedimientos descritos en esta invención.
20
[0108] Una forma de realización adicional del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para efectuar uno de los procedimientos descritos en esta invención. El flujo de datos o secuencia de señales puede, por ejemplo ser configurado para ser transferido vía una conexión de comunicación de datos, por ejemplo vía Internet.
25
[0109] Una forma de realización adicional comprende medios de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado o adaptado para efectuar uno de los procedimientos descritos en esta invención.
30 [0110] Una forma de realización adicional comprende un ordenador que tiene instalado en él el programa
informático para efectuar uno de los procedimientos descritos en esta invención.
[0111] En algunas formas de realización, puede ser usado un dispositivo lógico programable (por ejemplo, un arreglo de puertas programable en el campo) para efectuar algunas o todas las funcionalidades de los
35 procedimientos descritos en esta invención. En algunas formas de realización, un arreglo de puertas programable en el campo puede cooperar con un microprocesador para efectuar uno de los procedimientos descritos en esta invención. Generalmente, los procedimientos son efectuados preferentemente por cualquier aparato de hardware.
[0112] Las formas de realización descritas anteriormente son meramente ilustrativas de los principios de la 40 presente invención. Debe comprenderse que las modificaciones y variaciones de los arreglos y detalles descritos en
esta invención serán evidentes para aquellos expertos en la técnica. Se pretende, por lo tanto, que sean limitadas únicamente por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las formas de realización de esta invención.
45 Referencias
[0113]
[BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on
50 Speech and Audio Proc., vol. 11, no. 6, Nov. 2003
[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006
[SAOCI] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC To SAOC - Recent Developments in Parametric
Coding of Spatial Audio”, 22nd Regional UK, AES Conference, Cambridge, UK, April 2007
[SAOC2] J. Engdegárd, B. Resch, C. Falch, O. Helmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. 55 Koppens, E. Schuijers and W. Oomen: “ Spatial Audio Object Coding (SAOC) — The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, l24th AES Convention, Amsterdam 2008
[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTCI/SC29/WG1 I (MPEG) International Standard 23003-2.
[ISS1] M. Parvaix and L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo
Mixtures using Source Index Embedding”, IEEE ICASSP, 2010
[1552] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010
[1553] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: “Informed source separation 5 through spectrogram coding and data embedding”, Signal Processing Journal, 2011
[1554] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation', IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011
[1555] Shuhua Zhang and Laurent Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011
10 [ISS6] L. Girin and J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”,
AES 42nd International Conference: Semantic Audio, 2011.

Claims (13)

  1. REIVINDICACIONES
    1. Un aparato para codificar uno o más objetos de audio para obtener una señal codificada, en el que el aparato comprende:
    5
    un mezclador descendente (110) para mezclar de manera descendente uno o más objetos de audio para obtener una o más señales mezcladas descendentes no procesadas,
    un módulo de procesamiento (120) para procesar una o más señales mezcladas descendentes no procesadas para 10 obtener una o más señales mezcladas descendentes procesadas, en el que el módulo de procesamiento (120) es configurado para procesar una o más señales mezcladas descendentes no procesadas mediante la codificación de una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas,
    15 un calculador de señales (130) para calcular una o más señales adicionales, en el que el calculador de señales (130) comprende una unidad de decodificación (240) y un combinador (250), en el que la unidad de decodificación (240) es configurada para decodificar una o más señales mezcladas descendentes procesadas para obtener una o más señales decodificadas, y en el que el combinador (250) es configurado para generar cada una de una o más señales adicionales mediante la generación de una señal de diferencia entre una o más de las señales decodificadas, y una 20 de una o más señales mezcladas descendentes no procesadas,
    un generador de información de objeto (140) para generar información de objeto de audio paramétrica para uno o más objetos de audio e información paramétrica adicional para una o más señales adicionales, y
    25 una interfaz de salida (150) para enviar la señal codificada, comprendiendo la señal codificada la información de objeto de audio paramétrica para uno o más objetos de audio y la información paramétrica adicional para una o más señales adicionales.
  2. 2. Un aparato según la reivindicación 1,
    30
    en el que cada una de una o más señales mezcladas descendentes no procesadas comprende una pluralidad de primeras muestras de señal, siendo cada una de las primeras muestras de señal asignada a uno de una pluralidad de puntos en el tiempo,
    35 en el que cada una de una o más señales decodificadas comprende una pluralidad de segundas muestras de señal, siendo cada una de las segundas muestras de señal asignada a uno de una pluralidad de puntos en el tiempo, y
    en el que el calculador de señales (130) comprende además una unidad de alineación con el tiempo (345) que es configurada para alinear con el tiempo una de una o más señales decodificadas y una de una o más señales 40 mezcladas descendentes no procesadas, de modo que una de las primeras muestras de señal de dicha señal mezclada descendente no procesada sea asignada a una de las segundas muestras de señal de dicha señal decodificada, siendo dicha primera muestra de señal de dicha señal mezclada descendente no procesada y dicha segunda muestra de señal de dicha señal decodificada asignadas al mismo punto en el tiempo de la pluralidad de puntos en el tiempo.
    45
  3. 3. Un aparato según la reivindicación 1 o 2,
    en el que es asignado un valor de energía de objeto de audio a cada uno de un uno o más objetos de audio,
    50 en el que es asignado un valor de energía adicional a cada una de una o más señales adicionales,
    en el que el generador de información de objeto (140) es configurado para determinar un valor de energía de referencia, de modo que el valor de energía de referencia sea mayor que o igual al valor de energía objeto de audio de cada uno de uno o más objetos de audio, y de modo que el valor de energía de referencia sea mayor que o igual 55 al valor de energía adicional de cada una de una o más señales adicionales,
    en el que el generador de información de objeto (140) es configurado para determinar la información de objeto de audio paramétrica mediante la determinación de una diferencia de nivel de objeto de audio para cada objeto de audio de uno o más objetos de audio, de modo que dicha diferencia de nivel de objeto de audio indique una relación
    del valor de energía de objeto de audio de dicho objeto de audio al valor de energía de referencia, o de modo que dicha diferencia de nivel de objeto de audio indique una diferencia entre el valor de energía de referencia y el valor de energía de objeto de audio de dicho objeto de audio, y
    5 en el que el generador de información de objeto (140) es configurado para determinar la información de objeto adicional mediante la determinación de una diferencia de nivel de objeto adicional para cada señal adicional de una o más señales adicionales, de modo que dicha diferencia de nivel de objeto adicional indique una relación del valor de energía adicional de dicha señal adicional al valor de energía de referencia, o de modo que dicha diferencia de nivel de objeto adicional indique una diferencia entre el valor de energía de referencia y el valor de energía adicional 10 de dicha señal adicional.
  4. 4. Un aparato según una de las reivindicaciones 1 a 3,
    en el que el módulo de procesamiento (120) comprende un módulo de efecto acústico (122) y un módulo de 15 codificación (121),
    en el que el módulo de efecto acústico (122) es configurado para aplicar un efecto acústico sobre al menos una de una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes ajustadas acústicamente, y
    20
    en el que el módulo de codificación (121) es configurado para codificar una o más señales mezcladas descendentes ajustadas acústicamente para obtener una o más señales mezcladas descendentes procesadas.
  5. 5. Un sistema que comprende:
    25
    un aparato (810) según las reivindicaciones 1 a 4, y un aparato (820) para decodificación,
    en el que el aparato (810) según una de las reivindicaciones 1 a 4 es configurado para proporcionar una o más 30 señales mezcladas descendentes procesadas y la señal codificada al aparato (820) para decodificación,
    en el que el aparato para decodificación (820) es configurado para decodificar la señal codificada,
    en el que el aparato para decodificación comprende una interfaz (210) para la recepción de una o más señales 35 mezcladas descendentes procesadas y para la recepción de la señal codificada, y
    en el que el aparato para decodificación comprende un generador de escena de audio (220) para la generación de una escena de audio que comprende una pluralidad de señales de audio espacial basadas en una o más de las señales mezcladas descendentes procesadas, la información de objeto de audio paramétrica, la información 40 paramétrica adicional e información de renderización que indican una colocación de uno o más objetos de audio en la escena de audio, en la que el generador de escena de audio (220) está configurado para atenuar o eliminar una señal de salida representada por la información paramétrica adicional en la escena de audio.
  6. 6. Un sistema según la reivindicación 5, en el que la información paramétrica adicional depende de una o 45 más señales adicionales, en el que las señales adicionales indican una diferencia entre una de las una o más de las
    señales mezcladas descendentes procesadas y una de las una o más señales mezcladas descendentes no procesadas, en el que una o más de las señales mezcladas descendentes no procesadas indican una mezcla descendente de los uno o más objetos de audio y en el que una o más de las señales mezcladas descendentes procesadas resultan del procesamiento de una o más señales mezcladas descendentes no procesadas.
    50
  7. 7. Un sistema según la reivindicación 5 o 6,
    en el que el generador de escena de audio (220) comprende un generador de objeto de audio (520; 610) y un renderizador (530; 620), en el que el generador de objeto de audio (520; 610) es configurado para generar uno o 55 más objetos de audio basados en una o más señales mezcladas descendentes procesadas, la información de objeto de audio paramétrica y la información paramétrica adicional y en el que el renderizador (530; 620) es configurado para generar la pluralidad de señales de audio espacial de la escena de audio basada en uno o más objetos de audio, la información de objeto de audio paramétrica e información de renderización.
  8. 8. Un sistema según la reivindicación 7,
    en el que el renderizador (530; 620) es configurado para generar la pluralidad de señales de audio espacial de la escena de audio sobre la base de uno o más objetos de audio, la información paramétrica adicional y la información 5 de renderización, en el que el renderizador (530; 620) es configurado para atenuar o eliminar la señal de salida representada por la información paramétrica adicional en la escena de audio dependiendo de uno o más coeficientes de renderización comprendidos por la información de renderización.
  9. 9. Un sistema según la reivindicación 8, en el que el aparato comprende además una interfaz de usuario 10 para ajustar uno o más coeficientes de renderización para determinar si la señal de salida representada por la
    información paramétrica adicional está atenuada o eliminada en la escena de audio.
  10. 10. Un sistema según la reivindicación 5 o 6, en el que el generador de escena de audio (220) es configurado para generar la escena de audio que comprende una pluralidad de señales de audio espacial sobre la
    15 base de una o más señales mezcladas descendentes procesadas, la información de objeto de audio paramétrica, la información paramétrica adicional, y la información de renderización que indica una colocación de uno o más objetos de audio en la escena de audio, en la que el generador de escena de audio (220) es configurado para no generar uno o más objetos de audio para generar la escena de audio.
    20 11. Un sistema según una de las reivindicaciones 5 a 10,
    en el que el aparato comprende además un decodificador de audio (510) para la decodificación de una o más señales mezcladas descendentes procesadas para obtener una o más señales decodificadas, y en el que el generador de escena de audio (220) es configurado para generar la escena de audio que comprende la pluralidad de señales de audio espacial basadas en una o más señales decodificadas, la información de objeto de 25 audio paramétrica, la información paramétrica adicional y la información de renderización.
  11. 12. Un sistema según una de las reivindicaciones 5 a 11,
    en el que el generador de escena de audio (220) es configurado para generar la escena de audio mediante en empleo de las fórmulas
    30
    A
    Y = R'S'
    S' = G'Xf
    G' = E'D't(d'H'D't) ‘
    y . .
    en las que Y es una primera matriz que indica la escena de audio, en la que Y comprende una pluralidad de filas que indican la pluralidad de señales de audio espacial,
    35 en las que R' es una segunda matriz que indica la información de renderización, en las que S es una tercera matriz,
    en las que X' es una cuarta matriz que indica una o más señales mezcladas descendentes procesadas, en las que G' es una quinta matriz,
    en las que D' es una sexta matriz, que es una matriz de mezclado descendente, y 40 en las que E' es una séptima matriz que comprende una pluralidad de séptimos coeficientes de matriz, en las que los séptimos coeficientes de matriz son definidos por la fórmula:
    imagen1
    en la que E'¡,j es uno de los séptimos coeficientes de matriz en la fila i y la columna j, siendo i un índice de fila y siendo j un índice de columna,
    en la que lOC i j indica un valor de correlación cruzada, y 5 en la que OLD'i indica un primer valor de energía, y en la que OLD'j indica un segundo valor de energía.
  12. 13. Un procedimiento para codificar uno o más objetos de audio para obtener una señal codificada, en el que el procedimiento comprende:
    10 mezclado descendente de uno o más objetos de audio para obtener una o más señales mezcladas descendentes no procesadas,
    procesado de una o más señales mezcladas descendentes procesadas, en el que el procesamiento de una o más señales mezcladas descendentes no procesadas es realizado codificando una o más señales mezcladas descendentes no procesadas para obtener una o más señales mezcladas descendentes procesadas,
    15 cálculo de una o más señales adicionales mediante la decodificación de una o más señales mezcladas descendentes procesadas para obtener una o más señales decodificadas, y generar cada una de una o más señales adicionales mediante la generación de una diferencia de señal entre una de una o más señales decodificadas y una de una o más señales mezcladas descendentes no procesadas,
    generación de información de objeto de audio paramétrica para uno o más objetos de audio e información 20 paramétrica adicional para una o más señales adicionales, y
    emisión de la señal codificada, comprendiendo la señal codificada la información de objeto de audio paramétrica para uno o más objetos de audio y la información paramétrica adicional para una o más señales adicionales.
  13. 14. Un programa informático configurado para implementar el procedimiento de la reivindicación 13 25 cuando sea ejecutado en un ordenador o procesador de señales.
ES14700929.4T 2013-01-22 2014-01-20 Aparato y procedimiento para la codificación de objetos de audio espacial que emplea objetos ocultos para la manipulación de mezclas de señales Active ES2691546T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20130152197 EP2757559A1 (en) 2013-01-22 2013-01-22 Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
EP13152197 2013-01-22
PCT/EP2014/051046 WO2014114599A1 (en) 2013-01-22 2014-01-20 Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation

Publications (1)

Publication Number Publication Date
ES2691546T3 true ES2691546T3 (es) 2018-11-27

Family

ID=47563307

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14700929.4T Active ES2691546T3 (es) 2013-01-22 2014-01-20 Aparato y procedimiento para la codificación de objetos de audio espacial que emplea objetos ocultos para la manipulación de mezclas de señales

Country Status (12)

Country Link
US (1) US10482888B2 (es)
EP (2) EP2757559A1 (es)
JP (1) JP6277202B2 (es)
KR (1) KR101756190B1 (es)
CN (1) CN105122355B (es)
BR (1) BR112015017094B8 (es)
CA (1) CA2898801C (es)
ES (1) ES2691546T3 (es)
MX (1) MX348811B (es)
RU (1) RU2635244C2 (es)
TR (1) TR201815374T4 (es)
WO (1) WO2014114599A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
JP6431225B1 (ja) * 2018-03-05 2018-11-28 株式会社ユニモト 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3811110B2 (ja) * 2001-08-23 2006-08-16 日本電信電話株式会社 ディジタル信号符号化方法、復号化方法、これらの装置、プログラム及び記録媒体
EP1292036B1 (en) * 2001-08-23 2012-08-01 Nippon Telegraph And Telephone Corporation Digital signal decoding methods and apparatuses
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US20070092086A1 (en) * 2005-10-24 2007-04-26 Pang Hee S Removing time delays in signal paths
WO2007091850A1 (en) * 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
CN101385077B (zh) * 2006-02-07 2012-04-11 Lg电子株式会社 用于编码/解码信号的装置和方法
JP2009532712A (ja) * 2006-03-30 2009-09-10 エルジー エレクトロニクス インコーポレイティド メディア信号処理方法及び装置
EP2112652B1 (en) * 2006-07-07 2012-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
RU2551797C2 (ru) * 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
CA2670864C (en) * 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR20080082916A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
MX2010004138A (es) * 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
CN102215781A (zh) * 2008-07-24 2011-10-12 纽镜有限公司 调节性眼内透镜(aiol)胶囊
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
US9330671B2 (en) * 2008-10-10 2016-05-03 Telefonaktiebolaget L M Ericsson (Publ) Energy conservative multi-channel audio coding
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
WO2010125228A1 (en) * 2009-04-30 2010-11-04 Nokia Corporation Encoding of multiview audio signals
ES2524428T3 (es) * 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
KR101805212B1 (ko) * 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
KR101569702B1 (ko) * 2009-08-17 2015-11-17 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
AU2010305717B2 (en) * 2009-10-16 2014-06-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
JP5582027B2 (ja) * 2010-12-28 2014-09-03 富士通株式会社 符号器、符号化方法および符号化プログラム
TWI573131B (zh) * 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
PL3154057T3 (pl) * 2011-04-05 2019-04-30 Nippon Telegraph & Telephone Dekodowanie sygnału akustycznego
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
RU2628900C2 (ru) * 2012-08-10 2017-08-22 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, декодер, система и способ, использующие концепцию остатка для параметрического кодирования аудиобъектов

Also Published As

Publication number Publication date
BR112015017094B8 (pt) 2022-09-13
US20150348559A1 (en) 2015-12-03
CA2898801C (en) 2018-11-06
TR201815374T4 (tr) 2018-11-21
RU2015135593A (ru) 2017-03-02
EP2948946A1 (en) 2015-12-02
CN105122355A (zh) 2015-12-02
BR112015017094B1 (pt) 2022-02-22
CA2898801A1 (en) 2014-07-31
JP2016508617A (ja) 2016-03-22
MX2015009170A (es) 2015-11-09
BR112015017094A2 (es) 2017-08-15
WO2014114599A1 (en) 2014-07-31
MX348811B (es) 2017-06-28
CN105122355B (zh) 2018-11-13
RU2635244C2 (ru) 2017-11-09
KR101756190B1 (ko) 2017-07-26
KR20150113016A (ko) 2015-10-07
EP2757559A1 (en) 2014-07-23
US10482888B2 (en) 2019-11-19
EP2948946B1 (en) 2018-07-18
JP6277202B2 (ja) 2018-02-07

Similar Documents

Publication Publication Date Title
US11875804B2 (en) Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
JP6735053B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
ES2771200T3 (es) Postprocesador, preprocesador, codificador de audio, decodificador de audio y métodos relacionados para mejorar el procesamiento de transitorios
CN107077861B (zh) 音频编码器和解码器
ES2691546T3 (es) Aparato y procedimiento para la codificación de objetos de audio espacial que emplea objetos ocultos para la manipulación de mezclas de señales