ES2881076T3 - Aparato y método para la codificación eficiente de metadatos de objetos - Google Patents

Aparato y método para la codificación eficiente de metadatos de objetos Download PDF

Info

Publication number
ES2881076T3
ES2881076T3 ES14739199T ES14739199T ES2881076T3 ES 2881076 T3 ES2881076 T3 ES 2881076T3 ES 14739199 T ES14739199 T ES 14739199T ES 14739199 T ES14739199 T ES 14739199T ES 2881076 T3 ES2881076 T3 ES 2881076T3
Authority
ES
Spain
Prior art keywords
metadata
signals
audio
samples
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14739199T
Other languages
English (en)
Inventor
Christian Borss
Christian Ertel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130177378 external-priority patent/EP2830045A1/en
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2881076T3 publication Critical patent/ES2881076T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Aparato (100) para generar uno o más canales de audio, en el que el aparato comprende: un decodificador de metadatos (110) para recibir una o más señales de metadatos comprimidas, en el que cada una de una o más señales de metadatos comprimidas comprende una pluralidad de primeras muestras de metadatos, en el que el decodificador de metadatos (110) se configura para generar una o más señales de metadatos reconstruidas, de modo que cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas comprende las primeras muestras de metadatos de una señal de metadatos comprimida de una o más señales de metadatos comprimidas, estando dicha señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida y que comprende adicionalmente una pluralidad de segundas muestras de metadatos, en el que el decodificador de metadatos (110) se configura para generar las segundas muestras de metadatos de cada una de una o más señales de metadatos reconstruidas al generar una pluralidad de muestras de metadatos aproximadas para dicha señal de metadatos reconstruida, en el que el decodificador de metadatos (110) se configura para generar cada una de la pluralidad de muestras de metadatos aproximadas dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida, y un generador de canal de audio (120), en el que las primeras muestras de metadatos de cada una de una o más señales de metadatos comprimidas indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio, en el que el generador de canal de audio (120) se configura para generar uno o más canales de audio dependiendo de una o más señales de objetos de audio y dependiendo de una o más señales de metadatos reconstruidas, caracterizado porque el decodificador de metadatos (110) se configura para recibir una pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas y se configura para agregar cada uno de la pluralidad de valores diferenciales a una de las muestras de metadatos aproximados de la señal de metadatos reconstruida que se asocia con dicha señal de metadatos comprimida para obtener las segundas muestras de metadatos de dicha señal de metadatos reconstruida.

Description

DESCRIPCIÓN
Aparato y método para la codificación eficiente de metadatos de objetos
La presente invención se refiere a la codificación/decodificación de audio, en particular, a la codificación de audio espacial y a la codificación de objetos de audio espacial y, más en particular, a un aparato y método para la codificación eficiente de metadatos de objetos.
Las herramientas de codificación de audio espacial son bien conocidas en la técnica y, por ejemplo, se estandarizan con la norma MPEG (grupo de expertos de imágenes en movimiento) envolvente. La codificación de audio espacial comienza en canales de entrada originales tales como cinco o siete canales que se identifican por su ubicación en una configuración de reproducción, es decir, un canal izquierdo, un canal central, un canal derecho, un canal envolvente izquierdo, un canal envolvente derecho y un canal de realce de baja frecuencia. Un codificador de audio espacial típicamente deriva uno o más canales de mezcla descendente de los canales originales y, además, deriva datos paramétricos relacionados con señales espaciales tales como diferencias de nivel entre canales en los valores de coherencia de canal, diferencias de fase entre canales, diferencias de tiempo entre canales, etc. Se transmiten uno o más canales de mezcla descendente junto con la información lateral paramétrica indicando las señales espaciales a un decodificador de audio espacial que decodifica el canal de mezcla descendente y los datos paramétricos asociados para finalmente obtener canales de salida que son una versión aproximada de los canales de entrada originales. La ubicación de los canales en la configuración de salida típicamente se fija y está, por ejemplo, en un formato de 5,1, un formato de 7,1, etc.
Los formatos de audio basados en canales de este tipo se utilizan en gran medida para almacenar o transmitir contenido de audio de canales múltiples donde cada canal se refiere a un altavoz específico en una posición dada. Una reproducción fiel de esta clase de formatos requiere una configuración de altavoz donde los altavoces se colocan en las mismas posiciones que los altavoces utilizados durante la producción de señales de audio. Si bien el aumento del número de altavoces mejora la reproducción de escenas de audio 3D verdaderamente inmersas, resulta cada vez más difícil cumplir con este requisito - especialmente en un ambiente doméstico como una sala.
La necesidad de tener una configuración específica de altavoz podrá superarse mediante un enfoque basado en un objeto donde las señales del altavoz se tornan específicas para la configuración de reproducción.
Por ejemplo, las herramientas de codificación de objetos de audio espaciales se conocen en la técnica y se estandarizan con las normas MPEG SAOC (SAOC = codificación de objetos de audio espaciales). A diferencia de la codificación de audio espacial que comienza en sus canales originales, la codificación de objetos de audio espaciales comienza en objetos de audio no dedicados de forma automática para cierta configuración de reproducción renderizada. En cambio, la ubicación de los objetos de audio en la escena de reproducción es flexible y puede determinarse por el usuario introduciendo cierta información renderizada en un decodificador de codificación de objetos de audio espaciales. De forma alternativa o adicional, la información renderizada, es decir, información en cuya posición en la configuración de reproducción debe ubicarse un cierto objeto de audio típicamente con el tiempo y transmitirse como información lateral adicional o metadatos. Para obtener una cierta compresión de datos, un número de objetos de audio se codifican por medio de un codificador SAOC que calcula, a partir de los objetos de entrada, uno o más canales de transporte mediante mezcla descendente de objetos según cierta información de mezcla descendente. Asimismo, el codificador SAOC calcula información lateral paramétrica que representa señales entre objetos tales como diferencias de nivel de objetos (OLD, por su sigla en inglés), valores de coherencia de objetos, etc. Como en SAC (SAC = Codificación de Audio Espacial), los datos paramétricos entre objetos se calculan para teselas individuales de tiempo/frecuencia, es decir, para un cierto cuadro de la señal de audio que comprende, por ejemplo, las muestras 1024 o 2048, 24, 32, o 64, etc., las bandas de frecuencia se consideran para que, en el final, los datos paramétricos existan para cada trama y cada banda de frecuencia. A modo de ejemplo, cuando una pieza de audio tiene 20 tramas y cuando cada trama se subdivide en 32 bandas de frecuencia, entonces el número de teselas de tiempo/frecuencia es 640.
En un enfoque basado en un objeto, el campo de sonido se describe por medio de objetos discretos de audio. Esto requiere metadatos de objetos que describen entre otras cosas la posición variante de tiempo de cada fuente de sonido en el espacio 3D.
Un primer concepto de codificación de metadatos en la técnica anterior es el formato de intercambio de descripción de sonido espacial (SpatDIF, por su sigla en inglés), un formato de descripción de escena de audio el cual está aún en desarrollo [1 ]. Se diseña como formato de intercambio para escenas de sonido basadas en objetos y no proporciona ningún método de compresión para trayectorias de objetos. SpatDIF utiliza el formato Control de Sonido Abierto (OSC, por su sigla en inglés) basado en textos para estructurar los metadatos de objetos [2]. Una simple representación basada en textos, sin embargo, no es una opción para la transmisión comprimida de trayectorias de objetos.
Otro concepto de metadatos en la técnica anterior es el Formato de Descripción de Escena de Audio (ASDF, por su sigla en inglés) [3], una solución basada en texto con la misma desventaja. Los datos se estructuran mediante una extensión del Lenguaje de Integración Multimedia Sincronizado (SMIL, por su sigla en inglés) que es un subconjunto del Lenguaje de Marca Extensible (XML, por su sigla en inglés) [4,5].
Otro concepto de metadatos adicional en la técnica anterior es el formato binario de audio para escenas (AudioBIFS, por su sigla en inglés), un formato binario que es parte de la especificación MPEG-4 [6,7]. Se relaciona de forma cercana con el Lenguaje de Modelado de Realidad Virtual basado en XML (VRML por sus siglas en inglés) desarrollado para la descripción de escenas 3D audiovisuales y aplicaciones de realidad virtual interactiva [8]. La especificación AudioBIFS compleja utiliza gráficos de escena para especificar rutas de movimientos de objetos. Una gran desventaja de AudioBIFS consiste en que no está diseñado para operaciones en tiempo real donde un retardo de sistema limitado y el acceso aleatorio a la corriente de datos son un requisito. Asimismo, la codificación de las posiciones de objetos no se aprovecha del desempeño de localización limitada de los oyentes humanos. Para una posición fija de oyente dentro de la escena audio-visual, los datos del objeto pueden cuantificarse con un número de bits mucho menor [9]. Por ende, la codificación de metadatos de objeto que se aplica en AudioBIFS no es eficiente con respecto a la compresión de datos.
El documento US2012183162A1 da a conocer interpolación de posicionamiento que puede ocurrir o bien en el momento de mezclado, codificado, decodificado o reproducción posterior al posicionamiento y después pueden usarse las posiciones computadas e interpoladas. En el momento t0, una pista de audio puede designarse para encontrarse en la posición de inicio. En un momento posterior t9, la misma señal visual u otra fuente puede designarse para encontrarse en la posición final. Dadas la posición de inicio, la posición final y el tiempo transcurrido, una posición estimada de la fuente móvil puede interpolarse de manera lineal para usar cada trama intermedia, o tramas que no son clave, en presentación de audio. Los metadatos asociados con la escena pueden incluir (i) posición de inicio, posición final y tiempo transcurrido, (ii) posiciones interpoladas o (iii) ambos (i) y (ii). En realizaciones alternativas, la interpolación puede ser parabólica, constante por tramos, polinómica, de Spline o un proceso de Gauss.
El documento US 2006/136229 A1 da a conocer una calculadora de parámetros que calcula información paramétrica e información de interpolación de resolución inferior. En un lado de decodificador, un mezclador ascendente se usa para generar los canales de salida. El mezclador ascendente usa información paramétrica de alta resolución generada por un interpolador de parámetros que usa la información paramétrica de baja resolución y la información de interpolación derivada del lado de decodificador o la información de interpolación generada por el codificador para seleccionar una de una pluralidad de diferentes características de interpolación.
Puede apreciarse altamente si se proporcionan conceptos de codificación eficiente de metadatos de objetos mejorados.
El objeto de la presente invención es proporcionar conceptos mejorados para una eficiente codificación de metadatos de objetos. El objeto de la presente invención se soluciona por un aparato según la reivindicación 1, por un aparato según la reivindicación 7, por un sistema según la reivindicación 12, por un método según la reivindicación 13, por un método según la reivindicación 14 y por un programa informático según la reivindicación 15.
A continuación, se describen realizaciones de la presente invención en mayor detalle con referencia a las figuras, en las cuales:
La figura 1 ilustra un aparato para generar uno o más canales de audio según una realización,
La figura 2 ilustra un aparato para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas según una realización,
La figura 3 ilustra un sistema según una realización,
La figura 4 ilustra la posición de un objeto de audio en un espacio tridimensional de un origen expresado por acimut, elevación y radio,
La figura 5 ilustra posiciones de objetos de audio y configuración de altavoz asumidas por el generador de canal de audio,
La figura 6 ilustra una codificación de metadatos según una realización,
La figura 7 ilustra una decodificación de metadatos según una realización,
La figura 8 ilustra una codificación de metadatos según otra una realización,
La figura 9 ilustra una decodificación de metadatos según otra una realización,
La figura 10 ilustra una codificación de metadatos según una realización adicional,
La figura 11 ilustra una decodificación de metadatos según una realización adicional,
La figura 12 ilustra una primera realización de un codificador de audio 3D,
La figura 13 ilustra una primera realización de un decodificador de audio 3D,
La figura 14 ilustra una segunda realización de un codificador de audio 3D,
La figura 15 ilustra una segunda realización de un decodificador de audio 3D,
La figura 16 ilustra una tercera realización de un codificador de audio 3D, y
La figura 17 ilustra una tercera realización de un decodificador de audio 3D.
La figura 2 ilustra un aparato 250 para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas según una realización.
El aparato 250 comprende un codificador de metadatos 210 para recibir una o más señales de metadatos originales. Cada una de una o más señales de metadatos originales comprende una pluralidad de muestras de metadatos. Las muestras de metadatos de cada una de una o más señales de metadatos originales indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio. El codificador de metadatos 210 se configura para generar una o más señales de metadatos comprimidas, para que cada señal de metadatos comprimida de una o más señales de metadatos comprimidas comprenda un primer grupo de dos o más muestras de metadatos de una de las señales de metadatos originales y para que dicha señal de metadatos comprimida no comprenda ninguna muestra de metadatos de un segundo grupo de otras dos o más muestras de metadatos de dicha una de las señales de metadatos originales.
Por otra parte, el aparato 250 comprende un codificador de audio 220 para codificar una o más señales de objetos de audio para obtener una o más señales de audio codificadas. Por ejemplo, el generador de canal de audio puede comprender un codificador SAOC según el estado de la técnica para codificar una o más señales de objetos de audio para obtener uno o más canales de transporte SAOC como una o más señales de audio codificadas. Varias técnicas de codificación distintas para codificar uno o más canales de objetos de audio pueden emplearse alternativa o adicionalmente para codificar uno o más canales de objetos de audio.
La figura 1 ilustra un aparato 100 para generar uno o más canales de audio según una realización.
El aparato 100 comprende un decodificador de metadatos 110 para recibir una o más señales de metadatos comprimidas. Cada una de una o más señales de metadatos comprimidas comprende una pluralidad de primeras muestras de metadatos. Las primeras muestras de metadatos de cada una de una o más señales de metadatos comprimidas indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio. El decodificador de metadatos 110 se configura para generar una o más señales de metadatos reconstruidas, de modo que cada una de una o más señales de metadatos reconstruidas comprenda las primeras muestras de metadatos de una o más señales de metadatos comprimidas y comprenda adicionalmente una pluralidad de segundas muestras de metadatos. Por otra parte, el decodificador de metadatos 110 se configura para generar cada una de las segundas muestras de metadatos de cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida.
Por otra parte, el aparato 100 comprende un generador de canal de audio 120 para generar uno o más canales de audio dependiendo de una o más señales de objetos de audio y dependiendo de una o más señales de metadatos reconstruidas.
Cuando se hace referencia a muestras de metadatos, debe observarse que una muestra de metadatos se caracteriza por su valor de muestra de metadatos, pero también por el instante de tiempo, con el cual se relaciona. Por ejemplo, tal instante de tiempo puede ser relativo al comienzo de secuencia de audio o similar. Por ejemplo, un índice n o k puede identificar una posición de muestra de metadatos en una señal de metadatos y por esto, se indica un instante (relativo) de tiempo (que es relativo a un tiempo de inicio). Debe observarse que cuando dos muestras de metadatos se relacionan con diferentes instantes de tiempo, estas dos muestras de metadatos son muestras de metadatos diferentes, incluso cuando sus valores de muestras de metadatos son iguales, que a veces puede ser el caso.
Las realizaciones anteriores se basan en el hallazgo de que la información de metadatos (comprendida por una señal de metadatos) que se asocia con una señal de objetos de audio a menudo cambia lentamente.
Por ejemplo, una señal de metadatos puede indicar información de posición en un objeto de audio (por ejemplo, un ángulo acimutal, un ángulo de elevación o un radio que define la posición de un objeto de audio). Puede asumirse que, la mayoría de las veces, la posición del objeto de audio no cambia o solo cambia lentamente.
O una señal de metadatos puede, por ejemplo, indicar un volumen (por ejemplo, una ganancia) de un objeto de audio, y también puede asumirse que, la mayoría de las veces, el volumen de un objeto de audio cambia lentamente.
Por esta razón, no es necesario transmitir la información de metadatos (completa) en cada instante de tiempo. En cambio, la información de metadatos (completa) solo se transmite en ciertos instantes de tiempo, por ejemplo, periódicamente, por ejemplo, a cada N-ésimo instante de tiempo, por ejemplo, en el punto de tiempo 0, N, 2N, 3n , etc. Del lado del decodificador, para los puntos intermedios en el tiempo (por ejemplo, puntos en el tiempo 1, 2, ..., N-1) los metadatos entonces pueden aproximarse basados en muestras de metadatos para dos o más puntos en el tiempo. Por ejemplo, las muestras de metadatos para puntos en el tiempo 1, 2, ..., N-1 puede aproximarse en el lado del decodificador dependiendo de las muestras de metadatos para puntos en el tiempo 0 y N, por ejemplo, empleando interpolación lineal. Como se ha expuesto anteriormente, tal enfoque se basa en el hallazgo de que la información de metadatos sobre objetos de audio en general cambia lentamente.
Por ejemplo, en realizaciones, tres señales de metadatos especifican la posición de un objeto de audio en un espacio 3D. Una primera de las señales de metadatos puede, por ejemplo, especificar el ángulo acimutal de la posición del objeto de audio. Una segunda de las señales de metadatos puede, por ejemplo, especificar el ángulo de elevación de la posición del objeto de audio. Una tercera de las señales de metadatos puede, por ejemplo, especificar el radio relacionado con la distancia del objeto de audio.
El ángulo acimutal, ángulo de elevación y radio definen de forma no ambigua la posición de un objeto de audio en un espacio 3D de un origen. Esto se ilustra con referencia a la figura 4.
La figura 4 ilustra la posición 410 de un objeto de audio en un espacio tridimensional (3D) desde un origen 400 expresado por acimut, elevación y radio.
El ángulo de elevación especifica, por ejemplo, el ángulo entre la línea recta desde el origen hasta la posición del objeto y la proyección normal de esta línea recta sobre el plano xy (el plano definido por el eje x y el eje y). El ángulo acimutal define, por ejemplo, el ángulo entre el eje x y dicha proyección normal. Al especificar el ángulo acimutal y el ángulo de elevación, la línea recta 415 a través del origen 400 y la posición 410 del objeto de audio puede definirse. Al especificar además el radio, puede definirse la posición exacta 410 del objeto de audio.
En una realización, el ángulo acimutal se define por el margen: -180° < acimutal < 180°, el ángulo de elevación se define por el margen: -90° < elevación < 90° y el radio puede, por ejemplo, definirse en metros [m] (mayor que o igual a 0m).
En otra realización donde puede, por ejemplo, asumirse que todos los valores x de las posiciones del objeto de audio en un sistema de coordenadas xyz son mayores que o iguales a cero, el ángulo acimutal puede definirse por el margen: -90° < acimutal < 90°, el ángulo de elevación se define por el margen: -90° < elevación < 90° y el radio puede, por ejemplo, definirse en metros [m].
En una realización adicional, las señales de metadatos pueden graduarse de modo que el ángulo acimutal se define por el margen: -128° < acimutal < 128°, el ángulo de elevación se define por el margen: -32° < elevación < 32° y el radio puede, por ejemplo, definirse en una escala logarítmica. En algunas realizaciones, las señales de metadatos originales, las señales de metadatos comprimidas y las señales de metadatos reconstruidas, respectivamente, pueden comprender una representación a escala de una información de posición y/o una representación a escala de un volumen de una de una o más señales de objetos de audio.
El generador de canal de audio 120 puede, por ejemplo, configurarse para generar uno o más canales de audio dependiendo de una o más señales de objetos de audio y dependiendo de señales de metadatos reconstruidas, en el que las señales de metadatos reconstruidas pueden, por ejemplo, indican la posición de los objetos de audio.
La figura 5 ilustra posiciones de objetos de audio y una configuración de altavoz asumidas por el generador de canal de audio. Se ilustra el origen 500 del sistema de coordenadas xyz. Por otra parte, se ilustra la posición 510 de un primer objeto de audio y la posición 520 de un segundo objeto de audio. Además, la figura 5 ilustra un escenario, donde el generador de canal de audio 120 genera cuatro canales de audio para cuatro altavoces. El generador de canal de audio 120 asume que los cuatro altavoces 511, 512, 513 y 514 se encuentran en las posiciones mostradas en la figura 5.
En la figura 5, el primer objeto de audio se encuentra ubicado en una posición 510 cercana a las posiciones asumidas de los altavoces 511 y 512 y se ubica lejos de los altavoces 513 y 514. Por lo tanto, el generador de canal de audio 120 puede generar los cuatro canales de audio de tal manera que el primer objeto de audio 510 se reproduce por los altavoces 511 y 512 pero no por los altavoces 513 y 514.
En otras realizaciones, el generador de canal de audio 120 puede generar los cuatro canales de audio de tal manera que el primer objeto de audio 510 se reproduce con un alto volumen por los altavoces 511 y 512 y con bajo volumen por los altavoces 513 y 514.
Además, el segundo objeto de audio se ubica en una posición 520 cercana a las posiciones asumidas de los altavoces 513 y 514 y se ubica lejos de los altavoces 511 y 512. Por lo tanto, el generador de canal de audio 120 puede generar los cuatro canales de audio de tal manera que el segundo objeto de audio 520 se reproduce por los altavoces 513 y 514 pero no por los altavoces 511 y 512.
En otras realizaciones, el generador de canal de audio 120 puede generar los cuatro canales de audio de modo que el segundo objeto de audio 520 se reproduce con alto volumen por los altavoces 513 y 514 y con bajo volumen por los altavoces 511 y 512.
En realizaciones alternativas, solo dos señales de metadatos se utilizan para especificar la posición de un objeto de audio. Por ejemplo, solo el acimut y el radio pueden especificarse, por ejemplo, cuando se asume que todos los objetos de audio se ubican dentro de un solo plano.
En otras realizaciones adicionales, para cada objeto de audio, solo se codifica y transmite una señal de metadatos simple como información de posición. Por ejemplo, solo un ángulo acimutal puede especificarse como información de posición para un objeto de audio (por ejemplo, puede asumirse que todos los objetos de audio se ubican en el mismo plano teniendo la misma distancia desde un punto central y se asume de este modo que tienen el mismo radio). La información acimutal, por ejemplo, puede ser suficiente para determinar que un objeto de audio se ubica cerca de un altavoz izquierdo y lejos de un altavoz derecho. En tal situación, el generador de canal de audio 120, por ejemplo, puede generar uno o más canales de audio de modo que el objeto de audio se reproduce por medio del altavoz izquierdo, pero no por el altavoz derecho.
Por ejemplo, el paneo vectorial basado en amplitud (VBAP, por su sigla en inglés) puede emplearse (véase, por ejemplo, [12]) para determinar la ponderación de una señal de objetos de audio dentro de cada uno de los canales de audio de los altavoces. Por ejemplo, con respecto a VBAP, se asume que un objeto de audio se relaciona con una fuente virtual.
En realizaciones, una señal de metadatos adicional puede especificar un volumen, por ejemplo, una ganancia (por ejemplo, expresada en decibeles [dB]) para cada objeto de audio.
Por ejemplo, en la figura 5, un primer valor de ganancia puede especificarse por una señal de metadatos adicional para el primer objeto de audio ubicado en la posición 510 que es mayor que un segundo valor de ganancia especificado por otra señal de metadatos adicional para el segundo objeto de audio ubicado en la posición 520. En tal situación, los altavoces 511 y 512 pueden reproducir el primer objeto de audio con un volumen que es mayor que el volumen con el que los altavoces 513 y 514 reproducen el segundo objeto de audio.
Las realizaciones también asumen que esos valores de ganancia de objetos de audio a menudo cambian lentamente. Por lo tanto, no es necesario transmitir tal información de metadatos en cada punto en el tiempo. En cambio, la información de metadatos solo se transmite en ciertos puntos en el tiempo. En puntos intermedios en el tiempo, la información de metadatos puede, por ejemplo, aproximarse utilizando la muestra de metadatos precedente y la muestra de metadatos subsiguiente, que fueron transmitidas. Por ejemplo, la interpolación lineal puede emplearse para la aproximación de valores intermedios. Por ejemplo, la ganancia, el acimut, la elevación y/o radio de cada objeto de audio puede aproximarse por puntos en el tiempo, donde tales metadatos no fueron transmitidos.
Mediante tal enfoque, pueden lograrse considerables ahorros en la tasa de transmisión de metadatos.
La figura 3 ilustra un sistema según una realización.
El sistema comprende un aparato 250 para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas como se describe anteriormente.
Además, el sistema comprende un aparato 100 para recibir una o más señales de audio codificadas y una o más señales de metadatos comprimidas y para generar uno o más canales de audio dependiendo de una o más señales de audio codificadas y dependiendo de una o más señales de metadatos comprimidas como se describe anteriormente.
Por ejemplo, una o más señales de audio codificadas pueden decodificarse por el aparato 100 para generar uno o más canales de audio empleando el decodificador SAOC según la última tecnología para obtener una o más señales de objetos de audio, cuando el aparato 250 para codificar utilizó un codificador SAOC para codificar uno o más objetos de audio.
Considerando las posiciones de los objetos solo como un ejemplo para metadatos, para permitir el acceso aleatorio con tiempo limitado de reinicialización, las realizaciones proporcionan una retransmisión total de todas las posiciones de objetos de forma regular.
Según una realización, el aparato 100 se configura para recibir información de acceso aleatorio, en el que, para cada señal de metadatos comprimida de una o más señales de metadatos comprimidas, la información de acceso aleatorio indica una porción de señal accedida de dicha señal de metadatos comprimida, en el que al menos una porción de señal distinta de dicha señal de metadatos no se indica por dicha información de acceso aleatorio y en el que el decodificador de metadatos 110 se configura para generar una de una o más señales de metadatos reconstruidas dependiendo de las primeras muestras de metadatos de dicha porción de señal accedida de dicha señal de metadatos comprimida, pero sin depender de ninguna otra de las primeras muestras de metadatos de ninguna otra porción de señal de dicha señal de metadatos comprimida. En otras palabras, al especificar la información de acceso aleatorio, una porción de cada señal de metadatos comprimida puede especificarse, en la que las demás porciones de dicha señal de metadatos no se especifican. En este caso, solo la porción especificada de dicha señal de metadatos comprimida se reconstruye como una de las señales de metadatos reconstruida, pero sin las demás porciones. La reconstrucción es posible, ya que las primeras muestras de metadatos transmitidas de dicha señal de metadatos comprimida representan la información de metadatos completa de dicha señal de metadatos comprimida para ciertos puntos en el tiempo (para otros puntos en el tiempo, sin embargo, la información de metadatos no se transmite).
La figura 6 ilustra una codificación de metadatos según una realización. Un codificador de metadatos 210 según las realizaciones puede configurarse para implementar la codificación de metadatos ilustrada en la figura 6.
En la figura 6, s(n) puede representar una de las señales de metadatos originales. Por ejemplo, s(n) puede, por ejemplo representar una función de ángulo acimutal de un objeto de audio y n puede indicar tiempo (por ejemplo, al indicar posiciones de muestra en la señal de metadatos original).
El componente de trayectoria con variante de tiempo s(n), el cual se somete a muestreo a una tasa de muestreo que es significativamente menor (por ejemplo, 1:1024 o menor) que la tasa de muestreo de audio, se cuantifica (véase 611) y se somete a muestreo descendente (véase 612) por un factor de N. Esto da como resultado la señal digital transmitida de forma regular anteriormente mencionada que se indica como z(k).
z(k) es una de una o más señales de metadatos comprimidas. Por ejemplo, cada N-ésima muestra de metadatos de s(n) también es una muestra de metadatos de la señal de metadatos comprimida z(k), mientras que las otras muestras de metadatos N-1 de s(n) entre cada N-ésima muestra de metadatos no son muestras de metadatos de la señal de metadatos comprimida z(k).
Por ejemplo, si se asume que en s(n), n indica tiempo (por ejemplo, al indicar posiciones de muestra en la señal de metadatos original), donde n es un número entero positivo o 0. (Por ejemplo, tiempo de inicio: n = 0). N es el factor de muestreo descendente. Por ejemplo, N = 32 u otro factor de muestreo descendente adecuado.
Por ejemplo, el muestreo descendente en 612 para obtener la señal de metadatos comprimida z de la señal de metadatos original s, por ejemplo, puede realizarse, de modo que:
z(k) = s (k • N); en el que k es un número entero positivo o 0 (k = 0, 1,2, ...)
De este modo:
z(0) = s (0); z(1) = s (32); z(2) = s (64); z(3) = s(96), ...
La figura 7 ilustra una decodificación de metadatos según una realización. Un decodificador de metadatos 110 según las realizaciones puede configurarse para implementar la decodificación de metadatos ilustrada en la figura 7.
Según la realización ilustrada en la figura 7, el decodificador de metadatos 110 se configura para generar cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas mediante el muestreo ascendente de una o más señales de metadatos comprimidas, en el que el decodificador de metadatos 110 se configura para generar cada una de las segundas muestras de metadatos de cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida.
Por lo tanto, cada señal de metadatos reconstruida comprende todas las muestras de metadatos de su señal de metadatos comprimida (estas muestras se denominan “primeras muestras de metadatos” de una o más señales de metadatos comprimidas).
Al llevar a cabo muestreo ascendente, se agregan (“segundas”) muestras de metadatos adicionales a la señal de metadatos reconstruida. La etapa de muestreo ascendente determina las posiciones en la señal de metadatos reconstruida (por ejemplo, los instantes de tiempo “relativos”) donde se agregan las (segundas) muestras de metadatos adicionales a la señal de metadatos.
Al llevar a cabo interpolación lineal, se determinan los valores de muestra de metadatos de las segundas muestras de metadatos. La interpolación lineal se lleva a cabo basada en dos muestras de metadatos de la señal de metadatos comprimida (que se volvieron primeras muestras de metadatos de la señal de metadatos reconstruida).
Según las realizaciones, el muestreo ascendente y la generación de las segundas muestras de metadatos al llevar a cabo interpolación lineal pueden, por ejemplo, llevarse a cabo en una sola etapa.
En la figura 7, el proceso de muestreo ascendente inverso (véase 721) en combinación con una interpolación lineal (véase 722) da como resultado una aproximación gruesa de la señal original. El proceso de muestreo ascendente inverso (véase 721) y la interpolación lineal (véase 722) pueden, por ejemplo, llevarse a cabo en una sola etapa.
Por ejemplo, el muestreo ascendente (721) y la interpolación lineal (722) en el lado del decodificador pueden, por ejemplo, llevarse a cabo de modo que:
s’(k ■ N) = z(k); en el que k es un entero positivo o 0 s’(k ■ N j) = z(k-1) — [z(k) - z(k-1)]; en el que j es un entero con 1 < j < N — 1 N
Aquí, z(k) es la muestra de metadatos realmente recibida de la señal de metadatos comprimida z y z(k-1) es la muestra de metadatos de la señal de metadatos comprimida z, que se recibió inmediatamente antes de la muestra de metadatos realmente recibida z(k).
La figura 8 ilustra una codificación de metadatos según otra realización. Un codificador de metadatos 210 según realizaciones puede configurarse para implementar la codificación de metadatos ilustrada en la figura 8.
En realizaciones, por ejemplo como se ilustra en la figura 8, en la codificación de metadatos, puede especificarse la fina estructura por la diferencia codificada entre la señal de entrada compensada de retardo y la aproximación gruesa linealmente interpolada.
Según tales realizaciones, el proceso de muestreo ascendente inverso en combinación con la interpolación lineal también se lleva a cabo como parte de la codificación de metadatos del lado de codificador (véase 621 y 622 en la figura 6). Nuevamente, el proceso de muestreo ascendente inverso (véase 621) y la interpolación lineal (véase 622) pueden, por ejemplo, llevarse a cabo en una sola etapa.
Como ya se ha descrito anteriormente, el codificador de metadatos 210 se configura para generar una o más señales de metadatos comprimidas, de tal manera que cada señal de metadatos comprimida de una o más señales de metadatos comprimidas comprenda un primer grupo de dos o más muestras de metadatos de una señal de metadatos original de una o más señales de metadatos originales. Dicha señal de metadatos comprimida puede considerarse asociada con dicha señal de metadatos original.
Cada una de las muestras de metadatos que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que también está comprendida por la señal de metadatos comprimida, que se asocia con dicha señal de metadatos original, puede considerarse una de una pluralidad de primeras muestras de metadatos.
Además, cada una de las muestras de metadatos que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que no está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es una de una pluralidad de segundas muestras de metadatos.
Según la realización de la figura 8, el codificador de metadatos 210 se configura para generar una muestra de metadatos aproximada para cada una de una pluralidad de las segundas muestras de metadatos de una de las señales de metadatos originales al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de dicha una de una o más señales de metadatos originales.
Además, en la realización de la figura 8, el codificador de metadatos 210 se configura para generar un valor diferencial para cada segunda muestra de metadatos de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, de manera que dicho valor diferencial indique una diferencia entre dicha segunda muestra de metadatos y la muestra de metadatos aproximada de dicha segunda muestra de metadatos.
En una realización preferida, que se describirá a continuación con referencia a la figura 10, el codificador de metadatos 210 puede, por ejemplo, configurarse para determinar al menos uno de los valores diferenciales de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, si cada uno de al menos uno de dichos valores diferenciales es mayor que un valor umbral.
En realizaciones según la figura 8, las muestras de metadatos aproximadas pueden, por ejemplo, determinarse (por ejemplo, como muestras s”(n) de una señal s”) al llevar a cabo muestreo ascendente en la señal de metadatos comprimida z(k) y al llevar a cabo interpolación lineal. El muestreo ascendente y la interpolación lineal pueden, por ejemplo, llevarse a cabo como parte de la codificación de metadatos en el lado del codificador (véase 621 y 622 en figura 6), por ejemplo, de la misma manera, como se describe para la decodificación de metadatos con referencia a 721 y 722:
s”(k ■ N) = z(k); en el que k es un entero positivo o 0 s”(k ■ N j) = z(k-1) — [ z(k) - z(k-1)]; en el que j es un entero con 1 < j < N -1 N
Por ejemplo, en la realización ilustrada en la figura 8, cuando se lleva a cabo codificación de metadatos, pueden determinarse valores diferenciales en 630 para las diferencias
s(n) - s”(n), por ejemplo, para todas las n con (k-1) • N < n < k • N, o
por ejemplo, para todas las n con (k-1) • N < n < k • N
En realizaciones, uno o más de estos valores diferenciales se transmiten al decodificador de metadatos.
La figura 9 ilustra una decodificación de metadatos según otra realización. Un decodificador de metadatos 110 según realizaciones puede configurarse para implementar la decodificación de metadatos ilustrada en la figura 9.
Como se describe anteriormente, cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas comprende las primeras muestras de metadatos de una señal de metadatos comprimida de una o más señales de metadatos comprimidas. Dicha señal de metadatos reconstruida se considera que se asocia con dicha señal de metadatos comprimida.
En realizaciones ilustradas por la figura 9, el decodificador de metadatos 110 se configura para generar las segundas muestras de metadatos de cada una de una o más señales de metadatos reconstruidas al generar una pluralidad de muestras de metadatos aproximadas para dicha señal de metadatos reconstruida, en el que el decodificador de metadatos 110 se configura para generar cada una de una pluralidad de muestras de metadatos aproximadas dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida. Por ejemplo, estas muestras de metadatos aproximadas pueden generarse mediante interpolación lineal como se describe en referencia a la figura 7.
Según la realización ilustrada por la figura 9, el decodificador de metadatos 110 se configura para recibir una pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas. El decodificador de metadatos 110 se configura además para agregar cada uno de la pluralidad de valores diferenciales a una de las muestras de metadatos aproximadas de la señal de metadatos reconstruida que se asocia con dicha señal de metadatos comprimida para obtener las segundas muestras de metadatos de dicha señal de metadatos reconstruida.
Para todas aquellas muestras de metadatos aproximadas, para las cuales se ha recibido un valor diferencial, ese valor diferencial se agrega a las muestras de metadatos aproximadas para obtener las segundas muestras de metadatos.
Según una realización, una muestra de metadatos aproximada, para la cual no se ha recibido un valor diferencial, se utiliza como una segunda muestra de metadatos de la señal de metadatos reconstruida.
Según una realización diferente, sin embargo, si no se recibe un valor diferencial para una muestra de metadatos aproximada, se genera un valor diferencial aproximado para dichas muestras de metadatos aproximadas dependiendo de uno o más valores diferenciales recibidos y dicha muestra de metadatos aproximada se agrega a dicha muestra de metadatos aproximada, véase a continuación.
Según la realización ilustrada por la figura 9, los valores diferenciales recibidos se agregan (véase 730) a las muestras de metadatos correspondientes de la señal de metadatos sometida a muestreo ascendente. De esta manera, las muestras de metadatos interpoladas correspondientes, para las cuales se han transmitido valores diferenciales, pueden corregirse, si es necesario, para obtener las muestras de metadatos correctas.
Volviendo a la codificación de metadatos en la figura 8, en realizaciones preferidas, se utilizan menos bits para codificar los valores diferenciales que el número de bits utilizados para codificar muestras de metadatos. Estas realizaciones se basan en el hallazgo de que (por ejemplo, N) muestras de metadatos subsecuentes en la mayoría de las veces solo varían ligeramente. Por ejemplo, si una clase de muestras de metadatos se codifica, por ejemplo, por 8 bits, estas muestras de metadatos pueden tomarse de uno de entre 256 valores diferenciales. Debido, en general, a ligeros cambios de (por ejemplo, N) valores de metadatos subsecuentes, puede considerarse suficiente para codificar los valores diferenciales solo, por ejemplo, por 5 bits. De este modo, incluso si se transmiten valores diferenciales, puede reducirse el número de bits transmitidos.
En una realización preferida, uno o más valores diferenciales se transmiten, cada uno de uno o más valores diferenciales se codifican con menos bits que cada una de las muestras de metadatos y cada valor diferencial es un valor entero.
Según una realización, el codificador de metadatos 110 se configura para codificar una o más de las muestras de metadatos de una de una o más señales de metadatos comprimidas con un primer número de bits, en el que cada una de dichas una o más muestras de metadatos de dicha una de una o más señales de metadatos comprimidas indican un entero. Además, el codificador de metadatos (110) se configura para codificar uno o más de los valores diferenciales con un segundo número de bits, en el que cada uno de dicho uno o más de los valores diferenciales indica un número entero, en el que el segundo número de bits es menor que el primer número de bits.
Considérese, por ejemplo, que en una realización, las muestras de metadatos pueden representar un acimut que se codifica por 8 bits. Por ejemplo, el acimut puede ser un número entero entre -90 < acimut < 90. De este modo, el acimut puede tomar 181 valores diferenciales. Sin embargo, se puede asumir que (por ejemplo, N) muestras acimutales subsecuentes solo difieren por menos de, por ejemplo, ± 15, entonces, 5 bits (25 = 32) pueden ser suficientes para codificar los valores diferenciales. Si los valores diferenciales se representan como números enteros, entonces determinar los valores diferenciales de forma automática transforma los valores adicionales, que se van a transmitir, en un margen de valor adecuado.
Por ejemplo, considérese un caso donde un primer valor acimutal de un primer objeto de audio es 60° y sus valores subsecuentes varían de 45° a 75°. Por otra parte, considérese que un segundo valor acimutal de un segundo objeto de audio es -30° y sus valores subsecuentes varían de -45° a -15°. Al determinar los valores diferenciales para los valores subsecuentes del primer objeto de audio y para ambos de los valores subsecuentes del segundo objeto de audio, los valores diferenciales del primer valor acimutal y del segundo valor acimutal ambos se ubican en el margen de valor de -15° a 15°, para que 5 bits sean suficientes para codificar cada uno de los valores diferenciales y de modo que la secuencia de bits, que codifica los valores diferenciales, tenga el mismo significado para valores diferenciales del primer ángulo acimutal y valores diferenciales del segundo valor acimutal.
En una realización, cada valor diferencial, para el cual no existe una muestra de metadatos en la señal de metadatos comprimida, se transmite al lado del decodificador. Además, según una realización, cada valor diferencial, para el cual no existe una muestra de metadatos en la señal de metadatos comprimida, recibida y procesada por el decodificador de metadatos. Algunas de las realizaciones preferidas ilustradas por las figuras 10 y 11, sin embargo, realizan un concepto diferente.
La figura 10 ilustra una codificación de metadatos según una realización adicional. Un codificador de metadatos 210 según realizaciones se puede configurar para implementar la codificación de metadatos ilustrada por la figura 10.
Como en algunas de las realizaciones anteriores, en la figura 10, los valores diferenciales, por ejemplo, se determinan para cada muestra de metadatos de la señal de metadatos original que no se encuentra comprendida por la señal de metadatos comprimida. Por ejemplo, cuando las muestras de metadatos en instante de tiempo n=0 e instante de tiempo n=N están comprendidas por la señal de metadatos comprimida, pero las muestras de metadatos en los instantes de tiempo n=1 a n=N-1, entonces los valores diferenciales se determinan para los instantes de tiempo n=1 a n=N-1.
Sin embargo, según la realización de la figura 10, una aproximación de polígono se lleva a cabo a continuación en 640. El codificador de metadatos 210 se configura para decidir qué valor diferencial será transmitido y si los valores diferenciales se transmiten del todo.
Por ejemplo, el codificador de metadatos 210 puede configurarse para transmitir solo esos valores diferenciales que tienen un valor diferencial que es mayor que el valor umbral.
En otra realización, el codificador de metadatos 210 puede configurarse para transmitir solo aquellos valores diferenciales, cuando la relación de ese valor diferencial a una muestra de metadatos correspondiente es mayor que el valor umbral.
En una realización, el codificador de metadatos 210 examina el mayor valor diferencial absoluto, si este valor diferencial absoluto es mayor que el valor umbral. Si este valor diferencial absoluto es mayor que el valor umbral, entonces se transmite el valor diferencial, por el contrario, no se transmite un valor diferencial y el examen finaliza. El examen continúa para el segundo valor diferencial mayor, para el tercer valor mayor, etc., hasta que todos los valores diferenciales sean menores que el valor umbral.
Como no todos los valores diferenciales se transmiten necesariamente, según las realizaciones, el codificador de metadatos 210 no solo codifica el (tamaño del) valor diferencial en sí (uno de los valores y1[k] ... yN-1[k] en la figura 10), sino que además transmite información a la cual la muestra de metadatos de la señal de metadatos original relaciona el valor diferencial (uno de los valores x1[k] ...XN-1[k] en Figura 10). Por ejemplo, el codificador de metadatos 210 puede codificar el instante de tiempo al cual se relaciona el valor diferencial. Por ejemplo, el codificador de metadatos 210 puede codificar un valor entre 1 y N-1 para indicar a qué muestra de metadatos entre las muestras de metadatos 0 y N, que ya se han transmitido en la señal de metadatos comprimida, se relaciona con el valor diferencial. Enumerar los valores x1[k] ...XN-1[k] y1[k] ... yN-1[k] en la salida de la aproximación del polígono no significa que todos estos valores se transmitan necesariamente, sino que en cambio significa que ninguno, uno, alguno de o todos estos pares de valores se transmiten, dependiendo de los valores diferenciales.
En una realización, el codificador de metadatos 210 puede procesar un segmento de, por ejemplo, N, valores diferenciales consecutivos y aproxima cada segmento mediante un rumbo de polígono formado por un número variable de puntos de polígono cuantificado [xi, yi].
Puede esperarse que el número de puntos de polígono que es necesario para aproximar la señal de diferencia con suficiente precisión sea en promedio significativamente menor que N. Y como [xi, yi] son números enteros pequeños, pueden codificarse con un bajo número de bits.
La figura 11 ilustra una decodificación de metadatos según una realización adicional. Un decodificador de metadatos 110 según realizaciones puede configurarse para implementar la decodificación de metadatos ilustrada en la figura 11.
En las realizaciones, el decodificador de metadatos 110 recibe algunos valores diferenciales y agrega estos valores diferenciales a las muestras de metadatos lineales interpoladas correspondientes en 730.
En algunas realizaciones, el decodificador de metadatos 110 agrega los valores diferenciales recibidos solo a las muestras de metadatos lineales interpoladas correspondientes en 730 y deja las otras muestras de metadatos lineales interpoladas, para las cuales no se reciben valores diferenciales, sin alteraciones.
Sin embargo, ahora se describen las realizaciones que realizan otro concepto.
Según tales realizaciones, el decodificador de metadatos 110 se configura para recibir la pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas. Cada uno de los valores diferenciales puede denominarse “valor diferencial recibido”. Un valor diferencial recibido se asigna a una de las muestras de metadatos aproximada de la señal de metadatos reconstruida, la cual se asocia con (se construye de) la señal de metadatos comprimida, con la cual se relacionan los valores diferenciales recibidos.
Como ya se describió con respecto a la figura 9, el decodificador de metadatos 110 se configura para agregar cada valor diferencial recibido de la pluralidad de valores diferenciales recibidos con la muestra de metadatos aproximada que se asocia con dicho valor diferencial recibido. Al agregar un valor diferencial recibido a su muestra de metadatos aproximada, se obtiene una de las segundas muestras de metadatos de dicha señal de metadatos reconstruida.
Sin embargo, para algunas (o algunas veces, para la mayoría) de las muestras de metadatos aproximadas, a menudo, no se reciben valores diferenciales.
En algunas realizaciones, el decodificador de metadatos 110 puede, por ejemplo, configurarse para determinar un valor diferencial aproximado dependiendo de uno o más de la pluralidad de valores diferenciales recibidos para cada muestra de metadatos aproximada de la pluralidad de muestras de metadatos aproximadas de la señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida, cuando ninguno de la pluralidad de valores diferenciales recibidos se asocia con dicha muestra de metadatos aproximada.
En otras palabras, para todas aquellas muestras de metadatos aproximadas, para las cuales no se reciben valores diferenciales, un valor diferencial aproximado se genera dependiendo de uno o más de los valores diferenciales recibidos.
El decodificador de metadatos 110 se configura para agregar cada valor diferencial aproximado de la pluralidad de valores diferenciales aproximados a las muestras de metadatos aproximadas de dicho valor diferencial aproximado para obtener otra de aquellas de las segundas muestras de metadatos de dicha señal de metadatos reconstruida. En otras realizaciones, sin embargo, el decodificador de metadatos 110 aproxima valores diferenciales para esas muestras de metadatos, para las cuales no se recibieron valores diferenciales, al llevar a cabo interpolación lineal dependiendo de aquellos valores diferenciales que se han recibido en la etapa 740.
Por ejemplo, si se recibe un primer valor diferencial y un segundo valor diferencial, entonces los valores diferenciales ubicados entre estos valores diferenciales recibidos pueden ser aproximados, por ejemplo, empleando interpolación lineal.
Por ejemplo, cuando un primer valor diferencial en el instante de tiempo n=15 tiene el valor diferencial d[15]=5. Y cuando un segundo valor diferencial en el instante de tiempo n = 18 tiene el valor diferencial d[18]=2, entonces los valores diferenciales para n = 16 y d=17 pueden aproximarse de forma lineal como d[16]=4 y d[17] = 3.
En una realización adicional, cuando las muestras de metadatos se encuentran comprendidas por la señal de metadatos comprimida, se asume que los valores diferenciales de dichas muestras de metadatos es 0 y la interpolación lineal de valores diferenciales que no se han recibido puede llevarse a cabo por el decodificador de metadatos basándose en dichas muestras de metadatos que se asume que son cero.
Por ejemplo, cuando un solo valor diferencial d=8 se transmite para n = 16, y cuando para n = 0 y n = 32, una muestra de metadatos se transmite en la señal de metadatos comprimida, entonces, los valores diferenciales no transmitidos en n=0 y n=32 se asumen que son 0.
Si permitimos que n indique tiempo y d[n] sea el valor diferencial en instante de tiempo n. Entonces:
d[16] = 8 (valor diferencial recibido)
d[0] = 0 (valor diferencial asumido, como muestra de metadatos existe en z(k))
d[32] = 0(valor diferencial asumido, como muestra de metadatos existe en z(k))
valores diferenciales aproximados:
d[1] = 0,5; d[2] = 1; d[3] = 1,5; d[4] = 2; d[5] = 2,5; d[6] = 3; d[7] = 3,5; d[8] = 4;
d[9] = 4,5; d[10] = 5; d[11] = 5,5; d[12] = 6; d[13] = 6,5; d[14] = 7; d[15] = 7,5;
d[17] = 7,5; d[18] = 7; d[19] = 6,5; d[20] = 6; d[21] = 5,5; d[22] = 5; d[23] = 4,5; d[24] = 4;
d[25] = 3,5; d[26] = 3; d[27] = 2,5; d[28] = 2; d[29] = 1,5; d[30] = 1; d[31] = 0,5.
En realizaciones, los valores diferenciales recibidos así como los aproximados se agregan a las muestras lineales interpoladas correspondientes (en 730).
A continuación, se describen realizaciones preferidas.
El codificador de metadatos (de objeto) puede, por ejemplo, codificar de forma conjunta una secuencia de valores de trayectoria regularmente (sub)muestreados utilizando una memoria intermedia de exploración adelantada o un tamaño dado N. Tan pronto como se llena esta memoria intermedia, todo el bloque de datos se codifica y transmite. Los datos de objeto codificados consisten en 2 partes, los datos del objeto intercodificados y opcionalmente una parte de datos diferenciales que contiene la estructura fina de cada segmento.
Los datos del objeto intercodificado comprenden valores cuantificados z(k) los cuales se muestrean en una cuadrícula regular (por ejemplo, cada 32 tramas de audio de longitud 1024). Las variables booleanas pueden utilizarse para indicar que los valores se especifican de forma individual para cada objeto o que un valor sigue común a todos los objetos.
El decodificador puede configurarse para derivar una trayectoria gruesa de los datos de objeto intercodificados por medio de interpolación lineal. La estructura fina de las trayectorias se da por la parte de datos diferenciales que comprende la diferencia codificada entre la trayectoria de entrada y la interpolación lineal. Una representación de polígono en combinación con etapas de cuantificación diferentes para el acimut, elevación, radio y valores de ganancia da como resultado la reducción de irrelevancia deseada.
La representación de polígono puede obtenerse de una variante del algoritmo Ramer-Douglas-Peucker [10,11] que no utiliza una recursión y que difiere del enfoque original mediante un criterio de aborto adicional, es decir, el número máximo de puntos de polígono para todos los objetos y todos los componentes del objeto.
Los puntos de polígono resultantes pueden codificarse en la parte de datos diferencial utilizando una longitud de palabra variable que se especifica dentro de la corriente de bits. Variables booleanas adicionales indican la codificación común de valores iguales.
A continuación se describen tramas de metadatos de objetos según realizaciones y representación de símbolos según realizaciones.
Por motivos de eficiencia, una secuencia de valores de trayectoria regularmente (sub)muestreados se codifican de forma conjunta. El codificador puede utilizar una memoria intermedia de adelantamiento de un tamaño dado y tan pronto como se llena esta memoria intermedia, se codifica y transmite todo el bloque de datos. Los datos de objeto codificados (por ejemplo, cargas útiles para metadatos de objetos) pueden, por ejemplo, comprender dos partes, los datos del objeto intercodificados (primera parte) y, opcionalmente, una parte de datos diferenciales (segunda parte).
Pueden emplearse algunas o todas las porciones de la siguiente sintaxis, por ejemplo:
Figure imgf000013_0001
__________________________________________________
A continuación, se describen datos de objeto intercodificados según una realización:
Para soportar el acceso aleatorio de los metadatos de objeto codificados, una especificación completa y autocontenida de todos los metadatos de objetos necesita transmitirse de forma regular. Esto se realiza por medio de datos de objetos intercodificados (“T ramas-I”) que contienen valores cuantificados muestreados en una cuadrícula regular (por ejemplo, cada 32 tramas de longitud 1024). Estas Tramas-I poseen la siguiente sintaxis, donde position_azimuth, position_elevation, position_radius y gain_factor especifican los valores cuantificados en las tramas iframe_period después de la actual Trama-I.
Figure imgf000013_0002
Figure imgf000014_0001
A continuación, se describen datos de objetos diferenciales según una realización.
Una aproximación con mayor precisión se logra al transmitir rumbos de polígono basados en un número reducido de puntos de muestreo. En consecuencia, se puede transmitir una matriz tridimensional muy escasa, donde la primera dimensión puede ser el índice del objeto, la segunda dimensión puede formarse por los componentes de metadatos (acimut, elevación, radio y ganancia), y la tercera dimensión puede ser el índice de trama de los puntos de muestreo de polígono. Sin medidas adicionales, la indicación de qué elementos de la matriz comprenden valores ya requiere bits num_objects * num_components * (iframe_period-1). Un primer paso para reducir esta cantidad de bits puede ser agregar cuatro indicadores que indican si existe al menos un valor que pertenece a uno de los cuatro componentes. Por ejemplo, puede esperarse que solo en casos especiales existan valores de radio o ganancia diferenciales. La tercera dimensión de la matriz tridimensional reducida comprende un vector con elementos iframe_period-1. Si solo se espera un pequeño número de puntos de polígono, entonces puede ser más eficiente parametrizar este vector por un conjunto de índices de tramas y la cardinalidad de este conjunto. Por ejemplo, para un iframe_period de período N = 32 tramas, un máximo número de 16 puntos de polígono, este método puede ser favorable para puntos N < (32-log2(16))/log2(32) = 5,6 puntos de polígono. Según realizaciones, se emplea la siguiente sintaxis para el esquema de codificación:
Figure imgf000014_0002
Figure imgf000015_0001
Figure imgf000015_0002
Figure imgf000016_0001
Los macro de offset_data () codifican las posiciones (desplazamientos de tramas) de los puntos de polígono, ya sea como un simple campo de bits o utilizando los conceptos descritos anteriormente. Los valores de num_bits permiten codificar grandes saltos de posición mientras que el resto de datos diferenciales se codifican con un tamaño de palabra más pequeño.
En particular, en una realización, los macros anteriores pueden, por ejemplo, poseer el siguiente significado:
Definición de cargas útiles de object_metadata según una realización: has_ differential_metadata indica si se encuentran presentes metadatos de objeto diferenciales.
Definición de cargas útiles de intracoded_object_metadata () según una realización:
ifperiod define el número de tramas entre tramas independientes.
common_azimuth indica si se utiliza un ángulo acimutal común para todos los objetos.
default_azimuth define el valor del ángulo acimutal común.
position_azimuth si no existe un valor acimutal común, se transmite un valor para cada objeto.
common_elevation indica si se utiliza un ángulo de elevación común para todos los objetos.
default_elevation define el valor del ángulo de elevación común.
position_elevation si no existe un valor de elevación común, se trasmite un valor para cada objeto.
common_radius indica si se utiliza un valor de radio común para todos los objetos.
default_radius define el valor de radio común.
position_radius si no existe un valor de radio común, se transmite un valor para cada objeto.
common_gain indica si se utiliza un valor de ganancia común para todos los objetos.
default_gain define el valor del factor de ganancia común.
gain_factor si no existe un valor de ganancia común, se transmite un valor para cada objeto.
position_azimuth si existe solo un objeto, este es su ángulo acimutal.
position_elevation si existe solo un objeto, este es su ángulo de elevación.
position_radius si existe solo un objeto, este es su radio.
gain_factor si existe solo un objeto, este es su factor de ganancia.
Definición de cargas útiles de differential_object_metadata () según una realización
bits_per_point número de bits requeridos para representar el número de puntos de polígono.
fixed_azimuth indicador que indica si el valor acimutal es fijo para todos los objetos.
flag_azimuth indicador por objeto que indica si el valor acimutal cambia.
nbits_azimuth cuántos bits se requieren para representar el valor diferencial.
differential_azimuth valor diferencial entre el valor lineal interpolado y el valor real.
fixed_elevation indicador que indica si el valor de elevación es fijo para todos los objetos.
flag_elevation indicador por objeto que indica si el valor de elevación cambia.
nbits_elevation cuántos bits se requieren para representar el valor diferencial.
differential_elevation valor diferencial entre el valor lineal interpolado y el valor real.
Fixed_radius indicador que indica si el radio es fijo para todos los objetos.
Flag_radius indicador por objeto que indica si el radio cambia.
Nbits_radius cuántos bits se requieren para representar el valor diferencial.
Differential_radius valor diferencial entre el valor lineal interpolado y el valor real.
fixed_gain indicador que indica si el factor de ganancia es fijo para todos los objetos.
flag_gain indicador por objeto que indica si el radio de ganancia cambia.
nbits_gain cuántos bits se requieren para representar el valor diferencial.
differential_gain valor diferencial entre el valor lineal interpolado y el valor real.
Definición de cargas útiles de offset_data() según una realización:
bitfield_syntax indicador que indica si un vector con índices de polígono está presente en la corriente de bits. offset_bitfield matriz booleana que contiene un indicador para cada punto del iframe_period si es un punto de polígono o no
npoints número de puntos de polígono menos 1 (num_points = npoints 1).
foffset índice de fracción de tiempo de los puntos de polígono dentro del iframe_period (frame_offset = foffset 1).
Según una realización, los metadatos pueden, por ejemplo, trasmitirse para cada objeto de audio como posiciones dadas (por ejemplo, indicados por acimut, elevación y radio) en marchas de hora definidas.
En la técnica anterior, no existe tecnología flexible que combine la codificación de canal por un lado y la codificación de objeto por otro lado de modo que se obtengan calidades de audio aceptables a bajas tasas de bits.
Esta limitación se supera mediante el Sistema de Codificación de Audio 3D. Ahora, se describe el Sistema de Codificación de Audio 3D.
La figura 12 ilustra un codificador de audio 3D según una realización de la presente invención. El codificador de audio 3D se configura para codificar datos de entrada de audio 101 para obtener datos de salida de audio 501. El codificador de audio 3D comprende una interfaz de entrada para recibir una pluralidad de canales de audio indicados como CH y una pluralidad de objetos de audio indicados como OBJ. Además, como se ilustra en la figura 12, la interfaz de entrada 1100 recibe adicionalmente metadatos relacionados con una o más de la pluralidad de objetos de audio OBJ. Además, el codificador de audio 3D comprende un mezclador 200 para mezclar la pluralidad de objetos y la pluralidad de canales para obtener una pluralidad de canales premezclados, en el que cada canal premezclado comprende datos de audio de un canal y datos de audio de al menos un objeto.
Además, el codificador de audio 3D comprende un codificador de núcleo 300 para codificar el núcleo de datos de entrada del codificador de núcleo, un compresor de metadatos 400 para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio.
Además, el codificador de audio 3D comprende un controlador de modo 600 para controlar el mezclador, el codificador de núcleo y/o una interfaz de salida 500 en uno de los varios modos de operación, en el que en el primer modo, el codificador de núcleo se configura para codificar la pluralidad de canales de audio y la pluralidad de objetos de audio recibidos por la interfaz de entrada 1100 sin ninguna interacción por el mezclador, es decir, sin ninguna mezcla por el mezclador 200. En un segundo modo, sin embargo, en el cual el mezclador 200 estuvo activo, el codificador de núcleo codifica la pluralidad de canales mezclados, es decir, la salida generada por el bloque 200. En este último caso, se prefiere que ya no se codifique ningún dato de objetos. En cambio, los metadatos que indican posiciones de los objetos de audio ya se utilizaron por el mezclador 200 para renderizar los objetos en los canales como lo indican los metadatos. En otras palabras, el mezclador 200 utiliza los metadatos relacionados con la pluralidad de objetos de audio para prerrenderizar los objetos de audio y después los objetos de audio prerrenderizados se mezclan con los canales para obtener canales mezclados en la salida del mezclador. En esta realización, no necesariamente cualquier objeto puede transmitirse y esto también se aplica a metadatos comprimidos como se generan por el bloque 400. Sin embargo, si no se mezclan todas las entradas de objetos en la interfaz 1100 sino que solo se mezcla una cierta cantidad de objetos, entonces solo los objetos restantes no mezclados y los metadatos asociados se transmiten sin embargo al codificador de núcleo 300 o compresor de metadatos 400, respectivamente.
En la figura 12, el compresor de metadatos 400 es el codificador de metadatos 210 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas. Además, en la figura 12, el mezclador 200 y el codificador de núcleo 300 forman en conjunto el codificador de audio 220 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas.
La figura 14 ilustra una realización adicional de un codificador de audio 3D que, adicionalmente, comprende un codificador SAOC 800. El codificador SAOC 800 se configura para generar uno o más canales de transporte y datos paramétricos de los datos de entrada del codificador de objetos de audio espacial. Como se ilustra en la figura 14, los datos de entrada del codificador de objetos de audio espacial son objetos que no se han procesado por el prerrenderizador/mezclador. Alternativamente, siempre que el prerrenderizador/mezclador haya sido derivado como en el modo aquel donde una codificación de canal/objeto individual está activa, todas las entradas de objetos en la interfaz de entrada 1100 se codifican por el codificador SAOC 800.
Además, como se ilustra en la figura 14, el codificador de núcleo 300 se implementa preferiblemente como un codificador USAC, es decir, como un codificador tal como se define y estandariza en la norma MPEG-USAC (USAC = codificación de audio y voz unificada). La salida de todo el codificador de audio 3D ilustrada en la figura 14 es una corriente de datos MPEG 4 que tiene las estructuras tipo contenedor para tipos de datos individuales. Además, los metadatos se indican como datos “OAM” y el compresor de metadatos 400 en la figura 12 corresponde con el codificador OAM 400 para obtener datos OAM comprimidos que se introducen en el codificador USAC 300 los cuales, como se observa en la figura 14, comprenden adicionalmente la interfaz de salida para obtener la corriente de datos de salida MP4 que no solo tiene los datos de canal/objeto codificados sino que también tiene los datos OAM comprimidos.
En la figura 14, el codificador OAM 400 es el codificador de metadatos 210 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas. Además, en la figura 14, el codificador SAOC 800 y el codificador USAC 300 forman en conjunto el codificador de audio 220 de un aparato 250 para generar información de audio codificada según una de las realizaciones descritas anteriormente.
La figura 16 ilustra una realización adicional del codificador de audio 3D, donde en contraste con la figura 14, el codificador SAOC puede configurarse para ya sea codificar, con el algoritmo de codificación SAOC, los canales proporcionados en el prerrenderizador/mezclador 200 que no es activo en este modo o, alternativamente, para codificar SAOC de los canales prerrenderizados más objetos. De este modo, en la figura 16, el codificador SAOC 800 puede operar en tres clases diferentes de datos de entrada, es decir, canales sin objetos prerrenderizados, canales y objetos prerrenderizados u objetos solos. Además, se prefiere proporcionar un decodificador OAM 420 adicional en la figura 16 para que el codificador SAOC 800 use, para su procesamiento, los mismos datos como del lado del decodificador, es decir, datos obtenidos por una compresión con disipación en vez de los datos OAM originales.
El codificador de audio 3D de la figura 16 puede operar en varios modos individuales.
Además del primer y segundo modo como se comenta en el contexto de la figura 12, el codificador de audio 3D de la figura 16 puede operar adicionalmente en un tercer modo en el cual el codificador de núcleo genera uno o más canales de transporte de los objetos individuales cuando el prerrenderizador/mezclador 200 no estaba activo. Alternativa o adicionalmente, en este tercer modo el codificador SAOC 800 puede generar uno o más canales de transporte alternativos o adicionales de los canales originales, es decir, de nuevo cuando el prerrenderizador/mezclador 200 correspondiente al mezclador 200 de la figura 12 no estaba activo.
Finalmente, el codificador SAOC 800 puede codificar, cuando el codificador de audio 3D se configura en el cuarto modo, los canales más objetos prerrenderizados como se generan por el prerrenderizador/mezclador. De este modo, en el cuarto modo las aplicaciones de tasa de bits más baja proporcionarán buena calidad debido al hecho de que los canales y objetos se han transformado por completo en canales de transporte individuales SAOC e información lateral asociada tal como se indica en las figuras 3 y 5 como “SAOC-SI” y, adicionalmente, cualquier metadato comprimido no tiene que transmitirse en este cuarto modo.
En la figura 16, el codificador OAM 400 es el codificador de metadatos 210 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas. Además, en la figura 16, el codificador SAOC 800 y codificador USAC 300 forman en conjunto el codificador de audio 220 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas.
Según una realización, se proporciona un aparato para codificar datos de entrada de audio 101 para obtener datos de salida de audio 501. El aparato para codificar datos de entrada de audio 101 comprende:
- una interfaz de entrada 1100 para recibir una pluralidad de canales de audio, una pluralidad de objetos de audio y metadatos relacionados con uno o más de la pluralidad de objetos de audio,
- un mezclador 200 para mezclar la pluralidad de objetos y la pluralidad de canales para obtener una pluralidad de canales premezclados, comprendiendo cada canal premezclado datos de audio de un canal y datos de audio de al menos un objeto, y
- un aparato 250 para generar información de audio codificada que comprende un codificador de metadatos y un codificador de audio como se describe anteriormente.
El codificador de audio 220 del aparato 250 para generar información de audio codificada es un codificador de núcleo (300) para codificar el núcleo de datos de entrada de un codificador de núcleo.
El codificador de metadatos 210 del aparato 250 para generar información de audio codificada es un compresor de metadatos 400 para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio.
La figura 13 ilustra un decodificador de audio 3D según una realización de la presente invención. El decodificador de audio 3D recibe, como una entrada, los datos de audio codificados, es decir, los datos 501 de la figura 12.
El decodificador de audio 3D comprende un descompresor de metadatos 1400, un decodificador de núcleo 1300, un procesador de objeto 1200, un controlador de modo 1600 y un postprocesador 1700.
Específicamente, el decodificador de audio 3D se configura para decodificar datos de audio codificados y la interfaz de entrada se configura para recibir los datos de audio codificados, comprendiendo los datos de audio codificados una pluralidad de canales codificados y la pluralidad de objetos codificados y metadatos comprimidos relacionados con la pluralidad de objetos en un cierto modo.
Además, el decodificador de núcleo 1300 se configura para decodificar la pluralidad de canales codificados y la pluralidad de objetos codificados y, adicionalmente, el descompresor de metadatos se configura para descomprimir los metadatos comprimidos.
Además, el procesador de objetos 1200 se configura para procesar la pluralidad de objetos decodificados como se generan por el decodificador de núcleo 1300 utilizando los metadatos descomprimidos para obtener un número predeterminado de canales de salida que comprenden datos de objeto y los canales decodificados. Estos canales de salida como se indican en 1205 entonces se introducen en un postprocesador 1700. El postprocesador 1700 se configura para convertir el número de canales de salida 1205 en un cierto formato de salida que puede ser un formato de salida binaural o un formato de salida de altavoz como un formato de salida 5,1, 7,1, etc.
Preferiblemente, el decodificador de audio 3D comprende un controlador de modo 1600 que se configura para analizar los datos codificados para detectar una indicación de modo. Por lo tanto, el controlador de modo 1600 se conecta a la interfaz de entrada 1100 en la figura 13. Sin embargo, alternativamente, el controlador de modo no necesariamente debe estar allí. En cambio, el decodificador de audio flexible puede preestablecerse por cualquier otra clase de datos de control tal como una entrada de usuario u otro control. El decodificador de audio 3D en la figura 13 y, preferiblemente, controlado por el controlador de modo 1600, se configura para desviar el procesador de objetos y suministrar la pluralidad de canales decodificados en el postprocesador 1700. Esta es la operación en modo 2, es decir, en la cual solo se reciben canales prerrenderizados, es decir, cuando el modo 2 se ha aplicado en el codificador de audio 3D de la figura 12. Alternativamente, cuando el modo 1 se ha aplicado en el codificador de audio 3D, es decir, cuando el codificador de audio 3D ha realizado codificación individual de canal/objeto, entonces el procesador de objetos 1200 no se desvía, pero la pluralidad de canales decodificados y la pluralidad de objetos decodificados se alimentan en el procesador de objetos 1200 junto con los metadatos descomprimidos generados por el descompresor de metadatos 1400.
Preferiblemente, la indicación de si se aplicará el modo 1 o modo 2 se incluye en los datos de audio codificados y entonces el controlador de modo 1600 analiza los datos codificados para detectar una indicación de modo. El modo 1 se utiliza cuando la indicación de modo indica que los datos de audio codificados comprenden canales codificados y objetos codificados y el modo 2 se aplica cuando la indicación de modo indica que los datos de audio codificados no contienen ningún objeto de audio, es decir, solo contienen canales prerrenderizados que se obtienen del modo 2 del codificador de audio 3D de la figura 12.
En la figura 13, el descompresor de metadatos 1400 es el decodificador de metadatos 110 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas. Además, en la figura 13, el decodificador de núcleo 1300, el procesador de objetos 1200 y el postprocesador 1700 forman en conjunto el decodificador de audio 120 de un aparato 100 para generar uno o más canales de audio según las realizaciones anteriormente descritas.
La figura 15 ilustra una realización preferida comparada con el decodificador de audio 3D de la figura 13 y la realización de la figura 15 corresponde al codificador de audio 3D de la figura 14. Además de la implementación del decodificador de audio 3D de la figura 13, el decodificador de audio 3D de la figura 15 comprende un decodificador SAOC 1800. Además, mientras el procesador de objetos 1200 de la figura 13 se implementa como un renderizador separado de objetos 1200 y el mezclador 1220 mientras que, dependiendo del modo, la funcionalidad del renderizador de objetos 1210 también puede implementarse por el decodificador SAOC 1800.
Además, el postprocesador 1700 puede implementarse como renderizador binaural 1710 o un convertidor de formato 1720. Alternativamente, una salida directa de datos 1205 de la figura 13 también puede implementarse como se ilustra por 1730. Por lo tanto, se prefiere realizar el procesamiento en el decodificador en el mayor número de canales tal como 22,2 o 32 para tener flexibilidad y después para el postprocesamiento si se necesita un formato más pequeño. Sin embargo, cuando queda claro desde el principio que solo se necesita un formato pequeño tal como el formato 5,1, entonces es preferible, como se indica en la figura 13 o 6 por el acceso directo 1727, que un cierto control sobre el decodificador SAOC y/o el decodificador USAC puede aplicarse para evitar operaciones innecesarias de mezcla ascendente y operaciones subsecuentes de mezcla descendente.
En una realización preferida de la presente invención, el procesador de objetos 1200 comprende el decodificador SAOC 1800 y el decodificador SAOC se configura para decodificar una o más salida de canales de transporte por el decodificador de núcleo y datos paramétricos asociados y se utilizan metadatos descomprimidos para obtener la pluralidad de objetos de audio renderizados. Para este fin, la salida OAM se conecta a la casilla 1800.
Además, el procesador de objetos 1200 se configura para renderizar la salida de objetos decodificados por el decodificador de núcleo los cuales no se codifican en los canales de transporte SAOC pero los cuales se codifican individualmente en elementos de canales típicamente individuales como se indica por el renderizador de objetos 1210. Además, el decodificador comprende una interfaz de salida que corresponde a la salida 1730 para producir una salida del mezclador a los altavoces.
En una realización adicional, el procesador de objetos 1200 comprende un decodificador de codificación de objetos de audio espaciales 1800 para decodificar uno o más canales de transporte e información lateral paramétrica asociada que representa señales de audio codificadas o canales de audio codificados, en los que el decodificador de codificación de objetos de audio espaciales se configura para transcodificar la información paramétrica asociada y los metadatos descomprimidos en información lateral paramétrica transcodificada que se puede utilizar para renderizar directamente el formato de salida, como por ejemplo se define en una versión anterior de SAOC. El postprocesador 1700 se configura para calcular canales de audio del formato de salida que utiliza los canales de transporte decodificados y la información lateral paramétrica transcodificada. El procesamiento realizado por el postprocesador puede ser similar al procesamiento Envolvente MPEG o puede ser cualquier otro procesamiento tal como el procesamiento BCC, etc.
En una realización adicional, el procesador de objetos 1200 comprende un decodificador de codificación de objetos de audio espaciales 1800 configurado para mezclar de manera ascendente directamente y renderizar las señales de canales para el formato de salida utilizando los canales de transporte decodificados (por el decodificador de núcleo) y la información lateral paramétrica.
Además, y de manera importante, el procesador de objetos 1200 de la figura 13 comprende adicionalmente el mezclador 1220 que recibe, como una entrada, la salida de datos por el decodificador USAC 1300 directamente cuando existen objetos prerrenderizados mezclados con canales, es decir, cuando el mezclador 200 de la figura 12 estuvo activo. Adicionalmente, el mezclador 1220 recibe datos del objeto renderizado que realiza la renderización del objeto sin la decodificación SAOC. Además, el mezclador recibe datos de salida del decodificador SAOC, es decir, objetos renderizados SAOC.
El mezclador 1220 se conecta con la interfaz de salida 1730, el renderizador binaural 1710 y el convertidor de formato 1720. El renderizador binaural 1710 se configura para renderizar canales de salida en dos canales binaurales utilizando funciones de transferencia relacionadas con cabezales o respuestas de impulso de recinto binaural (BRIR, por su sigla en inglés). El convertidor de formato 1720 se configura para convertir los canales de salida en un formato de salida que tiene un menor número de canales que los canales de salida 1205 del mezclador y el convertidor de formato 1720 requiere información sobre el esquema de reproducción tal como los altavoces 5,1 o similares.
En la figura 15, el Decodificador OAM 1400 es el decodificador de metadatos 110 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas. Además, en la figura 15, el Renderizador de objetos 1210, el decodificador USAC 1300 y mezclador 1220 forman en conjunto el decodificador de audio 120 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas.
El decodificador de audio 3D de la figura 17 es diferente al decodificador de audio 3D de la figura 15 ya que el decodificador SAOC no solo puede generar objetos renderizados sino también canales renderizados y este es el caso cuando el codificador de audio 3D de la figura 16 se ha utilizado y la conexión 900 entre canales/objetos prerrenderizados y la interfaz de entrada del codificador SAOC 800 está activa.
Además, se configura una etapa de amplitud panorámica basada en vectores 1810 (VBAP, por su sigla en inglés) que recibe, del decodificador SAOC, información sobre el esquema de reproducción y que produce una matriz de reproducción al decodificador SAOC de modo que el decodificador SAOC puede, al final, proporcionar canales renderizados sin ninguna otra operación del mezclador en el formato de canal alto de 1205, es decir, 32 altavoces.
El bloque VBAP recibe preferiblemente los datos OAM decodificados para derivar las matrices de reproducción. Más en general, se requiere preferiblemente información geométrica no solo del esquema de reproducción sino de las posiciones donde las señales de entrada deben renderizarse en el esquema de reproducción. Estos datos de entrada geométricos pueden ser datos OAM para objetos o información de posición de canal para canales que se han transmitido utilizando SAOC.
Sin embargo, si solo se requiere una interfaz de salida específica, entonces el estado de VBAP 1810 ya puede proporcionar la matriz de renderización requerida para por ejemplo, la salida 5,1. El decodificador SAOC 1800 realiza entonces una renderización directa de los canales de transporte SAOC, los datos paramétricos asociados y metadatos descomprimidos, una renderización directa en el formato de salida requerido sin ninguna interacción del mezclador 1220. Sin embargo, cuando se aplica una cierta mezcla entre modos, es decir, donde se codifican varios canales por SAOC pero no todos los canales se codifican por SAOC o donde varios objetos se codifican por SAOC pero no todos los objetos se codifican por SAOC o cuando solo una cierta cantidad de objetos prerrenderizados con canales se decodifican por SAOC y los canales restantes no se procesan por SAOC, entonces el mezclador juntará los datos de las porciones de entrada individuales, es decir, directamente del decodificador de núcleo 1300, del renderizador de objetos 1210 y del decodificador SAOC 1800.
En la figura 17, el Decodificador OAM 1400 es el decodificador de metadatos 110 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas. Además, en la figura 17, el Renderizador de objetos 1210, el decodificador USAC 1300 y el mezclador 1220 forman el decodificador de audio 120 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas.
Se proporciona un aparato para decodificar datos de audio codificados. El aparato para decodificar datos de audio codificados comprende:
- una interfaz de entrada 1100 para recibir datos de audio codificados, comprendiendo los datos de audio codificados una pluralidad de canales codificados o una pluralidad de objetos codificados o comprimir metadatos relacionados con la pluralidad de objetos, y
- un aparato 100 que comprende un decodificador de metadatos 110 y un generador de canal de audio 120 para generar uno o más canales de audio como se describe anteriormente.
El decodificador de metadatos 110 del aparato 100 para generar uno o más canales de audio es un descompresor de metadatos 400 para descomprimir los metadatos comprimidos.
El generador de canal de audio 120 del aparato 100 para generar uno o más canales de audio comprende un decodificador de núcleo 1300 para decodificar la pluralidad de canales codificados y la pluralidad de objetos codificados.
Además, el generador de canal de audio 120 comprende adicionalmente un procesador de objetos 1200 para procesar la pluralidad de objetos decodificados utilizando los metadatos descomprimidos para obtener un número de canales de salida 1205 que comprende datos de audio de los objetos y canales decodificados.
Además, el generador de canal de audio 120 comprende adicionalmente un postprocesador 1700 para convertir el número de canales de salida 1205 en un formato de salida.
Aunque algunos aspectos se han descrito en el contexto de un aparato, resulta evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. De forma análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque correspondiente o elemento o característica de un aparato correspondiente.
La señal descompuesta de la invención puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión alámbrico tal como Internet.
Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo, un disco flexible, DVD, CD, ROM, PROM, EPROM, EEPROM o una memoria FLASH, que tienen señales de control legibles electrónicamente almacenadas en los mismos, que cooperan (o que pueden cooperar) con un sistema informático programable de tal modo que se realice el método respectivo.
Algunas realizaciones según la invención comprenden una portadora de datos no transitoria que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de tal modo que se realiza uno de los métodos descritos en el presente documento.
Generalmente, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para llevar a cabo uno de los métodos cuando el producto de programa informático opera en un ordenador. El código de programa puede, por ejemplo, almacenarse en una portadora legible por máquina.
Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenados en una portadora legible por máquina.
En otras palabras, una realización del método de la invención, por lo tanto, es un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático opera en un ordenador.
Una realización adicional de los métodos de la invención, por lo tanto, es una portadora de datos (o un medio de almacenamiento digital o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento.
Una realización adicional del método de la invención, por lo tanto, es una corriente de datos o una secuencia de señales que representan el programa informático para realizar uno de los métodos descritos en el presente documento. La corriente de datos o la secuencia de señales puede, por ejemplo, configurarse para transferirse mediante una conexión de comunicación de datos, por ejemplo, mediante Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado o adaptado para realizar uno de los métodos descritos en el presente documento.
Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en el presente documento.
En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de puertas programable por campo) puede utilizarse para realizar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas programable por campo puede cooperar con un microprocesador para realizar uno de los métodos descritos en el presente documento. Generalmente, los métodos se realizan preferiblemente por cualquier aparato de hardware.
Las realizaciones descritas anteriormente son meramente ilustrativas para los principios de la presente invención. Se entenderá que modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán evidentes para los expertos en la técnica. Por lo tanto, se intenta limitar solo por el alcance de las reivindicaciones de la patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
Referencias
[1] Peters, N., Lossius, T. y Schacher J. C., “SpatDIF: Principies, Specification, and Examples”, 9° Conferencia sobre Informática en Sonido y Música, Copenhague, Dinamarca, Julio, 2012.
[2] Wright, M., Freed, A., “Open Sound Control: A New Protocol for Communicating with Sound Synthesizers”, Conferencia Internacional sobre Música en Ordenador, Tesalónica, Grecia, 1997.
[3] Matthias Geier, Jens Ahrens, y Sascha Spors. (2010), “Object-based audio reproduction and the audio scene description format”, Org. Sound, Vol. 15, N.° 3, p. 219 a 227, Diciembre 2010.
[4] W3C, “Synchronized Multimedia Integration Language (SMIL 3.0)”, Dic. 2008.
[5] W3C, “Extensible Markup Language (XML) 1.0 (Fifth Edition)”, Nov. 2008.
[6] MPEG, “ ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio”, 2009.
[7] Schmidt, J.; Schroeder, E. F. (2004), “New and Advanced Features for Audio Presentation in the MPEG-4 Standard”, 116° AES Convención, Berlín, Alemania, Mayo 2004
[8] Web3D, “International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding”, 1997.
[9] Sporer, T. (2012), “Codierung raumlicher Audiosignale mit leicht-gewichtigen Audio-Objekten”, Proc. Asamblea Anual de la Sociedad alemana Audiológica (DGA), Erlangen, Alemania, Marzo 2012.
[10] Ramer, U. (1972), “An iterative procedure for the polygonal approximation of plane curves”, Gráficos de Informática y Procesamiento de Imágenes, 1(3), 244 a 256.
[11] Douglas, D.; Peucker, T. (1973), “Algorithms for the reduction of the number of points required to represent a digitized line or its caricature”, El Cartógrafo canadiense 10(2), 112 a 122.
[12] Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”; J. Audio Eng. Soc., Volumen 45, Fascículo 6, p. 456 a 466, Junio 1997.

Claims (1)

  1. REIVINDICACIONES
    Aparato (100) para generar uno o más canales de audio, en el que el aparato comprende:
    un decodificador de metadatos (110) para recibir una o más señales de metadatos comprimidas,
    en el que cada una de una o más señales de metadatos comprimidas comprende una pluralidad de primeras muestras de metadatos,
    en el que el decodificador de metadatos (110) se configura para generar una o más señales de metadatos reconstruidas, de modo que cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas comprende las primeras muestras de metadatos de una señal de metadatos comprimida de una o más señales de metadatos comprimidas, estando dicha señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida y que comprende adicionalmente una pluralidad de segundas muestras de metadatos, en el que el decodificador de metadatos (110) se configura para generar las segundas muestras de metadatos de cada una de una o más señales de metadatos reconstruidas al generar una pluralidad de muestras de metadatos aproximadas para dicha señal de metadatos reconstruida, en el que el decodificador de metadatos (110) se configura para generar cada una de la pluralidad de muestras de metadatos aproximadas dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida, y
    un generador de canal de audio (120),
    en el que las primeras muestras de metadatos de cada una de una o más señales de metadatos comprimidas indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio,
    en el que el generador de canal de audio (120) se configura para generar uno o más canales de audio dependiendo de una o más señales de objetos de audio y dependiendo de una o más señales de metadatos reconstruidas, caracterizado porque
    el decodificador de metadatos (110) se configura para recibir una pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas y se configura para agregar cada uno de la pluralidad de valores diferenciales a una de las muestras de metadatos aproximados de la señal de metadatos reconstruida que se asocia con dicha señal de metadatos comprimida para obtener las segundas muestras de metadatos de dicha señal de metadatos reconstruida.
    Aparato (100) según la reivindicación 1, en el que el decodificador de metadatos (110) se configura para generar cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas por muestreo ascendente de una de una o más señales de metadatos comprimidas, en el que el decodificador de metadatos (110) se configura para generar cada una de las segundas muestras de metadatos de cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida.
    Aparato (100) según la reivindicación 1 o 2,
    en el que el decodificador de metadatos (110) se configura para determinar un valor diferencial aproximado dependiendo de uno o más de la pluralidad de valores diferenciales recibidos para cada muestra de metadatos aproximada de la pluralidad de muestras de metadatos aproximadas de la señal de metadatos reconstruida que se asocia con dicha señal de metadatos comprimida, cuando ninguno de la pluralidad de valores diferenciales recibidos se asocia con dicha muestra de metadatos aproximada,
    en el que el decodificador de metadatos (110) se configura para agregar cada valor diferencial aproximado de la pluralidad de valores diferenciales aproximados a la muestra de metadatos aproximada de dicho valor diferencial aproximado para obtener otra de las segundas muestras de metadatos de dicha señal de metadatos reconstruida.
    Aparato (100) según una de las reivindicaciones anteriores,
    en el que al menos una de una o más señales de metadatos reconstruidas comprende información de posición de una de una de una o más señales de objetos de audio o comprende una representación a escala de la información de posición sobre dicha una o más señales de objetos de audio, y
    en el que el generador de canal de audio (120) se configura para generar al menos uno de uno o más canales de audio dependiendo de dicha una de una o más señales de objetos de audio y dependiendo de dicha información de posición.
    Aparato (100) según una de las reivindicaciones anteriores,
    en el que al menos una de una o más señales de metadatos reconstruidas comprende un volumen de una de una o más señales de objetos de audio o comprende una representación a escala del volumen de dicha una de una o más señales de objetos de audio, y
    en el que el generador de canal de audio (120) se configura para generar al menos uno de uno o más canales de audio dependiendo de una de una o más señales de objetos de audio y dependiendo de dicho volumen.
    Aparato (100) según una de las reivindicaciones anteriores, en el que el aparato (100) se configura para recibir información de acceso aleatorio, en el que, para cada señal de metadatos comprimida de una o más señales de metadatos comprimidas, la información de acceso aleatorio indica una porción de señal accedida de dicha señal de metadatos comprimida, en el que al menos otra porción de señal de dicha señal de metadatos no se indica por información de acceso aleatorio, y en el que el decodificador de metadatos (110) se configura para generar una de una o más señales de metadatos reconstruidas dependiendo de las primeras muestras de metadatos de dicha porción de señal accedida de dicha señal de metadatos comprimida pero no dependiendo de cualquier otra de las primeras muestras de metadatos de cualquier otra porción de señal de dicha señal de metadatos comprimida.
    Aparato (250) para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas, en el que el aparato comprende:
    un codificador de metadatos (210) para recibir una o más señales de metadatos originales,
    en el que cada una de una o más señales de metadatos originales comprende una pluralidad de muestras de metadatos, en el que el codificador de metadatos (210) se configura para generar una o más señales de metadatos comprimidas, de modo que cada señal de metadatos comprimida de una o más señales de metadatos comprimidas comprende un primer grupo de dos o más de las muestras de metadatos de una señal de metadatos original de una o más señales de metadatos originales, estando dicha señal de metadatos comprimida asociada con dicha señal de metadatos original, y
    un codificador de audio (220) para codificar una o más señales de objetos de audio para obtener una o más señales de audio codificadas,
    en el que las muestras de metadatos de una o más señales de metadatos originales indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio,
    en el que cada una de las muestras de metadatos, que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que también está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es una de una pluralidad de primeras muestras de metadatos,
    en el que cada una de las muestras de metadatos, que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que no está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es aquella de una pluralidad de segundas muestras de metadatos,
    en el que el codificador de metadatos (210) se configura para generar una muestra de metadatos aproximada para cada una de una pluralidad de las segundas muestras de metadatos de una de las señales de metadatos originales al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de dicha una de una o más señales de metadatos originales, y caracterizado porque
    el codificador de metadatos (210) se configura para generar un valor diferencial para cada segunda muestra de metadatos de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, de modo que dicho valor diferencial indica una diferencia entre dicha segunda muestra de metadatos y la muestra de metadatos aproximada de dicha segunda muestra de metadatos.
    Aparato (250) según la reivindicación 7,
    en el que el codificador de metadatos (210) se configura para determinar al menos uno de los valores diferenciales de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, si cada uno de al menos uno de los valores diferenciales es mayor que un valor umbral.
    9. Aparato (250) según la reivindicación 7 u 8,
    en el que el codificador de metadatos (210) se configura para codificar una o más de las muestras de metadatos de una de una o más señales de metadatos comprimidas con un primer número de bits, en el que cada una de dichas una o más de las muestras de metadatos de dicha una o más señales de metadatos comprimidas indica un número entero,
    en el que el codificador de metadatos (210) se configura para codificar uno o más de los valores diferenciales de dicha pluralidad de las segundas muestras de metadatos con un segundo número de bits, en el que cada uno de uno o más de los valores diferenciales de dicha pluralidad de las segundas muestras de metadatos indican un número entero, y
    en el que el segundo número de bits es menor que el primer número de bits.
    10. Aparato (250) según una de las reivindicaciones 7 a 9,
    en el que al menos una de una o más señales de metadatos originales comprende información de posición en una de una o más señales de objetos de audio o comprende una representación a escala de la información de posición en dicha una o más señales de objetos de audio, y
    en el que el codificador de metadatos (210) se configura para generar al menos una de una o más señales de metadatos comprimidas dependiendo de al menos una de una o más señales de metadatos originales.
    11. Aparato (250) según una de las reivindicaciones 7 a 10,
    en el que al menos una de una o más señales de metadatos originales comprende un volumen de una de una o más señales de objetos de audio o comprende una representación a escala del volumen de dicha una de una o más señales de objetos de audio, y
    en el que el codificador de metadatos (210) se configura para generar al menos una de una o más señales de metadatos comprimidas que depende de al menos una de una o más señales de metadatos originales.
    12. Sistema que comprende:
    aparato (250) según una de las reivindicaciones 7 a 11 para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas, y un aparato (100) según una de las reivindicaciones 1 a 6 para recibir una o más señales de audio codificadas y una o más señales de metadatos comprimidas y para generar uno o más canales de audio dependiendo de una o más señales de audio codificadas y dependiendo de una o más señales de metadatos comprimidas.
    13. Método para generar uno o más canales de audio, en el que el método comprende:
    recibir una o más señales de metadatos comprimidas, en el que cada una de una o más señales de metadatos comprimidas comprende una pluralidad de primeras muestras de metadatos, generando una o más señales de metadatos reconstruidas, de modo que cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas comprende las primeras muestras de metadatos de una señal de metadatos comprimida de una o más señales de metadatos comprimidas, estando dicha señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida y que comprende además una pluralidad de segundas muestras de metadatos, en el que generar una o más señales de metadatos reconstruidas comprende generar las segundas muestras de metadatos de cada una de una o más señales de metadatos reconstruidas al generar una pluralidad de muestras de metadatos aproximadas para dicha señal de metadatos reconstruida, en el que generar cada una de la pluralidad de muestras de metadatos aproximadas se lleva a cabo dependiendo de al menos dos de las primeras muestras de metadatos de la señal de metadatos reconstruida, y
    generar uno o más canales de audio,
    en el que las primeras muestras de metadatos de cada una de una o más señales de metadatos comprimidas indican información asociada con una señal de objetos de audio de una o más señales de objeto de audio,
    en el que generar uno o más canales de audio se lleva a cabo dependiendo de una o más señales de objetos de audio y dependiendo de una o más señales de metadatos reconstruidas, caracterizado porque
    el método comprende además recibir una pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas y agregar cada uno de la pluralidad de valores diferenciales a una de las muestras de metadatos aproximadas de la señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida para obtener las segundas muestras de metadatos de dicha señal de metadatos reconstruida.
    Método para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas, en el que el método comprende:
    recibir una o más señales de metadatos originales, en el que cada una de una o más señales de metadatos originales comprende una pluralidad de muestras de metadatos,
    en el que generar una o más señales de metadatos comprimidas, de modo que cada señal de metadatos comprimida de una o más señales de metadatos comprimidas comprende un primer grupo de dos o más de las muestras de metadatos de una señal de metadatos originales de una o más de las señales de metadatos originales, estando dicha señal de metadatos comprimida asociada con dicha señal de metadatos original, y
    codificar una o más señales de objetos de audio para obtener una o más señales de audio codificadas,
    en el que las muestras de metadatos de cada una de una o más señales de metadatos originales indican información asociada con una señal de objeto de audio de una o más señales de objeto de audio,
    en el que cada una de las muestra de metadatos, que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que también está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es aquella de una pluralidad de primeras muestras de metadatos,
    en el que cada una de las muestra de metadatos, que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que no está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es una de una pluralidad de segundas muestras de metadatos,
    en el que el método comprende adicionalmente generar una muestra de metadatos aproximada para cada una de una pluralidad de las segundas muestras de metadatos de una de las señales de metadatos originales al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de una de una o más señales de metadatos originales, y caracterizado porque
    el método comprende adicionalmente generar un valor diferencial para cada segunda muestra de metadatos de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, de modo que dicho valor diferencial indica una diferencia entre dicha segunda muestra de metadatos y la muestra de metadatos aproximada de dicha segunda muestra de metadatos.
    Programa informático para implementar el método según la reivindicación 13 o 14 cuando se ejecuta en un ordenador o procesador de señal.
    Aparato para codificar datos de entrada de audio (101) para obtener datos de salida de audio (501), que comprende:
    una interfaz de entrada (1100) para recibir una pluralidad de canales de audio, una pluralidad de objetos de audio y metadatos relacionados con una o más de la pluralidad de objetos de audio,
    un mezclador (200) para mezclar la pluralidad de objetos y la pluralidad de canales para obtener una pluralidad de canales premezclados, comprendiendo cada canal premezclado datos de audio de un canal y datos de audio de al menos un objeto, y
    un aparato (250) según las reivindicaciones 7 a 11,
    en el que el codificador de audio (220) del aparato (250) según una de las reivindicaciones 7 a 11 es un codificador de núcleo (300) para la codificación de núcleo de datos de entrada del codificador de núcleo, y
    en el que el codificador de metadatos (210) del aparato (250) según una de las reivindicaciones 7 a 11 es un compresor de metadatos (400) para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio.
    Aparato para decodificar datos de audio codificados, que comprende:
    una interfaz de entrada (1100) para recibir los datos de audio codificados, comprendiendo los datos de audio codificados una pluralidad de canales codificados o una pluralidad de objetos codificados o metadatos comprimidos relacionados con la pluralidad de objetos, y
    un aparato (100) según las reivindicaciones 1 a 6,
    en el que el decodificador de metadatos (110) del aparato (100) según una de las reivindicaciones 1 a 6 es un descompresor de metadatos (400) para descomprimir los metadatos comprimidos,
    en el que el generador de canal de audio (120) del aparato (100) según una de las reivindicaciones 1 a 6 comprende un decodificador de núcleo (1300) para decodificar la pluralidad de canales codificados y la pluralidad de objetos codificados,
    en el que el generador de canal de audio (120) comprende además un procesador de objetos (1200) para procesar la pluralidad de objetos decodificados utilizando los metadatos descomprimidos para obtener un número de canales de salida (1205) que comprende datos de audio de los objetos y los canales decodificados, y
    en el que el generador de canal de audio (120) comprende además un postprocesador (1700) para convertir el número de canales de salida (1205) en un formato de salida.
ES14739199T 2013-07-22 2014-07-16 Aparato y método para la codificación eficiente de metadatos de objetos Active ES2881076T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177367 2013-07-22
EP13177365 2013-07-22
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
EP13189284.6A EP2830049A1 (en) 2013-07-22 2013-10-18 Apparatus and method for efficient object metadata coding
PCT/EP2014/065299 WO2015011000A1 (en) 2013-07-22 2014-07-16 Apparatus and method for efficient object metadata coding

Publications (1)

Publication Number Publication Date
ES2881076T3 true ES2881076T3 (es) 2021-11-26

Family

ID=49385151

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14739199T Active ES2881076T3 (es) 2013-07-22 2014-07-16 Aparato y método para la codificación eficiente de metadatos de objetos

Country Status (16)

Country Link
US (8) US9788136B2 (es)
EP (4) EP2830049A1 (es)
JP (2) JP6239110B2 (es)
KR (5) KR20160033775A (es)
CN (3) CN111883148A (es)
AU (2) AU2014295267B2 (es)
BR (2) BR112016001139B1 (es)
CA (2) CA2918860C (es)
ES (1) ES2881076T3 (es)
MX (2) MX357577B (es)
MY (1) MY176994A (es)
RU (2) RU2666282C2 (es)
SG (2) SG11201600469TA (es)
TW (1) TWI560703B (es)
WO (2) WO2015010996A1 (es)
ZA (2) ZA201601045B (es)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
JP6610258B2 (ja) 2013-11-05 2019-11-27 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
DK3201918T3 (en) 2014-10-02 2019-02-25 Dolby Int Ab DECODING PROCEDURE AND DECODS FOR DIALOGUE IMPROVEMENT
TWI631835B (zh) * 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CA2956136C (en) * 2015-06-17 2022-04-05 Sony Corporation Transmitting device, transmitting method, receiving device, and receiving method
JP6461029B2 (ja) * 2016-03-10 2019-01-30 株式会社東芝 時系列データ圧縮装置
EP3453190A4 (en) * 2016-05-06 2020-01-15 DTS, Inc. SYSTEMS FOR IMMERSIVE AUDIO PLAYBACK
EP3293987B1 (en) * 2016-09-13 2020-10-21 Nokia Technologies Oy Audio processing
US10891962B2 (en) 2017-03-06 2021-01-12 Dolby International Ab Integrated reconstruction and rendering of audio signals
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
RU2020111480A (ru) * 2017-10-05 2021-09-20 Сони Корпорейшн Устройство и способ кодирования, устройство и способ декодирования и программа
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
CN111903135A (zh) * 2018-03-29 2020-11-06 索尼公司 信息处理装置、信息处理方法以及程序
JP7102024B2 (ja) * 2018-04-10 2022-07-19 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理装置
EP3777245A1 (en) 2018-04-11 2021-02-17 Dolby International AB Methods, apparatus and systems for a pre-rendered signal for audio rendering
US10999693B2 (en) * 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
WO2020089302A1 (en) 2018-11-02 2020-05-07 Dolby International Ab An audio encoder and an audio decoder
US11379420B2 (en) * 2019-03-08 2022-07-05 Nvidia Corporation Decompression techniques for processing compressed data suitable for artificial neural networks
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
CN114072874A (zh) * 2019-07-08 2022-02-18 沃伊斯亚吉公司 用于编解码音频流中的元数据和用于对音频流编解码的有效比特率分配的方法和系统
GB2586214A (en) * 2019-07-31 2021-02-17 Nokia Technologies Oy Quantization of spatial audio direction parameters
GB2586586A (en) * 2019-08-16 2021-03-03 Nokia Technologies Oy Quantization of spatial audio direction parameters
WO2021053266A2 (en) 2019-09-17 2021-03-25 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
EP4158623B1 (en) 2020-05-26 2023-11-22 Dolby International AB Improved main-associated audio experience with efficient ducking gain application
WO2022074283A1 (en) * 2020-10-05 2022-04-14 Nokia Technologies Oy Quantisation of audio parameters

Family Cites Families (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
GB2417866B (en) 2004-09-03 2007-09-19 Sony Uk Ltd Data transmission
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7840411B2 (en) 2005-03-30 2010-11-23 Koninklijke Philips Electronics N.V. Audio encoding and decoding
EP1866912B1 (en) 2005-03-30 2010-07-07 Koninklijke Philips Electronics N.V. Multi-channel audio coding
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101310328A (zh) 2005-10-13 2008-11-19 Lg电子株式会社 用于处理信号的方法和装置
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101410891A (zh) 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
BRPI0707969B1 (pt) 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
JP5265517B2 (ja) 2006-04-03 2013-08-14 ディーティーエス・エルエルシー オーディオ信号処理
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US8326609B2 (en) 2006-06-29 2012-12-04 Lg Electronics Inc. Method and apparatus for an audio signal processing
EP3236587B1 (en) * 2006-07-04 2018-11-21 Dolby International AB Filter system comprising a filter converter and a filter compressor and method for operating the filter system
MX2008012251A (es) 2006-09-29 2008-10-07 Lg Electronics Inc Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto.
WO2008039038A1 (en) 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
CA2874454C (en) 2006-10-16 2017-05-02 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
JP5394931B2 (ja) 2006-11-24 2014-01-22 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の復号化方法及びその装置
EP2102858A4 (en) 2006-12-07 2010-01-20 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
EP2595149A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for transcoding downmix signals
KR101049143B1 (ko) * 2007-02-14 2011-07-15 엘지전자 주식회사 오브젝트 기반의 오디오 신호의 부호화/복호화 장치 및 방법
RU2394283C1 (ru) * 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
CN101542597B (zh) * 2007-02-14 2013-02-27 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
US8463413B2 (en) 2007-03-09 2013-06-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR20080082916A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
JP5161893B2 (ja) 2007-03-16 2013-03-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US7991622B2 (en) 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
WO2008120933A1 (en) 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
PL2137725T3 (pl) 2007-04-26 2014-06-30 Dolby Int Ab Urządzenie i sposób do syntetyzowania sygnału wyjściowego
PT2165328T (pt) 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009045178A1 (en) * 2007-10-05 2009-04-09 Agency For Science, Technology And Research A method of transcoding a data stream and a data transcoder
BRPI0816556A2 (pt) 2007-10-17 2019-03-06 Fraunhofer Ges Zur Foerderung Der Angewandten Forsschung E V codificação de áudio usando downmix
US8527282B2 (en) 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
KR101024924B1 (ko) 2008-01-23 2011-03-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
CN102089816B (zh) 2008-07-11 2013-01-30 弗朗霍夫应用科学研究促进协会 音频信号合成器及音频信号编码器
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR101171314B1 (ko) * 2008-07-15 2012-08-10 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
KR20100035121A (ko) * 2008-09-25 2010-04-02 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2194527A3 (en) 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20100065121A (ko) 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US8620008B2 (en) 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8139773B2 (en) 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
CN102016982B (zh) 2009-02-04 2014-08-27 松下电器产业株式会社 结合装置、远程通信系统以及结合方法
EP2626855B1 (en) 2009-03-17 2014-09-10 Dolby International AB Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
CN102449689B (zh) * 2009-06-03 2014-08-06 日本电信电话株式会社 编码方法、编码装置、编码程序、以及它们的记录介质
TWI404050B (zh) 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
EP2535892B1 (en) * 2009-06-24 2014-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
JP5793675B2 (ja) 2009-07-31 2015-10-14 パナソニックIpマネジメント株式会社 符号化装置および復号装置
KR20120062758A (ko) 2009-08-14 2012-06-14 에스알에스 랩스, 인크. 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
EP2483887B1 (en) * 2009-09-29 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
AU2010309867B2 (en) 2009-10-20 2014-05-08 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multichannel audio signal, methods, computer program and bitstream using a distortion control signaling
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US20110153857A1 (en) * 2009-12-23 2011-06-23 Research In Motion Limited Method for partial loading and viewing a document attachment on a portable electronic device
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
WO2011119401A2 (en) * 2010-03-23 2011-09-29 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
US8675748B2 (en) 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) * 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
RU2570359C2 (ru) 2010-12-03 2015-12-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Прием звука посредством выделения геометрической информации из оценок направления его поступления
TWI716169B (zh) * 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
EP2686654A4 (en) 2011-03-16 2015-03-11 Dts Inc CODING AND PLAYING THREE-DIMENSIONAL AUDIOSPURES
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
RU2554523C1 (ru) * 2011-07-01 2015-06-27 Долби Лабораторис Лайсэнзин Корпорейшн Система и инструментальные средства для усовершенствованной авторской разработки и представления трехмерных аудиоданных
TWI603632B (zh) * 2011-07-01 2017-10-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
JP5740531B2 (ja) 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
CN102931969B (zh) * 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103890841B (zh) 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2013075753A1 (en) 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects

Also Published As

Publication number Publication date
CN105474310A (zh) 2016-04-06
KR101865213B1 (ko) 2018-06-07
CN105474310B (zh) 2020-05-12
AU2014295267B2 (en) 2017-10-05
MX357577B (es) 2018-07-16
US11910176B2 (en) 2024-02-20
US20220329958A1 (en) 2022-10-13
US11337019B2 (en) 2022-05-17
EP3025330A1 (en) 2016-06-01
RU2016105691A (ru) 2017-08-28
EP2830047A1 (en) 2015-01-28
RU2672175C2 (ru) 2018-11-12
ZA201601045B (en) 2017-11-29
TW201523591A (zh) 2015-06-16
CN105474309B (zh) 2019-08-23
BR112016001139A2 (es) 2017-07-25
US20190222949A1 (en) 2019-07-18
BR112016001140A2 (es) 2017-07-25
JP2016525714A (ja) 2016-08-25
EP2830049A1 (en) 2015-01-28
KR20160033775A (ko) 2016-03-28
CN105474309A (zh) 2016-04-06
TWI560703B (en) 2016-12-01
MY176994A (en) 2020-08-31
US10277998B2 (en) 2019-04-30
CA2918860A1 (en) 2015-01-29
WO2015011000A1 (en) 2015-01-29
AU2014295271A1 (en) 2016-03-10
SG11201600469TA (en) 2016-02-26
US9743210B2 (en) 2017-08-22
US20160142850A1 (en) 2016-05-19
US20160133263A1 (en) 2016-05-12
EP3025332A1 (en) 2016-06-01
MX2016000908A (es) 2016-05-05
US20200275228A1 (en) 2020-08-27
CA2918166A1 (en) 2015-01-29
JP6239109B2 (ja) 2017-11-29
RU2666282C2 (ru) 2018-09-06
CA2918166C (en) 2019-01-08
US10715943B2 (en) 2020-07-14
KR20210048599A (ko) 2021-05-03
AU2014295267A1 (en) 2016-02-11
US9788136B2 (en) 2017-10-10
JP6239110B2 (ja) 2017-11-29
ZA201601044B (en) 2017-08-30
EP3025330B1 (en) 2021-05-05
KR20230054741A (ko) 2023-04-25
RU2016105682A (ru) 2017-08-28
SG11201600471YA (en) 2016-02-26
MX357576B (es) 2018-07-16
US20170311106A1 (en) 2017-10-26
US10659900B2 (en) 2020-05-19
AU2014295271B2 (en) 2017-10-12
BR112016001139B1 (pt) 2022-03-03
KR20180069095A (ko) 2018-06-22
MX2016000907A (es) 2016-05-05
KR20160036585A (ko) 2016-04-04
US20200275229A1 (en) 2020-08-27
JP2016528541A (ja) 2016-09-15
CN111883148A (zh) 2020-11-03
CA2918860C (en) 2018-04-10
WO2015010996A1 (en) 2015-01-29
US11463831B2 (en) 2022-10-04
BR112016001140B1 (pt) 2022-10-25
US20170366911A1 (en) 2017-12-21

Similar Documents

Publication Publication Date Title
ES2881076T3 (es) Aparato y método para la codificación eficiente de metadatos de objetos
ES2913849T3 (es) Concepto para codificación y decodificación de audio para canales de audio y objetos de audio
ES2768431T3 (es) Aparato y método para realizar una mezcla descendente SAOC de contenido de audio 3D
ES2900653T3 (es) Adaptación relacionada con pantalla de contenido de HOA
BR112015025092B1 (pt) Sistema de processamento de áudio e método para processar um fluxo de bits de áudio
TW201528251A (zh) 有效率物件元數據編碼的裝置及其方法