ES2529219T3 - Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión - Google Patents

Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión Download PDF

Info

Publication number
ES2529219T3
ES2529219T3 ES10765803.1T ES10765803T ES2529219T3 ES 2529219 T3 ES2529219 T3 ES 2529219T3 ES 10765803 T ES10765803 T ES 10765803T ES 2529219 T3 ES2529219 T3 ES 2529219T3
Authority
ES
Spain
Prior art keywords
representation
distortion
bit stream
information
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10765803.1T
Other languages
English (en)
Inventor
Jonas Engdegard
Heiko Purnhagen
Jürgen HERRE
Leon Terentiv
Cornelia Falch
Oliver Hellmuth
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Dolby International AB filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2529219T3 publication Critical patent/ES2529219T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Aparato (100; 200; 300; 400) para proporcionar una representación de señal de mezcla ascendente (120; 428a- 428M) sobre la base de la representación de una señal de mezcla descendente (110; 414) y una información paramétrica relacionada con el objeto (112; 416), que están incluidas en una representación de flujo de bits de un contenido de audio, y dependiendo de una información de representación (114; 424), en donde el aparato comprende: un limitador de distorsión (140; 240; 340; 422) configurado para ajustar parámetros de mezcla ascendente utilizando un esquema de control de distorsión (142) para evitar o limitar las distorsiones audibles que se originan por una inapropiada selección de los parámetros de representación (114; 424), en donde el limitador de distorsión está configurado para obtener un parámetro de control de limitación de distorsión (116; 418; q) que está incluido en la representación de flujo de bits del contenido de audio, y para ajustar el esquema de control de distorsión dependiendo de un parámetro de control de limitación de distorsión; en donde el limitador de distorsión está configurado para evaluar una bandera dinámica de actualización dentro de una sección de configuración de la representación de flujo de bits del contenido de audio; y en donde el limitador de distorsión está configurado para evaluar la sección de configuración de la representación de flujo de bits del contenido de audio, para obtener el parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está inactiva, y para evaluar una sección de cuadro de la representación de flujo de bits del contenido de audio, para obtener repetidamente actualizaciones del parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está activa.

Description

imagen1
DESCRIPCIÓN
Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de 5 canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión
Campo técnico
[0001] Las realizaciones de acuerdo con la invención se refieren a un aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente y una información paramétrica relacionada con el objeto, que están incluidas en una representación de flujo de bits de un contenido de audio, y una información de representación.
15 [0002] Otra realización de acuerdo con la invención se refiere a un aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples.
[0003] Otra realización de acuerdo con la invención se refiere a un método para proporcionar una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto, que están incluidas en una representación de flujo de bits de un contenido de audio, y una información de representación.
[0004] Otra realización de acuerdo con la invención se refiere a un método para proporcionar un flujo de bits que representa una señal de audio de canales múltiples.
25 [0005] Otra realización de acuerdo con la invención se refiere a un programa de computación que implementa uno de los métodos.
[0006] Otra relación de acuerdo con la invención se refiere a un flujo de bits que representa una señal de audio de canales múltiples.
Antecedentes de la invención
[0007] En la técnica del procesado de audio, la transmisión de audio y el almacenamiento de audio, existe un deseo
35 creciente de manipular contenidos de canales múltiples a fin de mejorar la impresión de audición. La utilización de contenidos de audio de canales múltiples conlleva importantes mejoras para el usuario. Por ejemplo, se puede obtener una impresión de audición de 3 dimensiones, lo cual trae aparejada la satisfacción aumentada del usuario en las aplicaciones de entretenimiento. Sin embargo, los contenidos de audio de canales múltiples también resultan útiles en ambientes profesionales, por ejemplo en aplicaciones de teleconferencia, debido a que la inteligibilidad del altavoz se puede mejorar al utilizar una reproducción de audio de canales múltiples.
[0008] Sin embargo, también se desea tener un buen compromiso entre la calidad del audio y los requisitos de velocidad de bits a fin de evitar una carga excesiva de los recursos causada por aplicaciones de canales múltiples.
45 [0009] Recientemente, se han propuesto técnicas paramétricas para la transmisión eficaz desde el punto de vista de velocidad de bits y/o el almacenamiento de escenas de audio que contienen objetos de audio múltiples, por ejemplo, Codificación Binaural BCC (Tipo I) (ver, por ejemplo la referencia [BCC]), Codificación Conjunta de Fuente (ver, por ejemplo, la referencia [JSC]), Codificación de Audio Espacial [SAC] y Codificación MPEG de Objeto de Audio Espacial (SAOC) (ver, por ejemplo, la referencias [SAOC1], [SAOC2] , [SAOC3] y la referencia sin publicación previa [SAOC]).
[00010] Estas técnicas apuntan a reconstruir perceptiblemente la salida de escena de audio deseada antes que a una coincidencia de forma de onda.
55 [00011] La Fig. 8 muestra una visión general de dicho sistema (aquí: SAOC MPEG). El sistema SAOC MPEG 800 que se muestra en la Fig. 8 comprende un codificador SAOC 810 y un decodificador SAOC 820. El codificador SAOC 810 recibe una pluralidad de señales de los objetos x1 a xN, que se puede representar, por ejemplo, como señales del dominio del tiempo o como señales del dominio del tiempo-frecuencia (por ejemplo, en la forma de un conjunto de coeficientes de transformada de una transformada del tipo de Fourier, o en la forma de señales de subbanda QMF). El codificador SAOC 810 generalmente también recibe los coeficientes de mezcla descendente d1 a dN, que están asociados con las señales de los objetos x1 a xN. Diferentes conjuntos de coeficientes de mezcla descendente pueden estar disponibles para cada canal de la señal de mezcla descendente. El codificador SAOC 810 está configurado generalmente para obtener un canal de la señal de mezcla descendente al combinar las señales de los objetos x1 a xN de acuerdo con los coeficientes de mezcla descendente asociados d1 a dN.
65 Generalmente, existen menos canales de mezcla descendente que señales de los objetos x1 a xN. A fin de permitir (al menos aproximadamente) una separación (o el tratamiento separado) de las señales de los objetos del lado del decodificador SAOC 820, el codificador SAOC 810 proporciona tanto la única o las varias señales de mezcla descendente (denominadas canales de mezcla descendente) 812 y una información lateral 814. La información lateral 814 describe las características de las señales de los objetos x1 a xN, a fin de permitir el procesado específico del objeto del lado del decodificador.
imagen2
5 [00012] El decodificador SAOC 820 está configurado para recibir tanto la única o las varias señales de mezcla descendente 812 y la información lateral 814. Además, el decodificador SAOC 820 está generalmente configurado para recibir la información de interacción del usuario y/o la información de control del usuario 822, que describe una configuración de representación deseada. Por ejemplo, la información de interacción del usuario/la información de
10 control del usuario 822 puede describir una configuración de altavoz y la ubicación espacial deseada de los objetos que proporcionan las señales de los objetos x1 a xN.
[00013] El decodificador SAOC 820 está configurado para proporcionar, por ejemplo, una pluralidad de señales decodificadas del canal de mezcla ascendente ŷ1a ŷM. Las señales del canal de mezcla ascendente pueden, por 15 ejemplo, estar asociadas con altavoces individuales de una disposición de representación de altavoces múltiples. El decodificador SAOC 820 puede, por ejemplo, comprender un separador de objetos 820a, que está configurado para reconstruir, al menos aproximadamente, las señales de los objetos x1 a xN sobre la base de una o varias de las señales de mezcla descendente 812 y la información lateral 814, obteniendo por lo tanto señales reconstruidas de objetos 820b. Sin embargo, las señales reconstruidas de objetos 820b pueden desviarse de alguna manera de las 20 señales originales de objetos x1 a xN, por ejemplo, debido a que la información lateral 814 no es totalmente suficiente para una perfecta reconstrucción debido a las restricciones de velocidad de bits. El decodificador SAOC 820 puede comprender además un mezclador 820c que puede estar configurado para recibir las señales reconstruidas de objetos 820b y la información de interacción del usuario/la información de control del usuario 822, y para proporcionar, sobre esta base, las señales del canal de mezcla ascendente ŷ1a ŷM. El mezclador 820c puede 25 estar configurado para utilizar la información de interacción del usuario/la información de control del usuario 822 para determinar la contribución de las señales reconstruidas de objetos individuales 820b con las señales del canal de mezcla ascendente ŷ1a ŷM. La información de interacción del usuario/la información de control del usuario 822 puede, por ejemplo, comprender parámetros de representación (también denominados coeficientes de representación), que determinan la contribución de las señales reconstruidas de objetos individuales 820b con las
30 señales del canal de mezcla ascendente ŷ1a ŷM.
[00014] Sin embargo, deberá notarse que en muchas realizaciones, la separación de objetos, que se indica mediante el separador de objetos 820a en la Fig. 8, y la mezcla, que se indica mediante el mezclador 820c en la Fig. 8, se realizan en un solo paso. A tal efecto, se pueden computar parámetros generales que describen un mapeo
35 directo de la única o varias señales de mezcla descendente 812 sobre las señales del canal de mezcla ascendente ŷ1a ŷM. Estos parámetros se pueden computar sobre la base de la información lateral y la información de interacción del usuario/la información de control del usuario 822.
[00015] Con referencia ahora a las Figs. 9a, 9b y 9c, se describirán diversos aparatos para obtener una
40 representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendente e información lateral relacionada con el objeto. La Fig. 9a muestra un diagrama de bloques esquemático de un sistema SAOC MPEG 900 que comprende un decodificador SAOC 920. El decodificador SAOC 920 comprende, como bloques funcionales separados, un decodificador de objetos 922 y un mezclador/representador 926. El decodificador de objetos 922 proporciona una pluralidad de señales reconstruidas
45 de objetos 924 que dependen de la representación de señales de mezcla descendente (por ejemplo, en la forma de una o varias señales de mezcla descendente representadas en el dominio del tiempo o en el dominio del tiempo-de la frecuencia) e información lateral relacionada con el objeto (por ejemplo, en la forma de meta información del objeto). El mezclador/representador 926 recibe las señales reconstruidas de objetos 924 asociadas con una pluralidad de N objetos y proporciona, sobre la base de éstos, una o varias señales de canal de mezcla ascendente
50 928. En el decodificador SAOC 920, la extracción de las señales de objetos 924 se realiza separadamente de la mezcla/representación lo que permite la separación de la funcionalidad decodificadora de objetos de la funcionalidad de mezcla/representación pero trae aparejada una complejidad computacional relativamente elevada.
[00016] Con referencia ahora a la Fig. 9b, se expondrá brevemente acerca de otro sistema SAOC MPEG 930 que
55 comprende un decodificador SAOC 950. El decodificador SAOC 950 proporciona una pluralidad de señales de canal de mezcla ascendente 958 que dependen de la representación de señales de mezcla descendente (por ejemplo, en la forma de una o varias señales de mezcla descendente) y una información lateral relacionada con el objeto (por ejemplo, en la forma de meta información del objeto). El decodificador 950 comprende un decodificador de objetos y mezclador/representador combinado, que está configurado para obtener las señales de canal de mezcla ascendente
60 958 en un proceso conjunto de mezcla sin la separación de la decodificación de objetos y la mezcla/representación, en el cual los parámetros para dicho proceso conjunto de mezcla ascendente dependen tanto de la información lateral relacionada con el objeto como de la información de representación. El proceso conjunto de mezcla ascendente depende también de la información de mezcla descendente, que se considera parte de la información lateral relacionada con el objeto.
65 [00017] Para resumir lo expuesto anteriormente, la provisión de las señales de canal de mezcla ascendente 928, 958 se puede realizar mediante un proceso de un solo paso o mediante un proceso de dos pasos.
imagen3
[00018] Con referencia ahora a la Fig. 9c, se describirá un sistema SAOC MPEG 960. El sistema SAOC MPEG 960 5 comprende un transcodificador SAOC a MPEG Surround 980, en vez de un decodificador SAOC.
[00019] El transcodificador SAOC a MPEG Surround 980 comprende un transcodificador de información lateral 982, que está configurado para recibir la información lateral relacionada con el objeto (por ejemplo, en la forma de meta información) y, opcionalmente, información acerca de la única o varias señales de mezcla descendente y la información de representación. El transcodificador de información lateral también está configurado para proporcionar una información lateral MPEG Surround (por ejemplo, en la forma de un flujo de bits MPEG Surround) sobre la base de la información recibida. Por consiguiente, el transcodificador de información lateral 982 está configurado para transformar una información lateral relacionada con el objeto (paramétrica), que se recibe del codificador de objetos, en una información lateral relacionada con el canal (paramétrica), teniendo en consideración la información de
15 representación y, opcionalmente, la información acerca del contenido de la única o varias señales de mezcla descendente.
[00020] Opcionalmente, el transcodificador SAOC a MPEG Surround 980 puede estar configurado para manipular la única o varias señales de mezcla descendente, descritas, por ejemplo, por la representación de señales de mezcla descendente, para obtener una representación de señales manipuladas de mezcla descendente 988. Sin embargo, el manipulador de señales de mezcla descendente 986 puede omitirse, de modo tal que la representación de la señal de salida de mezcla descendente 988 del transcodificador SAOC a MPEG Surround 980 es idéntica a la representación de la señal de entrada de mezcla descendente del transcodificador SAOC a MPEG Surround 980. El manipulador de señales de mezcla descendente 986 puede utilizarse, por ejemplo, si la información lateral MPEG
25 Surround relacionada con el canal 984 no permitiera proporcionar la impresión de audición deseada sobre la base de señal de entrada de mezcla descendente del transcodificador SAOC a MPEG Surround 980, que sería el caso en algunas constelaciones de representación.
[00021] Por consiguiente, el transcodificador SAOC a MPEG Surround 980 proporciona la representación de la señal de mezcla descendente 988 y el flujo de bits MPEG Surround 984 de modo tal que se puede generar una pluralidad de señales de canal de mezcla ascendente, que representan los objetos de audio de acuerdo con la entrada de información de representación al transcodificador SAOC a MPEG Surround 980 utilizando un decodificador MPEG Surround que recibe el flujo de bits MPEG Surround 984 y la representación de la señal de mezcla descendente 988.
35 [00022] Para resumir lo antedicho, se pueden utilizar diferentes conceptos para decodificar señales de audio codificadas mediante la técnica SAOC. En algunos casos, se utiliza un decodificador SAOC, que proporciona señales del canal de mezcla ascendente (por ejemplo, las señales de canal ascendente 928, 958) dependiendo de la representación de señales de mezcla descendente y de la información lateral paramétrica relacionada con el objeto. En las Figs. 9a y 9b pueden verse ejemplos de este concepto. Por otra parte, la información de audio codificada según la técnica SAOC se puede transcodificar para obtener una representación de señal de mezcla descendente (por ejemplo, una representación de señal descendente 988) y una información lateral relacionada con el canal (por ejemplo, el flujo de bits MPEG Surround 984 relacionada con el canal), que puede ser utilizada por un decodificador MPEG Surround para proporcionar las señales de canal ascendente deseadas.
45 [00023] En el sistema SAOC MPEG 800, una visión general del sistema que se brinda en la Fig. 8 el proceso se lleva a cabo en un modo selectivo de frecuencia y se puede describir como sigue dentro de cada banda de frecuencia:
N señales de entrada de objeto de audio X1 a XN se convierten en forma descendente como parte del procesado de codificación SAOC. Para una mezcla descendente, los coeficientes de mezcla descendente se designan d1 a dN. Además, el codificador SAOC 810 extrae información lateral 814 que describe las características de los objetos de audio de entrada. Para el sistema SAOC MPEG, las relaciones de las potencias de los objetos entre sí son la forma más básica de tal información lateral.
La señal de mezcla descendente (o señales) 812 y la información lateral 814 se transmiten y/o almacenan. A tal
55 efecto, la señal de audio de mezcla descendente se puede comprimir utilizando codificadores de percepción de audio muy conocidos tales como MPEG-1 Layer II o III (también conocidos como “.mp3”), Codificación de Audio Avanzada MPEG (AAC), o cualquier otro codificador de audio.
• En el extremo de recepción, el decodificador SAOC 820 conceptualmente trata de recuperar la señal original del objeto (“separación del objeto”) utilizando la información lateral transmitida 814 (y, naturalmente, la única o varias señales de mezcla descendente 812). Estas señales aproximadas del objeto (también designadas como señales reconstruidas del objeto 820b) se mezclan luego en una escena objetivo representada por M canales de salida de audio (que pueden, por ejemplo, estar representados mediante las señales del canal de mezcla ascendente ŷ1a ŷM) utilizando una matriz de representación. Para una salida mono, los coeficientes de la matriz de representación están dados por r1 a rN.
65 • Efectivamente, la separación de las señales del objeto rara vez se ejecuta (o aún nunca se ejecuta), dado que tanto el paso de separación (indicado mediante el separador de objetos 820a) y el paso de mezcla (indicado por el mezclador 820c) se combinan en un único paso de transcodificación, que con frecuencia da por resultado una enorme reducción de la complejidad computacional.
imagen4
[00024] Se ha descubierto que tal esquema es extraordinariamente eficaz, tanto en términos de régimen de bits de
5 transmisión (solamente es necesario transmitir unos pocos canales de mezcla descendente además de alguna información lateral en vez de N señales (generalmente discretas) de objetos de audio además de información de representación opcional o un sistema discreto) como de complejidad computacional (la complejidad computacional se relaciona principalmente con la cantidad de canales de salida más bien que con la cantidad de objetos de audio). Las ventajas adicionales para el usuario sobre el extremo receptor incluyen la libertad de elegir una configuración de representación de su elección (mono, estéreo, envolvente, reproducción virtualizada en auriculares, etc.) y la característica de interactividad del usuario: la matriz de representación, y así la escena de salida, se puede configurar y cambiar de forma interactiva por el usuario de acuerdo a su voluntad, preferencia personal u otros criterios. Por ejemplo, es posible localizar a los interlocutores de un grupo juntos en un área espacial para maximizar la discriminación con respecto a los restantes interlocutores. Esta interactividad se logra al proporcionar una interfaz
15 de decodificador del usuario:
[00025] Para cada objeto de sonido transmitido, su nivel relativo y (para representación no mono) se puede ajustar la posición espacial de representación. Esto puede suceder en tiempo real mientras el usuario cambia la posición de los cursores deslizantes de la interfaz gráfica del usuario asociada (GUI) (por ejemplo: nivel del objeto =+5dB, posición del objeto = -30 grados).
[00026] Sin embargo, se ha descubierto que la elección de parámetros en el lado del decodificador para la provisión de la representación de la señal de mezcla ascendente (por ejemplo, las señales del canal de mezcla ascendente ŷ1 a ŷM) trae aparejadas, en algunos casos, degradaciones audibles.
25 [00027] Se ha descubierto que debido al enfoque paramétrico basado en mezcla descendente/separación/mezcla, la calidad subjetiva de la salida de audio depende de la configuración de los parámetros de representación. Se descubrió que los cambios en el nivel relativo del objeto afecta la calidad final del audio más que los cambios en la posición de representación espacial (“re-panning”). Las configuraciones extremas de los parámetros de nivel relativos (por ejemplo, +20dB) pueden aún llevar a una calidad de salida inaceptable.
[00028] Si bien esto es simplemente el resultado de violar algunas de las asunciones perceptuales que subyacen en este esquema, es aún inaceptable para un producto comercial producir sonido malo y artefactos según las configuraciones en la interfaz del usuario.
35 [00029] La Solicitud de Patente Estadounidense 61/173.456 titulada “Methods, Apparatus, and Computer Programs for Distortion Avoiding Audio Signal Processing” y la Solicitud de Patente Internacional PCT/EP2010/055717 titulada “Apparatus for Providing One or More Adjusted Parameters for the Provision of an Upmix Signal Representation on the Basis of a Downmix Signal Representation, Audio Signal Decoder, Audio Signal Transcoder, Audio Signal Encoder, Audio Bitstream, Method and Computer Program using an Object-related Parametric Information” (en adelante designadas como “ejemplo para el control de distorsión” describen un proceso para mitigar la distorsión a partir de la modificación de ganancia del objeto en un sistema SAOC. Dichos documentos describen diferentes conceptos para el control de distorsión y la reducción de distorsión, conceptos que se pueden aplicar en las realizaciones de acuerdo con la invención o en combinación con éstas.
45 [00030] En vista de lo expuesto anteriormente, es un objeto de la presente invención crear un concepto que permite reducir o evitar de manera mejorada las distorsiones cuando se proporciona una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente.
Resumen de la invención
[00031] Una realización de acuerdo con la invención tal como se reivindica en la reivindicación 1 crea un aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto, que se incluyen en una
55 representación de flujo de bits de un contenido de audio, y dependen de una información de representación. El aparato comprende un limitador de distorsión configurado para ajustar parámetros de mezcla ascendente (por ejemplo, factores de ganancia o entradas de una matriz de representación) utilizando un esquema de control de distorsión para evitar o limitar las distorsiones audibles que se introducen como consecuencia de una elección inapropiada de un parámetro de representación (por ejemplo, las entradas de una matriz de representación especificada por el usuario). El limitador de distorsión está configurado para obtener un parámetro de control de limitación de distorsión, que se incluye en la representación del flujo de bits del contenido de audio, y para ajustar el esquema de control de distorsión dependiendo del parámetro de control de limitación de distorsión.
[00032] Esta realización de acuerdo con la invención está basada en la idea clave de que se pueden lograr ventajas
65 significativas al ajustar el esquema de control de distorsión dependiendo del parámetro de control de limitación de distorsión, que se incluye en la representación del flujo de bits del contenido de audio debido a que esto permite el
imagen5
control del esquema de control de distorsión, que se aplica del lado de un decodificador de audio (por ejemplo, un aparato para proporcionar una representación de señal de mezcla ascendente), utilizando información de control (por ejemplo, el parámetro de control de limitación de distorsión), que es proporcionado por el codificador de audio (por ejemplo, un aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples). 5 Por consiguiente, un codificador de señal de audio tiene la posibilidad de controlar el esquema de control de distorsión del lado del decodificador, lo cual a su vez le da al codificador la posibilidad de brindar al usuario del decodificador mayor o menor libertad con respecto al ajuste de los parámetros de representación. Por consiguiente, el codificador de la señal de audio, que típicamente comprende un mejor conocimiento de los objetos de la señal de audio representada mediante la representación de la señal de mezcla descendente, puede contribuir con el ajuste adecuado del esquema de control de distorsión utilizando su conocimiento de las señales de objeto de audio. Esto permite mejores resultados cuando se proporciona la representación de la señal de mezcla ascendente. Además, el codificador de señal de audio puede proporcionar un parámetro de control de limitación de distorsión adecuado de acuerdo con los requisitos del proveedor de contenido que proporciona las señales de objeto de audio que están representadas por la representación de la señal de mezcla descendente, de modo tal que una degradación excesiva
15 de la representación de la señal de mezcla ascendente por una configuración inapropiada de los parámetros de representación puede evitarse desde el lado del codificador de la señal de audio, por ejemplo, de acuerdo con los requisitos del proveedor de contenido.
[00033] En síntesis, se puede obtener una gran cantidad de ventajas mediante el abordaje de la invención para evaluar un parámetro de control de limitación de distorsión, que se extrae del lado del decodificador a partir de la representación del flujo de bits del contenido de audio, para ajustar, por ejemplo, uno o varios parámetros de un esquema de control de distorsión aplicado del lado del decodificador.
[00034] En una realización preferida, el aparato para proporcionar una representación de señal de mezcla
25 ascendente está configurado para recibir una matriz de representación deseada desde una interfaz de entrada. En este caso, el limitador de distorsión está configurado para obtener una matriz de representación modificada dependiendo de la matriz de representación deseada y uno o varios parámetros de control de limitación de distorsión. El aparato para proporcionar la representación de señal de mezcla ascendente está configurado para proporcionar una representación de señal de mezcla ascendente dependiendo de la matriz de representación modificada. Por consiguiente, el parámetro de control de limitación de distorsión, que se extrae mediante el decodificador de señal de audio (por ejemplo, el aparato para proporcionar una representación de señal de mezcla ascendente) de la representación de flujo de bits del contenido de audio, se puede utilizar para proporcionar una matriz de representación modificada, que evita las distorsiones audibles excesivas dentro de la representación de la señal de mezcla ascendente. Se puede lograr una reducción de las distorsiones audibles aún si la entrada de la
35 matriz de representación deseada mediante la interfaz de entrada (por ejemplo, por el usuario) es inapropiada (y causaría distorsiones audibles significativas en la representación de la señal de mezcla ascendente). Así, el parámetro de control de limitación de distorsión se puede evaluar mediante el limitador de distorsión para determinar cómo se obtiene la matriz de representación modificada dependiendo de la matriz de representación deseada desde la interfaz de entrada, proporcionando por lo tanto algún grado de control a un codificador de señal de audio.
[00035] En una realización preferida, el limitador de distorsión está configurado para obtener uno o varios valores límite de matriz de representación, que se incluyen en la representación del flujo de bits del contenido de audio, y que describen valores máximos y mínimos de los elementos de la matriz de representación (también designados como entradas). En este caso, el limitador de distorsión está configurado además para limitar una o varias entradas
45 de la matriz de representación modificada de acuerdo con uno o varios valores límite de la matriz de representación cuando se obtiene la matriz de representación modificada dependiendo de la matriz de representación deseada. Por consiguiente, los parámetros de control de limitación de distorsión, que comprenden los valores límite de la matriz de representación, se pueden usar para evitar configuraciones de representación extremas, que se identifican como indeseadas por un codificador de señal de audio que proporciona la representación de flujo de bits del contenido de audio. Así, se pueden evitar o al menos limitar, las distorsiones audibles que se introducirían como consecuencia de una configuración inapropiada de los parámetros de representación.
[00036] En una realización preferida, el limitador de distorsión está configurado para obtener la matriz de representación modificada dependiendo de la matriz de representación deseada, una matriz de representación de
55 referencia y el único o los varios parámetros de control de limitación de distorsión. La utilización de una matriz de representación de referencia trae aparejadas ventajas particulares, debido a que la matriz de representación de referencia puede especificar una configuración de representación que proporciona una calidad suficientemente buena o aún óptima de la representación de la señal de mezcla ascendente. Por consiguiente, los cambios que se pueden permitir de los parámetros de representación con respecto a dicha matriz de representación de referencia se pueden definir mediante los parámetros de control de limitación de distorsión, que permite una especificación eficaz de rangos en los cuales deberían situarse los parámetros de representación modificados.
[00037] En una realización preferida, el limitador de distorsión está configurado para limitar una o varias entradas de la matriz de representación modificada en relación con la matriz de representación de referencia (o en relación con 65 las entradas de la matriz de representación de referencia) de acuerdo con el único o los varios valores límite de la matriz de representación, que se describen mediante los parámetros de control de limitación de distorsión. Por
imagen6
consiguiente, la limitación de la matriz de representación se puede realizar de manera eficaz de acuerdo con la matriz de representación de referencia.
[00038] Asimismo, uno o varios parámetros de control de limitación de distorsión pueden determinar cómo se
5 obtiene la matriz de representación de referencia. Por ejemplo, uno o varios de los parámetros de control de limitación de distorsión pueden especificar una constante de tiempo de filtro para derivar las entradas de la matriz de representación de referencia. Sin embargo, otra información de configuración, que describe cómo se obtiene la matriz de representación de referencia, también se puede definir mediante uno o varios de los parámetros de control de limitación de distorsión.
[00039] En una realización preferida, el limitador de distorsión está configurado para aplicar parámetros de control de limitación de distorsión objeto-individuo a fin de obtener la matriz de representación modificada dependiendo de la matriz de representación deseada (por ejemplo, especificada por el usuario). En consecuencia, las diferencias en las señales de objetos de audio, que son muy conocidas para un codificador de señales de audio que proporciona la
15 representación de flujo de bits del contenido de audio, puede ser considerada por el esquema de control de distorsión al explotar los parámetros de control de limitación de distorsión objeto-individuo, que se extraen de la representación del flujo de bits del contenido de audio.
[00040] En una realización preferida, el aparato para proporcionar una señal de mezcla ascendente está configurado para aplicar uno o varios factores de ganancia modificados a muestras de audio de la representación de la señal de mezcla descendente, o a una información lateral relacionada con el objeto asociada con objetos de audio descritos por la señal de mezcla descendente, para proporcionar la representación de señal de mezcla ascendente dependiendo de los factores de ganancia modificados. En este caso, el limitador de distorsión está configurado para obtener el único o los varios factores de ganancia modificados dependiendo de uno o varios factores de ganancia
25 deseados y el único o los varios parámetros de control de limitación de distorsión. Por consiguiente, los parámetros de control de limitación de distorsión, que se extraen de la representación del flujo de bits del contenido de audio, se utilizan para un ajuste apropiado de los factores de ganancia, lo que permite el control de la selección (apropiada) de los factores de ganancia del lado de un codificador de señal de audio que proporciona la representación de flujo de bits del contenido de audio.
[00041] En una realización preferida, el limitador de distorsión está configurado para derivar un nivel de referencia para limitar un parámetro de ganancia utilizando un filtro de suavizado que tiene una constante de tiempo. En este caso, el limitador de distorsión está configurado para usar el nivel de referencia para limitar el parámetro dado. Además, el limitador de distorsión está configurado para obtener un parámetro de constante de tiempo, que se
35 incluye en la representación de flujo de bits del contenido de audio (por ejemplo, al extraer el parámetro de la constante de tiempo de la representación del flujo de bits del contenido de audio) y para ajustar la constante de tiempo del filtro de suavizado dependiendo del parámetro de la constante de tiempo. Así, un codificador de señal de audio que conoce las características temporales de las señales del objeto de audio mejor que el decodificador de la señal de audio (aparato para proporcionar una representación de la señal de mezcla ascendente), puede incluir un parámetro apropiado de constante de tiempo, que permite una derivación significativa de un nivel de referencia en la representación del flujo de bits de un contenido de audio para la aplicación por un decodificador de la señal de audio. Por lo tanto, las características específicas de la señal de audio, que son conocidas para un codificador de la señal de audio, se pueden explotar por el esquema de control de distorsión.
45 [00042] En una realización preferida, el limitador de parámetros está configurado para obtener un parámetro de activación de control de distorsión, que está incluido en la representación de flujo de bits del contenido de audio, y para habilitar o deshabilitar el esquema de control de distorsión dependiendo del parámetro de activación del control de distorsión. Por consiguiente, un codificador de señal de audio, que proporciona la representación de flujo de bits del contenido de audio, puede ejecutar la activación del esquema de control de distorsión, o puede desactivar el esquema de control de distorsión. Por consiguiente, el codificador de la señal de audio que proporciona la representación de flujo de bits del contenido de audio puede imponer de manera selectiva que se aplique un esquema de control de distorsión apropiado por parte de un decodificador de señal de audio, que ayuda a evitar la insatisfacción del usuario por contenidos de audio que son críticos, de acuerdo con la evaluación del codificador de audio o el proveedor de contenido. El codificador de señal de audio puede proporcionar una limitación apropiada de
55 la configuración de los parámetros de representación en este caso. Por otra parte, el decodificador de audio puede deshabilitar selectivamente el esquema de control de distorsión, para proporcionar a un usuario la máxima flexibilidad con respecto a la configuración de parámetros de representación, para los contenidos de audio en los cuales dicha máxima flexibilidad conlleva una mayor satisfacción del usuario que la aplicación de un esquema de control de distorsión.
[00043] En una realización preferida, el limitador de parámetros está configurado para obtener un parámetro preconfigurado de activación de la matriz de representación, que se incluye en la representación de flujo de bits del contenido de audio. En este caso, el limitador de parámetros está configurado para ejecutar, en respuesta a un estado activo del parámetro pre-configurado de activación de la matriz de representación, que se utiliza una 65 información pre-configurada de la matriz de representación incluida en la representación de flujo de bits del contenido de audio, en vez de la información de la matriz de representación especificada por el usuario, para
imagen7
proporcionar la representación de la señal de mezcla ascendente sobre la base de la representación de la señal de mezcla descendente. Por consiguiente, el decodificador de la señal de audio puede lograr, en algunas situaciones, que la representación de la señal de mezcla ascendente se obtenga utilizando la información de la matriz de representación definida por el codificador de señal de audio, en vez del usuario. En consecuencia, el codificador de
5 la señal de audio tiene oportunidad de incluir la información pre-configurada de la matriz de representación en el flujo de bits y de activar el parámetro pre-configurado de activación de la matriz de representación (o bandera), indicando que la información pre-configurada de la matriz de representación deberá ser utilizada por el decodificador de la señal de audio. Por consiguiente, el decodificador de la señal de audio puede asegurar que un valor artístico del contenido de audio, que puede estar dado por una adecuada configuración de la matriz de representación de acuerdo con la información pre-configurada de la matriz de representación, se torne aparente para el usuario. Por consiguiente, se puede evitar la insatisfacción del usuario, que podría ocurrir en tales casos en los que únicamente una apropiada configuración de los parámetros de representación proporciona una buena impresión auditiva.
[00044] En una realización preferida, el limitador de parámetros está configurado para obtener un parámetro de
15 limitación de distorsión psicoacústica, que se incluye en la representación de flujo de bits del contenido de audio. En este caso, el limitador de distorsión está configurado para ajustar uno o varios parámetros de mezcla ascendente dependiendo de un modelo de distorsión psicoacústica, tal que una medida (que puede ser, por ejemplo, una estimación) de distorsiones causadas por la derivación de la representación de la señal de mezcla ascendente a partir de la representación de la señal de mezcla descendente es limitada. En este caso el limitador de distorsión está configurado para establecer uno o varios parámetros utilizados para ajustar el único o los varios parámetros de mezcla ascendente dependiendo de un modelo de distorsión psicoacústica (por ejemplo, un parámetro que describe cómo ajustar uno o varios parámetros de mezcla ascendente dependiendo de un valor de salida del modelo de distorsión psicoacústica), o uno o varios parámetros del modelo de distorsión psicoacústica, dependiendo del parámetro de limitación de distorsión psicoacústica. Por consiguiente, la utilización del modelo de distorsión
25 psicoacústica para una limitación apropiada de los parámetros de mezcla ascendente (por ejemplo, parámetros de representación) se pueden controlar del lado de un codificador de audio, que otra vez le brinda al codificador de audio la posibilidad de contribuir a evitar la distorsión significativa de la representación de la señal de mezcla ascendente.
[00045] En una realización preferida, el limitador de distorsión está configurado para obtener un parámetro de control de limitación de distorsión actualizado una vez por cada cuadro de audio, para obtener un esquema de control de distorsión variante en el tiempo. Este concepto trae aparejada la ventaja de que el esquema de control de distorsión se puede ajustar dinámicamente bajo el control de un codificador de señal de audio, que proporciona el único o los varios parámetros de control de limitación de distorsión dentro de la representación de flujo de bits del
35 contenido de audio, de forma tal que el codificador de audio puede seleccionar un esquema de control de distorsión estricto o relajado. De esta forma, el codificador de la señal de audio puede proporcionar al usuario la máxima flexibilidad posible, al ajustar el esquema de control de distorsión para que sea relajado al proporcionar los parámetros de control de limitación de distorsión apropiados dentro de la representación del flujo de bits del contenido de audio, para los pasajes menos críticos de un contenido de audio, y con menos flexibilidad, al ajustar el esquema de control de distorsión para que sea estricto al proporcionar los parámetros de control de limitación de distorsión apropiados, para los cuadros de audio más críticos. Así, se puede lograr una feliz transacción entre la flexibilidad del usuario y la impresión de audición mediante un control apropiado, que puede efectuarse desde el lado del codificador de audio mediante el uso del decodificador de audio señalado en la presente.
45 [00046] En una realización preferida, el limitador de distorsión está configurado para evaluar una bandera dinámica de actualización dentro de una sección de configuración de la representación del flujo de bits del contenido de audio. En este caso, el limitador de distorsión está configurado para evaluar la sección de configuración de la representación del flujo de bits del contenido de audio para obtener el parámetro de control de limitación de distorsión, si la bandera dinámica de actualización no está activa, y para evaluar porciones de cuadros de la representación del flujo de bits del contenido de audio para obtener repetidamente actualizaciones del parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está activa. Por consiguiente, el decodificador de audio se puede cambiar entre un modo estático, en el cual el único o los varios parámetros de control de limitación de distorsión se transfieren una sola ver por secuencia de cuadros de audio (secuencia a la cual se asocia, por ejemplo, una única porción común de configuración) y un modo de operación dinámico, en el cual el
55 único o los varios parámetros de control de limitación de distorsión se transmiten más frecuentemente o aún una vez por cuadro de audio. Esto permite la adaptación de la transmisión de los parámetros de control de limitación de distorsión, para obtener un bajo régimen de bits de los parámetros de control de limitación de distorsión si es innecesaria una variación temporal de los parámetros de control de limitación de distorsión y para obtener una buena resolución temporal de los parámetros de control de limitación de distorsión si esto es lo que se desea, por ejemplo, debido a las características de las señales del objeto de audio.
[00047] En una realización preferida, el limitador de distorsión está configurado para actualizar selectivamente el parámetro de limitación de control de distorsión dependiendo de una bandera que indica la presencia de un parámetro de control de limitación de distorsión en una sección de un cuadro de un contenido de audio, de modo tal 65 que se determinan dinámicamente intervalos de actualización (medidos, por ejemplo, en términos de cuadros de audio) para los parámetros de control de limitación de distorsión mediante la representación de flujo de bits del
imagen8
contenido de audio. Por consiguiente, en una sola pieza de información de audio que comprende cuadros de audio múltiples, se puede realizar una actualización de los parámetros de control de limitación de distorsión en momentos
o instancias irregulares (por ejemplo, con una cantidad irregular de cuadros de audio entremedio), que puede muy bien adaptarse a variaciones temporales irregulares de las señales del objeto de audio.
5 [00048] Una realización de acuerdo con la invención crea un aparato para proporcionar una representación de flujo de bits de una señal de audio de canales múltiples. El aparato comprende un mezclador de mezcla descendente configurado para proporcionar una señal de mezcla descendente sobre la base de una pluralidad de señales de objetos de audio. Además, el aparato comprende un proveedor de información lateral configurado para proporcionar una información lateral paramétrica relacionada con el objeto que describe las características de las señales del objeto de audio y parámetros de mezcla descendente, y uno o varios parámetros de control de limitación de distorsión para controlar la aplicación de un esquema de control de distorsión del lado de un aparato para proporcionar una representación de señal de mezcla ascendente. El aparato para proporcionar un flujo de bits también comprende un realizador de formatos configurado para proporcionar un flujo de bits que comprende una
15 representación de la señal de mezcla descendente, la información lateral paramétrica relacionada con el objeto y el único o los varios parámetros de control de limitación de distorsión.
[00049] Dicho aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples resulta muy adecuado para proporcionar una representación de flujo de bits del contenido de audio, que es utilizable por el aparato señalado anteriormente para proporcionar una representación de señal de mezcla ascendente. El aparato para proporcionar un flujo de bits permite la inclusión de los parámetros de control de limitación de distorsión en el flujo de bits, de modo que el esquema de control de distorsión del lado del decodificador se puede ajustar de acuerdo con las preferencias definidas del lado del codificador.
25 [00050] Para detalles y ventajas adicionales, se hace referencia a lo expuesto anteriormente acerca del aparato para proporcionar una representación de señal de mezcla ascendente. Otra realización de acuerdo con la invención crea un método para proporcionar una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto, que se incluyen en una representación de flujo de bits de un contenido de audio, y dependiendo de una información de representación.
[00051] Otra realización de acuerdo con la invención crea un método para proporcionar un flujo de bits que presenta una señal de audio de canales múltiples.
35 [00052] Otra realización de acuerdo con la invención crea un programa de computación para llevar a cabo uno de dichos métodos.
[00053] Los métodos y el programa de computación están basados en las mismas ideas clave que el aparato expuesto anteriormente.
[00054] Otra realización de acuerdo con la invención crea un flujo de bits que representa una señal de audio de canales múltiples. El flujo de bits comprende una representación de la señal de mezcla descendente que combina señales de audio de una pluralidad de objetos de audio y una información lateral paramétrica relacionada con el objeto que describe características de los objetos de audio. El flujo de bits también comprende uno o varios
45 parámetros de control de limitación de distorsión para controlar la aplicación de un esquema de control de distorsión del lado de un aparato para proporcionar una representación de señal de mezcla ascendente. Dicho flujo de bits es provisto generalmente por el aparato señalado anteriormente para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, y puede generalmente evaluarse mediante el aparato señalado anteriormente para proporcionar una representación de señal de mezcla ascendente. El flujo de bits permite un ajuste eficaz del esquema de control de distorsión.
Breve descripción de las figuras
[00055] Las realizaciones de acuerdo con la presente invención se describirán a continuación haciendo referencia a
55 las figuras adjuntas, en las cuales: Fig. 1 muestra un diagrama de bloques esquemático de un aparato para proporcionar una representación de señal de mezcla ascendente, de acuerdo con una realización de la invención; Fig. 2 muestra un diagrama de bloques esquemático de un aparato para proporcionar una representación de señal de mezcla ascendente, de acuerdo con otra realización de la invención; Fig. 3 muestra un diagrama de bloques esquemático de un aparato para proporcionar una representación de señal de mezcla ascendente, de acuerdo con otra realización de la invención; Fig. 4 muestra un diagrama de bloques esquemático de un control de distorsión SAOC con la señalización de flujo de bits de la invención; Fig. 5 muestra un diagrama de bloques esquemático de un aparato para proporcionar un flujo de bits que representa
65 una señal de audio de canales múltiples, de acuerdo con una realización de la invención;
imagen9
Fig. 6 muestra una representación esquemática de un flujo de bits que representa una señal de audio de canales múltiples, de acuerdo con una realización de la invención; Fig. 7 muestra un diagrama de bloques esquemático de un ejemplo de un control de distorsión SAOC; Fig. 8 muestra un diagrama de bloques esquemático de un sistema de referencia SAOC MPEG;
5 Fig. 9a muestra un diagrama de bloques esquemático de un sistema SAOC de referencia que utiliza un decodificador y un mezclador separados; Fig. 9b muestra un diagrama de bloque esquemático de un sistema SAOC de referencia que utiliza un decodificador y un mezclador integrados; y Fig. 9c muestra un diagrama de bloques esquemático de un sistema SAOC de referencia que utiliza un transcodificador SAOC-a-MPEG.
Descripción detallada de las realizaciones
1. Aparato para proporcionar una representación de señal de mezcla ascendente, de acuerdo con la Fig. 1
15 [00056] La Fig. 1 representa un diagrama de bloques esquemático de un aparato 100 para proporcionar una representación de señal de mezcla ascendente 120 sobre la base de una representación de señal de mezcla descendente 110 y una información paramétrica relacionada con el objeto 112 (que puede considerarse como información lateral). Ambas, la representación de la señal de mezcla descendente 110 y la información paramétrica relacionada con el objeto 112 pueden estar incluidas en la representación de flujo de bits del contenido de audio. El aparato 100 puede configurarse para proporcionar la representación de la señal de mezcla ascendente dependiendo de la información de representación 114, que se puede ingresar, por ejemplo, utilizando una interfaz del usuario. El aparato 100 puede recibir uno o varios parámetros de control de limitación de distorsión 116, que generalmente están incluidos en la representación del flujo de bits del contenido de audio.
25 [00057] El aparato 100 comprende un procesador de señal 130, que está configurado para proporcionar la representación de la señal de mezcla ascendente 120 dependiendo de la representación de la señal de mezcla descendente 110 y de la información paramétrica relacionada con el objeto 112, tomando en cuenta los parámetros de mezcla ascendente ajustados 132. El aparato 100 comprende un limitador de distorsión 140 configurado para obtener los parámetros de mezcla ascendente ajustados 132 utilizando un esquema de control de distorsión 142, para evitar o limitar las distorsiones audibles causadas por una inapropiada selección de los parámetros de representación de la información de representación 114. El limitador de distorsión 140 está configurado para obtener uno o varios parámetros de control de limitación de distorsión 116, que están incluidos en la representación de flujo de bits del contenido de audio, y para ajustar el esquema de control de distorsión dependiendo del único o de los
35 varios parámetros de control de limitación de distorsión 116.
[00058] A continuación, se expondrá con mayor detalle la funcionalidad del aparato 100. El procesador de la señal 130 proporciona la representación de la señal de mezcla ascendente 120. A tal efecto, se consideran la representación de la señal de mezcla descendente 110 y la información paramétrica relacionada con el objeto 112. Además, se realiza el intento en la mayoría de los casos (pero no necesariamente en todos los casos) de proporcionar una representación de la señal de mezcla ascendente 120 de acuerdo con la información de representación 114, que es proporcionada, por ejemplo, por un usuario mediante una interfaz del usuario. Sin embargo, si se ha de utilizar la información de representación 114 sin un esquema de control de distorsión, esto conduciría, ocasionalmente, a distorsiones audibles de la representación de la señal de mezcla ascendente 120, por
45 ejemplo, si el usuario selecciona configuraciones de representación extremas. A fin de evitar excesivas distorsiones audibles, el limitador de distorsión 140 proporciona parámetros de mezcla ascendente ajustados 132 (que pueden ser parámetros de representación u otros parámetros de mezcla ascendente) sobre la base de la información de representación 114 y utilizando un esquema de control de distorsión 142.
[00059] El esquema de control de distorsión 142 está adaptado para derivar los parámetros de mezcla ascendente ajustados 132 desde la información de representación 114 utilizando una regla de mapeo ajustable, que puede, por ejemplo, comprender un mapeo lineal, lineal definido a trozos o no lineal. El esquema de control de distorsión 142 se puede ajustar dependiendo de uno o varios parámetros de ajuste del esquema de control de distorsión mediante el limitador de distorsión 140. Con este fin, el limitador de control de distorsión 140 puede considerar el único o los
55 varios parámetros de control de limitación de distorsión 116, que están incluidos en la representación de flujo de bits del contenido de audio y que se extraen preferentemente de la representación de flujo de bits del contenido de audio utilizando un analizador sintáctico de flujo de bits que no se muestra en la Fig. 1 (el cual, no obstante, puede formar parte del aparato 100 en algunas realizaciones). El esquema de control de distorsión 142 (o la regla de mapeo que define el esquema de control de distorsión) puede, en algunas realizaciones, tomar en cuenta la información de la representación de la señal de mezcla descendente 110 y/o de la información paramétrica relacionada con el objeto 112 para obtener los parámetros de mezcla ascendente ajustados 132 dependiendo de la información de representación 114. Los parámetros de ajuste del esquema de control de distorsión, que se utilizan preferentemente para ajustar el esquema del control de distorsión, pueden, por ejemplo, comprender parámetros limitantes, parámetros de combinación lineal u otros parámetros funcionales que definen un mapeo de la información de
65 representación 114 sobre los parámetros de mezcla ascendente ajustados 132.
imagen10
[00060] En síntesis, el limitador de distorsión 140 proporciona los parámetros de mezcla ascendente ajustados 132 de modo tal que se evita una distorsión audible excesiva de la representación de la señal de mezcla ascendente 120, aún si la información de representación 140 se selecciona de manera inapropiada y daría por resultado, sin la aplicación del esquema de control de distorsión 142, una distorsión excesiva de la representación de la señal de
5 mezcla ascendente 120. Así, el limitador de distorsión, utilizando y ajustando el esquema de control de distorsión 142, ayuda a mejorar la impresión de audición. Al realizar el ajuste del esquema de control de distorsión 142 dependiendo del único o de los varios parámetros del control de limitación de distorsión 116, que se incluyen en la representación del flujo de bits del contenido de audio, se puede efectuar el control de la reducción de distorsiones del lado de un codificador de señales de audio que proporciona la representación de flujo de bits del contenido de audio.
2. Aparato para proporcionar una representación de la señal de mezcla ascendente, de acuerdo con la Fig. 2
[00061] A continuación, se describirá un aparato 200 para proporcionar la representación de una señal de mezcla
15 ascendente sobre la base de la representación de una señal de mezcla descendente y una información paramétrica relacionada con el objeto, que están incluidas en la representación del flujo de bits de un contenido de audio, y dependiendo de una información de representación, haciendo referencia a la Fig. 2, que muestra un diagrama en bloques esquemático de tal aparato 200.
[00062] Aquí cabe destacar que la información recibida por el aparato 200 en la Fig. 2 y la información proporcionada por el aparato 200 es similar a la información recibida y proporcionada por el aparato 100, de modo que se utilizan referencias numéricas idénticas para identificar información idéntica. Además, algunos de los medios del aparato 200 son idénticos a los medios del aparato 100, de forma tal que se utilizan referencias numéricas idénticas a lo largo de la descripción completa de tales medios idénticos o equivalentes.
25 [00063] El aparato está configurado para recibir la representación de la señal de mezcla descendente 110, una información paramétrica relacionada con el objeto 112, una información de representación 114, y uno o varios parámetros de control de limitación de distorsión 116. Además, el aparato 200 está configurado para proporcionar una representación de la señal de mezcla ascendente 120 utilizando, por ejemplo, un procesador de la señal 130.
[00064] El aparato 200 comprende un limitador de distorsión 240 que utiliza un esquema de control de distorsión
242. El esquema de control de distorsión 242 comprende un calculador/estimador de distorsión 242a y un modificador de información de representación 242b. El calculador/estimador de distorsión 242a está configurado, por ejemplo, para recibir al menos una parte de la representación de la señal de mezcla descendente 110 y al menos
35 una parte de la información paramétrica relacionada con el objeto 112 y la información de representación 114. El calculador/estimador de distorsión 242a está configurado para calcular o estimar una medida de distorsiones, que se introduciría en la representación de la señal de mezcla ascendente 120 al aplicar la información de representación 114 a la representación de la señal de mezcla descendente 110, tomando en consideración la información paramétrica relacionada con el objeto 112. El modificador de información de representación 242b está configurado para proporcionar los parámetros de representación ajustados 132 sobre la base de la información de representación 114, tomando en consideración la información de distorsión calculada o estimada proporcionada por el calculador/estimador de distorsión 242a, de forma tal que los parámetros de representación ajustados 132 dan por resultado una distorsión reducida, en comparación con los parámetros de representación originales 114, cuando los aplica el procesador de la señal 130 para obtener la representación de la señal de mezcla ascendente 120.
45 [00065] Sin embargo, el modificador de información de representación 242b puede tomar en consideración un parámetro de ajuste de esquema de control de distorsión, proporcionado por el limitador de distorsión 240 dependiendo del parámetro de control de limitación de distorsión 116, y el cual afecta la provisión de los parámetros de representación ajustados 132.
[00066] Por ejemplo, el parámetro de ajuste del esquema de control de distorsión (que se obtiene sobre la base del parámetro de control de limitación de distorsión 116, o que aún es idéntico al parámetro de control de limitación de distorsión 116), puede, por ejemplo, definir cómo se calcula o se estima la medida de la distorsión mediante el calculador/estimador de distorsión 242a. Por ejemplo, dicho parámetro de ajuste del esquema de control de
55 distorsión puede definir cómo diferentes distorsiones se pesan de forma absoluta, o una con respecto a la otra, para obtener un valor de distorsión calculado o estimado. Alternativamente, o además, el parámetro de ajuste del esquema de control de distorsión puede determinar cómo la medida de distorsión obtenida por el calculador/estimador de distorsión 242a afecta la provisión de los parámetros de representación ajustados 132 sobre la base de la información de representación 114.
[00067] En algunas realizaciones, el calculador/estimador de distorsión 242a y el modificador de información de representación 242b también pueden combinarse, de modo tal que los parámetros de representación ajustados 132 se proporcionan de forma tal que los parámetros de representación ajustados 132 conllevan un cierto (limitado) grado de distorsión de la representación de la señal de mezcla ascendente 120, en donde este grado de distorsión
65 de la representación de la señal de mezcla ascendente 120 puede verse afectado (o ajustado) por el parámetro de ajuste del esquema de control de distorsión.
imagen11
3. Aparato para proporcionar una representación de la señal de mezcla ascendente, de acuerdo con la Fig. 3
[00068] A continuación, se describirá un aparato 300 para proporcionar la representación de una señal de mezcla
5 ascendente 120 sobre la base de la representación de una señal de mezcla descendente 110 y una información paramétrica relacionada con el objeto 112, que están incluidas en la representación de flujo de bits de un contenido de audio, y dependiendo de una información de representación 114, haciendo referencia a la Fig. 3. Cabe destacar aquí que los números de referencia idénticos designan la información, medios y funcionalidades idénticos o equivalentes en la exposición de las realizaciones en la presente.
[00069] El aparato 300 comprende un limitador de distorsión 340, que está configurado para utilizar un esquema de control de distorsión 342, y para proporcionar parámetros de mezcla ascendente ajustados 132 dependiendo de la información de representación 114 y también dependiendo del parámetro de control de limitación de distorsión 116.
15 [00070] El esquema de control de distorsión 342 comprende un limitador de información de representación 342a que está configurado para limitar un rango de valores numéricos de la información de representación 114 para obtener los parámetros de representación ajustados 132. La limitación de los valores de la información de representación 114 se puede realizar dependiendo de un parámetro de ajuste del esquema de control de distorsión, que se obtiene mediante el limitador de distorsión 340 dependiendo del parámetro de control de limitación de distorsión 116, o el cual es aún idéntico al parámetro de control de limitación de distorsión 116. El esquema de control de distorsión 342 puede comprender opcionalmente un calculador del valor de referencia 342b que puede estar configurado para proporcionar un valor de limitación de referencia dependiendo de la información paramétrica relacionada con el objeto 112 y, preferentemente pero no necesariamente, dependiendo también del parámetro de ajuste del esquema de control de distorsión que se deriva de un parámetro de control de limitación de distorsión 116, o es idéntico a
25 éste. Por consiguiente, el limitador de información de representación 342 opcionalmente puede considerar el valor de limitación de referencia proporcionado por el calculador del valor de referencia 342b cuando limita el rango de valores numéricos de la información de representación en el proceso de obtención de los parámetros de representación ajustados 132.
[00071] Por consiguiente, el limitador de distorsión 340 puede implementar una limitación ajustable del rango de valores numéricos de la información de representación 114, como para derivar los parámetros de representación ajustados 132 a partir de los valores de la información de representación 114, la cual puede ser una información de representación especificada por el usuario. La limitación ajustable se puede ajustar dependiendo del único o de los varios parámetros de control de limitación de distorsión 116 en donde los parámetros de control de limitación de
35 distorsión 116 pueden determinar uno o varios parámetros diferentes de la limitación ajustable (por ejemplo, un valor mínimo, un valor máximo, un desvío admitido de un valor de referencia, un modo de cálculo de valor de referencia, etc.).
4. Control de distorsión SAOC con la señalización de flujo de bits de la invención
4.1. Visión general de la arquitectura
[00072] A continuación se presentará el concepto de control de distorsión SAOC con la señalización de flujo de bits de la invención con referencia a la Fig. 4, que muestra un diagrama de bloques esquemático de un sistema de
45 control de distorsión SAOC 400.
[00073] El sistema de control de distorsión SAOC 400 comprende un codificador SAOC 410 y un decodificador/transcodificador SAOC 420.
[00074] El codificador SAOC 410 está configurado para recibir una pluralidad de señales de objetos de audio 412a a 412N y para proporcionar, en base a ésta, una señal de mezcla descendente 414. La señal de mezcla descendente 414 puede, por ejemplo, ser equivalente a la representación de la señal de mezcla descendente 110, y puede ser una señal de 1 canal o una señal de múltiples canales, tal como, por ejemplo, una señal de 2 canales.
55 [00075] El codificador SAOC 410 también está configurado para proporcionar una información paramétrica relacionada con el objeto 416, que comprende por ejemplo, parámetros SAOC. Los parámetros SAOC pueden, por ejemplo, describir características de las señales del objeto de audio 412a a 412N. Por ejemplo, los parámetros SAOC pueden describir diferencias de niveles de objetos (OLD) de los objetos de audio representados por las señales de objeto de audio 412a a 412N. Asimismo, los parámetros SAOC pueden describir una correlación interobjeto IOC de los objetos de audio representados por las señales de objeto de audio 412a a 412N. Asimismo, los parámetros SAOC pueden caracterizar la mezcla descendente, que se realiza para derivar la señal de mezcla descendente 414 al combinar linealmente las señales de los objetos de audio 412a a 412N. Por ejemplo, los parámetros SAOC pueden describir una ganancia de mezcla descendente DMG y diferencias de nivel de canal de mezcla descendente DCLD. Los parámetros SAOC 416 pueden, por ejemplo, ser equivalentes a la información
65 paramétrica relacionada con el objeto 112.
imagen12
[00076] El decodificador SAOC 410 también puede proporcionar uno o varios parámetros del limitador de distorsión 418, que pueden considerarse como uno o varios parámetros de control de limitación de distorsión y que pueden ser equivalentes a los parámetros de control de limitación de distorsión 116.
5 [00077] La representación de la señal de mezcla descendente 414, los parámetros SAOC 416 y los parámetros del limitador de distorsión 418 se transmiten desde el codificador SAOC 410 al decodificador SAOC y/o transcodificador SAOC 420.
[00078] Generalmente, la representación de la señal de mezcla descendente 414 (preferentemente en forma codificada), los parámetros SAOC 416 (generalmente en forma codificada) y los parámetros del limitador de distorsión 418 (generalmente en forma codificada) están todos incluidos en la representación del flujo de bits del contenido de audio. En otras palabras, el codificador SAOC 410 proporciona un flujo de bits que incluye los parámetros 414, 416, 418.
15 [00079] El decodificador SAOC o el transcodificador SAOC o el decodificador/transcodificador SAOC 420 recibe la representación de la señal de mezcla descendente 414, los parámetros SAOC 416 y el único o los varios parámetros del limitador de distorsión 418. El decodificador/transcodificador SAOC 420 puede, por ejemplo, realizar la funcionalidad del decodificador SAOC 820 de acuerdo con la Fig. 8, del decodificador SAOC 920 de acuerdo con la Fig. 9a, del decodificador y mezclador integrados 950 de acuerdo con la Fig. 9b, o del transcodificador SAOC-a-MPEG Surround 980 de la Fig. 9c.
[00080] Sin embargo, además de los decodificadores o transcodificadores SAOC mencionados, el decodificador/transcodificador SAOC 420 comprende un limitador de distorsión 422, que está configurado para recibir y evaluar el único o los varios parámetros del limitador de distorsión 418. Más aún, el
25 decodificador/transcodificador SAOC 420 puede estar configurado para recibir también una información de interacción/control 424 que representa, por ejemplo, la selección de parámetros de representación por parte de un usuario. En consecuencia, el decodificador/transcodificador SAOC 420 está configurado para proporcionar una representación de la señal de mezcla ascendente, por ejemplo, en la forma de una pluralidad de canales de señales de audio decodificadas 428a a 428M.
[00081] El decodificador/transcodificador 420 SAOC está configurado para aplicar factores de ganancia o parámetros de representación para derivar la representación de la señal de mezcla ascendente 428a a 428M desde la señal de mezcla descendente 414. Por ejemplo, el decodificador/transcodificador 420 SAOC puede estar configurado para multiplicar componentes de señales (por ejemplo, valores del dominio espectral) que representan a 35 la señal de mezcla descendente 414 (que puede ser una señal de mezcla descendente de 1 canal o una señal de mezcla descendente de 2 canales) con una pluralidad de correspondientes valores de ganancia (por ejemplo, una matriz de valores de ganancia) para derivar las señales del canal de audio 428a a 428M desde la representación de la señal de mezcla descendente. Por ejemplo, se puede formar una combinación lineal de dos o más canales de la representación de la señal de mezcla descendente 414 para obtener una representación de una de las señales de canales de audio 428a a 428M. Por otra parte, o además, se puede aplicar un conjunto de parámetros de representación para mapear una representación de una o varias señales de mezcla descendente 414 en las señales de canales de audio 428a a 428M. En este caso, los parámetros de representación se pueden utilizar para computar la regla de mapeo para mapear la representación de una o varias señales de representación descendente 414 en las señales de canales de audio 428a a 428M. Por ejemplo, los parámetros de representación pueden servir como
45 factores lineales cuando se determina dicha regla de mapeo. Sin embargo, una aplicación diferente de los parámetros de representación puede resultar también posible en algunas realizaciones.
4.2. Técnicas de limitación de distorsión
[00082] A continuación, se describirán algunas técnicas para la limitación de distorsión, que pueden aplicarse en el decodificador/transcodificador SAOC 420 y también en los decodificadores o transcodificadores SAOC 100, 200,
300.
[00083] La limitación de distorsión puede lograrse al limitar el rango del valor de algunos de los parámetros en el
55 sistema de decodificador/transcodificador SAOC. Aquí, los parámetros se refieren a coeficientes, factores de ganancia o elementos matriciales en el sistema que no representan directamente muestras de audio pero que sí afectan las muestras de salida de audio mediante un esquema matemático en el sistema SAOC.
[00084] Puede resultar especialmente interesante aplicar la limitación en los parámetros de transcodificación (es decir, los elementos individuales en la matriz de transcodificación). Esto resulta eficaz desde el punto de vista computacional debido a que la matriz de transcodificación no crece con el número de objetos. La matriz de transcodificación puede describir el mapeo de señales de canales de audio de la representación de la señal de mezcla descendente en señales de canales de audio de la representación de la señal de mezcla ascendente.
65 [00085] El limitador de distorsión en el decodificador/transcodificador SAOC, que se muestra, por ejemplo, en las Fig. 2 y 7, realiza su limitación del rango de parámetros sobre la base de una o varias constantes de limitación de
imagen13
imagen14
imagen15
[00087] Aquí, p’ se define como el nuevo parámetro limitado (para reemplazar p). Ambos, p, p’ y q están expresados 15 aquí como valores (decibel) logarítmicos.
[00088] Cabe destacar aquí que el valor p’ puede, por ejemplo, representar los parámetros ajustados de mezcla ascendente 132, y que los valores p pueden obtenerse dependiendo de la información de representación. La limitación del rango de los valores p’ puede, por ejemplo, realizarse mediante el esquema de control de distorsión, y el limitador de distorsión 140 y puede ajustar el parámetro q (que puede considerarse como un parámetro de ajuste del esquema de control de distorsión) dependiendo del parámetro de control de limitación de distorsión 116. La regla anterior para obtener p’ se pude considerar como un esquema ajustable de control de distorsión, que se ajusta dependiendo del parámetro de ajuste del esquema de control de distorsión q.
25 [00089] Un abordaje más avanzado consiste en permitir que la constante de limitación de ganancia, q defina la máxima desviación permitida desde otro nivel de referencia para el parámetro. Este nivel de referencia podría, por ejemplo, derivarse de una versión suavizada/filtrada/promediada (suavizada/filtrada/promediada a lo largo del eje del tiempo) de la secuencia del parámetro (como está actualizada, por ejemplo, una o varias veces cada cuadro SAOC). Entonces, la limitación se pude definir de acuerdo con:
35
[00090] Aquí, p’’ se define como el nuevo parámetro limitado más avanzado (para reemplazar p), y r se define como la versión suavizada/filtrada/promediada (suavizada/filtrada/promediada a lo largo del eje del tiempo) de la secuencia del parámetro de p. Tanto p, p’’, r y q se expresan aquí como valores (decibel) logarítmicos.
[00091] Por ejemplo, el valor p’’ puede representar el único o los varios parámetros ajustados 132 (por ejemplo, parámetros transcodificados ajustados o parámetros de representación ajustados). El valor p se puede obtener, por ejemplo, dependiendo de la información de representación 114 y opcionalmente, otra información, tal como, por ejemplo, la información de la representación de la señal de mezcla descendente 110 o la información de la
45 información paramétrica relacionada con el objeto 112.
[00092] La limitación de los valores de p, para obtener p’’, se puede realizar mediante el esquema de control de distorsión, y el parámetro q se puede ajustar mediante el limitador de distorsión 140 dependiendo del parámetro de control de limitación de distorsión 116. Además, una constante de tiempo que suaviza/filtra/promedia, que se utiliza para obtener r mediante el suavizado de los valores de p, también se puede ajustar mediante el limitador de distorsión 140 dependiendo de uno o varios de los parámetros de control de limitación de distorsión.
[00093] Otro método de limitación opera únicamente sobre la matriz de representación. La matriz de representación es una interfaz de entrada (o cantidad de entrada) al decodificador/transcodificador SAOC. Por lo tanto, este método
55 no requiere modificación alguna dentro del sistema decodificador/transcodificador SAOC.
[00094] Un simple método de limitación limita el rango (establece valores mínimos y máximos) de los elementos de la matriz de representación.
[00095] Un método de limitación alternativo limita las modificaciones de los elementos de la matriz de representación en relación con una referencia de la matriz de representación. La referencia de la matriz de representación puede ser, por ejemplo, la matriz de representación que da por resultado una mezcla descendente sin alteraciones como una salida. Por ejemplo, un parámetro de limitación, q = 10 dB evita que los elementos de la matriz de representación se desvíen de cierto valor de referencia (o de valores de referencia individuales) más de
65 ±10 dB (es decir, no menos que un factor 10˄(-10/20), no más que un factor 10˄(10/20)).
imagen16
[00096] El rango de los parámetros (elementos matriciales) en la matriz de representación puede ser fácilmente diferente para los objetos individuales, dado que ellos están bien aislados en la matriz de representación. Por ejemplo, se podrían permitir los siguientes rangos limitados:
5 -objeto batería: ±3 dB -objeto bajo: ±10 dB -objeto Mellotrón: ±6 dB -objeto guitarra 1: ±3 dB -objeto guitarra 2: ±3 dB
10 -objeto vocal: ±0 dB -objeto flauta: ±12 dB
[00097] En otras palabras, se puede ajustar (configurar) individualmente un rango de ajuste para parámetros de representación individuales, es decir, de manera individual respecto al objeto. Los rangos de variación individuales
15 con respecto al objeto se pueden obtener de una pluralidad de parámetros de control de limitación de distorsión 116 que se incluyen en la representación de flujo de bits del contenido de audio y que se extraen de dicha representación de flujo de bits del contenido de audio mediante un analizador sintáctico de flujo de bits. Por consiguiente, el codificador de audio puede enviar eficazmente al decodificador de audio (por ejemplo, el aparato 100, 200, 300, 420) una información acerca de los rangos de ajuste individuales respecto al objeto. La provisión de
20 los rangos de ajuste individuales respecto al objeto del lado del codificador conlleva particulares ventajas debido al hecho de que se conocen con mucha exactitud los tipos de objeto del lado del codificador, de modo que el codificador está óptimamente adecuado para proporcionar información confiable sobre los rangos de ajuste admitidos.
25 [00098] A continuación se expondrá con mayor detalle el abordaje de limitación flexible de la invención.
[00099] Para superar las limitaciones de los conceptos convencionales, la presente invención propone utilizar información que guíe el esquema de control de distorsión para un desempeño óptimo en cada situación. Esta información (es decir, información para ajustar el esquema de control de distorsión, por ejemplo, parámetros de
30 control de limitación de distorsión) se pueden configurar del lado del codificador SAOC y se entregan en el flujo de bits SAOC para estar disponibles más tarde para el esquema de control de distorsión en el decodificador/transcodificador SAOC. Esto se ilustra en la Fig. 4 (y también puede verse en las Fig. 1, 2 y 3).
[000100] La información transmitida (“parámetros etiquetados del limitador de distorsión” en la Fig. 4 y designados 35 como parámetros de control de limitación de distorsión 116) pueden incluir información sobre:
-Valores de limitación de parámetros:
• por ejemplo, la constante de limitación de ganancia, q que se ha explicado en los ejemplos anteriores;
40 • por ejemplo, un rango limitante o rangos limitantes (por ejemplo, valores mínimos y máximos) de los elementos de la matriz de representación;
• por ejemplo, un rango limitante o rangos limitantes de los elementos de la matriz de representación en relación con una referencia de la matriz de representación (por ejemplo, la matriz de representación que da por resultado una mezcla descendente inalterada como salida);
45 • por ejemplo, una constante de tiempo para un filtro suavizante que se utiliza para derivar el nivel de referencia del parámetro (a limitar) de una versión suavizada/filtrada/promediada del parámetro;
-Casos especiales de limitación:
50 • modificaciones no permitidas en absoluto (inhabilitación temporal de la funcionalidad de representación del sistema SAOC);
solamente se permiten configuraciones previas de la matriz de representación (leídas del flujo de bits);
sin limitaciones (inhabilitación temporaria del limitador de distorsión del sistema SAOC);
• se discute en algún control de distorsión cualquier parámetro de limitación de control de distorsión de un modelo de 55 distorsión psicoacústica.
[000101] Para resumir lo anterior, una constante de limitación de ganancia q, que se utiliza para limitar un rango numérico de uno o varios factores de ganancia o uno o varios elementos de la matriz de representación se pueden extraer del flujo de bits del sistema SAOC.
60 [000102] Por otra parte, o además, uno o varios parámetros que limitan un rango de un elemento de la matriz de representación, o limitan los rangos de los elementos de la matriz de representación (por ejemplo, en una forma individual con respecto al objeto) se pueden extraer del flujo de bits del sistema SAOC.
imagen17
[000103] Por otra parte, o además, uno o varios parámetros que limitan un rango de un elemento de la matriz de representación en relación con una referencia de la matriz de representación o limitan los rangos de elementos de la matriz de representación en relación con una referencia de la matriz de representación se pueden extraer del flujo de bits del sistema SAOC.
5 [000104] Por otra parte, o además, una constante de tiempo para un filtro de suavizado que se utiliza para derivar el nivel de referencia del parámetro a limitar se puede extraer del flujo de bits del sistema SAOC.
[000105] En algunos casos, el flujo de bits puede comprender un parámetro o bandera que indica que la funcionalidad de representación del sistema SAOC debe inhabilitarse.
[000106] Por otra parte, o además, el flujo de bits del sistema SAOC puede comprender un parámetro o bandera que indica que una matriz de representación previamente configurada, que se describe mediante el flujo de bits SAOC, o una de una pluralidad de matrices de representación previamente configuradas descritas mediante el flujo
15 de bits, deberá utilizarse para proporcionar la representación de la señal de mezcla ascendente, en vez de una matriz de representación proporcionada por el usuario ingresada mediante una interfaz del usuario. Por consiguiente, la libertad del usuario para configurar una matriz de representación definida por el usuario se puede inhabilitar temporalmente mediante el decodificador/transcodificador de audio, si el decodificador/transcodificador de audio identifica esta condición sobre la base de un parámetro del flujo de bits o una bandera en el flujo de bits.
[000107] Por otra parte, o además, el flujo de bits SAOC puede comprender una bandera o parámetro que indica que el limitador de distorsión SAOC debe ser temporalmente inhabilitado, de forma tal que no existen límites de distorsión.
25 [000108] Por otra parte, o además, el flujo de bits SAOC puede comprender un parámetro para ajustar la limitación de distorsión sobre la base de un modelo de medida de distorsión psicoacústica. Así, el limitador de distorsión puede ajustar un esquema de control de distorsión, que está basado sobre un modelo de distorsión psicoacústica, dependiendo de un parámetro extraído del flujo de bits SAOC. Por ejemplo, el limitador de distorsión puede ajustar cualquiera de los esquemas de limitación de distorsión descritos en la Patente Internacional PTC/EP 2010/055717 (y también en la Patente estadounidense US 61/173.456) dependiendo de un parámetro de control de limitación de distorsión extraído del flujo de bits SAOC.
4.3. Ventajas del enfoque de limitación flexible
35 [000109] La señalización de la información del esquema de control de distorsión del sistema SAOC de la invención, que se ha descrito en detalle anteriormente, puede resolver potencialmente todas las limitaciones de los enfoques convencionales para el control de distorsión.
[000110] Cabe destacar que existen limitaciones de los enfoques convencionales de control de distorsión debidas a la falta de flexibilidad, que se pueden superar en las realizaciones de acuerdo con la invención. Algunas de estas limitaciones, que se pueden superar utilizando las realizaciones de la invención son: -Los parámetros de control de distorsión en el control convencional de distorsión no se adaptan para resultar óptimos en cada situación. Se ha descubierto que el seleccionar parámetros de control de distorsión óptimos (desde el punto de vista de la
45 calidad de audio/calidad de servicio) depende a menudo de, por ejemplo:
tipo de contenido: voz, música (rock/clásica), banda de sonido de películas, etc.
propiedades de señal de bajo nivel: transitorias, estructura harmónica-a-ruido, pendiente espectral, estructura fina dinámica (poder envolvente rápido/lento), etc.
propiedades SAOC: cantidad de objetos controlables presentes en la mezcla descendente, grado de separación/superposición del objeto en tiempo/frecuencia/canal de mezcla descendente, etc.
propiedades del sistema: tipo de códec de mezcla descendente (mp3, AAC, PCM, etc.) y régimen de bits (que indican la calidad general de audio y distorsión en la mezcla descendente), presencia de partes codificadas paramétricamente en la mezcla descendente (por ejemplo, SBR, como se incluye en HE-AAC, ver referencias [SBR1], [SBR2], o estéreo paramétrico, como se describe en la referencia [PS]), configuración de canal (mono,
55 estéreo, canales múltiples), ancho de banda de audio, velocidad de muestreo, etc. -Los parámetros de control de distorsión son inexactos debido a que los objetos de audio originales no están normalmente disponibles en el lado del decodificador SAOC.
[000111] Se ha descubierto que el extraer los parámetros de control de distorsión se puede beneficiar del análisis de los objetos de audio originales (discretos) ya que son limpios/sin distorsión y no están descompuestos paramétricamente desde la mezcla descendente. Estos objetos originales no están normalmente disponibles del lado del decodificador SAOC. -Un codificador de audio convencional no tiene posibilidades de asegurar la calidad de representación del lado del decodificador.
65 [000112] Se ha descubierto que para algunas aplicaciones SAOC, es deseable configurar un mínimo nivel de calidad desde el lado del codificador. Se ha descubierto que entonces es deseable que este mínimo nivel de calidad se alcance independientemente de la interacción del usuario (selección de matriz de representación y configuración de reproducción) del lado del decodificador. Si bien algún control de distorsión apunta a un nivel de calidad
imagen18
5 constante configurado en el lado del decodificador SAOC, es deseable tener diferentes niveles de calidad para diferentes servicios (por ejemplo, teleconferencia, descarga de música de alta calidad, aplicaciones de transmisión) debido a, por ejemplo, integridad del artista, reputación/perfil del proveedor del servicio, expectativas de habilidades del usuario (nivel de funcionalidad de la interfaz del usuario contra la facilidad del uso).
[000113] La señalización de la información del esquema de control de distorsión SAOC de la invención (por ejemplo, desde un codificador de audio a un decodificador de audio mediante un flujo de bits) potencialmente puede resolver todas las limitaciones mencionadas anteriormente. Por ejemplo, el decodificador SAOC puede utilizar diferentes configuraciones de limitación de distorsión (las diferentes configuraciones limitadoras de calidad/funcionalidad descritas, por ejemplo mediante el parámetro de control de limitación de distorsión 116 o los parámetros del limitador
15 de distorsión 418) para, por ejemplo, aplicaciones de teleconferencia, aplicaciones para control de diálogo (en libros de audio o transmisiones), aplicaciones para mezclar música (“música 2.0”).
[000114] La presente invención proporciona tanto funcionalidad como desempeño mejorados al utilizar señalización en el flujo de bits para guiar el proceso de control de distorsión.
5. Ejemplo de referencia
[000115] A continuación, se describirá un ejemplo de referencia del control de distorsión SAOC tomando como referencia la Fig. 7, el cual no brinda la totalidad de las ventajas de la invención. El sistema 700 de acuerdo con la
25 Fig. 7 comprende un codificador SAOC 710 y un decodificador/transcodificador SAOC 720. El codificador SAOC 710 recibe una pluralidad de señales de objetos de audio 712a a 712N y proporciona, sobre la base de éstas, una señal de mezcla descendente 714 y los parámetros SAOC 718. El decodificador/transcodificador SAOC 720 recibe la señal de mezcla descendente 714 (que será una señal de 1 canal o una señal de canales múltiples) y los parámetros SAOC 718 desde el codificador SAOC 710. El decodificador/transcodificador SAOC 720 proporciona, sobre la base de éstos, una pluralidad de canales de señales de audio 728a a 728M. A tal fin, el decodificador/transcodificador SAOC 720 puede utilizar un limitador de distorsión 722 y puede considerar una información de interacción o una información de control 724 recibida, por ejemplo, desde una interfaz del usuario.
[000116] Sin embargo, el sistema 700 de acuerdo con la Fig. 7 generalmente trae aparejadas distorsiones audibles 35 en algunos casos.
6. Aparato para proporcionar un flujo de bits representativa de una señal de audio de canales múltiples, de acuerdo con la Fig. 5
[000117] A continuación, se describirá un aparato para proporcionar una representación de flujo de bits de una señal de audio de canales múltiples tomando como referencia la Fig. 5, que muestra una un diagrama de bloques esquemático de dicho aparato 500.
[000118] El aparato 500 está configurado para recibir una pluralidad de señales de objetos de audio 510a a 510N.
45 Además, el aparato 500 está configurado para proporcionar un flujo de bits 520 que representa la señal de audio de canales múltiples.
[000119] El aparato 500 comprende un mezclador de mezcla descendente 530, configurado para proporcionar una señal de mezcla descendente 532 sobre la base de la pluralidad de objetos de señales de audio 510a a 510N. El aparato 500 también comprende un proveedor de información lateral 540, que está configurado para proporcionar una información paramétrica relacionada con el objeto 542 que describe las características de la señales de audio del objeto 510a a 510N y los parámetros de mezcla descendente aplicados por el mezclador de mezcla descendente
530. El proveedor de información lateral está configurado para proporcionar además uno o varios parámetros de control de limitación de distorsión 544 para controlar la aplicación del esquema de control de distorsión del lado de
55 un aparato para proporcionar una representación de señal de mezcla ascendente. El aparato 500 también comprende un realizador de formatos de flujo de bits 550, que está configurado para proporcionar el flujo de bits 520 que comprende una representación de la señal de mezcla descendente 532, la información lateral paramétrica relacionada con el objeto 542 y el único o los varios parámetros de control de limitación de distorsión 544.
[000120] Por consiguiente, el aparato 500 proporciona un flujo de bits 520 que comprende la información necesaria para ajustar el esquema de control de distorsión 142, 242, 342, en el aparato 100, 200, 300 y el limitador de distorsión 422 en el aparato 420.
[000121] El proveedor de información lateral 540 puede estar configurado para proporcionar el parámetro de control
65 de limitación de distorsión 544 dependiendo de las propiedades del objeto de audio de las señales de objetos de audio 510a a 510N. Por ejemplo, el proveedor de información lateral puede proporcionar el parámetro de control de
imagen19
limitación de distorsión 544 dependiendo de la información del tipo de contenido obtenida sobre la base de las señales de objetos de audio 510a a 510N, o proporcionarlo utilizando una información lateral (por ejemplo, ingresada mediante una interfaz del usuario). [000122] Por otra parte, o además, el proveedor de información lateral 540 puede proporcionar los parámetros de
5 control de limitación de distorsión dependiendo de las propiedades de bajo nivel, por ejemplo, información sobre transitorias, información sobre estructura harmónica-a-ruido, información sobre pendiente espectral, información sobre estructura fina dinámica, etc., de una o varias de las señales de objetos de audio 510a a 510N.
[000123] Por otra parte, o además, el proveedor de información lateral 540 puede proporcionar los parámetros de control de limitación de distorsión dependiendo de las propiedades SAOC, tales como una cantidad de objetos controlables presentes en la señal de mezcla descendente 532, o dependiendo de la presencia de partes paramétricas codificadas en la mezcla descendente, o dependiendo de una configuración de canal, o dependiendo de un ancho de banda o dependiendo de una velocidad de muestreo.
15 [000124] El proveedor de información lateral 540 se puede beneficiar del análisis de los objetos de audio originales (“discretos”) (o de las señales de objetos de audio 510a a 510N) a fin de proporcionar los parámetros de control de limitación de distorsión 544. El proveedor de información lateral 540 puede, por ejemplo, ajustar los parámetros de control de limitación de distorsión para configurar de forma variable un mínimo nivel de calidad de la representación de una señal de audio representada por el flujo de bits 520.
[000125] En síntesis, el aparato 500 para proporcionar una representación de flujo de bits de una señal de audio de canales múltiples puede proporcionar un flujo de bits 520 de modo que el flujo de bits 520 comprende uno o varios parámetros de control de limitación de distorsión 544 y en consecuencia permite el ajuste de la calidad de representación. A tal fin, se pueden tomar en consideración las características de las señales de objetos de audio
25 510a a 510N, y también se pueden tomar en cuenta para configurar los parámetros de control de limitación de distorsión 544 la información lateral adicional o la información ingresada por el usuario desde la interfaz del usuario.
7. Flujo de bits
[000126] A continuación se describirá un flujo de bits que representa una señal de audio de canales múltiples.
[000127] El flujo de bits 600 comprende una representación 610 de una señal de mezcla descendente (por ejemplo, de la señal de mezcla descendente 532, que puede ser equivalente a la representación de la señal de mezcla descendente 110, 414). El flujo de bits 600 comprende además una información lateral paramétrica relacionada con
35 el objeto 620, que puede ser una información lateral SAOC. La información lateral paramétrica relacionada con el objeto 620 puede comprender, por ejemplo, una información de diferencia de nivel del objeto 622, una información de correlación inter-objeto 624, una información de ganancia de mezcla descendente 626 y una información de diferencia de nivel del canal de mezcla descendente 628, cuya información lateral es bien conocida desde el campo de la codificación de objetos de audio espacial (SAOC). El flujo de bits además comprende uno o varios parámetros de control de limitación de distorsión 630, como se describió anteriormente.
[000128] Cabe destacar que la información del esquema de control de distorsión de la invención (es decir, los parámetros de control de limitación de distorsión 630, 116, 418) se pueden transportar en la cabecera del flujo de bits SAOC (por ejemplo, en una sección de configuración específica SAOC del flujo de bits SAOC, que se denomina
45 “SAOCSpecificConfig()”) para un encabezado de velocidad de datos mínima. Sin embargo, la información del esquema de control de distorsión de la invención también se puede transportar en la información de carga útil (por ejemplo, en los cuadros de datos SAOC, que generalmente se denominan “SAOCFrame()”) para posibilitar una señalización variante en el tiempo (por ejemplo, control de adaptación de señal). Por lo general, pero no necesariamente, un buen lugar para colocar la información del esquema de control de distorsión puede ser utilizar el mecanismo de extensión del flujo de bits SAOC: en algunas realizaciones, la información del esquema de control de distorsión (o al menos una parte de la información del esquema de control de distorsión) se puede colocar en las secciones de sintaxis denominadas “SAOCExtensionConfig()” y “SAOCExtensionFrame()” para el caso de la cabecera y la carga útil , respectivamente.
55 [000129] En otras palabras, en algunas realizaciones, la información del esquema de control de distorsión se puede incluir en la cabecera SAOC, que generalmente se incluye en el flujo de bits una ver por pieza de audio. Por otra parte, o además, la información del esquema de control de distorsión se puede incluir en la información de los cuadros del flujo de bits SAOC. Por consiguiente, la información del esquema de control de distorsión se puede transmitir una vez por cuadro de audio. Una bandera en la cabecera SAOC, que comprende la configuración SAOC, puede indicar cuál de las dos soluciones se aplica (información del esquema de control de distorsión únicamente en la cabecera o información del esquema de control de distorsión dentro de la información de los cuadros de audio).
[000130] Además, en algunas realizaciones, la información del esquema de control de distorsión se puede incluir únicamente en algunos de los cuadros de audio, en donde se puede señalizar, utilizando un parámetro o bandera, 65 cuál de los cuadros de audio comprende la información del esquema de control de distorsión. Por consiguiente, la
imagen20
información del esquema de control de distorsión SAOC se puede transferir a intervalos de tiempo irregulares dentro de una única pieza de audio (a la cual está asociada una única sección de configuración SAOC).
8. Alternativas de implementación
5 [000131] Aunque algunos aspectos se han descrito en el contexto de un aparato, está claro que estos aspectos también representan una descripción del método correspondiente, en donde un bloque o dispositivo corresponde al paso de un método o a una característica del paso de un método. De forma análoga, los aspectos descritos en el contexto del paso de un método también representan una descripción de un bloque o ítem o característica de un aparato correspondiente. Algunos o todos los pasos del método se pueden ejecutar mediante (o utilizando) un aparato de hardware, como por ejemplo, un microprocesador, una computadora programable o un circuito electrónico. En algunas realizaciones, algunos o varios de los pasos más importantes del método se pueden ejecutar mediante dicho aparato.
15 [000132] La señal de audio codificada de la invención se puede almacenar en un medio de almacenamiento digital o se puede transmitir sobre un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable tal como Internet.
[000133] Dependiendo de ciertos requerimientos de la implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede realizar utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, DVD, Blue-Ray, CD, o una memoria ROM, PROM, EPROM, EEPROM o FLASH, que contengan archivadas señales de control de lectura electrónica, que cooperan (o son capaces de cooperar) con un sistema de computación programable de modo que se lleva a cabo el método respectivo. Por lo tanto el medio de almacenamiento digital puede ser leído por una computadora.
25 [000134] Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que tiene señales de control de lectura electrónica, que son capaces de cooperar con un sistema de computación programable, de modo que se lleva a cabo uno de los métodos descritos en la presente.
[000135] Generalmente, las realizaciones de la presente invención pueden llevarse a cabo como el producto de un programa de computación con un código de programa, el código de programa es operativo para llevar a cabo uno de los métodos cuando el producto del programa de computación se ejecuta en una computadora. El código de programa puede estar almacenado por ejemplo en un portador de lectura mecánica.
35 [000136] Otras realizaciones comprenden un programa de computación para llevar a cabo uno de los métodos descritos en la presente, almacenado en un portador de lectura mecánica.
[000137] En otras palabras, una realización del método de la invención es, por lo tanto, un programa de computación que tiene un código de programa para llevar a cabo uno de los métodos descritos en la presente, cuando el programa de computación se ejecuta en una computadora.
[000138] Una realización adicional de los métodos de la invención es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio que puede ser leído por una computadora) que comprende, grabado sobre él, el programa de computación para llevar a cabo uno de los métodos descritos en la presente. El portador de datos, el
45 medio de almacenamiento digital o el medio grabado son por lo general tangibles y/o no transitorios.
[000139] Una realización adicional de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa de computación para llevar a cabo uno de los métodos descritos en la presente. El flujo de datos o la secuencia de señales pueden estar configuradas por ejemplo para ser transferidas mediante una conexión de comunicación de datos, por ejemplo por medio de Internet.
[000140] Una realización adicional comprende un medio de procesado, por ejemplo, una computadora, o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los métodos descritos en la presente.
55 [000141] Una realización adicional comprende una computadora que tiene instalado el programa de computación para llevar a cabo uno de los métodos descritos en la presente.
[000142] En algunas realizaciones, se puede utilizar un dispositivo lógico programable (por ejemplo una matriz de puertas programables por campo) para llevar a cabo algunas o todas las funcionalidades de los métodos descritos en la presente. En algunas realizaciones, una matriz de puertas programables por campo puede colaborar con un microprocesador a fin de llevar a cabo uno de los métodos descritos en la presente. Generalmente, los métodos preferentemente se realizan mediante cualquier aparato de hardware.
65 [000143] Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que modificaciones y variantes de las disposiciones y los detalles antes descritos se pondrán de manifiesto a los expertos en la técnica. Por lo tanto, es la intención estar limitados solamente por el alcance de las reivindicaciones de la patente que siguen a continuación y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en la presente.
imagen21
5 9. Conclusión
[000144] Resumiendo lo anterior, las realizaciones de acuerdo con la invención crean una señalización para control de distorsión en una codificación MPEG de Objeto de Audio Espacial (SAOC).
10 [000145] Las realizaciones de acuerdo con la presente invención proporcionan tanto funcionalidades como desempeño aún más mejorados al utilizar una señalización en el flujo de bits para guiar el proceso de distorsión.
[000146] Las realizaciones preferidas de acuerdo con la invención comprenden métodos, aparatos o programas de computación para codificar o decodificar una señal de audio como se describió anteriormente. Realizaciones 15 adicionales de acuerdo con la invención comprenden una señal codificada generada como se señaló anteriormente,
o como la utilizada por un decodificador o un método decodificador como se señaló anteriormente.
10. Referencias
20 [000147]
[BCC]C. Faller y F. Baumgarte, “Binaural Cue Coding – Part II: Schemes and applications”, IEEE Trans. on Speech and Audio Proc., vol. II, nro. 6, noviembre 2003.
25 [JSC]C. Faller, “Parametric Joint-Coding of Audio Sources”, 12da. Convención AES, París, 2006, Preimpresión 6752.
[SAOC1]J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC To SAOC – Recent Developments in Parametric Coding of Spatial Audio”, 22da. Conferencia Regional AES Reino Unido, Cambridge, Reino Unido, abril 2007.
30 [SAOC2]J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens,
E. Schuijers y W. Oomen: “Spatial Audio Object Coding (SAOC) – The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, 124ta. Convención AES, Amsterdam 2008, Preimpresión 7377.
[SAOC3] WO 2008/100067 A1 (LG ELECTRONICS INC [KR]; OH HYEN O [KR]; JUNG YANG WON [KR]) 21 August 35 2008 (2008-08-21)
[SAC]HERRE JÜRGEN ET AL: "MPEG SurroundThe ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", JAES, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, vol. 56, no. 11, 1 November 2008, pages 932-955, XP040508729.
40 [SAOC]ISO/IEC, “MPEG audio technologies – Part 2: Spatial Audio Object Coding (SAOC)”, ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23002-2.
[SBR1]ISO/IEC, “MPEG audio technologies – Part 2: Spatial Audio Object Coding (SAOC)”, ISO/IEC 45 JTC1/SC29/WG11 (MPEG) FCD 23002-2.
[SBR2]M. Dietz, L. Liljeryd, K. Kjoerling y O. Kunz, “Spectral band replication, a novel approach in audio coding”, en la 112da. Convención AES, Munich, Alemania, mayo 2002, Preimpresióin 5553.
50 [PS]“Low Complexity Parametric Stereo Coding in MPEG-4”, Heiko Purnhagen, Proc. Digital Audio Effects Workshop (DAFx), páginas 163-168, Naples, IT, octubre 2004.

Claims (12)

  1. imagen1
    REIVINDICACIONES
    1. Aparato (100; 200; 300; 400) para proporcionar una representación de señal de mezcla ascendente (120; 428a428M) sobre la base de la representación de una señal de mezcla descendente (110; 414) y una información
    5 paramétrica relacionada con el objeto (112; 416), que están incluidas en una representación de flujo de bits de un contenido de audio, y dependiendo de una información de representación (114; 424), en donde el aparato comprende: un limitador de distorsión (140; 240; 340; 422) configurado para ajustar parámetros de mezcla ascendente utilizando un esquema de control de distorsión (142) para evitar o limitar las distorsiones audibles que se originan por una
    10 inapropiada selección de los parámetros de representación (114; 424), en donde el limitador de distorsión está configurado para obtener un parámetro de control de limitación de distorsión (116; 418; q) que está incluido en la representación de flujo de bits del contenido de audio, y para ajustar el esquema de control de distorsión dependiendo de un parámetro de control de limitación de distorsión; en donde el limitador de distorsión está configurado para evaluar una bandera dinámica de actualización dentro de
    15 una sección de configuración de la representación de flujo de bits del contenido de audio; y en donde el limitador de distorsión está configurado para evaluar la sección de configuración de la representación de flujo de bits del contenido de audio, para obtener el parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está inactiva, y para evaluar una sección de cuadro de la representación de flujo de bits del contenido de audio, para obtener repetidamente actualizaciones del parámetro de control de limitación de
    20 distorsión, si la bandera dinámica de actualización está activa.
  2. 2. El aparato (100; 200; 300; 400) de acuerdo con la reivindicación 1, en donde el aparato para proporcionar una representación de señal de mezcla ascendente está configurado para recibir una información de la matriz de representación deseada (114; 424) desde una interfaz de entrada;
    25 en donde el limitador de distorsión (140; 240; 340; 422) está configurado para obtener una información de la matriz de representación modificada (132; p’; p’’) dependiendo de la información de la matriz de representación deseada y del único o de los varios parámetros de control de limitación de distorsión (116; 418; q) y en donde el aparato para proporcionar la representación de señal de mezcla ascendente está configurado para proporcionar una representación de señal de mezcla ascendente (120; 428a-428M) dependiendo de la información
    30 de la matriz de representación modificada.
  3. 3. El aparato (100; 200; 300; 400) de acuerdo con la reivindicación 2, en donde el limitador de distorsión está configurado para obtener uno o varios valores límites de la matriz de representación (r, q), que se incluyen en la representación de flujo de bits del contenido de audio y que describen valores mínimos y máximos de elementos de
    35 la matriz de representación, y para limitar una o varias entradas de la información de la matriz de representación modificada (132; p’; p’’) de acuerdo con el único o los varios valores límite de la matriz de representación (r, q) cuando se obtiene la información de la matriz de representación modificada dependiendo de la información de la matriz de representación deseada.
    40 4. El aparato (100; 200; 300; 400) de acuerdo con la reivindicación 2 o la reivindicación 3, en donde el limitador de distorsión está configurado para obtener la información de la matriz de representación modificada (132; p’; p’’) dependiendo de la información de la matriz de representación deseada (114; 424), una información de la matriz de representación de referencia (r) y el único o los varios parámetros de control de limitación de distorsión (q).
    45 5. El aparato (100; 200; 300; 400) de acuerdo con la reivindicación 4, en donde el limitador de distorsión está configurado para limitar una o varias entradas (p’, p’’) de la matriz de representación modificada (132) en relación con la información de la matriz de representación de referencia (r) de acuerdo con el único o los varios valores límite de la matriz de representación (q).
    50 6. El aparato (100; 200; 300; 400) de acuerdo con las reivindicaciones 2 a 5, en donde el limitador de distorsión está configurado para aplicar parámetros de control de limitación de distorsión individuales respecto al objeto (q), a fin de obtener la información de la matriz de representación modificada dependiendo de la información de la matriz de representación deseada.
    55 7. El aparato (100; 200; 300; 400) de acuerdo con una de las reivindicaciones 1 a 6, en donde el aparato para proporcionar una representación de señal de mezcla ascendente está configurado para aplicar uno o varios factores de ganancia modificados (p’, p’’) a muestras de audio de la representación de la señal de mezcla descendente (110, 414), o a una información lateral relacionada con el objeto asociada con los objetos de audio descritos por la señal de mezcla descendente, para proporcionar la representación de señal de mezcla ascendente (120; 428a-428M)
    60 dependiendo de los factores de ganancia, y en donde el limitador de distorsión está configurado para obtener el único o los varios factores de ganancia modificados (p’, p’’) dependiendo de uno o varios factores de ganancia deseados (p) y del único o de los varios parámetros de control de limitación de distorsión (116; 418; q).
    21
    imagen2
  4. 8. El aparato (100; 200; 300; 400) de acuerdo con una de las reivindicaciones 1 a 7, donde el limitador de distorsión está configurado para derivar un nivel de referencia (r) para un factor de ganancia a limitar utilizando un filtro de suavizado que tiene una constante de tiempo, en donde el limitador de distorsión está configurado para utilizar el nivel de referencia (r) para limitar el factor dado, y
    5 en donde el limitador de distorsión está configurado para obtener un parámetro de constante de tiempo, que se incluye en una representación de flujo de bits de un contenido de audio, y para ajustar la constante de tiempo del filtro de suavizado dependiendo del parámetro de constante de tiempo.
  5. 9.
    El aparato (100; 200; 300; 400) de acuerdo con una de las reivindicaciones 1 a 8 en donde el limitador de distorsión está configurado para obtener un parámetro de activación de control de distorsión, que está incluido en la representación de flujo de bits del contenido de audio, y para habilitar o inhabilitar el esquema de control de distorsión dependiendo del parámetro de activación de control de distorsión.
  6. 10.
    El aparato (100; 200; 300; 400) de acuerdo con una de las reivindicaciones 1 a 9, en donde el limitador de
    15 distorsión está configurado para obtener un parámetro de activación de la matriz de representación preconfigurado, que está incluido en la representación de flujo de bits del contenido de audio, y en donde el limitador de distorsión está configurado para ejecutar, en respuesta a un estado activo del parámetro de activación de la matriz de representación preconfigurado, que una información de matriz de representación preconfigurada incluida en la representación de flujo de bits del contenido de audio, en vez de una información de la matriz de representación especificada por el usuario, se utilice para proporcionar la representación de la señal de mezcla ascendente sobre la base de la representación de la señal de mezcla descendente.
  7. 11. El aparato (100; 200; 300; 400) de acuerdo con una de las reivindicaciones 1 a 10, en donde el limitador de distorsión está configurado para obtener un parámetro de limitación de distorsión psicoacústica, que está incluido en
    25 la representación del flujo de bits del contenido de audio, en donde el limitador de distorsión está configurado para ajustar uno o varios parámetros de mezcla ascendente dependiendo de un modelo de distorsión psicoacústica, de modo tal que se limita una medida de las distorsiones causadas por la derivación de la representación de la señal de mezcla ascendente desde la representación de la señal de mezcla descendente, y en donde el limitador de distorsión está configurado para establecer uno o varios parámetros utilizados para ajustar el único o los varios parámetros de mezcla ascendente dependiendo del modelo de distorsión psicoacústica, o uno
    o varios parámetros del modelo de distorsión psicoacústica, dependiendo del parámetro de limitación de distorsión psicoacústica.
    35 12. El aparato (100; 200; 300; 400) de acuerdo con una de las reivindicaciones 1 a 11, en donde el limitador de distorsión está configurado para obtener un parámetro de control de limitación de distorsión actualizado una vez por cada cuadro de audio, para obtener un esquema de control de distorsión variante en el tiempo.
  8. 13. El aparato (100; 200; 300; 400) de acuerdo con una de las reivindicaciones 1 a 12, en donde el limitador de distorsión está configurado para actualizar selectivamente el parámetro de control de limitación de distorsión, dependiendo de una bandera que indica la presencia de un parámetro de control de limitación de distorsión en una sección de cuadro de una representación de flujo de bits del contenido de audio, de tal forma que los intervalos de actualización para el parámetro de control de limitación de distorsión están determinados dinámicamente mediante la representación de flujo de bits del contenido de audio.
    45
  9. 14. Aparato (500) para proporcionar un flujo de bits (520) que representa una señal de audio de canales múltiples, en donde el aparato comprende: un mezclador de mezcla descendente (530) configurado para proporcionar una señal de mezcla descendente (532) sobre la base de una pluralidad de señales de objetos de audio (510a-510N); un proveedor de información lateral (540) configurado para proporcionar una información lateral paramétrica relacionada con el objeto (542) que describe las características de las señales de objetos de audio (510a-510N) y parámetros de mezcla descendente, y uno o varios parámetros de control de limitación de distorsión (544) para controlar la aplicación de un esquema de control de distorsión del lado del aparato (100; 200; 300; 400) para proporcionar una representación de señal de mezcla ascendente;
    55 un realizador de formatos de flujo de bits (550) configurado para proporcionar un flujo de bits (520) que comprende una representación de la señal de mezcla descendente (532), la información lateral paramétrica relacionada con el objeto (542) y el único o los varios parámetros de control de limitación de distorsión (544); en donde el aparato está configurado para proporcionar un flujo de bits de modo que una sección de configuración del flujo de bits comprende una bandera dinámica de actualización; y de modo que la sección de configuración de la representación de flujo de bits comprende el parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está inactiva, y de modo que una sección de cuadro de la representación de flujo de bits comprende actualizaciones repetidas del parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está activa.
    65 15. Un método para proporcionar una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto, que se
    22
    imagen3
    incluyen en una representación de flujo de bits de un contenido de audio, y dependiendo de una información de representación, el método comprende: ajustar parámetros de mezcla ascendente utilizando un esquema de control de distorsión, para evitar o limitar las distorsiones audibles que son causadas por una selección inapropiada de los parámetros de representación,
    5 en donde se obtiene un parámetro de control de limitación de distorsión, que está incluido en la representación de flujo de bits del contenido de audio, y en donde el esquema de control de distorsión se ajusta dependiendo del parámetro de control de limitación de distorsión; en donde se evalúa una bandera dinámica de actualización dentro de una sección de configuración de la representación de flujo de bits del contenido de audio, y
    10 en donde se evalúa la sección de configuración de la representación de flujo de bits del contenido de audio, para obtener el parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está inactiva, y en donde se evalúa una sección de cuadro de la representación de flujo de bits del contenido de audio, para obtener repetidamente actualizaciones del parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está activa.
    15
  10. 16. Un método para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, en donde el método comprende: derivar una señal de mezcla descendente sobre la base de una pluralidad de señales de objetos de audio; proporcionar una información lateral paramétrica relacionada con el objeto que describe las características de las
    20 señales de objetos de audio y los parámetros de mezcla descendente; proporcionar uno o varios parámetros de control de limitación de distorsión para controlar la aplicación de un esquema de control de distorsión del lado de un aparato para proporcionar una representación de señal de mezcla ascendente; y proporcionar un flujo de bits que comprende una representación de la señal de mezcla descendente, la información
    25 lateral paramétrica relacionada con el objeto y el único o los varios parámetros de control de limitación de distorsión, en donde el flujo de bits se proporciona de modo que una sección de configuración del flujo de bits comprende una bandera dinámica de actualización, y de modo que la sección de configuración del flujo de bits comprende el parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está inactiva, y
    30 de modo que una sección de cuadro del flujo de bits comprende actualizaciones repetidas del parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está activa.
  11. 17. Un programa de computación para llevar a cabo el método de acuerdo con la reivindicación 15 o 16 cuando se
    ejecuta el programa de computación en una computadora. 35
  12. 18. Un flujo de bits que representa una señal de audio de canales múltiples, en donde el flujo de bits comprende: una representación de una señal de mezcla descendente que combina señales de audio de una pluralidad de objetos de audio; una información lateral paramétrica relacionada con el objeto que describe características de los objetos de audio; y
    40 uno o varios parámetros de control de limitación de distorsión para controlar la aplicación de un esquema de control de distorsión del lado de un aparato para proporcionar una representación de señal de mezcla ascendente en donde una sección de configuración del flujo de bits comprende una bandera dinámica de actualización, y en donde la sección de configuración del flujo de bits comprende el parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está inactiva, y
    45 en donde la sección de cuadro del flujo de bits comprende actualizaciones repetidas del parámetro de control de limitación de distorsión, si la bandera dinámica de actualización está activa.
    23
ES10765803.1T 2009-10-20 2010-10-19 Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión Active ES2529219T3 (es)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US25323709P 2009-10-20 2009-10-20
US253237P 2009-10-20
US36926010P 2010-07-30 2010-07-30
US369260P 2010-07-30
EP10171418 2010-07-30
EP10171418 2010-07-30
PCT/EP2010/065671 WO2011048067A1 (en) 2009-10-20 2010-10-19 Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multichannel audio signal, methods, computer program and bitstream using a distortion control signaling

Publications (1)

Publication Number Publication Date
ES2529219T3 true ES2529219T3 (es) 2015-02-18

Family

ID=43416602

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10765803.1T Active ES2529219T3 (es) 2009-10-20 2010-10-19 Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión

Country Status (16)

Country Link
US (1) US9060236B2 (es)
EP (1) EP2491551B1 (es)
JP (1) JP5719372B2 (es)
KR (1) KR101418661B1 (es)
CN (1) CN102640213B (es)
AR (1) AR078701A1 (es)
AU (1) AU2010309867B2 (es)
CA (1) CA2778239C (es)
ES (1) ES2529219T3 (es)
HK (1) HK1175580A1 (es)
MX (1) MX2012004621A (es)
MY (1) MY153337A (es)
PL (1) PL2491551T3 (es)
RU (1) RU2577199C2 (es)
TW (1) TWI431611B (es)
WO (1) WO2011048067A1 (es)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
KR101438387B1 (ko) * 2006-07-12 2014-09-05 삼성전자주식회사 서라운드 확장 데이터 부호화 및 복호화 방법 및 장치
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101341536B1 (ko) * 2010-01-06 2013-12-16 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
CN113490132B (zh) 2010-03-23 2023-04-11 杜比实验室特许公司 音频再现方法和声音再现系统
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
US9119011B2 (en) 2011-07-01 2015-08-25 Dolby Laboratories Licensing Corporation Upmixing object based audio
US9479887B2 (en) 2012-09-19 2016-10-25 Nokia Technologies Oy Method and apparatus for pruning audio based on multi-sensor analysis
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
EP2717265A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
JP6190947B2 (ja) 2013-05-24 2017-08-30 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
WO2014187989A2 (en) 2013-05-24 2014-11-27 Dolby International Ab Reconstruction of audio scenes from a downmix
CN105393304B (zh) * 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
CN109887516B (zh) 2013-05-24 2023-10-20 杜比国际公司 对音频场景进行解码的方法、音频解码器以及介质
KR101751228B1 (ko) 2013-05-24 2017-06-27 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP3014901B1 (en) 2013-06-28 2017-08-23 Dolby Laboratories Licensing Corporation Improved rendering of audio objects using discontinuous rendering-matrix updates
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
BR112016008817B1 (pt) * 2013-10-21 2022-03-22 Dolby International Ab Método para reconstruir um sinal de áudio de n canais, sistema de decodificação de áudio, método para codificar um sinal de áudio de n canais e sistema de codificação de áudio
MX354832B (es) * 2013-10-21 2018-03-21 Dolby Int Ab Estructura de decorrelador para la reconstruccion parametrica de señales de audio.
JP6374980B2 (ja) * 2014-03-26 2018-08-15 パナソニック株式会社 サラウンドオーディオ信号処理のための装置及び方法
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
PL3800898T3 (pl) * 2014-05-28 2023-12-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Procesor danych i transport danych kontrolnych użytkownika do dekoderów audio i modułów renderowania
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
US11087024B2 (en) * 2016-01-29 2021-08-10 Samsung Electronics Co., Ltd. System and method to enable privacy-preserving real time services against inference attacks
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
CN118120012A (zh) * 2021-08-10 2024-05-31 沃伊斯亚吉公司 用于限制声音编解码器中的输出合成失真的方法及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002307884A1 (en) 2002-04-22 2003-11-03 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
CA2670864C (en) * 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2111618A4 (en) * 2007-02-13 2010-04-21 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
US8892432B2 (en) 2007-10-19 2014-11-18 Nec Corporation Signal processing system, apparatus and method used on the system, and program thereof
EP2169665B1 (en) * 2008-09-25 2018-05-02 LG Electronics Inc. A method and an apparatus for processing a signal

Also Published As

Publication number Publication date
US9060236B2 (en) 2015-06-16
KR101418661B1 (ko) 2014-07-14
EP2491551A1 (en) 2012-08-29
KR20120082462A (ko) 2012-07-23
JP2013511053A (ja) 2013-03-28
US20120243690A1 (en) 2012-09-27
TW201131552A (en) 2011-09-16
CA2778239C (en) 2015-12-15
TWI431611B (zh) 2014-03-21
PL2491551T3 (pl) 2015-06-30
WO2011048067A1 (en) 2011-04-28
RU2012118789A (ru) 2013-11-10
AU2010309867A1 (en) 2012-05-31
CA2778239A1 (en) 2011-04-28
MY153337A (en) 2015-01-29
JP5719372B2 (ja) 2015-05-20
AU2010309867B2 (en) 2014-05-08
CN102640213A (zh) 2012-08-15
HK1175580A1 (en) 2013-07-05
CN102640213B (zh) 2014-07-09
AR078701A1 (es) 2011-11-30
MX2012004621A (es) 2012-05-08
EP2491551B1 (en) 2015-01-07
RU2577199C2 (ru) 2016-03-10

Similar Documents

Publication Publication Date Title
ES2529219T3 (es) Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión
TWI441165B (zh) 用以基於下混信號表示型態而提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號之位元串流之裝置、方法、電腦程式及利用線性組合參數表示多聲道音訊信號之位元串流
ES2910658T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES2644520T3 (es) Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
ES2521715T3 (es) Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendente, decodificador de señal de audio, transcodificador de señal de audio, procedimiento y programa de computación que utiliza información paramétrica relacionada con el objeto
CA2938535C (en) Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value
ES2649739T3 (es) Procedimiento y descodificador para un concepto paramétrico de codificación de objetos de audio espacial generalizado para casos de mezcla descendente/mezcla ascendente de multicanal
JP2011030228A (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
CN107077861B (zh) 音频编码器和解码器
ES2856423T3 (es) Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
BR112012009127B1 (pt) Mecanismo para fornecer uma representação de sinal upmix com base em uma representação de sinal downmix, mecanismo para fornecer uma corrente de bit representando um sinal de áudio multicanal, métodos, programa de computador e corrente de bit usando uma sinalização de controle de distorção
BR112012008921B1 (pt) Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio