ES2666127T3 - Decodificador, codificador y método para la estimación informada de sonoridad en sistemas de codificación de audio basada en objetos - Google Patents

Decodificador, codificador y método para la estimación informada de sonoridad en sistemas de codificación de audio basada en objetos Download PDF

Info

Publication number
ES2666127T3
ES2666127T3 ES14805849.8T ES14805849T ES2666127T3 ES 2666127 T3 ES2666127 T3 ES 2666127T3 ES 14805849 T ES14805849 T ES 14805849T ES 2666127 T3 ES2666127 T3 ES 2666127T3
Authority
ES
Spain
Prior art keywords
loudness
audio
signal
information
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14805849.8T
Other languages
English (en)
Inventor
Jouni PAULUS
Sascha Disch
Harald Fuchs
Bernhard Grill
Oliver Hellmuth
Adrian Murtaza
Falko Ridderbusch
Leon Terentiv
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2666127T3 publication Critical patent/ES2666127T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio, en el que el decodificador comprende: una interfaz de recepción (110) para recibir una señal de entrada de audio que comprende una pluralidad de señales de objetos de audio, para recibir información de sonoridad sobre las señales de objetos de audio, y para recibir información de representación que indica si una o más de las señales de objetos de audio deberá amplificarse o atenuarse, y un procesador de señales (120) para generar el uno o más canales de salida de audio de la señal de salida de audio, en el que el procesador de señales (120) está configurado para determinar un valor de compensación de sonoridad dependiendo de la información de sonoridad y dependiendo de la información de representación, y en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad, en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad, de tal manera que una sonoridad de la señal de salida de audio sea igual a una sonoridad de la señal de entrada de audio, o de tal manera que la sonoridad de la señal de salida de audio se aproxime más a la sonoridad de la señal de entrada de audio que una sonoridad de una señal de audio modificada que se produciría como resultado de la modificación de la señal de entrada de audio mediante la amplificación o atenuación de las señales de objetos de audio de la señal de entrada de audio de acuerdo con la información de representación.

Description

5 La presente invención se refiere a la codificación, procesamiento y decodificación de señales de audio y, en particular, a un decodificador, un codificador y un método para la estimación informada de sonoridad en sistemas de codificación de audio basada en objetos.
Recientemente, se han propuesto técnicas paramétricas para la transmisión/almacenamiento a tasas de bits
10 eficientes de escenas de audio que comprenden múltiples señales de objetos en el campo de la codificación de audio [BCC, JSC, SAOC, SAOC1, SAOC2] y la separación informada de fuentes [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas tienen como objetivo la reconstrucción de una escena de audio o un objeto fuente de audio de salida deseado basándose en información secundaria adicional que describe la escena de audio transmitida/almacenada y/o los objetos fuente de la escena de audio. Esta reconstrucción tiene lugar en el
15 decodificador que utiliza un esquema de separación informada de fuentes. Los objetos reconstruidos se pueden combinar para producir la escena de audio de salida. Dependiendo de la manera en que se combinan los objetos, la sonoridad perceptual de la escena de salida puede variar.
En la transmisión de TV y radio, se pueden normalizar los niveles de volumen de las pistas de audio de diversos
20 programas basándose en diversos aspectos, tales como el nivel pico de la señal o el nivel de sonoridad. Dependiendo de las propiedades dinámicas de las señales, dos señales con el mismo nivel pico puede tener un nivel de sonoridad percibida con grandes variaciones. Ahora al conmutar entre programas o canales son muy molestas las diferencias de sonoridad de la señal y han sido una fuente principal de quejas de los usuarios finales en la difusión.
25 En la técnica anterior, se ha propuesto la normalización de todos los programas en todos los canales de manera similar en un nivel de referencia común utilizando una medida basada en la sonoridad perceptual de la señal. Una de esas recomendaciones en Europa es la Recomendación de EBU R128 [EBU] (a la que a continuación se hace referencia como R128).
30 La recomendación dice que la “sonoridad del programa”, por ejemplo, la sonoridad promedio con respecto a un programa (o un anuncio u otra entidad de programación significativa) debe ser igual a un nivel especificado (con pequeñas desviaciones permitidas). Cuando cada vez más difusores cumplan con esta recomendación y la normalización requerida, las diferencias en la sonoridad promedio entre programas y canales se deberían minimizar.
35 La estimación de la sonoridad se puede realizar de varias maneras. Existen varios modelos matemáticos para estimar la sonoridad perceptual de una señal de audio. La recomendación EBU R128 se basa en el modelo presentado en ITUR BS.1770 (que a continuación se denomina BS.1770) (véase [ITU]) para la estimación de sonoridad.
40 Como se ha indicado anteriormente, por ejemplo, de acuerdo con la Recomendación EBU R128, la sonoridad de los programas, por ejemplo, la sonoridad promedio a través de un programa debe ser igual a un nivel especificado con pequeñas desviaciones permitidas. Sin embargo, esto conduce a considerables problemas al llevar a cabo la representación de audio, hasta ahora sin solución en la técnica anterior. La realización de la representación de audio
45 en el lado del decodificador tiene un efecto significativo sobre la sonoridad general/total de la señal de entrada de audio recibida. Sin embargo, pese a que se lleva a cabo la representación de escenas, la sonoridad total de la señal de audio recibida debe mantenerse constante.
En la actualidad no existe ninguna solución específica en el lado del decodificador para este problema.
50 El documento EP 2 146 522 A1 ([EP]), se refiere a conceptos para generar señales de salida de audio utilizando metadatos basados en objetos. Se genera al menos una señal de salida de audio que representa una superposición de al menos dos señales de objetos de audio diferentes, pero no proporciona una solución para este problema.
55 El documento WO 2008/035275 A2 ([BRE]) describe un sistema de audio que comprende un codificador que codifica objetos de audio en una unidad de codificación que genera una señal de audio de mezcla descendente y datos paramétricos que representan la pluralidad de objetos de audio. La señal de audio con mezcla descendente y los datos paramétricos se transmiten a un decodificador que comprende una unidad de decodificación que genera réplicas aproximadas de los objetos de audio y una unidad de representación que genera una señal de salida a partir
60 de los objetos de audio. El decodificador contiene además un procesador para generar datos de modificación de codificación que se envían al codificador. El codificador modifica a continuación la codificación de los objetos de audio y, en particular, modifica los datos paramétricos en respuesta a los datos de modificación de la codificación. El enfoque permite la manipulación de los objetos de audio para que se controlen por el decodificador pero que se
realiza total o parcialmente por el codificador. De esa manera, la manipulación se puede realizar sobre los objetos de audio independientes en lugar de hacerlo sobre réplicas aproximadas, proporcionando de esta manera un rendimiento mejorado.
5 El documento EP 2 146 522 A1 ([SCH]) describe un aparato para generar al menos una señal de salida de audio que representa una superposición de al menos dos objetos de audio diferentes que comprende un procesador para procesar una señal de entrada de audio para proporcionar una representación de objetos de la señal de entrada de audio, en el que esta representación de objetos se puede generar mediante una aproximación paramétricamente guiada de los objetos originales utilizando una señal de mezcla descendente de objeto. Un manipulador de objetos
10 manipula individualmente los objetos empleando metadatos basados en objetos de audio que hacen referencia a los objetos de audio individuales para obtener objetos de audio manipulados. Los objetos de audio manipulados se mezclan utilizando un mezclador de objetos para obtener, en última instancia, una señal de salida de audio con una
o varias señales de canales, dependiendo de la configuración específica para la representación.
15 El documento WO 2008/046531 A1 ([ENG]) describe un codificador de objeto de audio para generar una señal de objeto codificada utilizando una pluralidad de objetos de audio que incluye un generador de información de mezcla descendente para generar información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente, un generador de parámetros de objeto de audio para generar parámetros de objeto para los objetos de audio, y una interfaz de salida para generar la señal de salida
20 de audio importada utilizando la información de mezcla descendente y los parámetros de objetos. Un sintetizador de audio utiliza la información de mezcla descendente para generar datos de salida que se pueden emplear para crear una pluralidad de canales de salida de la configuración de salida de audio predefinida.
El documento WO 2008/035275 A2 se refiere a un sistema de audio que comprende un codificador que codifica
25 objetos de audio en una unidad de codificación que genera una señal de audio de mezcla descendente y datos paramétricos que representan la pluralidad de objetos de audio. La señal de audio de mezcla descendente y los datos paramétricos se transmiten a un decodificador que comprende una unidad de decodificación que genera réplicas aproximadas de los objetos de audio y una unidad de representación que genera una señal de salida desde los objetos de audio.
30 El documento EP 2 146 522 A1 se refiere a un aparato para generar al menos una señal de salida de audio que representa una superposición de al menos dos objetos de audio diferentes. Un manipulador de objetos manipula ínvidamente objetos usando metadatos basados en objetos de audio que hacen referencia a objetos de audio individuales para obtener objetos de audio manipulados. Los objetos de audio manipulados se mezclan usando un
35 mezclador de objetos para obtener finalmente una señal de salida de audio que tiene una o varias señales de canal que dependen de una configuración de representación específica.
El documento WO 2008/046531 A1 se refiere a un codificador de objetos de audio para generar una señal de objeto codificada usando una pluralidad de objetos de audio que incluye un generador de información de mezcla 40 descendente para generar información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente, un generador de parámetros de objeto de audio para generar parámetros de objeto para los objetos de audio, y una interfaz de salida para generar la señal de salida de audio importada usando la información de mezcla descendente y los parámetros de objeto. Un sintetizador de audio usa la información de mezcla descendente para generar datos de salida que pueden usarse para crear una
45 pluralidad de canales de salida de la configuración de salida de audio predefinida. El documento "A Guide to Dolby Metadata", 2005, páginas 1 28, "http://www.dolby.com/uploadedFiles/Assets/US/Doc/Professional/ 18_Metadata.Guide.pdf", se refiere a metadatos que proporcionan capacidad para que los productores de contenido entreguen el audio a los consumidores en una gama de entornos de escucha. También proporciona elecciones que permiten a los consumidores ajustar sus
50 ajustes para adecuar sus entornos de escucha.
Sería deseable contar con una estimación precisa de la sonoridad promedio de salida o del cambio de la sonoridad promedio sin retardo y cuando el programa no cambia o la escena de representación no cambia, la estimación de sonoridad promedia también se mantenga estática.
55 El objetivo de la presente invención es presentar conceptos mejorados sobre la codificación, procesamiento y decodificación de señales de audio. El objetivo de la presente invención se resuelve mediante un decodificador de acuerdo con la reivindicación 1, mediante un codificador de acuerdo con la reivindicación 15, mediante un sistema de acuerdo con la reivindicación 17, mediante un método de acuerdo con la reivindicación 18, mediante un método de acuerdo con la reivindicación 19 y mediante un programa informático de acuerdo con la reivindicación 22. Se
60 proporciona una manera informada de estimar la sonoridad de la salida en un sistema de codificación de audio basada en objetos. Los conceptos proporcionados se basan en la información sobre la sonoridad de los objetivos en la mezcla de audio que se ha de proporcionar al decodificador. El decodificador utiliza esta información junto con la información de representación para estimar la sonoridad de la señal de salida. Esto permite entonces, por ejemplo, estimar la diferencia de sonoridad entre la mezcla descendente por defecto y la salida representada. Es posible así
compensar la diferencia para obtener una sonoridad aproximadamente constante en la salida independientemente de la información de representación. La estimación de sonoridad en el decodificador tiene lugar de manera totalmente paramétrica y es muy ligera, en términos informáticos, y precisa en comparación con los conceptos de estimación de la sonoridad basada en la señal.
5 Se proporcionan conceptos para obtener información sobre la sonoridad de la escena de salida específica utilizando conceptos puramente paramétricos, lo que a continuación da lugar al procesamiento de la sonoridad sin estimación de la sonoridad basada en la señal explícita en el decodificador. Más aun, se describe la tecnología específica de la Codificación De Objetos de Audio Espacial (SAOC) normalizada por MPEG [SAOC], aunque los conceptos
10 proporcionados también pueden utilizarse en conjunto con otras tecnologías de codificación de objetos de audio.
Se proporciona un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio. El decodificador comprende una interfaz de recepción para recibir una señal de entrada de audio que comprende una pluralidad de señales de objetos de audio, para recibir información de sonoridad sobre las 15 señales de objetos de audio, y para recibir información de representación que indica si una o más de las señales de objetos de audio deberán amplificarse o atenuarse. Más aun, el decodificador comprende un procesador de señales para generar dichos uno o más canales de salida de audio de la señal de salida de audio. El procesador de señales está configurado para determinar un valor de compensación de sonoridad dependiendo de la información de sonoridad y dependiendo de la información de representación. Además, el procesador de señales está configurado
20 para generar dichos uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad.
De acuerdo con una realización, el procesador de señales puede estar configurado para generar dichos uno o más
25 canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad, de tal manera que una sonoridad de la señal de salida de audio sea igual a una sonoridad de la señal de entrada de audio, o de tal manera que la sonoridad de la señal de salida de audio se aproxime más a la sonoridad de la señal de entrada de audio que una sonoridad de una señal de audio modificada que se produciría como resultado de la modificación de la señal de
30 entrada de audio mediante la amplificación o atenuación de las señales de objetos de audio de la señal de entrada de audio de acuerdo con la información de representación.
De acuerdo con otra realización, cada una de las señales de objetos de audio de la señal de entrada de audio puede asignarse exactamente a un grupo de dos o más grupos, en el que cada uno de los dos o más grupos puede 35 comprender una o más de las señales de objetos de audio de la señal de entrada de audio. En una realización de este tipo, la interfaz de recepción puede estar configurada para recibir un valor de sonoridad por cada grupo de los dos o más grupos como información de sonoridad, en el que dicho valor de sonoridad indica una sonoridad total original de dichas una o más señales de objetos de audio de dicho grupo. Además, la interfaz de recepción puede estar configurada para recibir la información de representación que indica, para al menos un grupo de los dos o más 40 grupos, si dichas una o más señales de objetos de audio de dicho grupo deberán amplificarse o atenuarse mediante la indicación de una sonoridad total modificada de dichas una o más señales de objetos de audio de dicho grupo. Más aun, en una realización de este tipo, el procesador de señales puede estar configurado para determinar el valor de compensación de sonoridad dependiendo de la sonoridad total modificada de cada uno de dicho al menos un grupo de dichos dos o más grupos y dependiendo de la sonoridad total original de cada uno de dichos dos o más
45 grupos. Además, el procesador de señales puede estar configurado para generar dichos uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la sonoridad total modificada de cada uno de dicho al menos un grupo de dichos dos o más grupos y dependiendo del valor de compensación de sonoridad.
50 En realizaciones particulares, al menos un grupo de dichos dos o más grupos puede comprender dos o más de las señales de objetos de audio.
Más aun, se proporciona un codificador. El codificador comprende una unidad de codificación basada en objetos para codificar una pluralidad de señales de objetos de audio para obtener una señal de audio codificada que
55 comprende la pluralidad de señales de objetos de audio. Además, el codificador comprende una unidad de codificación de sonoridad de objetos para codificar información de sonoridad sobre las señales de objetos de audio. La información de sonoridad comprende uno o más valores de sonoridad, en el que cada uno de dichos uno o más valores de sonoridad depende de una o más de las señales de objetos de audio.
60 De acuerdo con una realización, cada una de las señales de objetos de audio de la señal de audio codificada puede asignarse exactamente a un grupo de dos o más grupos, en el que cada uno de los dos o más grupos comprende una o más de las señales de objetos de audio de la señal de audio codificada. La unidad de codificación de sonoridad de objetos puede estar configurada para determinar dicho uno o más valores de sonoridad de la información de sonoridad mediante la determinación de un valor de sonoridad por cada grupo de los dos o más
grupos, en el que dicho valor de sonoridad de dicho grupo indica una sonoridad total original de dichas una o más señales de objetos de audio de dicho grupo.
Además, se proporciona un sistema. El sistema comprende un codificador de acuerdo con una de las realizaciones
5 anteriormente descritas para codificar una pluralidad de señales de objetos de audio para obtener una señal de audio codificada que comprende la pluralidad de señales de objetos de audio y para codificar información de sonoridad sobre las señales de objetos de audio. Más aun, el sistema comprende un decodificador de acuerdo con una de las realizaciones anteriormente descritas para generar una señal de salida de audio que comprende uno o más canales de salida de audio. El decodificador está configurado para recibir la señal de audio codificada como una
10 señal de entrada de audio y la información de sonoridad. Más aun, el decodificador está configurado para recibir adicionalmente información de representación. Además, el decodificador está configurado para determinar un valor de compensación de sonoridad dependiendo de la información de sonoridad y dependiendo de la información de representación. Más aun, el decodificador está configurado para generar dichos uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de
15 representación y dependiendo del valor de compensación de sonoridad.
Se proporciona además un método para generar una señal de salida de audio que comprende uno o más canales de salida de audio. El método comprende:
20 Recibir una señal de entrada de audio que comprende una pluralidad de señales de objetos de audio.
Recibir información de sonoridad sobre las señales de objetos de audio.
Recibir información de representación que indica si una o más de las señales de objetos de audio deberá 25 amplificarse o atenuarse.
Determinar un valor de compensación de sonoridad dependiendo de la información de sonoridad y dependiendo de la información de representación. Y:
30 Generar dichos uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad.
Además, se proporciona un método de codificación. El método comprende:
35 Codificar una señal de entrada de audio que comprende una pluralidad de señales de objetos de audio. Y:
Codificar información de sonoridad sobre las señales de objetos de audio, en el que la información de sonoridad comprende uno o más valores de sonoridad, en el que cada uno de dichos uno o más valores de sonoridad 40 depende de una o más de las señales de objetos de audio.
Más aun, se proporciona un programa informático para implementar el método antes descrito al ejecutarse en una computadora o un procesador de señales.
45 Se proporcionan realizaciones preferidas en las reivindicaciones dependientes.
A continuación se describen las realizaciones de la presente invención en forma más detallada con referencia a las figuras, en las cuales:
50 Fig. 1 ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio de acuerdo con una realización,
Fig. 2 ilustra un codificador de acuerdo con una realización,
55 Fig. 3 ilustra un sistema de acuerdo con una realización,
Fig. 4 ilustra un sistema de Codificación de Objetos de Audio Espacial que comprende un codificador SAOC y un decodificador SAOC,
60 Fig. 5 ilustra un decodificador SAOC que comprende un decodificador de información secundaria, un separador de objetos y un representador,
Fig. 6 ilustra el comportamiento de las estimaciones de sonoridad de la señal de salida en un cambio de sonoridad,
Fig. 7 ilustra la estimación de sonoridad informada de acuerdo con una realización, ilustrando los componentes de un codificador y un decodificador de acuerdo con una realización,
5 Fig. 8 ilustra un codificador de acuerdo con otra realización,
Fig. 9 ilustra un codificador y un decodificador de acuerdo con una realización relacionada con la Mejora de SAOCDiálogo, que comprende canales de desviación,
10 Fig. 10 presenta una primera ilustración de un cambio de sonoridad medido y el resultado del uso de los conceptos proporcionados para estimar el cambio de sonoridad de manera paramétrica,
Fig. 11 presenta una segunda ilustración de un cambio de sonoridad medido y el resultado del uso de los conceptos proporcionados para estimar el cambio de sonoridad de manera paramétrica, y 15 Fig. 12 ilustra otra realización de la realización de la compensación de sonoridad.
Antes de describir en detalle las realizaciones preferidas, se describe la estimación de sonoridad, la Codificación de Objetos de Audio Espacial (SAOC) y la Mejora de Diálogos (DE). 20 En primer lugar se describe la estimación de sonoridad.
Como ya se ha indicado anteriormente, la recomendación de EBU R128 se basa en el modelo presentado en ITUR BS.1770 para la estimación de sonoridad. Esta medida se utilizará como ejemplo, aunque los conceptos descritos a 25 continuación también se pueden aplicar a otras medidas de la sonoridad.
La operación de estimación de sonoridad de acuerdo con BS.1770 es relativamente sencilla y se basa en los siguientes pasos principales [ITU]:
30 Se filtra la señal de entrada xi (o señales, en el caso de la señal multicanal) con un filtro K (una combinación de filtros “shelving” o y de paso alto) para obtener la señal (o señales) yi.
Se calcula la energía cuadrática media zi de la señal yi.
35 En el caso de la señal multicanal, se aplica la ponderación de canales Gi y se suman las señales ponderadas. A continuación se define la sonoridad de la señal de la siguiente manera
L = c +10 log Gz
10∑ ii i
40 con el valor constante c=0,691. A continuación la salida se expresa en las unidades “LKFS” (Sonoridad, ponderada con K, relativa a Escala Completa) que se escala de manera similar a la escala de decibelios.
En la fórmula anterior, Gi puede ser, por ejemplo, igual a 1 en algunos de los canales, mientras que Gi puede ser, por ejemplo, 1,41 en el caso de algunos otros canales. Por ejemplo, si se contempla un canal izquierdo, un canal
45 derecho, un canal central, un canal de envolvente izquierdo y un canal de envolvente derecho, las respectivas ponderaciones Gi pueden ser, por ejemplo, 1 en el caso del canal izquierdo, derecho y central y pueden ser, por ejemplo, 1,41 en el caso del canal de envolvente izquierdo y el canal de envolvente derecho, véase [ITU].
Se puede ver que el valor de sonoridad L está estrechamente relacionado con el logaritmo de la energía de la señal. 50 A continuación se describe la Codificación de Objetos de Audio Espacial.
Los conceptos de la codificación de audio basada en objetos permiten una gran flexibilidad en el lado del decodificador de la cadena. Un ejemplo de concepto de codificación de audio basada en objetos es la Codificación 55 de Objetos de Audio Espacial (SAOC).
La Fig. 4 ilustra un sistema de Codificación de Objetos de Audio Espacial (SAOC) que comprende un codificador SAOC 410 y un decodificador SAOC 420.
60 El codificador SAOC 410 recibe N señales de objetos de audio S1, �, SN como entrada. Más aun, el codificador SAOC 410 recibe asimismo instrucciones “Mezclar Información D” sobre cómo se deben combinar estos objetos para obtener una señal de mezcla descendente que comprende M canales de mezcla descendente X1, �, XM. El codificador SAOC 410 extrae cierta información secundaria de los objetos y del proceso de mezcla descendente, y
esta información secundaria se transmite y/o almacena junto con las señales de mezcla descendente.
Una propiedad muy importante del sistema SAOC es que la señal de mezcla descendente X que comprende los canales de mezcla descendente X1, �, XM forma una señal semánticamente representativa. En otras palabras, es
5 posible escuchar la señal de mezcla descendente. Si, por ejemplo, el receptor no posee la funcionalidad de decodificador SAOC, de todas maneras el receptor puede proporcionar siempre la señal de mezcla descendente como salida.
La Fig. 5 ilustra un decodificador SAOC que comprende un decodificador de información secundaria 510, un
10 separador de objetos 520 y un representador 530. El decodificador SAOC ilustrado por la Fig. 5 recibe, por ejemplo, de un codificador SAOC, la señal de mezcla descendente y la información secundaria. La señal de mezcla descendente se puede considerar una señal de entrada de audio que comprende las señales de objetos de audio, ya que las señales de objetos de audio se mezclan dentro de la señal de mezcla descendente (las señales de objetos de audio se mezclan dentro de dichos uno o más canales de mezcla descendente de la señal de mezcla
15 descendente).
Seguidamente, el decodificador SAOC puede intentar, por ejemplo, reconstruir (virtualmente) los objetos originales, por ejemplo, empleando el separador de objetos 520, por ejemplo, utilizando la información secundaria decodificada.
A continuación se combinan estas reconstrucciones (virtuales) de objetos , por ejemplo, las señales de
20 objetos de audio reconstruidas, basándose en la información de representación, por ejemplo, una matriz de representación R, para producir K canales de salida de audio Y1, �, YK de una señal de salida de audio Y.
En la SAOC, con frecuencia se reconstruyen señales de objetos de audio, por ejemplo, empleando información de covarianza, por ejemplo, una matriz de covarianza de señal E, que se transmite desde el codificador SAOC al
25 decodificador SAOC.
Por ejemplo, se puede emplear la siguiente fórmula para reconstruir las señales de objetos de audio en el lado del decodificador:
30 S = GX con G EDH (D E DH)–1
en el que
N número de señales de objetos de audio,
35 Nmuestras número de muestras consideradas de una señal de objetos de audio M número de canales de mezcla descendente, X señal de audio con mezcla descendente, tamaño M x NMuestras, D matriz de mezcla descendente, tamaño MxN E matriz de covarianza de señal, tamaño NxN definido según E = XXH
40 S N señales de objetos de audio paramétricamente reconstruidas, tamaño N x NMuestras (·)H operador autoadjunto (Hermitiano) que representa la transpuesta conjugada de (·)
Seguidamente se puede aplicar una matriz de representación R a las señales de objetos de audio reconstruidas para obtener los canales de salida de audio de la señal de salida de audio Y, por ejemplo, de acuerdo con la
45 fórmula:
Y=R
en el que
50 K número de los canales de salida de audio Y1, �, YK de la señal de salida de audio Y.
R matriz de representación de un tamaño KxN
55 Y señal de salida de audio que comprende los K canales de salida de audio, tamaño K x NMuestras
En la Fig. 5, se hace referencia al proceso de reconstrucción de objetos, por ejemplo, el que lleva a cabo el separador de objetos 520, con la noción “virtual” u “opcional”, ya que puede no ser indispensable que se produzca necesariamente, sino que se puede obtener la funcionalidad deseada combinando las etapas de reconstrucción y
60 representación en el dominio paramétrico (es decir, combinando las ecuaciones).
En otras palabras, en lugar de reconstruir las señales de objetos de audio utilizando la información de mezcla D y la información de covarianza E en primer lugar, y a continuación aplicando la información de representación R a las señales de objetos de audio reconstruidas para obtener los canales de salida de audio Y1, �, YK, se pueden realizar
ambas etapas en una sola etapa, de manera que los canales de salida de audio Y1, �, YK se generen directamente de los canales de mezcla descendente.
Por ejemplo, se puede emplear la siguiente fórmula: 5
Y = RGX con G EDH (D E DH)–1
En principio, la información de representación R puede solicitar cualquier combinación de las señales de objetos de audio originales. En la práctica, sin embargo, las reconstrucciones de objetos pueden comprender errores de
10 reconstrucción y puede no lograrse necesariamente la escena de salida solicitada. Como regla general aproximada que cubre muchos casos prácticos, cuánto más difiere la escena de salida solicitada de la señal de mezcla descendente, más errores de reconstrucción audibles hay.
A continuación se describe la Mejora de Diálogos (DE). Se puede emplear, por ejemplo, la tecnología SAOC para 15 lograr la situación. Cabe señalar que aunque el nombre “Mejora de Diálogos” sugiere un centrarse en las señales orientadas al diálogo, se puede usar también el mismo principio con otros tipos de señales.
En el escenario de DE, los grados de libertad del sistema están limitados con respecto al caso general.
20 Por ejemplo, las señales de objetos de audio S1, �, SN = S se agrupan (y posiblemente se mezclan) formando dos metaobjetos de un objeto en primer plano (FGO) SFGO y un objeto de segundo plano (BGO) SBGO.
Más aun, la escena de salida Y1, �, YK= Y se asemeja a la señal de mezcla descendente X1, �, XK= X. Más específicamente, ambas señales tienen las mismas dimensionalidades, es decir, K=M , y el usuario final solo puede 25 controlar los niveles de mezcla relativos de los dos metaobjetos FGO y BGO. Para ser más precisos, la señal de mezcla descendente se obtiene mezclando el FGO y el BGO con algunas ponderaciones escalares
30 y la escena de salida se obtiene de manera similar con alguna ponderación de escalado del FGO y el BGO:
Dependiendo de los valores relativos de las ponderaciones de mezcla, el balance entre el FGO y el BGO puede 35 cambiar. Por ejemplo, con la configuración
es posible incrementar el nivel relativo del FGO en la mezcla. Si el FGO es el diálogo, esta configuración 40 proporciona una funcionalidad de Mejora de Diálogos.
Como ejemplo de caso práctico, el BGO puede consistir en ruidos de un estadio y otro sonido de segundo plano durante un evento deportivo y el FGO es la voz del comentarista. La funcionalidad DE permite que el usuario final amplifique o atenúe el nivel del comentarista en relación con el segundo plano.
45 Las realizaciones se basan en el hallazgo de que el uso de la tecnología SAOC (o similar) en un escenario de difusión permite proporcionar al usuario final una funcionalidad de manipulación de señales incrementada. Se proporciona mayor funcionalidad que solo el cambio de canal y el ajuste del volumen de reproducción.
50 Se ha descrito anteriormente de manera breve una posibilidad del empleo de la tecnología DE. Si se normaliza el nivel de la señal de difusión, que es la señal de mezcla descendente para SAOC, por ejemplo, de acuerdo con R128, los diferentes programas tienen una sonoridad promedio similar cuando no se aplica el procesamiento (SAOC) (o la descripción de representación es igual a la descripción de la mezcla descendente). Sin embargo, cuando se aplica cierto grado de procesamiento (SAOC), la señal de salida difiere de la señal de mezcla
55 descendente por defecto y la sonoridad de la señal de salida puede ser diferente de la sonoridad de la señal de mezcla descendente por defecto. Desde el punto de vista del usuario final, esto puede llevar a una situación en la cual la sonoridad de la señal de salida entre canales o programas puede tener, una vez más, los saltos o diferencias molestas. En otras palabras, se pierden parcialmente los beneficios de la normalización aplicada por el difusor.
60 Este problema no es específico del escenario de SAOC o DE solamente, sino que también puede aparecer con otros
conceptos de codificación de audio que permitan al usuario final interactuar con el contenido. Sin embargo, en muchos casos no causa perjuicio alguno si la señal de salida tiene una sonoridad diferente de la de la mezcla descendente por defecto.
5 Como se ha indicado anteriormente, la sonoridad total de un programa de señal de entrada de audio debe ser igual a un nivel especificado con pequeñas desviaciones permitidas. Sin embargo, de acuerdo con lo mencionado anteriormente, esto lleva a problemas significativos al llevar a cabo la representación del audio, ya que la representación puede tener un efecto significativo sobre la sonoridad general/total de la señal de entrada de audio recibida. Sin embargo, a pesar de llevarse a cabo la representación de la escena, la sonoridad total de la señal de
10 audio recibida se mantiene igual.
Un enfoque sería estimar la sonoridad de una señal mientras se está reproduciendo, y con un concepto de integración temporal apropiado, la estimación puede converger en la verdadera sonoridad promedio después de un tiempo. Sin embargo, el tiempo requerido para la convergencia es problemático desde el punto de vista del usuario
15 final. Cuando la estimación de la sonoridad cambia aunque no se apliquen cambios a la señal, la compensación por cambio de sonoridad también debería reaccionar y cambiar su comportamiento. Esto traería aparejado una señal de salida con sonoridad promedio temporalmente variable, lo que puede percibirse como algo ciertamente molesto.
La Fig. 6 ilustra el comportamiento de las estimaciones de sonoridad de la señal de salida ante un cambio de
20 sonoridad. Entre otras cosas, se ilustra una estimación de la sonoridad de la señal de salida basada en la señal, que demuestra el efecto de una solución como la que se acaba de describir. La estimación aborda la estimación correcta con bastante lentitud. En lugar de una estimación de la sonoridad de la señal de salida basada en la señal, sería preferible una estimación informada de la sonoridad de la señal de salida, que determina correctamente de inmediato la sonoridad de la señal de salida.
25 En particular, en la Fig. 6, la entrada del usuario, por ejemplo, el nivel del objeto de diálogo cambia en el instante de tiempo T por el incremento de valor. El verdadero nivel de la señal de salida y, por consiguiente la sonoridad, cambia en el mismo instante de tiempo. Cuando se realiza la estimación de sonoridad de la señal de salida a partir de la señal de salida con cierto tiempo de integración temporal, la estimación cambia gradualmente y llega al valor
30 correcto después de un cierto retardo. Durante este retardo, los valores de estimación son cambiantes y no se pueden utilizar con seguridad para el procesamiento posterior de la señal de salida, por ejemplo, para la corrección del nivel de sonoridad.
Como ya se ha mencionado, sería deseable tener una estimación precisa de la sonoridad promedio de salida o el
35 cambio de sonoridad promedio sin retardo y cuando el programa no cambia o no cambia la escena de la representación, la estimación de sonoridad debería permanecer estática también. En otras palabras, cuando se aplica cierta compensación de cambio de sonoridad, el parámetro de compensación debe cambiar solo cuando cambia el programa o cuando hay alguna interacción con el usuario.
40 El comportamiento ventajoso está ilustrado en el esquema inferior de la Fig. 6 (estimación informada de la sonoridad de la señal de salida). La estimación de la sonoridad de la señal de salida debe cambiar inmediatamente cuando cambia la entrada del usuario.
La Fig. 2 ilustra un codificador de acuerdo con una realización.
45 El codificador comprende una unidad de codificación basada en objetos 210 para codificar una pluralidad de señales de objetos de audio para obtener una señal de audio codificada que comprende la pluralidad de señales de objetos de audio.
50 Además, el codificador comprende una unidad de codificación de sonoridad de objetos 220 para codificar información de sonoridad sobre las señales de objetos de audio. La información de sonoridad comprende uno o más valores de sonoridad, en el que cada uno de dichos uno o más valores de sonoridad dependen de una o más de las señales de objetos de audio.
55 De acuerdo con una realización, cada una de las señales de objetos de audio de la señal de audio codificada se asigna exactamente a un grupo de dos o más grupos, en el que cada uno de los dos o más grupos comprende una o más de las señales de objetos de audio de la señal de audio codificada. La unidad de codificación de sonoridad de objetos 220 está configurada para determinar dicho uno o más valores de sonoridad de la información de sonoridad mediante la determinación de un valor de sonoridad por cada grupo de los dos o más grupos, en el que dicho valor
60 de sonoridad de dicho grupo indica una sonoridad total original de dichas una o más señales de objetos de audio de dicho grupo.
La Fig. 1 ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio de acuerdo con una realización.
El decodificador comprende una interfaz de recepción 110 para recibir una señal de entrada de audio que comprende una pluralidad de señales de objetos de audio, para recibir información de sonoridad sobre las señales de objetos de audio, y para recibir información de representación que indica si una o más de las señales de objetos
5 de audio deberá amplificarse o atenuarse.
Más aun, el decodificador comprende un procesador de señales 120 para generar dichos uno o más canales de salida de audio de la señal de salida de audio. El procesador de señales 120 está configurado para determinar un valor de compensación de sonoridad dependiendo de la información de sonoridad y dependiendo de la información
10 de representación. Además, el procesador de señales 120 está configurado para generar dichos uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad.
De acuerdo con una realización, el procesador de señales 110 está configurado para generar dichos uno o más
15 canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad, de tal manera que la sonoridad de la señal de salida de audio sea igual a la sonoridad de la señal de entrada de audio, o de tal manera que la sonoridad de la señal de salida de audio se aproxime más a la sonoridad de la señal de entrada de audio que la sonoridad de una señal de audio modificada que se produciría como resultado de la modificación de la señal de
20 entrada de audio mediante la amplificación o atenuación de las señales de objetos de audio de la señal de entrada de audio de acuerdo con la información de representación.
De acuerdo con otra realización, cada una de las señales de objetos de audio de la señal de entrada de audio se asigna exactamente a un grupo de dos o más grupos, en el que cada uno de los dos o más grupos comprende una o
25 más de las señales de objetos de audio de la señal de entrada de audio.
En una realización de este tipo, la interfaz de recepción 110 está configurada para recibir un valor de sonoridad por cada grupo de los dos o más grupos como información de sonoridad, en el que dicho valor de sonoridad indica una sonoridad total original de dichas una o más señales de objetos de audio de dicho grupo. Además, la interfaz de 30 recepción 110 está configurada para recibir la información de representación que indica, con respecto a al menos un grupo de los dos o más grupos, si dichas una o más señales de objetos de audio de dicho grupo deberá amplificarse
o atenuarse mediante la indicación de una sonoridad total modificada de dichas una o más señales de objetos de audio de dicho grupo. Más aun, en una realización de este tipo, el procesador de señales 120 está configurado para determinar el valor de compensación de sonoridad dependiendo de la sonoridad total modificada de cada uno de
35 dicho al menos un grupo de dichos dos o más grupos y dependiendo de la sonoridad total original de cada uno de dichos dos o más grupos. Además, el procesador de señales 120 está configurado para generar dichos uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la sonoridad total modificada de cada uno de dicho al menos un grupo de dichos dos o más grupos y dependiendo del valor de compensación de sonoridad.
40 En realizaciones particulares, al menos un grupo de dichos dos o más grupos comprende dos o más de las señales de objetos de audio.
Existe una relación directa entre la energía ei de una señal de objeto de audio i y la sonoridad Li de la señal de 45 objeto de audio i de acuerdo con las fórmulas:
en la que c es un valor constante.
Las realizaciones se basan en los siguientes hallazgos: diferentes señales de objetos de audio de la señal de
50 entrada de audio puede tener diferente sonoridad y, por consiguiente, diferente energía. Si, por ejemplo, un usuario desea aumentar la sonoridad de una de las señales de objetos de audio, se puede ajustar de manera correspondiente la información de representación, y el aumento de la sonoridad de esta señal de objeto de audio aumenta la energía de este objeto de audio. Esto daría lugar a una sonoridad incrementada de la señal de salida de audio. Para mantener constante la sonoridad total, se tiene que llevar a cabo una compensación de la sonoridad. En
55 otras palabras, la señal de audio modificada que se generaría como resultado de la aplicación de la información de representación sobre la señal de entrada de audio debería ajustarse. Sin embargo, el efecto exacto de la amplificación de una de las señales de objetos de audio sobre la sonoridad total de la señal de audio modificada depende de la sonoridad original de la señal de objeto de audio amplificada, por ejemplo, de la señal de objeto de audio, la sonoridad de la cual se incrementa. Si la sonoridad original de este objeto corresponde a una energía que
60 era bastante baja, el efecto sobre la sonoridad total de la señal de entrada de audio ha de ser menor. Si, por el contrario, la sonoridad original de este objeto corresponde a una energía que era bastante alta, el efecto sobre la sonoridad total de la señal de entrada de audio será significativo.
Se pueden considerar dos ejemplos. En ambos ejemplos, una señal de entrada de audio comprende dos señales de objetos de audio, y en ambos ejemplos, aplicando la información de representación se incrementa el 50 % la energía de la primera de las señales de objetos de audio.
5 En el primer ejemplo, la primera señal de objeto de audio contribuye el 20 % y la segunda señal de objeto de audio contribuye el 80 % a la energía total de la señal de entrada de audio. Sin embargo, en el segundo ejemplo, el primer objeto de audio, la primera señal de objeto de audio contribuye el 40 % y la segunda señal de objeto de audio contribuye el 60 % a la energía total de la señal de entrada de audio. En ambos ejemplos estas contribuciones se derivan de la información de sonoridad sobre las señales de objetos de audio, ya que existe una relación directa
10 entre sonoridad y energía.
En el primer ejemplo, se produce un aumento del 50 % de la energía del primer objeto de audio dando como resultado que la señal de audio modificada se genera mediante la aplicación de la información de representación a la señal de entrada de audio tiene una energía total de 1,5 x 20 % + 80 % = 110 % de la energía de la señal de
15 entrada de audio. En el segundo ejemplo, se produce un aumento del 50 % de la energía del primer objeto de audio dando como resultado que la señal de audio modificada que se genera mediante la aplicación de la información de representación a la señal de entrada de audio tiene una energía total de 1,5 x 40 % + 60 % = 120 % de la energía de la señal de entrada de audio.
20 Por consiguiente, después de aplicar la información de representación sobre la señal de entrada de audio, en el primer ejemplo, solo se tiene que reducir la energía total de la señal de audio modificada el 9 % (10/110) para obtener igual energía tanto en la señal de entrada de audio como en la señal de salida de audio, mientras que en el segundo ejemplo, la energía total de la señal de audio modificada tiene que reducirse el 17 % (20/120). Para este
25 fin, se puede calcular un valor de compensación de sonoridad.
Por ejemplo, el valor de compensación de sonoridad puede ser un valor escalar que se aplica a todos los canales de salida de audio de la señal de salida de audio.
30 De acuerdo con una realización, el procesador de señales está configurado para generar la señal de audio modificada mediante la modificación de la señal de entrada de audio mediante la amplificación o atenuación de las señales de objetos de audio de la señal de entrada de audio de acuerdo con la información de representación. Más aun, el procesador de señales está configurado para generar la señal de salida de audio mediante la aplicación del valor de compensación de sonoridad a la señal de audio modificada, de tal manera que la sonoridad de la señal de
35 salida de audio sea igual a la sonoridad de la señal de entrada de audio, o de tal manera que la sonoridad de la señal de salida de audio se aproxime más a la sonoridad de la señal de entrada de audio que la sonoridad de la señal de audio modificada.
Por ejemplo, en el primer ejemplo anterior, se puede fijar el valor de compensación de sonoridad lcv, por ejemplo, en
40 un valor lcv = 10/11, y se puede aplicar un factor de multiplicación de 10/11 a todos los canales que se producen como resultado de la representación de los canales de entrada de audio de acuerdo con la información de representación.
En consecuencia, por ejemplo, en el segundo ejemplo anterior, se puede fijar el valor de compensación de sonoridad
45 lcv, por ejemplo, en un valor lcv = 10/12 = 5/6, y se puede aplicar un factor de multiplicación de 5/6 en todos los canales que se producen como resultado de la representación de los canales de entrada de audio de acuerdo con la información de representación.
En otras realizaciones, cada una de las señales de objetos de audio puede asignarse a una de una pluralidad de
50 grupos, y se puede transmitir un valor de sonoridad para cada uno de los grupos que indican un valor de sonoridad total de las señales de objetos de audio de dicho grupo. Si la información de representación especifica que la energía de uno de los grupos se atenúa o amplifica, por ejemplo, se amplifica el 50 % como en el caso anterior, se puede calcular un aumento de la energía total y se puede determinar un valor de compensación de sonoridad de la manera anteriormente descrita.
55 Por ejemplo, de acuerdo con una realización, cada una de las señales de objetos de audio de la señal de entrada de audio se asigna exactamente a un grupo de exactamente dos grupos como dicho dos o más grupos. Cada una de las señales de objetos de audio de la señal de entrada de audio se asigna a un grupo de objetos de primer plano de los exactamente dos grupos o a un grupo de objetos de segundo plano de los exactamente dos grupos. La interfaz
60 de recepción 110 está configurada para recibir la sonoridad total original de dichas una o más señales de objetos de audio del grupo de objetos de primer plano. Más aun, la interfaz de recepción 110 está configurada para recibir la sonoridad total original de dichas una o más señales de objetos de audio del grupo de objetos de segundo plano. Además, la interfaz de recepción 110 está configurada para recibir la información de representación que indica, en el caso de al menos un grupo de los exactamente dos grupos, si dichas una o más señales de objetos de audio de
cada uno de dicho al menos un grupo deberán amplificarse o atenuarse mediante la indicación de una sonoridad total modificada de dichas una o más señales de objetos de audio de dicho grupo.
En una realización de este tipo, el procesador de señales 120 está configurado para determinar el valor de
5 compensación de sonoridad dependiendo de la sonoridad total modificada de cada uno de dicho al menos un grupo, dependiendo de la sonoridad total original de dichas una o más señales de objetos de audio del grupo de objetos de primer plano, y dependiendo de la sonoridad total original de dichas una o más señales de objetos de audio del grupo de objetos de segundo plano. Más aun, el procesador de señales 120 está configurado para generar dichos uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio
10 dependiendo de la sonoridad total modificada de cada uno de dicho al menos un grupo y dependiendo del valor de compensación de sonoridad.
De acuerdo con algunas realizaciones, cada una de las señales de objetos de audio se asigna a uno de tres o más grupos, y la interfaz de recepción puede estar configurada para recibir un valor de sonoridad para cada uno de los
15 tres o más grupos, que indica la sonoridad total de la señales de objetos de audio de dicho grupo.
De acuerdo con una realización, para determinar el valor total de sonoridad de dos o más señales de objetos de audio, por ejemplo, se determina el valor de energía correspondiente al valor de sonoridad por cada señal de objeto de audio, se suman los valores de energía de todos los valores de sonoridad para obtener una suma de energía y se
20 determina el valor de sonoridad que corresponde a la suma de energías como valor de sonoridad total de las dos o más señales de objetos de audio. Por ejemplo, se pueden emplear las siguientes fórmulas
25 En algunas realizaciones, se transmiten los valores de sonoridad para cada una de las señales de objetos de audio,
o cada una de las señales de objetos de audio se asigna a uno o dos o más grupos, en el que por cada uno de los grupos, se transmite un valor de sonoridad.
Sin embargo, en algunas realizaciones, para una o más señales de objetos de audio o para uno o más de los grupos
30 que comprenden señales de objetos de audio, no se transmite ningún valor de sonoridad. Por el contrario, el decodificador puede presumir, por ejemplo, que estas señales de objetos de audio o grupos de señales de objetos de audio, para los cuales no se transmite ningún valor de sonoridad, tienen un valor de sonoridad predefinido. El decodificador puede basar todas las determinaciones posteriores, por ejemplo, en este valor de sonoridad predefinido.
35 De acuerdo con una realización, la interfaz de recepción 110 está configurada para recibir una señal de mezcla descendente que comprende uno o más canales de mezcla descendente como señal de entrada de audio, en el que dichos uno o más canales de mezcla descendente comprenden las señales de objetos de audio, y en el que el número de señales de objetos de audio es menor que el número de dichos uno o más canales de mezcla
40 descendente. La interfaz de recepción 110 está configurada para recibir información de mezcla descendente que indica de cómo se mezclan las señales de objetos de audio dentro de dichos uno o más canales de mezcla descendente. Más aun, el procesador de señales 120 está configurado para generar dichos uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de mezcla descendente, dependiendo de la información de representación y dependiendo del valor de
45 compensación de sonoridad. En una realización particular, el procesador de señales 120 puede estar configurado, por ejemplo, para calcular el valor de compensación de sonoridad dependiendo de la información de mezcla descendente.
Por ejemplo, la información de mezcla descendente puede ser una matriz de mezcla descendente. En algunas
50 realizaciones, el decodificador puede ser un decodificador SAOC. En realizaciones de este tipo, la interfaz de recepción 110 puede estar configurada además, por ejemplo, para recibir información de covarianza, por ejemplo, una matriz de covarianza como la anteriormente descrita.
Con respecto a la información de representación que indica si una o más de las señales de objetos de audio deberá
55 amplificarse o atenuarse, se debe tener en cuenta que, por ejemplo, la información que indica cómo una o más de las señales de objetos de audio deberá amplificarse o atenuarse, es información de representación. Por ejemplo, una matriz de representación R, por ejemplo, una matriz de representación de SAOC, es información de representación.
60 La Fig. 3 ilustra un sistema de acuerdo con una realización.
El sistema comprende un codificador 310 de acuerdo con una de las realizaciones anteriormente descritas para codificar una pluralidad de señales de objetos de audio para obtener una señal de audio codificada que comprende
la pluralidad de señales de objetos de audio.
Más aun, el sistema comprende un decodificador 320 de acuerdo con una de las realizaciones anteriormente descritas para generar una señal de salida de audio que comprende uno o más canales de salida de audio. El 5 decodificador está configurado para recibir la señal de audio codificada como señal de entrada de audio y la información de sonoridad. Más aun, el decodificador 320 está configurado para recibir asimismo información de representación. Además, el decodificador 320 está configurado para determinar un valor de compensación de sonoridad dependiendo de la información de sonoridad y dependiendo de la información de representación. Asimismo, el decodificador 320 está configurado para generar dichos uno o más canales de salida de audio de la
10 señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad.
La Fig. 7 ilustra la estimación de sonoridad informada de acuerdo con una realización. A la izquierda del flujo de transporte 730, se ilustran los componentes de un codificador para la codificación de audio basada en objetos. En 15 particular, se ilustra una unidad de codificación basada en objetos 710 (“codificador de audio basado en objetos”) y una unidad de codificación de sonoridad de objetos 720 (“estimación de sonoridad de objetos”).
El flujo de transporte 730 en sí comprende información de sonoridad L, información de mezcla descendente D y la salida del codificador de audio basado en objetos 710 B.
20 A la derecha del flujo de transporte 730, se ilustran los componentes de un procesador de señales de un decodificador para la codificación de audio basada en objetos. No se ilustra la interfaz de recepción del decodificador. Se ilustra un estimador de sonoridad de salida 740 y una unidad de decodificación de audio basada en objetos 750. El estimador de sonoridad de salida 740 puede estar configurado para determinar el valor de
25 compensación de sonoridad. La unidad de decodificación de audio basada en objetos 750 puede estar configurada para determinar una señal de audio modificada a partir de una señal de audio, que se envía al decodificador, mediante la aplicación de la información de representación R. No se muestra la aplicación del valor de compensación de sonoridad a la señal de audio modificada para compensar un cambio de sonoridad total causado por la representación en la Fig. 7.
30 La entrada enviada al codificador consiste en los objetos de entrada S en el mínimo. El sistema estima la sonoridad de cada objeto (o alguna otra información relacionada con la sonoridad, tal como por ejemplo las energías de los objetos), por ejemplo, por la unidad de codificación de sonoridad de objetos 720, y esta información L se transmite y/o almacena. (También es posible que la sonoridad de los objetos se envíe como entrada al sistema, y puede
35 omitirse el paso de estimación dentro del sistema).
En la realización de la Fig. 7, el decodificador recibe al menos la información de la sonoridad de los objetos y, por ejemplo, la información de representación R que describe la mezcla de los objetos en la señal de salida. Basándose en estas, por ejemplo, el estimador de sonoridad de salida 740, estima la sonoridad de la señal de salida y
40 proporciona esta información como su salida.
La información de mezcla descendente D puede proporcionarse como la información de representación, en cuyo caso la estimación de sonoridad proporciona una estimación de la sonoridad de la señal de mezcla descendente. También es posible proporcionar la información de mezcla descendente como entrada a la estimación de sonoridad 45 de los objetos y transmitir y/o almacenarla junto con la información de la sonoridad de los objetos. A continuación la estimación de sonoridad de salida puede estimar simultáneamente la sonoridad de la señal de mezcla descendente y la salida representada y enviar estos dos valores o su diferencia como información de la sonoridad de salida. El valor de diferencia (o su inversa) describe la compensación requerida que debería aplicarse a la señal de salida representada para hacer que su sonoridad sea similar a la sonoridad de la señal de mezcla descendente. La
50 información de la sonoridad de los objetos puede incluir además información con respecto a los coeficientes de correlación entre diversos objetos y esta correlación puede utilizarse en la estimación de sonoridad de salida para una estimación más precisa.
A continuación, se describe una realización preferida para aplicación de mejora de diálogos.
55 En la aplicación de mejora de diálogos, como se ha descrito anteriormente, se agrupan las señales de objetos de audio de entrada y se realiza la mezcla descendente parcial para formar dos metaobjetos, FGO y BGO, que a continuación pueden ser sumados fácilmente para determinar la señal de mezcla descendente final.
60 Después de la descripción de SAOC [SAOC], se representan N señales de objetos de entrada como una matriz S del tamaño N x NMuestras, y la información de mezcla descendente como una matriz D del tamaño MxN. Seguidamente se pueden obtener las señales de mezcla descendente como X= DS.
Ahora se puede dividir la información de mezcla descendente D en dos partes
D=DFGO + DBGO para los metaobjetos.
5 Como cada columna de la matriz D corresponde a una señal de objeto de audio original, se pueden obtener las dos matrices de mezcla descendente componentes estableciendo las columnas, que corresponden al otro metaobjeto en cero (suponiendo que no hay ningún objeto original en ambos metaobjetos). En otras palabras, las columnas correspondientes al metaobjeto BGO son fijados en cero en DFGO y viceversa.
10 Estas nuevas matrices de mezcla descendente describen la manera en que se pueden obtener dos metaobjetos a partir de los objetos de entrada, es decir:
SFGO =DFGOS y SBGO =DBGOS,
15 y la mezcla descendente real se simplifica a
X=SFGO + SBGO.
Se puede considerar asimismo que el decodificador de objetos (por ejemplo, SAOC) intenta reconstruir los meta20 objetos:
y la representación específica de DE se puede escribir como una combinación de estas dos reconstrucciones de 25 metaobjetos:
La estimación de sonoridad de objetos recibe los dos metaobjetos SFGO y SBGO como entrada y estima la sonoridad
30 de cada uno de ellos: LFGO que es la sonoridad (total/general) de SFGO,y LBGO que es la sonoridad (total/general) de SBGO. Estos valores de sonoridad se transmiten y/o almacenan.
Como alternativa, utilizando uno de los metaobjetos, por ejemplo, el FGO, como referencia, es posible calcular la diferencia de sonoridad de estos dos objetos, por ejemplo, como
A continuación, este valor único se transmite y/o almacena.
40 La Fig. 8 ilustra un codificador de acuerdo con otra realización. El codificador de la Fig. 8 comprende un mezclador descendente de objetos 811 y un estimador de información secundaria de objetos 812. Además, el codificador de la Fig. 8 comprende asimismo una unidad de codificación de sonoridad de objetos 820. Más aun, el codificador de la Fig. 8 comprende un mezclador de metaobjetos de audio 805.
45 El codificador de la Fig. 8 utiliza metaobjetos de audio intermedios como entrada a la estimación de sonoridad de objetos. En ciertas realizaciones, el codificador de la Fig. 8 puede estar configurado para generar dos metaobjetos de audio. En otras realizaciones, el codificador de la Fig. 8 puede estar configurado para generar tres o más metaobjetos de audio.
50 Entre otras cosas, los conceptos proporcionados proporcionan una nueva característica, y es que el codificador puede, por ejemplo, estimar la sonoridad promedio de todos los objetos de entrada. Los objetos se pueden mezclar, por ejemplo, para obtener una señal de mezcla descendente que se transmite. Los conceptos proporcionados proporcionan además la nueva característica de que se puede incluir la información de sonoridad de objeto y de mezcla descendente, por ejemplo, en la información secundaria de codificación de objetos que se transmite.
55 El decodificador puede utilizar, por ejemplo, la información secundaria de codificación de objetos para la separación (virtual) de los objetos y recombinar los objetos usando la información de representación.
Además, los conceptos proporcionados presentan la nueva característica de que se puede usar la información de
60 mezcla descendente para estimar la sonoridad de la señal de mezcla descendente por defecto, la información de representación y la sonoridad de objetos recibida para para estimar la sonoridad promedio de la señal de salida, y/o se puede estimar el cambio de sonoridad tomando estos dos valores. O bien, se puede utilizar la información de
mezcla descendente y de representación para estimar el cambio de sonoridad a partid de la mezcla descendente por defecto, otra nueva característica de los conceptos proporcionados.
Además, los conceptos proporcionados proporcionan la nueva característica de que se puede modificar la salida del 5 decodificador para compensar el cambio de sonoridad de manera que la sonoridad promedio de la señal modificada se equipare a la sonoridad promedio de la mezcla descendente por defecto.
En la Fig. 9 se ilustra una realización particular relacionada con SAOCDE. El sistema recibe las señales de objetos de audio de entrada, la información de mezcla descendente, y la información sobre el agrupamiento de los objetos 10 en metaobjetos. Basándose en estas, el mezclador de metaobjetos de audio 905 forma los dos metaobjetos SFGO y SBGO. Es posible que la porción de la señal que se procesa con SAOC, no constituya la totalidad de la señal. Por ejemplo, en una configuración de 5.1 canales, se puede implementar SAOC en un subconjunto de canales, como en el canal delantero (izquierdo, derecho y central), mientras que los demás canales (izquierdo de envolvente, derecho de envolvente y efectos de baja frecuencia) se encaminan a rodear (desviando) la SAOC y se entregan como tal.
15 Estos canales no procesados por SAOC se indican como XDESVÍO. Es necesario incluir los posibles canales de desviación al codificador para una estimación más precisa de la información de sonoridad.
Los canales de desviación pueden tratarse de diversas maneras.
20 Por ejemplo, los canales de desviación pueden formar, por ejemplo, un metaobjeto independiente. Esto permite definir la representación de manera que los tres metaobjetos se escalan de manera independiente.
O bien, por ejemplo, se puede combinar los canales de desviación, por ejemplo, con uno de los otros dos metaobjetos. Las configuraciones de representación de ese metaobjeto también controlan la porción de canales de
25 desviación. Por ejemplo, en el escenario de mejora de diálogos, puede ser ventajoso combinar los canales de desviación con el metaobjeto de segundo plano: XBCO = SBGO + XDESVÍO.
O, por ejemplo, se pueden ignorar los canales de desviación, por ejemplo.
30 De acuerdo con algunas realizaciones, la unidad de codificación basada en objetos 210 del codificador está configurada para recibir las señales de objetos de audio, en el que cada una de las señales de objetos de audio se asigna exactamente a uno de exactamente dos grupos, en el que cada uno de los exactamente dos grupos comprende una o más de las señales de objetos de audio. Más aun, la unidad de codificación basada en objetos 210 está configurada para efectuar la mezcla descendente de las señales de objetos de audio, que están comprendidas
35 por dichos exactamente dos grupos, para obtener una señal de mezcla descendente que comprende uno o más canales de audio de mezcla descendente como la señal de audio codificada, en el que el número de dichos uno o más canales de mezcla descendente es menor que el número de señales de objetos de audio que están comprendidas por dichos exactamente dos grupos. La unidad de codificación de sonoridad de objetos 220 está asignada para recibir una o más señales de objetos de audio de desvío adicionales, en el que cada una de dichas
40 una o más señales de objetos de audio de desvío adicionales se asigna a un tercer grupo, en el que cada una de dichas una o más señales de objetos de audio de desvío adicionales no está comprendida en el primer grupo y no está comprendida en el segundo grupo, en el que la unidad de codificación basada en objetos 210 está configurada para no efectuar la mezcla descendente de dichas una o más señales de objetos de audio de desvío adicionales dentro de la señal de mezcla descendente.
45 En una realización, la unidad de codificación de sonoridad de objetos 220 está configurada para determinar un primer valor de sonoridad, un segundo valor de sonoridad y un tercer valor de sonoridad de la información de sonoridad, indicando el primer valor de sonoridad una sonoridad total de dichas una o más señales de objetos de audio del primer grupo, indicando el segundo valor de sonoridad una sonoridad total de dichas una o más señales de
50 objetos de audio del segundo grupo e indicando el tercer valor de sonoridad una sonoridad total de dichas una o más señales de objetos de audio de desvío adicionales del tercer grupo. En otra realización, la unidad de codificación de sonoridad de objetos 220 está configurada para determinar un primer valor de sonoridad y un segundo valor de sonoridad de la información de sonoridad, en el que el primer valor de sonoridad indica una sonoridad total de dichas una o más señales de objetos de audio del primer grupo, y en el que el segundo valor de
55 sonoridad indica una sonoridad total de dichas una o más señales de objetos de audio del segundo grupo y de dichas una o más señales de objetos de audio de desvío adicionales del tercer grupo.
De acuerdo con una realización, la interfaz de recepción 110 del decodificador está configurada para recibir la señal de mezcla descendente. Más aun, la interfaz de recepción 110 está configurada para recibir una o más señales de 60 objetos de audio de desvío adicionales, en el que dichas una o más señales de objetos de audio de desvío adicionales no se mezclan dentro de la señal de mezcla descendente. Además, la interfaz de recepción 110 está configurada para recibir la información de sonoridad que contiene información sobre la sonoridad de la señales de objetos de audio que se mezclan en la señal de mezcla descendente y que indica información sobre la sonoridad de dichas una o más señales de objetos de audio de desvío adicionales que no se mezclan en la señal de mezcla
descendente. Más aun, el procesador de señales 120 está configurado para determinar el valor de compensación de sonoridad dependiendo de la información sobre la sonoridad de las señales de objetos de audio que se mezclan en la señal de mezcla descendente, y dependiendo de la información sobre la sonoridad de dichas una o más señales de objetos de audio de desvío adicionales que no se mezclan en la señal de mezcla descendente.
5 La Fig. 9 ilustra un codificador y un decodificador de acuerdo con una realización relacionada con el SAOCDE, que comprende canales de desviación. Entre otras cosas, el codificador de la Fig. 9 comprende un codificador SAOC
902.
10 En la realización de la Fig. 9, la posible combinación de los canales de desviación con los demás metaobjetos tiene lugar en los dos bloques de “inclusión de desvío” 913, 914, que producen los metaobjetos XFGO y XBGO en el que se incluyen las partes definidas de los canales de desviación.
La sonoridad perceptual LDESVÍO, LFGO y LBGO de estos dos metaobjetos se estima en las unidades de estimación de
15 sonoridad 921, 922, 923. A continuación se transforma esta información de sonoridad en una codificación apropiada en un estimador de información de sonoridad de metaobjetos 925 y a continuación se transmite y/o almacena.
El codificador y el decodificador SAOC reales operan como se espera extrayendo la información secundaria de objetos de los objetos, creando la señal de mezcla descendente X, y almacenando y/o transmitiendo la información
20 al decodificador. Los posibles canales de desviación se transmiten y/o almacenan junto con la demás información al decodificador.
El decodificador SAOC–DE 945 recibe un valor de ganancia “Ganancia de diálogo” como entrada del usuario. Basándose en esta entrada y la información de mezcla descendente recibida, el decodificador SAOC 945 determina
25 la información de representación. El decodificador SAOC 945 produce a continuación la escena representada de salida como la señal Y. Además de eso, produce un factor de ganancia (y un valor de retardo) que se aplicaría a las posibles señales de desvío XDESVÍO.
La unidad de “inclusión de desvío” 955 recibe esta información junto con la escena de salida representada y las
30 señales de desvío y crea la señal de escena de salida total. El decodificador SAOC 945 produce asimismo un conjunto de valores de ganancia de metaobjetos, dependiendo la cantidad de estos del agrupamiento de metaobjetos y de la forma de información de sonoridad pretendida.
Los valores de ganancia se envían al estimador de sonoridad de la mezcla 960 que también recibe información de 35 sonoridad de metaobjetos procedente del codificador.
A continuación el estimador de sonoridad de la mezcla 960 puede determinar la información de sonoridad deseada, que puede incluir, pero sin limitación, la sonoridad de la señal de mezcla descendente, la sonoridad de la escena de salida representada, y/o la diferencia de sonoridad entre la señal de mezcla descendente y la escena de salida
40 representada.
En algunas realizaciones, la información de sonoridad en sí es suficiente, mientras que, en otras realizaciones, es conveniente procesar la salida completa dependiendo de la información de sonoridad determinada. Este procesamiento puede ser, por ejemplo, la compensación de cualquier diferencia posible de sonoridad entre la señal
45 de mezcla descendente y la escena de salida representada. Un procesamiento de este tipo, por ejemplo, mediante una unidad de procesamiento de sonoridad 970, tendría sentido en el escenario de difusión, ya que reduciría los cambios en la sonoridad percibida de la señal independientemente de la interacción con el usuario (configuración de la “ganancia de diálogo” de entrada).
50 El procesamiento relacionado con la sonoridad efectuado en esta realización particular comprende una pluralidad de características nuevas. Entre otras cosas, el FGO, BGO, y los posibles canales de desviación se premezclan en la configuración final de canales para que se pueda realizar la mezcla descendente simplemente agregando las dos señales premezcladas juntas (por ejemplo, coeficientes de matriz de mezcla descendente de 1), que constituye una nueva característica. Más aun, como nueva característica adicional, se estima la sonoridad promedio del FGO y
55 BGO y se calcula la diferencia. Además, se mezclan los objetos para obtener una señal de mezcla descendente que se transmite. Más aun, como nueva característica adicional, se incluye la información de diferencia de sonoridad en la información secundaria que se transmite. (nueva) Además, el decodificador utiliza la información secundaria para la separación (virtual) de los objetos y recombina los objetos usando la información de representación que se basa en la información de mezcla descendente y la ganancia de modificación de entrada de usuario. Más aun, como
60 nueva característica adicional, el decodificador utiliza la ganancia de modificación y la información de sonoridad transmitida para estimar el cambio en la sonoridad promedio de la salida del sistema en comparación con la mezcla descendente por defecto.
A continuación, se presenta una descripción formal de las realizaciones.
Suponiendo que los valores de sonoridad de los objetos se comportan de manera similar al logaritmo de los valores de energía al sumar los objetos, es decir, que los valores de sonoridad se deben transformar al dominio lineal, sumarse ahí y por último transformarse nuevamente al dominio logarítmico. Se presentará ahora la motivación de
5 esto por medio de la definición de la medida de sonoridad BS.1770 (para simplificar, se establece un número de canales de uno, aunque se puede aplicar el mismo principio a señales multicanal con la suma apropiada de los canales adicionales).
La sonoridad de la señal de orden i filtrada con K zi en la que la energía cuadrática media ei se define como 10
en el que c es una constante de desplazamiento. Por ejemplo, c puede ser 0,691. De esto surge que se puede determinar la energía de la señal a partir de la sonoridad con
La energía de la suma de N señales no correlacionadas es entonces
y la sonoridad de esta señal de suma es entonces
Si las señales no están correlacionas, se deben tener en cuenta los coeficientes de correlación Ci,j al aproximar la energía de la señal sumada de la siguiente manera
en el que la energía cruzada ei,j entre los objetos de orden i y j se define de la siguiente manera
35 enelque 1 ≤ Ci,j ≤ 1 es el coeficiente de correlación entre los dos objetos i y j. Cuando dos objetos no están correlacionados, el coeficiente de correlación es igual a 0, y cuando los dos objetos son idénticos, el coeficiente de correlación es igual a 1.
Extendiendo aún más el modelo con las ponderaciones de mezcla gi que se han de aplicar a las señales en el
40 proceso de mezcla, es decir,
la energía de la señal sumada será
y a partir de esto se puede obtener la sonoridad de la señal de mezcla, como antes, con:
La diferencia entre la sonoridad de las dos señales se puede estimar de la siguiente manera
Si ahora se utiliza la definición de sonoridad como anteriormente, esto se puede escribir de la siguiente manera
que puede observarse en función de las energías de señal. Si ahora se desea estimar la diferencia de sonoridad entre dos mezclas
posiblemente con ponderaciones de mezcla diferentes gi y hi, esto se puede estimar calculando:
En caso de que los objetos no estén correlacionados (Ci,j =0 ∀i≠j y Ci,j = 1, ∀i=j), la estimación de la diferencia se convierte en
A continuación se considera la codificación diferencial.
Es posible codificar los valores de sonoridad por objeto como diferencias con respecto a la sonoridad de un objeto de referencia elegido:
en el que LREF es la sonoridad del objeto de referencia. Esta codificación es ventajosa si no se necesitan valores de sonoridad absolutos como resultado, puesto que ahora es necesario transmitir un valor menos, y la estimación de diferencia de sonoridad se puede escribir como
o en el caso de objetos no correlacionados
15 A continuación, se considera un enfoque de mejora de diálogos.
Consideremos, una vez más, el escenario de aplicación de mejora de diálogos. La libertad para definir la información de representación en el decodificador se limita solo a los cambios de nivel de los dos metaobjetos. Supongamos, además, que los dos metaobjetos no están correlacionados, es decir, CFGO,BGO = 0. Si las ponderaciones de mezcla
20 descendente de los metaobjetos son hFGO y hBGO, y se representaran con las ganancias fFGO y fBGO, la sonoridad de la salida con respecto a la mezcla descendente por defecto es
25 Esta es entonces también la compensación requerida si se desea tener la misma sonoridad en la salida que en la mezcla descendente por defecto.
ΔL(A, B) se puede considerar como un valor de compensación de sonoridad, que puede transmitirse por el procesador de señales 120 del decodificador. ΔL(A, B) se puede nombrar asimismo como valor de cambio de
30 sonoridad y, por consiguiente, el valor de compensación real puede ser un valor inverso. ¿O también es aceptable usar el nombre “factor de compensación de sonoridad” para el mismo? De esa manera, el valor de compensación de sonoridad lcv mencionado anteriormente en este documento correspondería al siguiente valor gDelta.
Por ejemplo, se puede aplicar gΔ=10 ΔL(A,B)/20 1 / ΔL(A, B) como un factor de multiplicación a cada canal de una señal
35 de audio modificada que surja como resultado de la aplicación de la información de representación a la señal de entrada de audio. Esta ecuación gDelta actúa en el dominio lineal. En el dominio logarítmico, la ecuación sería diferente, tal como 1 / ΔL(A, B) y se aplicaría de manera correspondiente.
Si el proceso de mezcla descendente se simplifica de tal manera que los dos metaobjetos se puedan mezclar con
40 ponderaciones unitarias para obtener la señal de mezcla descendente, es decir, hFGO = hBGO = 1, y ahora las ganancias de representación correspondientes a estos dos objetos están indicadas con gFGO y gBGO. Esto simplifica la ecuación de cambio de sonoridad en
Una vez más, se puede considerar ΔL(A, B) como un valor de compensación de sonoridad determinado por el procesador de señales 120.
5 En general, se puede considerar que gFGO es una ganancia de representación correspondiente al objeto en primer plano FGO (grupo de objetos de primer plano), y se puede considerar que gBGO es una ganancia de representación correspondiente al objeto de segundo plano BGO (grupo de objetos de segundo plano).
10 Como se ha mencionado anteriormente, es posible transmitir diferencias de sonoridad en lugar de la sonoridad absoluta. Definamos la sonoridad de referencia como sonoridad del metaobjeto FGO LREF = LFGO, es decir, KFGO = LFGO LREF =0y KBGO = LBGO LREF = LBGO LFGO. Ahora, el cambio de sonoridad es
15 También puede ocurrir, como en el caso de la SAOCDE, que dos metaobjetos no tengan factores de escala individuales, pero que uno de los objetos quede sin modificar, mientras que el otro se atenúa para obtener la relación de mezcla correcta entre los objetos. En esta configuración de representación, la salida ha de ser más baja en sonoridad que la mezcla por defecto, y el cambio en la sonoridad es
con
Esta forma ya es bastante sencilla, y bastante independiente con respecto a la medida de sonoridad empleada. El único requisito real es que los valores de sonoridad deben sumarse en el dominio exponencial. Es posible transmitir/almacenar los valores de las energías de señal en lugar de los valores de sonoridad, ya que entre los dos
30 hay una estrecha conexión.
En cada una de las fórmulas anteriores, ΔL(A, B) se puede considerar un valor de compensación de sonoridad, que puede transmitirse por el procesador de señales 120 del decodificador.
35 A continuación, se considera un ejemplo. Se ilustra la precisión de los conceptos proporcionados por medio de dos señales ejemplificativas. Ambas señales tienen una mezcla descendente 5.1 con los canales de envolvente y LFE desviados del procesamiento de SAOC.
Se utilizan dos enfoques principales: uno (“de 3 términos”) con tres metaobjetos: FGO, BGO y canales de 40 desviación, por ejemplo,
X=XFGO + XBGO + XDESVÍO.
Y otro (“de 2 términos”) con dos metaobjetos, por ejemplo: 45 X=XFGO + XBGO.
En el enfoque de 2 términos, los canales de desviación se pueden mezclar, por ejemplo, junto con el BGO para la estimación de la sonoridad de los metaobjetos. Se estima la sonoridad de ambos (o de los tres) objetos, así como la sonoridad de la señal de mezcla descendente, y se guardan los valores.
Las instrucciones de representación están en la forma
y
para los dos enfoques, respectivamente. 15 Los valores de ganancia se determinan, por ejemplo, de acuerdo con:
en el que la ganancia del FGO gFGO se varía de 24 a +24 dB.
20 Se representa el escenario de salida, se mide la sonoridad y se calcula la atenuación de la sonoridad de la señal de mezcla descendente.
Este resultado se visualiza en la Fig. 10 y en la Fig. 11 con la línea azul con marcadores circulares. La Fig. 10
25 presenta una primera ilustración y la Fig. 11 presenta una segunda ilustración de un cambio de sonoridad medido y el resultado del uso de los conceptos proporcionados para estimar el cambio de sonoridad de manera puramente paramétrica.
A continuación se estima la atenuación de la mezcla descendente paramétricamente empleando los valores de
30 sonoridad de los metaobjetos almacenados y la información de mezcla descendente y representación. Se ilustra la estimación utilizando la sonoridad de tres metaobjetos con la línea verde con marcadores cuadrados y se ilustra la estimación que utiliza la sonoridad de dos metaobjetos con la línea roja con marcadores en forma de estrella.
Se puede observar por las figuras que los enfoques de 2 y 3 términos producen resultados prácticamente idénticos, 35 y que ambos aproximan el valor medido con bastante eficacia.
Los conceptos proporcionados muestran una pluralidad de ventajas. Por ejemplo, los conceptos proporcionados permiten estimar la sonoridad de una señal de mezcla a partir de la sonoridad de las señales componentes que integran la mezcla. El beneficio de esto es que la sonoridad de las señales componentes se puede estimar una vez y
40 que se puede obtener la estimación de la sonoridad de la señal de mezcla paramétricamente respecto de cualquier mezcla sin necesidad de estimación de sonoridad basada en la señal real. Esto constituye una mejora considerable en la eficiencia informática del sistema en su conjunto en el cual es necesaria la estimación de la sonoridad de diversas mezclas. Por ejemplo, al cambiar el usuario final la configuración de representación, de inmediato está disponible la estimación de la sonoridad de la salida.
45 En algunas aplicaciones, como en el caso de adaptarse a la recomendación EBU R128, es importante la sonoridad promedio de la totalidad del programa. Si la estimación de sonoridad en el receptor, por ejemplo, en un escenario de transmisión, se realiza basándose en la señal recibida, la estimación converge hacia la sonoridad promedio solo una vez que se ha recibido la totalidad del programa. Debido a esto, cualquier compensación de la sonoridad ha de
50 contener errores o mostrar variaciones temporales. Cuando se estima la sonoridad de los objetos componentes según lo propuesto y se transmite la información de sonoridad, es posible estimar la sonoridad promedio de la mezcla en el receptor sin retardo.
Si se desea que la sonoridad promedio de la señal de salida se mantenga (aproximadamente) constante
55 independientemente de los cambios en la información de representación, los conceptos proporcionados permiten determinar un factor de compensación por esta razón. Los cálculos necesarios para esto en el decodificador son insignificantes desde el punto de su complejidad computacional y por ello es posible agregar la funcionalidad a cualquier decodificador.
Hay casos en que el nivel de sonoridad absoluto de la salida no es importante, sino que la importancia reside en determinar el cambio de sonoridad con respecto a una escena de referencia. En tales casos, los niveles absolutos de los objetos no son importantes, aunque sus niveles relativos sí lo son. Esto permite definir uno de los objetos
5 como objeto de referencia y representar la sonoridad de los demás objetos en relación con la sonoridad de este objeto de referencia. Esto ofrece algunos beneficios, teniendo en cuenta el transporte y/o almacenamiento de la información de sonoridad.
En primer lugar, no es necesario transportar el nivel de sonoridad de referencia. En el caso de aplicación de los dos
10 metaobjetos, esto divide por la mitad la cantidad de datos a transmitir. El segundo beneficio está relacionado con la posible cuantificación y representación de los valores de sonoridad. Dado que los niveles absolutos de los objetos pueden ser casi cualquiera, los valores de sonoridad absoluta también pueden ser casi cualquiera. Se supone que los valores relativos de sonoridad, por otra parte, tienen una media 0 y una distribución bien formada alrededor de la media. La diferencia entre las representaciones permite definir la cuadrícula de cuantificación de la representación
15 relativa de manera que tenga una precisión potencialmente mayor con el mismo número de bits utilizado para la representación cuantificada.
La Fig. 12 ilustra otra realización para realizar la compensación de sonoridad. En la Fig. 12, se puede llevar a cabo la compensación de sonoridad, por ejemplo, para compensar la pérdida de sonoridad. Para este fin, por ejemplo, se
20 pueden utilizar los valores DE_loudness_diff_dialogue (= KFGO) y DE_loudness_diff_background (= KBGO) de DE_control_info. En este caso, DE_control_info puede especificar la información de control de “Mejora de Diálogos” (DE) de Audio Limpio Avanzado.
La compensación de sonoridad se obtiene aplicando un valor de ganancia “g” a la señal de salida de SAOCDE y a 25 los canales de desviación (en el caso de una señal multicanal).
En la realización de la Fig. 12, esto se hace de la siguiente manera:
Se utiliza un valor limitado de ganancia por modificación de diálogo mG para determinar las ganancias efectivas
30 correspondientes al objeto en primer plano (FGO, por ejemplo, diálogo) y al objeto de segundo plano (BGO, por ejemplo, ruido ambiente). Esto se hace mediante el bloque “Mapeo de ganancia” 1220 que produce los valores de ganancia mFGO y mBGO. El bloque “Estimador de sonoridad de salida” 1230 utiliza la información de sonoridad KFGO y KBGO, y los valores de ganancia efectiva mFGO y mBGO para estimar este posible cambio de la sonoridad en comparación con el caso de la
35 mezcla descendente por defecto. A continuación se mapea el cambio con el “Factor de compensación de sonoridad” que se aplica a los canales de salida para producir las “Señales de salida” finales.
Se aplican las siguientes etapas para la compensación de sonoridad:
40 Recibir el valor de ganancia limitada mG del decodificador SAOC–DE (según lo definido en el artículo 12.8 “Modification range control for SAOCDE” [DE] (Control del rango de Modificación para SAOC–DE)), y determinar las ganancias de FGO/BGO aplicadas:
45
Obtener la información de sonoridad de metaobjetos KFGO y KBGO.
Calcular el cambio en la sonoridad de salida en comparación con la mezcla descendente por defecto con
Calcular la ganancia por compensación de sonoridad gΔ = 100,05ΔL.
salida. En la Fig. 12, el ajuste de ganancia se divide en dos etapas: se ajusta la ganancia de los posibles “canales de desviación” con mBGO antes de combinarlos con los “canales de salida de SAOCDE”, y a
5 continuación se aplica una ganancia común gΔ a todos los canales combinados. Esto solo es posible reordenando las operaciones de ajuste de ganancia, mientras que g en este caso combina ambas etapas de ajuste de ganancia en un solo ajuste de ganancia.
Aplicar los valores de escala g a los canales de audio YTOTAL que consisten en los “canales de salida de SAOC10 DE” YSAOC y los posibles “canales de desviación” alineados en el tiempo YDESVÍO:YTOTAL=YSAOC YDESVÍO:
La aplicación de los valores de escala g a los canales de audio YTOTAL se realiza por la unidad de ajuste de ganancia 1240.
15 Se puede considerar a ΔL como se ha calculado anteriormente como un valor de compensación de sonoridad. En general, mFGO indica una ganancia de representación para el objeto en primer plano FGO (grupo de objetos de primer plano) y mBGO indica una ganancia de representación para el objeto de segundo plano BGO (grupo de objetos de segundo plano).
20 Si bien se han descrito algunos aspectos en el contexto de un aparato, es obvio que estos aspectos también representan una descripción del método correspondiente, en el cual un bloque o dispositivo corresponde a una etapa del método o a una característica de una etapa del método. De manera análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o elemento correspondiente o de una característica de un aparato correspondiente.
25 La señal descompuesta de la presente invención puede almacenarse en un medio digital o se puede transmitir por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cables tal como Internet.
30 Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma señales control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informático programable de tal manera que se ejecute el método
35 respectivo.
Algunas realizaciones de acuerdo con la invención comprenden un portador de datos no transitorio que tiene señales de control legibles electrónicamente, con capacidad para cooperar con un sistema informático programable de tal manera que se ejecute uno de los métodos descritos en el presente documento.
40 En general, las realizaciones de la presente invención pueden implementarse en forma de producto de programa informático con un código de programa, en el que el código de programa cumple la función de ejecutar uno de los métodos al ejecutarse el programa informático en una computadora. El código de programa puede almacenarse, por ejemplo, en un portador legible por una máquina.
45 Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenado en un portador legible por una máquina.
En otras palabras, una realización del método de la invención consiste, por lo tanto, en un programa informático que
50 consta de un código de programa para realizar uno de los métodos descritos en el presente documento al ejecutarse el programa informático en una computadora.
Otra realización de los métodos de la invención consiste, por lo tanto, en un portador de datos (o medio de almacenamiento digital, o medio legible por computadora) que comprende, grabado en el mismo, el programa
55 informático para ejecutar uno de los métodos descritos en el presente documento.
Otra realización del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para ejecutar uno de los métodos descritos en el presente documento. El flujo de
datos o la secuencia de señales pueden estar configurados, por ejemplo, para transferirse a través de una conexión de comunicación de datos, por ejemplo por la Internet.
Otra realización comprende un medio de procesamiento, por ejemplo una computadora, o un dispositivo lógico 5 programable, configurado o adaptado para ejecutar uno de los métodos descritos en el presente documento.
Otra realización comprende una computadora en la que se ha instalado el programa informático para ejecutar uno de los métodos descritos en el presente documento.
10 En algunas realizaciones, se puede utilizar un dispositivo lógico programable (por ejemplo un campo de matrices de puertas programables) para ejecutar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, un campo de matrices de puertas programables puede cooperar con un microprocesador para ejecutar uno de los métodos descritos en el presente documento. Por lo general, los métodos se ejecutan preferentemente por cualquier aparato de hardware.
15 Referencias
[BCC] C. Faller y F. Baumgarte, “Binaural Cue Coding Part II: Schemes and applications,” IEEE Trans. on Speech and Audio Proc., vol. 11, n.º 6, noviembre de 2003.
20 [EBU] EBU Recommendation R 128 “Loudness normalization and permitted maximum level of audio signals”, Ginebra, 2011.
[JSC] C. Faller, “Parametric JointCoding of Audio Sources”, 120th AES Convention, París, 2006.
25 [ISS1] M. Parvaix y L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.M. Brossier: “A watermarkingbased method for informed source separation of 30 audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus y J. Pinel y R. Badeau y L. Girin y G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.
35 [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] S. Zhang y L. Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011.
40 [ISS6] L. Girin y J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.
[ITU] International Telecommunication Union: “Recommendation ITUR BS.17703 Algorithms to measure audio programme loudness and truepeak audio level”, Ginebra, 2012.
45 [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC To SAOC Recent Developments in Parametric Coding of Spatial Audio”, 22nd Regional UK AES Conference, Cambridge, RU, abril de 2007.
[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. 50 Koppens, E. Schuijers y W. Oomen: “Spatial Audio Objet Coding (SAOC) The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, 124th AES Convention, Ámsterdam 2008.
[SAOC] ISO/IEC, “MPEG audio technologies Part 2: Spatial Audio Objet Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) Norma internacional 230032.
55 [EP] Documento EP 2146522 A1: S. Schreiner, W. Fiesel, M. Neusinger, O. Hellmuth, R. Sperschneider, ”Apparatus and method for generating audio output signals using object based metadata“, 2010.
[DE] ISO/IEC, “MPEG audio technologies Part 2: Spatial Audio Objet Coding (SAOC) Amendment 3, Dialogue 60 Enhancement,” ISO/IEC 230032: 2010/DAM 3, Dialogue Enhancement.
[BRE] Documento WO 2008/035275 A2.
[SCH] Documento EP 2 146 522 A1.
[ENG] Documento WO 2008/046531 A1.

Claims (16)

  1. REIVINDICACIONES
    1. Un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio, en el que el decodificador comprende:
    5 una interfaz de recepción (110) para recibir una señal de entrada de audio que comprende una pluralidad de señales de objetos de audio, para recibir información de sonoridad sobre las señales de objetos de audio, y para recibir información de representación que indica si una o más de las señales de objetos de audio deberá amplificarse o atenuarse, y
    10 un procesador de señales (120) para generar el uno o más canales de salida de audio de la señal de salida de audio, en el que el procesador de señales (120) está configurado para determinar un valor de compensación de sonoridad dependiendo de la información de sonoridad y dependiendo de la información de representación, y en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio
    15 de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad, en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad, de tal manera que una sonoridad de la
    20 señal de salida de audio sea igual a una sonoridad de la señal de entrada de audio, o de tal manera que la sonoridad de la señal de salida de audio se aproxime más a la sonoridad de la señal de entrada de audio que una sonoridad de una señal de audio modificada que se produciría como resultado de la modificación de la señal de entrada de audio mediante la amplificación o atenuación de las señales de objetos de audio de la señal de entrada de audio de acuerdo con la información de representación.
  2. 2. Un decodificador de acuerdo con la reivindicación 1, en el que el procesador de señales (120) está configurado para generar la señal de audio modificada mediante la modificación de la señal de entrada de audio por la amplificación o atenuación de las señales de objetos de audio de la señal de entrada de audio de acuerdo con la información de representación, y en el que el procesador de señales
    30 (120) está configurado para generar la señal de salida de audio mediante la aplicación de valor de compensación de sonoridad a la señal de audio modificada, de tal manera que la sonoridad de la señal de salida de audio sea igual a la sonoridad de la señal de entrada de audio, o de tal manera que la sonoridad de la señal de salida de audio se aproxime más a la sonoridad de la señal de entrada de audio que la sonoridad de la señal de audio modificada.
    35 3. Un decodificador de acuerdo con la reivindicación 1 o 2, en el que cada una de las señales de objetos de audio de la señal de entrada de audio se asigna exactamente a un grupo de dos o más grupos, en el que cada uno de los dos o más grupos comprende una o más de las señales de objetos de audio de la señal de entrada de audio, en el que la interfaz de recepción (110) está configurada para recibir un valor de sonoridad por cada grupo de los
    40 dos o más grupos como la información de sonoridad, en el que el procesador de señales (120) está configurado para determinar el valor de compensación de sonoridad dependiendo del valor de sonoridad de cada uno de los dos o más grupos, y en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo del valor de compensación de
    45 sonoridad.
  3. 4. Un decodificador de acuerdo con la reivindicación 3, en el que al menos un grupo de los dos o más grupos comprende dos o más de las señales de objetos de audio.
    50 5. Un decodificador de acuerdo con las reivindicaciones 1 o 2, en el que cada una de las señales de objetos de audio de la señal de entrada de audio se asigna a exactamente un grupo de más de dos grupos, en el que cada uno de los más de dos grupos comprende una o más de las señales de objetos de audio de la señal de entrada de audio, en el que la interfaz de recepción (110) está configurada para recibir un valor de sonoridad por cada grupo de los
    55 más de dos grupos como la información de sonoridad, en el que el procesador de señales (120) está configurado para determinar el valor de compensación de sonoridad dependiendo del valor de sonoridad de cada uno de los más de dos grupos, y en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo del valor de compensación de
    60 sonoridad.
  4. 6. Un decodificador de acuerdo con la reivindicación 5, en el que al menos un grupo de los más de dos grupos comprende dos o más de las señales de objetos de audio.
  5. 7. Un decodificador de acuerdo con una de las reivindicaciones 3 a 6, en el que el procesador de señales (120) está configurado para determinar el valor de compensación de sonoridad de acuerdo con la fórmula
    o de acuerdo con la fórmula
    10 en la que ΔL es el valor de compensación de sonoridad, en la que i indica una señal de objeto de audio de orden i de las señales de objetos de audio, en la que Li es la sonoridad de la señal de objeto de audio de orden i, en la que gi es una primera ponderación de mezcla para la señal de objeto de audio de orden i,
    15 enlaque hi es una segunda ponderación de mezcla para la señal de objeto de audio de orden i, en la que c es un valor constante, y en la que N es un número.
  6. 8. Un decodificador de acuerdo con una de las reivindicaciones 3 a 6,
    20 en el que el procesador de señales (120) está configurado para determinar el valor de compensación de sonoridad de acuerdo con la fórmula
    25 enlaque ΔL es el valor de compensación de sonoridad, en la que i indica una señal de objeto de audio de orden i de las señales de objetos de audio, en la que gi es una primera ponderación de mezcla para la señal de objeto de audio de orden i, en la que hi es una segunda ponderación de mezcla para la señal de objeto de audio de orden i, en la que N es un número, y
    30 enlaque Ki se define de acuerdo con
    en la que Li es una sonoridad de la señal de objeto de audio de orden i, y 35 enlaque LREF es la sonoridad de un objeto de referencia.
  7. 9. Un decodificador de acuerdo con la reivindicación 3 o 4, en el que cada una de las señales de objetos de audio de la señal de entrada de audio se asigna a exactamente un grupo de exactamente dos grupos como los dos o más grupos,
    40 en el que cada una de las señales de objetos de audio de la señal de entrada de audio se asigna a un grupo de objetos de primer plano de los exactamente dos grupos o a un grupo de objetos de segundo plano de los exactamente dos grupos, en el que la interfaz de recepción (110) está configurada para recibir el valor de sonoridad del grupo de objetos de primer plano,
    en el que la interfaz de recepción (110) está configurada para recibir el valor de sonoridad del grupo de objetos de segundo plano, en el que el procesador de señales (120) está configurado para determinar el valor de compensación de sonoridad dependiendo del valor de sonoridad del grupo de objetos de primer plano, y dependiendo del valor de sonoridad del
    5 grupo de objetos de segundo plano, y en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo del valor de compensación de sonoridad.
    10 10. Un decodificador de acuerdo con la reivindicación 9, en el que el procesador de señales (120) está configurado para determinar el valor de compensación de sonoridad de acuerdo con la fórmula
    en la que ΔL es el valor de compensación de sonoridad,
    en la que KFGO indica el valor de sonoridad del grupo de objetos de primer plano,
    en la que KBGO indica el valor de sonoridad del grupo de objetos de segundo plano,
    en la que mFGO indica una ganancia de representación del grupo de objetos de primer plano, y 20 enlaque mBGO indica una ganancia de representación del grupo de objetos de segundo plano.
  8. 11. Un decodificador de acuerdo con la reivindicación 9, en el que el procesador de señales (120) está configurado para determinar el valor de compensación de sonoridad de acuerdo con la fórmula
    en la que ΔL es el valor de compensación de sonoridad, en la que LFGO indica el valor de sonoridad del grupo de objetos de primer plano,
    30 enlaque LBGO indica el valor de sonoridad del grupo de objetos de segundo plano, en la que gFGO indica una ganancia de representación del grupo de objetos de primer plano, y en la que gBGO indica una ganancia de representación del grupo de objetos de segundo plano.
  9. 12. Un decodificador de acuerdo con una de las reivindicaciones anteriores,
    35 en el que la interfaz de recepción (110) está configurada para recibir una señal de mezcla descendente que comprende uno o más canales de mezcla descendente como la señal de entrada de audio, en el que el uno o más canales de mezcla descendente comprenden las señales de objetos de audio, y en el que el número del uno o más canales de mezcla descendente es menor que el número de señales de objetos de audio, en el que la interfaz de recepción (110) está configurada para recibir información de mezcla descendente que indica
    40 cómo se mezclan las señales de objetos de audio dentro del uno o más canales de mezcla descendente, y en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de mezcla descendente, dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad.
  10. 13. Un decodificador de acuerdo con la reivindicación 12, en el que la interfaz de recepción (110) está configurada para recibir una o más señales de objetos de audio de desvío adicionales, en el que la una o más señales de objetos de audio de desvío adicionales no se mezclan dentro de la señal de mezcla descendente,
    50 en el que la interfaz de recepción (110) está configurada para recibir la información de sonoridad que indica información sobre la sonoridad de las señales de objetos de audio que se mezclan en la señal de mezcla descendente y que indica información sobre la sonoridad de la una o más señales de desvío de objetos de audio adicionales que no se mezclan en la señal de mezcla descendente, y en el que el procesador de señales (120) está configurado para determinar el valor de compensación de sonoridad
    55 dependiendo de la información sobre la sonoridad de la señales de objetos de audio que se mezclan en la señal de mezcla descendente, y dependiendo de la información sobre la sonoridad de la una o más señales de desvío de objetos de audio adicionales que no se mezclan en la señal de mezcla descendente.
  11. 14. Un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio, en el que el decodificador comprende:
    5 una interfaz de recepción (110) para recibir una señal de entrada de audio que comprende una pluralidad de señales de objetos de audio, para recibir información de sonoridad sobre las señales de objetos de audio, y para recibir información de representación que indica si una o más de las señales de objetos de audio deberá amplificarse o atenuarse, y un procesador de señales (120) para generar el uno o más canales de salida de audio de la señal de salida de
    10 audio, en el que el procesador de señales (120) está configurado para determinar un valor de compensación de sonoridad dependiendo de la información de sonoridad y dependiendo de la información de representación, y en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de
    15 representación y dependiendo del valor de compensación de sonoridad, en el que la interfaz de recepción (110) está configurada para recibir una señal de mezcla descendente que comprende uno o más canales de mezcla descendente como la señal de entrada de audio, en el que el uno o más canales de mezcla descendente comprenden las señales de objetos de audio, y en el que el número del uno o más canales de mezcla descendente es menor que el número de señales de objetos de audio,
    20 en el que la interfaz de recepción (110) está configurada para recibir información de mezcla descendente que indica cómo se mezclan las señales de objetos de audio dentro del uno o más canales de mezcla descendente, y en el que el procesador de señales (120) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de mezcla descendente, dependiendo de la información de representación y dependiendo del valor de compensación de
    25 sonoridad, en el que la interfaz de recepción (110) está configurada para recibir una o más señales de objetos de audio de desvío adicionales, en el que la una o más señales de objetos de audio de desvío adicionales no se mezclan dentro de la señal de mezcla descendente, en el que la interfaz de recepción (110) está configurada para recibir la información de sonoridad que indica
    30 información sobre la sonoridad de las señales de objetos de audio que se mezclan en la señal de mezcla descendente y que indica información sobre la sonoridad de la una o más señales de desvío de objetos de audio adicionales que no se mezclan en la señal de mezcla descendente, y en el que el procesador de señales (120) está configurado para determinar el valor de compensación de sonoridad dependiendo de la información sobre la sonoridad de la señales de objetos de audio que se mezclan
    35 en la señal de mezcla descendente, y dependiendo de la información sobre la sonoridad de la una o más señales de desvío de objetos de audio adicionales que no se mezclan en la señal de mezcla descendente.
  12. 15. Un codificador que comprende,
    40 una unidad de codificación basada en objetos (210; 710) para codificar una pluralidad de señales de objetos de audio para obtener una señal de audio codificada que comprende la pluralidad de señales de objetos de audio, y una unidad de codificación de sonoridad de objetos (220; 720; 820) para codificar información de sonoridad sobre las señales de objetos de audio, en el que la información de sonoridad comprende uno o más valores de sonoridad, en el que cada uno del uno o
    45 más valores de sonoridad depende de una o más de las señales de objetos de audio, en el que cada una de las señales de objetos de audio de la señal de audio codificada se asigna exactamente a un grupo de dos o más grupos, en el que cada uno de los dos o más grupos comprende una o más de las señales de objetos de audio de la señal de audio codificada, en el que al menos un grupo de los dos o más grupos comprende dos o más de las señales de objetos de audio,
    50 en el que la unidad de codificación de sonoridad de objetos (220; 720; 820) está configurada para determinar el uno o más valores de sonoridad de la información de sonoridad mediante la determinación de un valor de sonoridad por cada grupo de los dos o más grupos, en el que dicho valor de sonoridad de dicho grupo indica una sonoridad total de la una o más señales de objetos de audio de dicho grupo.
    55 16. Un codificador, que comprende:
    una unidad de codificación basada en objetos (210; 710) para codificar una pluralidad de señales de objetos de audio para obtener una señal de audio codificada que comprende la pluralidad de señales de objetos de audio, y una unidad de codificación de sonoridad de objetos (220; 720; 820) para codificar información de sonoridad
    60 sobre las señales de objetos de audio, en el que la información de sonoridad comprende uno o más valores de sonoridad, en el que cada uno del uno o más valores de sonoridad depende de una o más de las señales de objetos de audio, en el que la unidad de codificación basada en objetos (210; 710) está configurada para recibir las señales de objetos de audio, en el que cada una de las señales de objetos de audio se asigna exactamente a uno de
    exactamente dos grupos, en el que cada uno de los exactamente dos grupos comprende una o más de las señales de objetos de audio, en el que al menos un grupo de los exactamente dos grupos comprende dos o más de las señales de objetos de audio, en el que la unidad de codificación basada en objetos (210; 710) está configurada para efectuar la mezcla
    5 descendente de las señales de objetos de audio, que están comprendidas por los exactamente dos grupos, para obtener una señal de mezcla descendente que comprende uno o más canales de audio de mezcla descendente como la señal de audio codificada, en el que el número del uno o más canales de mezcla descendente es menor que el número de las señales de objetos de audio que están comprendidas por los exactamente dos grupos, en el que la unidad de codificación de sonoridad de objetos (220; 720; 820) está configurada para recibir una o
    10 más señales de desvío de objetos de audio adicionales, en el que cada una de la una o más señales de desvío de objetos de audio adicionales se asigna a un tercer grupo, en el que cada una de la una o más señales de desvío de objetos de audio adicionales no está comprendida en el primer grupo y no está comprendida en el segundo grupo, en el que la unidad de codificación basada en objetos (210; 710) está configurada para no efectuar la mezcla descendente de la una o más señales de desvío de objetos de audio adicionales dentro de la
    15 señal de mezcla descendente, y en el que la unidad de codificación de sonoridad de objetos (220; 720; 820) está configurada para determinar un primer valor de sonoridad, un segundo valor de sonoridad y un tercer valor de sonoridad de la información de sonoridad, indicando el primer valor de sonoridad una sonoridad total de la una o más señales de objetos de audio del primer grupo, indicando el segundo valor de sonoridad una sonoridad total de la una o más señales de
    20 objetos de audio del segundo grupo, e indicando el tercer valor de sonoridad una sonoridad total de la una o más señales de desvío de objetos de audio adicionales del tercer grupo, o está configurada para determinar un primer valor de sonoridad y un segundo valor de sonoridad de la información de sonoridad, indicando el primer valor de sonoridad una sonoridad total de la una o más señales de objetos de audio del primer grupo, e indicando el segundo valor de sonoridad una sonoridad total de la una o más señales de objetos de audio del segundo grupo
    25 y de la una o más señales de desvío de objetos de audio adicionales del tercer grupo.
  13. 17. Un sistema que comprende:
    un codificador (310) que comprende:
    30 una unidad de codificación basada en objetos (210; 710) para codificar una pluralidad de señales de objetos de audio para obtener una señal de audio codificada que comprende la pluralidad de señales de objetos de audio, y una unidad de codificación de sonoridad de objetos (220; 720; 820) para codificar información de sonoridad
    35 sobre las señales de objetos de audio, en el que la información de sonoridad comprende uno o más valores de sonoridad, en el que cada uno del uno o más valores de sonoridad depende de una o más de las señales de objetos de audio,
    un decodificador (320) de acuerdo con una de las reivindicaciones 1 a 14, para generar una señal de salida de
    40 audio que comprende uno o más canales de salida de audio, en el que el decodificador (320) está configurado para recibir la señal de audio codificada como una señal de entrada de audio y para recibir la información de sonoridad en el que el decodificador (320) está configurado para recibir adicionalmente información de representación, en el que el decodificador (320) está configurado para determinar un valor de compensación de sonoridad
    45 dependiendo de la información de sonoridad y dependiendo de la información de representación, y en el que el decodificador (320) está configurado para generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad.
    50 18. Un método para generar una señal de salida de audio que comprende uno o más canales de salida de audio, en el que el método comprende:
    recibir una señal de entrada de audio que comprende una pluralidad de señales de objetos de audio, recibir información de sonoridad sobre las señales de objetos de audio,
    55 recibir información de representación que indica cómo una o más de las señales de objetos de audio deberá amplificarse o atenuarse, determinar un valor de compensación de sonoridad dependiendo de la información de sonoridad y dependiendo de la información de representación, y generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de
    60 audio dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad, en el que generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de audio se realiza dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad, de tal manera que una sonoridad de la señal de salida de audio es igual a una sonoridad de la señal de entrada de audio, o de tal manera que la sonoridad de la señal de salida de audio se
    aproxime más a la sonoridad de la señal de entrada de audio que una sonoridad de una señal de audio modificada que se produciría como resultado de la modificación de la señal de entrada de audio mediante la amplificación o atenuación de las señales de objetos de audio de la señal de entrada de audio de acuerdo con la información de representación.
  14. 19. Un método para generar una señal de salida de audio que comprende uno o más canales de salida de audio, en el que el método comprende:
    recibir una señal de entrada de audio que comprende una pluralidad de señales de objetos de audio, en el que 10 recibir la señal de audio de entrada se realiza recibiendo una señal de mezcla descendente que comprende uno
    o más canales de mezcla descendente como la señal de entrada de audio, en el que el uno o más canales de mezcla descendente comprenden las señales de objetos de audio, y en el que el número del uno o más canales de mezcla descendente es menor que el número de señales de objetos de audio, recibir información de representación que indica si una o más de las señales de objetos de audio deberá
    15 amplificarse o atenuarse, recibir información de mezcla descendente que indica cómo se mezclan las señales de objetos de audio dentro del uno o más canales de mezcla descendente, y recibir una o más señales de objetos de audio de desvío adicionales, en el que la una o más señales de objetos de audio de desvío adicionales no se mezclan dentro de la señal de mezcla descendente,
    20 recibir información de sonoridad sobre las señales de objetos de audio, en el que la información de sonoridad indica información sobre la sonoridad de las señales de objetos de audio que se mezclan en la señal de mezcla descendente e indica información sobre la sonoridad de la una o más señales de objetos de audio de desvío adicionales que no se mezclan en la señal de mezcla descendente, y determinar un valor de compensación de sonoridad dependiendo de la información sobre la sonoridad y
    25 dependiendo de la información sobre la representación, en el que la determinación del valor de compensación de sonoridad se realiza dependiendo de la información sobre la sonoridad de las señales de objetos de audio que se mezclan en la señal de mezcla descendente, y dependiendo de la información sobre la sonoridad de la una o más señales de objetos de audio de desvío adicionales que no se mezclan en la señal de mezcla descendente, y generar el uno o más canales de salida de audio de la señal de salida de audio a partir de la señal de entrada de
    30 audio dependiendo de la información de mezcla descendente, dependiendo de la información de representación y dependiendo del valor de compensación de sonoridad.
  15. 20. Un método para codificar, que comprende:
    35 codificar una pluralidad de señales de objetos de audio para obtener una señal de audio codificada que comprende la pluralidad de señales de objetos de audio, y determinar información de sonoridad sobre las señales de objetos de audio, en el que la información de sonoridad comprende uno o más valores de sonoridad, en el que cada uno del uno o más valores de sonoridad depende de una o más de las señales de objetos de audio
    40 en el que determinar el uno o más valores de sonoridad de la información de sonoridad se realiza determinando un valor de sonoridad para cada grupo de los dos o más grupos, en el que dicho valor de sonoridad de dicho grupo indica una sonoridad total de la una o más señales de objetos de audio de dicho grupo codificar la información de sonoridad en las señales de objetos de audio, en el que cada una de las señales de objetos de audio de la señal de audio codificada se asigna exactamente a
    45 un grupo de dos o más grupos, en el que cada uno de los dos o más grupos comprende una o más de las señales de objetos de audio de la señal de audio codificada, en el que al menos un grupo de los dos o más grupos comprende dos o más de las señales de objetos de audio.
  16. 21. Un método para codificar, que comprende:
    50 recibir las señales de objetos de audio, en el que cada una de las señales de objetos de audio se asigna exactamente a uno de exactamente dos grupos, en el que cada uno de los exactamente dos grupos comprende una o más de las señales de objetos de audio, en el que al menos un grupo de los exactamente dos grupos comprende dos o más de las señales de objetos de audio,
    55 codificar la pluralidad de señales de objetos de audio para obtener una señal de audio codificada que comprende la pluralidad de señales de objetos de audio efectuando la mezcla descendente de las señales de objetos de audio, que están comprendidas por los exactamente dos grupos, para obtener una señal de mezcla descendente que comprende uno o más canales de audio de mezcla descendente como la señal de audio codificada, en el que el número del uno o más canales de mezcla descendente es menor que el número de las señales de objetos
    60 de audio que están comprendidas por los exactamente dos grupos, determinar información de sonoridad sobre las señales de objetos de audio, en el que la información de sonoridad comprende uno o más valores de sonoridad, en el que cada uno del uno o más valores de sonoridad depende de una o más de las señales de objetos de audio,
    determinando un primer valor de sonoridad, un segundo valor de sonoridad y un tercer valor de sonoridad de la información de sonoridad, indicando el primer valor de sonoridad una sonoridad total de la una o más señales de objetos de audio del primer grupo, indicando el segundo valor de sonoridad una sonoridad total de la una o más señales de objetos de audio del segundo grupo, e indicando el tercer valor de sonoridad una
    5 sonoridad total de la una o más señales de desvío de objetos de audio adicionales del tercer grupo, o determinando un primer valor de sonoridad y un segundo valor de sonoridad de la información de sonoridad, indicando el primer valor de sonoridad una sonoridad total de la una o más señales de objetos de audio del primer grupo, e indicando el segundo valor de sonoridad una sonoridad total de la una o más señales de objetos de audio del segundo grupo y de la una o más señales de desvío de objetos de audio adicionales del
    10 tercer grupo,
    codificar la información de sonoridad en las señales de objetos de audio, recibir una o más señales de desvío de objetos de audio adicionales, en el que cada una de la una o más señales de desvío de objetos de audio adicionales se asigna a un tercer grupo, en el que cada una de la una o
    15 más señales de desvío de objetos de audio adicionales no está comprendida por el primer grupo y no está comprendida por el segundo grupo, y no efectuar la mezcla descendente de la una o más señales de desvío de objetos de audio adicionales en la señal de mezcla descendente.
    20 22. Un programa informático para implementar el método de acuerdo con la reivindicación 18 o 21 cuando se ejecuta en una computadora o un procesador de señales.
ES14805849.8T 2013-11-27 2014-11-27 Decodificador, codificador y método para la estimación informada de sonoridad en sistemas de codificación de audio basada en objetos Active ES2666127T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13194664 2013-11-27
EP13194664.2A EP2879131A1 (en) 2013-11-27 2013-11-27 Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
PCT/EP2014/075787 WO2015078956A1 (en) 2013-11-27 2014-11-27 Decoder, encoder and method for informed loudness estimation in object-based audio coding systems

Publications (1)

Publication Number Publication Date
ES2666127T3 true ES2666127T3 (es) 2018-05-03

Family

ID=49683543

Family Applications (2)

Application Number Title Priority Date Filing Date
ES14805849.8T Active ES2666127T3 (es) 2013-11-27 2014-11-27 Decodificador, codificador y método para la estimación informada de sonoridad en sistemas de codificación de audio basada en objetos
ES14802914.3T Active ES2629527T3 (es) 2013-11-27 2014-11-27 Decodificador, codificador y procedimiento para la estimación de sonoridad informada empleando señales de objeto de audio anuladas en sistemas de codificación de audio basados en objetos

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES14802914.3T Active ES2629527T3 (es) 2013-11-27 2014-11-27 Decodificador, codificador y procedimiento para la estimación de sonoridad informada empleando señales de objeto de audio anuladas en sistemas de codificación de audio basados en objetos

Country Status (19)

Country Link
US (8) US9947325B2 (es)
EP (3) EP2879131A1 (es)
JP (2) JP6218928B2 (es)
KR (2) KR101852950B1 (es)
CN (4) CN105874532B (es)
AR (2) AR098558A1 (es)
AU (2) AU2014356467B2 (es)
BR (2) BR112015019958B1 (es)
CA (2) CA2931558C (es)
ES (2) ES2666127T3 (es)
HK (1) HK1217245A1 (es)
MX (2) MX350247B (es)
MY (2) MY196533A (es)
PL (2) PL3074971T3 (es)
PT (2) PT3074971T (es)
RU (2) RU2672174C2 (es)
TW (2) TWI569259B (es)
WO (2) WO2015078964A1 (es)
ZA (1) ZA201604205B (es)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
ES2709117T3 (es) * 2014-10-01 2019-04-15 Dolby Int Ab Codificador y decodificador de audio
JP6564068B2 (ja) * 2015-02-02 2019-08-21 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたオーディオ信号を処理するための装置および方法
KR102465286B1 (ko) 2015-06-17 2022-11-10 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
AU2016279775A1 (en) * 2015-06-17 2018-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Loudness control for user interactivity in audio coding systems
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
CN112218229B (zh) 2016-01-29 2022-04-01 杜比实验室特许公司 用于音频信号处理的系统、方法和计算机可读介质
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
EP4322551A3 (en) * 2016-11-25 2024-04-17 Sony Group Corporation Reproduction apparatus, reproduction method, information processing apparatus, information processing method, and program
US11200882B2 (en) * 2017-07-03 2021-12-14 Nec Corporation Signal processing device, signal processing method, and storage medium for storing program
JP7123134B2 (ja) * 2017-10-27 2022-08-22 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. デコーダにおけるノイズ減衰
US11330370B2 (en) 2018-02-15 2022-05-10 Dolby Laboratories Licensing Corporation Loudness control methods and devices
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
EP3588988B1 (en) * 2018-06-26 2021-02-17 Nokia Technologies Oy Selective presentation of ambient audio content for spatial audio presentation
US11544032B2 (en) * 2019-01-24 2023-01-03 Dolby Laboratories Licensing Corporation Audio connection and transmission device
CN113366865B (zh) * 2019-02-13 2023-03-21 杜比实验室特许公司 用于音频对象聚类的自适应响度规范化
KR20220025107A (ko) * 2019-06-14 2022-03-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 매개변수 인코딩 및 디코딩
EP4022606A1 (en) * 2019-08-30 2022-07-06 Dolby Laboratories Licensing Corporation Channel identification of multi-channel audio signals
KR102390643B1 (ko) * 2019-10-10 2022-04-27 가우디오랩 주식회사 오디오 라우드니스 메타데이터 생성 방법 및 이를 위한 장치
US20220270626A1 (en) 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing
CN117837173A (zh) * 2021-08-27 2024-04-05 北京字跳网络技术有限公司 用于音频渲染的信号处理方法、装置和电子设备

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA921988B (en) * 1991-03-29 1993-02-24 Sony Corp High efficiency digital data encoding and decoding apparatus
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
CA2301547C (en) * 1997-09-05 2006-06-06 Lexicon 5-2-5 matrix encoder and decoder system
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
EP1360798B1 (en) * 2001-02-06 2014-10-01 Polycom Israel Ltd. Control unit for multipoint multimedia/audio conference
US6852151B2 (en) * 2002-06-03 2005-02-08 Siemens Vdo Automotive Inc. Air cleaner and resonator assembly
US7631483B2 (en) * 2003-09-22 2009-12-15 General Electric Company Method and system for reduction of jet engine noise
JP5106115B2 (ja) * 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
JP4728031B2 (ja) * 2005-04-15 2011-07-20 株式会社日立製作所 リモートコピーペアの移行を行うシステム
KR100885700B1 (ko) * 2006-01-19 2009-02-26 엘지전자 주식회사 신호 디코딩 방법 및 장치
RU2426180C2 (ru) * 2006-04-04 2011-08-10 Долби Лэборетериз Лайсенсинг Корпорейшн Расчет и регулировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала
JP5281575B2 (ja) * 2006-09-18 2013-09-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオオブジェクトのエンコード及びデコード
RU2407072C1 (ru) * 2006-09-29 2010-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
PL2068307T3 (pl) * 2006-10-16 2012-07-31 Dolby Int Ab Udoskonalony sposób kodowania i odtwarzania parametrów w wielokanałowym kodowaniu obiektów poddanych procesowi downmiksu
JP5302207B2 (ja) * 2006-12-07 2013-10-02 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
TWI443647B (zh) 2007-02-14 2014-07-01 Lg Electronics Inc 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
RU2394283C1 (ru) * 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
WO2008120933A1 (en) * 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
US7825322B1 (en) 2007-08-17 2010-11-02 Adobe Systems Incorporated Method and apparatus for audio mixing
EP2238589B1 (en) * 2007-12-09 2017-10-25 LG Electronics Inc. A method and an apparatus for processing a signal
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
WO2011061174A1 (en) * 2009-11-20 2011-05-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US9111528B2 (en) * 2009-12-10 2015-08-18 Reality Ip Pty Ltd Matrix decoder for surround sound
RU2559899C2 (ru) 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
KR101615776B1 (ko) * 2010-05-28 2016-04-28 한국전자통신연구원 상이한 분석 단계를 사용하는 다객체 오디오 신호의 부호화 및 복호화 장치 및 방법
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
JP6185457B2 (ja) * 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
US9952576B2 (en) 2012-10-16 2018-04-24 Sonos, Inc. Methods and apparatus to learn and share remote commands
WO2014088328A1 (ko) * 2012-12-04 2014-06-12 삼성전자 주식회사 오디오 제공 장치 및 오디오 제공 방법
CN104885151B (zh) * 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
CN203134365U (zh) * 2013-01-21 2013-08-14 杜比实验室特许公司 用于利用响度处理状态元数据处理音频的音频解码器
PL2901449T3 (pl) * 2013-01-21 2018-05-30 Dolby Laboratories Licensing Corp Koder i dekoder audio z metadanymi głośności i granicy programu
JP6192813B2 (ja) * 2013-05-24 2017-09-06 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
CN105531759B (zh) * 2013-09-12 2019-11-26 杜比实验室特许公司 用于下混合音频内容的响度调整
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP3127109B1 (en) * 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects

Also Published As

Publication number Publication date
RU2651211C2 (ru) 2018-04-18
CN105144287B (zh) 2020-09-25
TW201535353A (zh) 2015-09-16
US10497376B2 (en) 2019-12-03
US20180197554A1 (en) 2018-07-12
US11875804B2 (en) 2024-01-16
US10891963B2 (en) 2021-01-12
CN105874532B (zh) 2020-03-17
US20200058313A1 (en) 2020-02-20
CN112151049B (zh) 2024-05-10
US20210118454A1 (en) 2021-04-22
US20160254001A1 (en) 2016-09-01
TWI569260B (zh) 2017-02-01
TW201525990A (zh) 2015-07-01
WO2015078964A1 (en) 2015-06-04
MX2015013580A (es) 2016-02-05
AU2014356467A1 (en) 2016-06-09
BR112016011988A2 (es) 2017-08-08
EP2879131A1 (en) 2015-06-03
US11423914B2 (en) 2022-08-23
US9947325B2 (en) 2018-04-17
EP2941771A1 (en) 2015-11-11
JP2016520865A (ja) 2016-07-14
ES2629527T3 (es) 2017-08-10
CA2900473C (en) 2018-01-30
KR101852950B1 (ko) 2018-06-07
AU2014356467B2 (en) 2016-12-15
BR112016011988B1 (pt) 2022-09-13
MY196533A (en) 2023-04-19
KR101742137B1 (ko) 2017-05-31
RU2015135181A (ru) 2017-02-27
PL2941771T3 (pl) 2017-10-31
BR112015019958B1 (pt) 2021-12-14
CN111312266A (zh) 2020-06-19
CN111312266B (zh) 2023-11-10
EP3074971B1 (en) 2018-02-21
MX358306B (es) 2018-08-14
US10699722B2 (en) 2020-06-30
AU2014356475B2 (en) 2016-08-18
US20220351736A1 (en) 2022-11-03
AR098558A1 (es) 2016-06-01
CA2900473A1 (en) 2015-06-04
MX2016006880A (es) 2016-08-19
AU2014356475A1 (en) 2015-09-03
AR099360A1 (es) 2016-07-20
CA2931558C (en) 2018-11-13
RU2016125242A (ru) 2018-01-09
MY189823A (en) 2022-03-10
EP2941771B1 (en) 2017-03-29
US11688407B2 (en) 2023-06-27
US20150348564A1 (en) 2015-12-03
JP2017502324A (ja) 2017-01-19
BR112015019958A2 (pt) 2017-07-18
KR20150123799A (ko) 2015-11-04
MX350247B (es) 2017-08-31
JP6346282B2 (ja) 2018-06-20
PT2941771T (pt) 2017-06-30
TWI569259B (zh) 2017-02-01
CN112151049A (zh) 2020-12-29
EP3074971A1 (en) 2016-10-05
CA2931558A1 (en) 2015-06-04
KR20160075756A (ko) 2016-06-29
US20200286496A1 (en) 2020-09-10
CN105144287A (zh) 2015-12-09
HK1217245A1 (zh) 2016-12-30
US20230306973A1 (en) 2023-09-28
PT3074971T (pt) 2018-05-25
RU2672174C2 (ru) 2018-11-12
JP6218928B2 (ja) 2017-10-25
ZA201604205B (en) 2017-11-29
CN105874532A (zh) 2016-08-17
WO2015078956A1 (en) 2015-06-04
PL3074971T3 (pl) 2018-07-31

Similar Documents

Publication Publication Date Title
ES2666127T3 (es) Decodificador, codificador y método para la estimación informada de sonoridad en sistemas de codificación de audio basada en objetos