ES2913849T3

ES2913849T3 - Concept for audio encoding and decoding for audio channels and audio objects

Info

Publication number: ES2913849T3
Application number: ES14739196T
Authority: ES
Inventors: Alexander Adami; Christian Borss; Sascha Dick; Christian Ertel; Simone Füg; Jürgen Herre; Johannes Hilpert; Andreas Hölzer; Michael Kratschmer; Fabian Küch; Achim Kuntz; Adrian Murtaza; Jan Plogsties; Andreas Silzle; Hanne Stenzel
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-16
Publication date: 2022-06-06
Anticipated expiration: 2034-07-16
Also published as: KR20180019755A; EP3025329A1; CA2918148A1; US20190180764A1; BR112016001143B1; AU2014295269B2; CN105612577B; CN110942778B; EP3025329B1; CN110942778A; MX359159B; PT3025329T; CN105612577A; AU2014295269A1; TWI566235B; US20220101867A1; EP2830045A1; US20160133267A1; AR097003A1; PL3025329T3

Abstract

Codificador de audio para codificar datos de entrada de audio (101) para obtener datos de salida de audio (501) que comprende: una interfaz de entrada (100) configurada para recibir una pluralidad de canales de audio, una pluralidad de objetos de audio y metadatos relacionados con uno o más de la pluralidad de objetos de audio; un mezclador (200) configurado para mezclar la pluralidad de objetos de audio y la pluralidad de canales de audio para obtener una pluralidad de canales mezclados previamente, comprendiendo cada canal mezclado previamente datos de audio de un canal de audio y datos de audio de por lo menos un objeto de audio; un codificador central (300) configurado para codificar de forma central datos de entrada del codificador central; y un compresor de metadatos (400) configurado para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio para obtener metadatos comprimidos; y en el que el codificador de audio se configura para operar en tanto un primer modo como un segundo modo de un grupo de por lo menos dos modos que comprende el primer modo, en el cual el codificador central (300) se configura para codificar de manera individual la pluralidad de canales de audio y la pluralidad de objetos de audio recibidos por la interfaz de entrada (100) como los datos de entrada del codificador central sin ninguna interacción por parte del mezclador (200), y el segundo modo, en el cual el codificador central (300) se configura para recibir, como los datos de entrada del codificador central, la pluralidad de canales mezclados previamente generados por el mezclador (200) y para codificar la pluralidad de canales previamente mezclados generados por el mezclador (200), y una interfaz de salida (500) para proporcionar una señal de salida como los datos de salida de audio (501), comprendiendo la señal de salida, cuando el codificador de audio opera en el primer modo, canales de audio codificados en el primer modo, canales de audio codificados y objetos de audio codificados como una salida del codificador central (300) y los metadatos comprimidos, y comprendiendo la señal de salida, cuando el codificador de audio opera en el segundo modo, la salida del codificador central (300) sin ningún metadato relacionado con la una o más de la pluralidad de objetos de audio.Audio encoder for encoding audio input data (101) to output audio data (501) comprising: an input interface (100) configured to receive a plurality of audio channels, a plurality of audio objects, and metadata related to one or more of the plurality of audio objects; a mixer (200) configured to mix the plurality of audio objects and the plurality of audio channels to obtain a plurality of premixed channels, each premixed channel comprising audio data of one audio channel and audio data of at least minus one audio object; a core encoder (300) configured to centrally encode input data from the core encoder; and a metadata compressor (400) configured to compress metadata related to one or more of the plurality of audio objects to obtain compressed metadata; and wherein the audio encoder is configured to operate in both a first mode and a second mode of a group of at least two modes comprising the first mode, in which the central encoder (300) is configured to encode individually the plurality of audio channels and the plurality of audio objects received by the input interface (100) as the input data of the central encoder without any interaction by the mixer (200), and the second mode, in the which the core encoder (300) is configured to receive, as input data from the core encoder, the plurality of premixed channels generated by the mixer (200) and to encode the plurality of premixed channels generated by the mixer (200) , and an output interface (500) for providing an output signal as the audio output data (501), the output signal comprising, when the audio encoder operates in the first mode, cana encoded audio files in the first mode, encoded audio channels and encoded audio objects as an output of the core encoder (300) and the compressed metadata, and comprising the output signal, when the audio encoder operates in the second mode, the output of the core encoder (300) without any metadata related to the one or more of the plurality of audio objects.

Description

DESCRIPCIÓNDESCRIPTION

Concepto para codificación y decodificación de audio para canales de audio y objetos de audioConcept for audio encoding and decoding for audio channels and audio objects

La presente invención se refiere una codificación/decodificación de audio y, en particular, una codificación de audio espacial y codificación de un objeto de audio espacial.The present invention relates to audio encoding/decoding and, in particular, to spatial audio encoding and encoding of a spatial audio object.

Las herramientas de codificación de audio espacial se conocen muy bien en la técnica y están, por ejemplo, estandarizadas en el estándar envolvente MPEG. La codificación de audio espacial comienza con canales de entrada originales tales como cinco o siete canales que se identifican por su colocación en una configuración de reproducción, es decir, un canal izquierdo, un canal central, un canal derecho, un canal envolvente izquierdo, un canal envolvente derecho y un canal de potencia de baja frecuencia. Un codificador de audio espacial normalmente deriva uno o más canales de mezcla descendente de los canales originales y, de forma adicional, deriva datos paramétricos relacionados con señales espaciales tales como diferencias de nivel entre canales en los valores de coherencia de canal, diferencias de fase entre canales, diferencias de tiempo entre canales, etc. Uno o más canales de mezcla descendente se transmiten junto con la información lateral paramétrica lo que indica las señales espaciales a un decodificador de audio espacial que decodifica el canal de mezcla descendente y los datos paramétricos asociados con el fin de obtener finalmente canales de salida que son una versión aproximada de los canales de entrada originales. La colocación de los canales en la configuración de salida es normalmente fija y es, por ejemplo, un formato 5.1, un formato 7.1, etc.Spatial audio coding tools are well known in the art and are, for example, standardized in the MPEG surround standard. Spatial audio encoding begins with original input channels such as five or seven channels that are identified by their placement in a playback configuration, i.e., a left channel, a center channel, a right channel, a left surround channel, a right surround channel and a low-frequency power channel. A spatial audio encoder typically derives one or more downmix channels from the original channels, and additionally derives parametric data related to spatial signals such as level differences between channels in channel coherence values, phase differences between channels, time differences between channels, etc. One or more downmix channels are transmitted along with parametric side information indicating the spatial signals to a spatial audio decoder which decodes the downmix channel and associated parametric data in order to finally obtain output channels that are a rough version of the original input channels. The placement of the channels in the output configuration is normally fixed and is, for example, a 5.1 format, a 7.1 format, etc.

De forma adicional, las herramientas de codificación de un objeto de audio espacial se conocen muy bien en la técnica y se estandarizan en el estándar SAOC de MPEG (SAOC = codificación de un objeto de audio espacial). En contraste con una codificación de audio espacial que se inicia en canales originales, la codificación de un objeto de audio espacial comienza con objetos de audio que no se dedican de forma automática para una determinada configuración de la reproducción de renderización. En su lugar, la colocación de los objetos de audio en la escena de reproducción es flexible y se puede determinar por el usuario al introducir cierta información de renderización en un decodificador de codificación de objetos de audio espacial. Alternativamente o de forma adicional, la información de renderización, es decir, la información sobre la posición en la que debe colocarse un objeto de audio en la configuración de reproducción normalmente con el paso del tiempo puede transmitirse como información lateral adicional o metadatos. Con el objetivo de obtener una determinada compresión de datos, una cantidad de objetos de audio se codifican por medio de un codificador de SAOC que calcula, a partir de los objetos de entrada, uno o más canales de transporte por la mezcla descendente de los objetos de acuerdo con cierta información de mezcla descendente. De forma adicional, el codificador de SAOC calcula información lateral paramétrica que representa señales entre objetos tales como diferencias en el nivel de objetos (OLD), valores de coherencia de objetos, etc. Como ocurre en SAC (SAC = codificación de audio espacial), los datos paramétricos entre objetos se calculan para mosaicos de tiempo/frecuencia individuales, es decir, para una determinada trama de la señal de audio que comprende, por ejemplo, 1024 o 2048 muestras, 24, 32, o 64, etc., bandas de frecuencia se consideran de modo tal que, al final, existen datos paramétricos para cada trama y cada banda de frecuencia. Como ejemplo, cuando una pieza de audio tiene 20 tramas y cuando cada trama se subdivide en 32 bandas de frecuencia, entonces la cantidad de mosaicos de tiempo/frecuencia es de 640.Additionally, spatial audio object encoding tools are well known in the art and are standardized in the MPEG SAOC standard (SAOC = Spatial Audio Object Encoding). In contrast to a spatial audio encoding that starts at original channels, the encoding of a spatial audio object starts with audio objects that are not automatically dedicated for a certain render playback configuration. Instead, the placement of audio objects in the playback scene is flexible and can be determined by the user by inputting certain rendering information to a spatial audio object encoding decoder. Alternatively or additionally, rendering information, ie information about the position at which an audio object should be placed in the playback configuration typically over time may be transmitted as additional side information or metadata. In order to obtain a certain data compression, a number of audio objects are encoded by means of an SAOC encoder that calculates, from the input objects, one or more transport channels by downmixing the objects. according to some downmix information. Additionally, the SAOC encoder calculates parametric side information that represents signals between objects such as object level differences (OLD), object coherence values, etc. As in SAC (SAC = Spatial Audio Coding), the inter-object parametric data is computed for individual time/frequency tiles, i.e. for a given frame of the audio signal comprising, for example, 1024 or 2048 samples , 24, 32, or 64, etc., frequency bands are considered in such a way that, in the end, there is parametric data for each frame and each frequency band. As an example, when an audio piece has 20 frames and when each frame is subdivided into 32 frequency bands, then the number of time/frequency tiles is 640.

Hasta ahora no existe tecnología flexible que combine codificación de canales por un lado y codificación de objetos por otro lado de modo tal que se obtengan calidades de audio aceptables a bajas velocidades de transferencia de bits.Until now there is no flexible technology that combines channel coding on the one hand and object coding on the other hand in such a way that acceptable audio qualities are obtained at low bit rates.

El documento WO 201212544 A1 da a conocer una solución integral para crear, codificar, transmitir, decodificar y reproducir bandas sonoras de audio espacial. El formato de codificación de la banda sonora proporcionado es compatible con formatos de codificación de sonido envolvente heredados, de manera que las bandas sonoras codificadas en el nuevo formato se pueden decodificar y reproducir en un equipo de reproducción heredado sin perder calidad en comparación con formatos heredados. Los objetos de audio se incluyen en una mezcla descendente base en el lado del codificador y la mezcla descendente así obtenida y los objetos de audio explícitamente codificados se transmiten a un lado de decodificador. En el lado de decodificador, los objetos se quitan de la mezcla descendente transmitida y se renderizan y combinan de manera independiente con la mezcla descendente residual correspondiente a la mezcla descendente base.WO 201212544 A1 discloses a comprehensive solution for creating, encoding, transmitting, decoding and playing spatial audio soundtracks. The provided soundtrack encoding format is compatible with legacy surround sound encoding formats, so that soundtracks encoded in the new format can be decoded and played on legacy playback equipment without losing quality compared to legacy formats . Audio objects are included in a base downmix at the encoder side and the thus obtained downmix and explicitly encoded audio objects are transmitted to a decoder side. On the decoder side, objects are removed from the transmitted downmix and are independently rendered and combined with the residual downmix corresponding to the base downmix.

El documento US 2010324915 A1 da a conocer un aparato de codificación para un códec de audio multicanal de alta calidad (HQMAC) y un aparato de decodificación para el HQMAC. Los aparatos de codificación/decodificación para el HQMAC pueden realizar una codificación de códec de audio multicanal de alta calidad basado en canal (HQMAC-CB) o una decodificación de HQMAC-CB según características de señales de audio introducidas para proporcionar compatibilidad con un canal inferior.US 2010324915 A1 discloses an encoding apparatus for a multichannel high quality audio codec (HQMAC) and a decoding apparatus for the HQMAC. Encoding/decoding apparatus for HQMAC can perform channel-based high-quality multi-channel audio codec (HQMAC-CB) encoding or HQMAC-CB decoding based on characteristics of input audio signals to provide lower channel compatibility .

Es un objetivo de la presente invención proporcionar un concepto mejorado para codificación de audio. It is an object of the present invention to provide an improved concept for audio coding.

Este objetivo se logra por un decodificador de audio según la reivindicación 1, un método de codificación de audio según la reivindicación 8 o un programa informático según la reivindicación 9.This object is achieved by an audio decoder according to claim 1, an audio encoding method according to claim 8 or a computer program according to claim 9.

La presente invención se basa en el hallazgo de que, que un sistema óptimo sea flexible por un lado y proporcione una buena eficiencia de compresión con una buena calidad de audio por otro lado se logra por la combinación de la codificación de audio espacial, es decir, codificación de audio basada en canales con codificación de un objeto de audio espacial, es decir, codificación basada en objetos. En particular, proporcionar un mezclador para mezclar los objetos y los canales que ya se encuentran en el lado del codificador proporciona una buena flexibilidad, en particular para aplicaciones de baja velocidad de transferencia de bits, dado que cualquier transmisión de objetos puede ser entonces innecesaria o la cantidad de objetos que deben transmitirse puede reducirse. Por otro lado, se requiere flexibilidad de modo tal que el codificador de audio pueda controlarse de dos maneras diferentes, es decir, en el modo en el cual los objetos se mezclan con los canales antes de codificarse al núcleo, mientras que en el otro modo los datos de objetos por un lado y los datos de canal por otro lado se codifican directamente al núcleo sin ningún mezclado entre ellos.The present invention is based on the finding that an optimal system that is flexible on the one hand and provides good compression efficiency with good audio quality on the other hand is achieved by the combination of spatial audio coding, i.e. , channel-based audio coding with coding of a spatial audio object, ie object-based coding. In particular, providing a mixer to mix the objects and channels that are already on the encoder side provides good flexibility, particularly for low bitrate applications, since any transmission of objects may then be unnecessary or the number of objects to be transmitted can be reduced. On the other hand, flexibility is required such that the audio encoder can be controlled in two different ways, i.e. in the mode in which the objects are mixed with the channels before encoding to the kernel, while in the other mode object data on the one hand and channel data on the other hand are encoded directly to the kernel without any mixing between them.

Esto asegura que el usuario puede o bien separar los objetos procesados y canales en el lado del codificador de modo tal que se encuentra disponible una flexibilidad completa en el lado del decodificador pero al precio de una transferencia de bits potenciada. Por otro lado, cuando los requisitos de transferencia de bits son más rigurosos, entonces la presente invención ya permite realizar un mezclado prerrenderización en el lado del codificador, es decir, que algunos o todos los objetos de audio ya se encuentran mezclados con los canales de modo tal que el codificador central únicamente codifica datos del canal y no se requiere ningún bit requerido para transmitir datos de objeto de audio, ya sea de forma de una mezcla descendente o en la forma de datos entre objetos paramétricos. This ensures that the user can either separate the processed objects and channels on the encoder side such that full flexibility is available on the decoder side but at the price of enhanced bit transfer. On the other hand, when the bit transfer requirements are more stringent, then the present invention already allows for pre-rendering mixing on the encoder side, i.e. some or all of the audio objects are already mixed with the audio channels. such that the core encoder only encodes channel data and no required bits are required to transmit audio object data, either in the form of a downmix or in the form of parametric inter-object data.

En el lado del decodificador, el usuario tiene nuevamente alta flexibilidad debido al hecho de que el mismo decodificador de audio permite el funcionamiento en dos modos diferentes, es decir, el primer modo donde la codificación de objetos y canales individuales o independientes tiene lugar y el decodificador tiene la flexibilidad completa para procesar los objetos y mezclar con los datos de canal. Por otro lado, cuando un mezclado/prerrenderización ya se ha desarrollado en el lado del codificador, el decodificador se configura para realizar un posprocesamiento sin procesamiento de ningún objeto intermedio. Por otro lado, el posprocesamiento también puede aplicarse a los datos en el otro modo, es decir, cuando la renderización/mezclado de objetos tiene lugar en el lado del decodificador. De este modo, la presente invención permite un marco de tareas de procesamiento que permite una gran reutilización de recursos no solamente en el lado del codificador sino también en el lado del decodificador. El posprocesamiento puede referirse a la mezcla descendente y binarización o cualquier otro procesamiento para obtener un escenario de canal final tal como una disposición de reproducción pretendida.On the decoder side, the user again has high flexibility due to the fact that the same audio decoder allows operation in two different modes, i.e. the first mode where the encoding of individual or independent channels and objects takes place and the decoder has the complete flexibility to process the objects and mix with the channel data. On the other hand, when a mixdown/pre-render has already been performed on the encoder side, the decoder is configured to perform post-rendering without rendering any intermediate objects. On the other hand, post-processing can also be applied to the data in the other mode, i.e. when object rendering/mixing takes place on the decoder side. Thus, the present invention enables a processing task framework that allows for high resource reuse not only on the encoder side but also on the decoder side. Post-processing may refer to downmixing and binarization or any other processing to obtain a final channel scenario such as an intended playback layout.

De forma adicional, en el caso de requisitos de muy baja velocidad de transferencia de bits, la presente invención proporciona al usuario una flexibilidad suficiente para reaccionar a los requisitos de baja velocidad de transferencia de bits, es decir, por prerrenderización en el lado del codificador de modo tal que, por el precio de cierta flexibilidad, no obstante se obtiene muy buena calidad de audio en el lado del decodificador se obtiene debido al hecho de que los bits que se han ahorrado al no proporcionar ya ningún dato de objetos del codificador al decodificador pueden usarse para codificar mejor los datos de canal tal como por cuantificación más fina de los datos de canal o por otros medios para mejorar la calidad o para reducir la pérdida de codificación cuando se encuentran disponibles bits suficientes.Additionally, in the case of very low bit rate requirements, the present invention provides the user with sufficient flexibility to react to low bit rate requirements, i.e. by pre-rendering on the encoder side. such that, for the price of some flexibility, nonetheless very good audio quality on the decoder side is obtained due to the fact that the bits that have been saved by no longer providing any encoder object data to the decoder can be used to better encode the channel data such as by finer quantization of the channel data or by other means to improve quality or to reduce encoding loss when sufficient bits are available.

En una realización preferida de la presente invención, el codificador comprende de forma adicional un codificador de SAOC y de forma adicional permite no solamente codificar la entrada de objetos en el codificador sino también codificar por SAOC datos del canal con el objetivo de obtener una buena calidad de audio incluso a velocidades de transferencia de bits menores. Realizaciones adicionales de la presente invención permiten una funcionalidad de posprocesamiento que comprende un renderizador binaural y/o un conversor de formato. De forma adicional, se prefiere que el procesamiento completo en el lado del decodificador ya tenga lugar para una determinada cantidad elevada de altavoces, tal como una configuración de altavoz de 22 o 32 canales. Sin embargo, después el conversor de formato, por ejemplo, determina que únicamente se requiere una salida de 5.1, es decir, una salida para una disposición de reproducción que tenga una cantidad menor que la cantidad máxima de canales, entonces se prefiere que el conversor de formato controle tanto el decodificador USAC como el decodificador de SAOC o ambos dispositivos para restringir la operación de decodificación central y la operación de decodificación SAOC de modo tal que no se genere en la decodificación cualquier canal que, al final, no obstante se mezcle de manera descendente en una conversión de formato. Normalmente, la generación de canales sometidos a mezcla ascendente requiere procesamiento de decorrelación y cada procesamiento de decorrelación introduce cierto nivel de artefactos. Por lo tanto, al controlar el decodificador central y/o el decodificador de SAOC por el formato de salida finalmente requerido, una gran cantidad de procesamiento de decorrelación adicional se ahorra cuando se compara con una situación cuando esta interacción no existe, lo cual no solamente da como resultado una calidad de audio mejorada sino también da como resultado una complejidad reducida del decodificador y, al final, en un consumo de energía reducido, lo cual es particularmente útil para dispositivos móviles que abarcan el codificador de la invención o el decodificador de la invención. Los codificadores de la invención o los decodificadores correspondientes, sin embargo, no solamente pueden introducirse en dispositivos móviles tales como teléfonos móviles, teléfonos inteligentes, ordenadores portátiles o dispositivos de navegación, sino que también pueden usarse en ordenadores de mesa sencillos u otros aparatos no móviles.In a preferred embodiment of the present invention, the encoder additionally comprises a SAOC encoder and additionally allows not only encoding of object input to the encoder but also SAOC encoding of channel data in order to obtain good quality. audio even at lower bit rates. Additional embodiments of the present invention allow post-processing functionality comprising a binaural renderer and/or a format converter. Additionally, it is preferred that the full processing on the decoder side already takes place for a certain large number of loudspeakers, such as a 22 or 32 channel loudspeaker configuration. However, after the format converter, for example, determines that only 5.1 output is required, that is, output for a playback arrangement that has less than the maximum number of channels, then it is preferred that the converter control both the USAC decoder and the SAOC decoder or both devices to restrict the core decoding operation and the SAOC decoding operation so that no channel is generated on decoding which, in the end, is nonetheless mismixed. descending manner in a format conversion. Typically, the generation of upmixed channels requires decorrelation processing and each decorrelation processing introduces some level of artifacts. Therefore, by controlling the core decoder and/or the SAOC decoder by the ultimately required output format, a large amount of additional decorrelation processing is saved when compared to a situation when this interaction does not exist, which not only results in improved audio quality but also results in reduced decoder complexity and ultimately in reduced power consumption, which is particularly useful for mobile devices that encompass the encoder of the invention or the decoder of the invention. The inventive encoders or corresponding decoders, however, can not only be inserted into mobile devices such as mobile phones, smartphones, laptops or navigation devices, but can also be used in simple desktop computers or other non-mobile devices. .

La implementación anterior, es decir, no generar algunos canales, puede no ser óptima, dado que puede perderse cierta información (tal como la diferencia de nivel entre los canales que se someterán a mezcla descendente). Esta información de diferencia de nivel puede no ser crítica, pero puede dar como resultado una señal de salida de mezcla descendente diferente, si la mezcla descendente aplica diferentes ganancias de mezcla descendente a los canales sometidos a mezcla ascendente. Una solución mejorada únicamente apaga la eliminación de correlación en la mezcla ascendente, pero aún genera todos los canales de mezcla ascendente con diferencias correctas de nivel (como indica el SAC paramétrico). La segunda solución da como resultado una mejor calidad de audio, pero la primera solución da como resultado mayor reducción de la complejidad.The above implementation, ie not outputting some channels, may not be optimal, since some information (such as the level difference between the channels to be downmixed) may be lost. This level difference information may not be critical, but may result in a different downmix output signal, if the downmix applies different downmix gains to the upmixed channels. An improved solution only turns off demapping on the upmix, but still outputs all upmix channels with correct level differences (as indicated by the parametric SAC). The second solution results in better audio quality, but the first solution results in a further reduction in complexity.

Las realizaciones preferidas se comentan a continuación con respecto a los dibujos que se adjuntan, en los que: La figura 1 ilustra una primera realización de un codificador;Preferred embodiments are discussed below with respect to the accompanying drawings, in which: Figure 1 illustrates a first embodiment of an encoder;

la figura 2 ilustra un primer ejemplo de un decodificador que no forma parte de la invención;Figure 2 illustrates a first example of a decoder not forming part of the invention;

la figura 3 ilustra una segunda realización de un codificador;Figure 3 illustrates a second embodiment of an encoder;

la figura 4 ilustra un segundo ejemplo de un decodificador que no forma parte de la invención;Figure 4 illustrates a second example of a decoder not forming part of the invention;

la figura 5 ilustra una tercera realización de un codificador;Figure 5 illustrates a third embodiment of an encoder;

la figura 6 ilustra un tercer ejemplo de un decodificador que no forma parte de la invención;Figure 6 illustrates a third example of a decoder not forming part of the invention;

la figura 7 ilustra un mapa que indica modos individuales en los que los codificadores de acuerdo con las realizaciones de la presente invención o decodificadores de ejemplo pueden operarse;Figure 7 illustrates a map indicating individual modes in which encoders according to embodiments of the present invention or exemplary decoders may be operated;

la figura 8 ilustra una implementación específica del conversor de formato;Figure 8 illustrates a specific implementation of the format converter;

la figura 9 ilustra una implementación específica del conversor binaural;Figure 9 illustrates a specific implementation of the binaural converter;

la figura 10 ilustra una implementación específica del decodificador central que no forma parte de la invención; y la figura 11 ilustra una implementación específica de un codificador para procesar un elemento de canal cuádruple (QCE) y el correspondiente decodificador QCE que no forma parte de la invención.Figure 10 illustrates a specific implementation of the core decoder which is not part of the invention; and Figure 11 illustrates a specific implementation of an encoder for processing a Quad Channel Element (QCE) and corresponding QCE decoder not forming part of the invention.

Los ejemplos relacionados con el decodificador no forman parte de la invención pero son útiles para su comprensión.The examples related to the decoder do not form part of the invention but are useful for its understanding.

Las realizaciones relacionadas con el codificador forman parte de la invención.Encoder-related embodiments form part of the invention.

La figura 1 ilustra un codificador de acuerdo con una realización de la presente invención. El codificador se configura para codificar datos de entrada de audio 101 para obtener datos de salida de audio 501. El codificador comprende una interfaz de entrada para recibir una pluralidad de canales de audio indicados por CH y una pluralidad de objetos de audio indicados por OBJ. De forma adicional, como se ilustra en la figura 1, la interfaz de entrada 100 de forma adicional recibe metadatos relacionados con uno o más de la pluralidad de objetos de audio OBJ. De forma adicional, el codificador comprende un mezclador 200 para mezclar la pluralidad de objetos y la pluralidad de canales para obtener una pluralidad de canales mezclados previamente, en el que cada canal mezclado previamente comprende datos de audio de un canal y datos de audio de por lo menos un objeto. De forma adicional, el codificador comprende un codificador central 300 para codificar de forma central datos de entrada del codificador central, un compresor de metadatos 400 para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio. De forma adicional, el codificador puede comprender un controlador de modos 600 para controlar el mezclador, el codificador central y/o una interfaz de salida 500 en uno de muchos modos de operación, en el que en el primer modo, el codificador central se configura para codificar la pluralidad de canales de audio y la pluralidad de objetos de audio recibidos por la interfaz de entrada 100 sin ninguna interacción por el mezclador, es decir, sin ningún mezclado hecho por el mezclador 200. En un segundo modo, sin embargo, en el cual el mezclador 200 estaba activo, el codificador central codifica la pluralidad de canales mezclados, es decir, la salida generada por el bloque 200. En este último caso, se prefiere no codificar ya ningún dato de objetos. En su lugar, los metadatos que indican posiciones de los objetos de audio ya se usan por el mezclador 200 para renderizar los objetos sobre los canales como se indica por los metadatos. En otras palabras, el mezclador 200 usa los metadatos relacionados con la pluralidad de objetos de audio para prerrenderizar los objetos de audio y luego los objetos de audio prerrenderizados se mezclan con los canales para obtener canales mezclados en la salida del mezclador. En esta realización, cualquier objeto puede no transmitirse necesariamente y esto también se aplica a metadatos comprimidos como salida por el bloque 400. Sin embargo, si no todos los objetos introducidos en la interfaz 100 se mezclan sino que únicamente se mezcla una cierta cantidad de objetos, entonces únicamente los objetos no mezclados restantes y los metadatos asociados se transmiten no obstante al codificador central 300 o el compresor de metadatos 400, respectivamente.Figure 1 illustrates an encoder according to one embodiment of the present invention. The encoder is configured to encode audio input data 101 to obtain audio output data 501. The encoder comprises an input interface for receiving a plurality of audio channels indicated by CH and a plurality of audio objects indicated by OBJ. Additionally, as illustrated in FIG. 1, input interface 100 additionally receives metadata related to one or more of the plurality of OBJ audio objects. Additionally, the encoder comprises a mixer 200 for mixing the plurality of objects and the plurality of channels to obtain a plurality of premixed channels, wherein each premixed channel comprises audio data from one channel and audio data from per channel. least one object. Additionally, the encoder comprises a core encoder 300 for centrally encoding input data from the core encoder, a metadata compressor 400 for compressing metadata related to one or more of the plurality of audio objects. Additionally, the encoder may comprise a mode controller 600 for controlling the mixer, the core encoder, and/or an output interface 500 in one of many modes of operation, wherein in the first mode, the core encoder is configured to encode the plurality of audio channels and the plurality of audio objects received by the input interface 100 without any interaction by the mixer, that is, without any mixing done by the mixer 200. In a second mode, however, in which mixer 200 was active, the central encoder encodes the plurality of mixed channels, ie, the output generated by block 200. In the latter case, it is preferred not to encode any object data anymore. Instead, the metadata indicating positions of the audio objects is already used by the mixer 200 to render the objects on the channels as indicated by the metadata. In other words, the mixer 200 uses the metadata related to the plurality of audio objects to pre-render the audio objects and then the pre-rendered audio objects are mixed with the channels to obtain mixed channels at the output of the mixer. In this embodiment, any objects may not necessarily be transmitted and this also applies to metadata compressed as output by block 400. However, if not all objects input to interface 100 are shuffled but only a certain number of objects are shuffled , then only the remaining unscrambled objects and associated metadata are nonetheless transmitted to the central encoder 300 or metadata compressor 400, respectively.

La figura 3 ilustra una realización adicional de un codificador que, de forma adicional, comprende un codificador de SAOC 800. El codificador de SAOC 800 se configura para generar uno o más canales de transporte y datos paramétricos a partir de los datos de entrada del codificador de objetos de audio espacial. Como se ilustra en la figura 3, los datos de entrada del codificador de objeto de audio espacial son objetos que no han sido procesados por el prerrenderizador/mezclador. Alternativamente, siempre que el prerrenderizador/mezclador se haya traspasado como en el modo uno donde una codificación de objeto/canal individual está activa, todas las entradas de objetos en la interfaz de entrada 100 se codifican por medio del codificador de SAOC 800.Figure 3 illustrates a further embodiment of an encoder further comprising a SAOC encoder 800. The SAOC encoder 800 is configured to generate one or more transport channels and parametric data from the encoder input data. of spatial audio objects. As illustrated in Figure 3, the input data of the spatial audio object encoder are objects that have not been processed by the prerender/mixer. Alternatively, provided that the prerender/mixer has been passed through as in mode one where a single object/channel encoding is active, all object inputs at input interface 100 are encoded by SAOC encoder 800.

De forma adicional, como se ilustra en la figura 3, el codificador central 300 se implementa preferiblemente como un codificador USAC, es decir, como un codificador como se define y se estandariza en el estándar MPEG-USAC (USAC = codificación de voz y audio unificada). La salida del codificador completo que se ilustra en la figura 3 es un flujo de datos MPEG 4 que tiene estructuras similares a un contenedor para tipos de datos individuales. De forma adicional, los metadatos se indican como datos “OAM” y el compresor de metadatos 400 en la figura 1 corresponde al codificador OAM 400 para obtener datos OAM comprimidos que se introducen en el codificador USAC 300 que, como puede observarse en la figura 3, de forma adicional comprende la interfaz de salida para obtener el flujo de datos de salida de MP4 que no solamente tiene datos de objeto/canal codificados sino que también tiene los datos OAM comprimidos.Additionally, as illustrated in Figure 3, the core encoder 300 is preferably implemented as a USAC encoder, that is, as an encoder as defined and standardized in the MPEG-USAC standard (USAC = speech and audio coding). unified). The output of the complete encoder illustrated in Figure 3 is an MPEG 4 data stream having container-like structures for individual data types. Additionally, the metadata is indicated as "OAM" data and the metadata compressor 400 in Figure 1 corresponds to the OAM encoder 400 to obtain compressed OAM data that is input to the USAC encoder 300 which, as can be seen in Figure 3 , additionally comprises the output interface for obtaining the MP4 output data stream which not only has encoded object/channel data but also has the compressed OAM data.

La figura 5 ilustra una realización adicional del codificador, donde en contraste con la figura 3, el codificador de SAOC puede configurarse de forma indistinta para codificar, con el algoritmo de codificación SAOC, los canales provistos en el prerrenderización/mezclador 200 que no está activo en este modo o, alternativamente, para codificar por SAOC los canales prerrenderizados más objetos. De este modo, en la figura 5, el codificador de SAOC 800 puede funcionar en tres clases diferentes de datos de entrada, es decir, canales sin ningún objeto prerrenderizado, canales y objetos prerrenderizados o únicamente objetos. De forma adicional, se prefiere proporcionar un decodificador OAM adicional 420 en la figura 5 de modo tal que el codificador de SAOC 800 use, para su procesamiento, los mismos datos que se encuentran en el lado del decodificador, es decir, datos obtenidos por una compresión de pérdida en lugar de los datos OAM originales.Figure 5 illustrates a further embodiment of the encoder, where in contrast to Figure 3, the SAOC encoder can be configured interchangeably to encode, with the SAOC encoding algorithm, the channels provided in the pre-render/mixer 200 that is not active in this mode or, alternatively, to SAOC-encode the pre-rendered channels plus objects. Thus, in FIG. 5, SAOC encoder 800 can operate on three different classes of input data, ie, channels with no pre-rendered objects, channels and pre-rendered objects, or objects only. Additionally, it is preferred to provide an additional OAM decoder 420 in Figure 5 such that the SAOC encoder 800 uses, for its processing, the same data found on the decoder side, i.e. data obtained by a lossy compression instead of the original OAM data.

El codificador de la figura 5 puede funcionar en varios modos individuales.The encoder of figure 5 can work in several individual modes.

Además de los modos primero y segundo, como se comenta en el contexto de la figura 1, el codificador de la figura 5 puede funcionar de forma adicional en un tercer modo en el cual el codificador central genera el uno o más canales de transporte a partir de los objetos individuales cuando el prerrenderizador/mezclador 200 no estaba activo. Alternativamente o de forma adicional, en este tercer modo, el codificador de SAOC 800 puede generar uno o más canales de transporte alternativos o adicionales de los canales originales, es decir, nuevamente cuando el prerrenderizador/mezclador 200 correspondiente al mezclador 200 de la figura 1 no estaba activo.In addition to the first and second modes, as discussed in the context of Figure 1, the Figure 5 encoder may additionally operate in a third mode in which the central encoder generates the one or more transport channels from of the individual objects when the pre-render/mixer 200 was not active. Alternatively or additionally, in this third mode, the SAOC encoder 800 may generate one or more alternate or additional transport channels from the original channels, i.e. again when the pre-render/mixer 200 corresponding to the mixer 200 of Figure 1 was not active.

Finalmente, el codificador de SAOC 800 puede codificar, cuando el codificador se configura en el cuarto modo, los canales más objetos prerrenderizados según se generan por el prerrenderizador/ mezclador. De este modo, en el cuarto modo las aplicaciones con menor velocidad de transferencia de bits proporcionarán buena calidad debido al hecho de que los canales y objetos se han transformado completamente en canales de transporte SAOC individuales y la información lateral asociada según se indica en las figuras 3 y 5 como “SAOC-SI” y, de forma adicional, cualquier metadato no comprimido no tiene que transmitirse en este cuarto modo.Finally, the SAOC encoder 800 may encode, when the encoder is configured in the fourth mode, the channels plus pre-rendered objects as generated by the pre-render/mixer. Thus, in the fourth mode lower bit rate applications will provide good quality due to the fact that the channels and objects have been completely transformed into individual SAOC transport channels and associated side information as indicated in the figures 3 and 5 as "SAOC-SI" and, additionally, any uncompressed metadata does not have to be transmitted in this fourth mode.

La figura 2 ilustra un decodificador a modo de ejemplo. El decodificador recibe, como entrada, los datos de audio codificados, es decir, los datos 501 de la figura 1.Figure 2 illustrates an exemplary decoder. The decoder receives, as input, the encoded audio data, i.e. data 501 in Figure 1.

El decodificador comprende un descompresor de metadatos 1400, un decodificador central 1300, un procesador de objetos 1200, un controlador de modos 1600 y un posprocesador 1700.The decoder comprises a metadata decompressor 1400, a core decoder 1300, an object processor 1200, a mode controller 1600, and a post processor 1700.

Específicamente, el decodificador de audio se configura para decodificar datos de audio codificados y la interfaz de entrada se configura para recibir los datos de audio codificados, comprendiendo los datos de audio codificados una pluralidad de canales codificados y la pluralidad de objetos codificados y metadatos comprimidos relacionados con la pluralidad de objetos en un determinado modo. Specifically, the audio decoder is configured to decode encoded audio data and the input interface is configured to receive the encoded audio data, the encoded audio data comprising a plurality of encoded channels and the plurality of encoded objects and related compressed metadata with the plurality of objects in a certain mode.

De forma adicional, el decodificador central 1300 se configura para decodificar la pluralidad de canales codificados y la pluralidad de objetos codificados y, de forma adicional, el descompresor de metadatos se configura para descomprimir los metadatos comprimidos.Additionally, the core decoder 1300 is configured to decode the plurality of encrypted channels and the plurality of encrypted objects, and additionally, the metadata decompressor is configured to decompress the compressed metadata.

De forma adicional, el procesador de objetos 1200 se configura para procesar la pluralidad de objetos decodificados según se generan por el decodificador central 1300 con el uso de metadatos descomprimidos para obtener una cantidad predeterminada de canales de salida que comprenden datos de objeto y los canales decodificados. Estos canales de salida tal como se indica en 1205 se introducen después en un posprocesador 1700. El posprocesador 1700 se configura para convertir la cantidad de canales de salida 1205 en un determinado formato de salida que puede ser un formato de salida binaural o un formato de salida por altavoz, tal como un formato de salida 5.1,7.1, etc.Additionally, object processor 1200 is configured to process the plurality of decoded objects as generated by core decoder 1300 using decompressed metadata to obtain a predetermined number of output channels comprising object data and the decoded channels . These output channels as indicated at 1205 are then input to a post processor 1700. Post processor 1700 is configured to convert the number of output channels 1205 to a certain output format which can be either a binaural output format or a video format. speaker output, such as 5.1,7.1 output format, etc.

Preferiblemente, el decodificador comprende un controlador de modos 1600 que se configura para analizar los datos codificados para detectar una indicación de modo. Por lo tanto, el controlador de modo 1600 se conecta a la interfaz de entrada 1100 en la figura 2. Sin embargo, alternativamente, el controlador de modo no tiene que estar allí necesariamente. En su lugar, el decodificador flexible puede preconfigurarse por cualquier otra clase de datos de control tales como una entrada del usuario o cualquier otro control. El decodificador de audio en la figura 2, preferiblemente controlado por el controlador de modo 1600, se configura tanto para traspasar el procesador de objetos como para alimentar la pluralidad de canales decodificados en el posprocesador 1700. Este es el funcionamiento en el modo 2, es decir, en el cual se reciben únicamente los canales prerrenderizados, es decir, cuando se ha aplicado el modo 2 en el codificador de la figura 1. Alternativamente, cuando se ha aplicado el modo 1 en el codificador, es decir, cuando el codificador ha realizado codificación individual de canal/objeto, el procesador de objetos 1200 no se desvía, pero la pluralidad de canales decodificados y la pluralidad de objetos decodificados se alimentan al procesador de objetos 1200 junto con metadatos descomprimidos generados por el descompresor de metadatos 1400.Preferably, the decoder comprises a mode controller 1600 that is configured to analyze the encoded data to detect a mode indication. Therefore, the mode controller 1600 is connected to the input interface 1100 in FIG. 2. Alternatively, however, the mode controller need not be there. Instead, the soft decoder may be preconfigured by any other kind of control data such as user input or any other control. The audio decoder in Figure 2, preferably controlled by mode controller 1600, is configured to both bypass the object processor and feed the plurality of decoded channels into post processor 1700. This is mode 2 operation, that is that is, in which only the pre-rendered channels are received, that is, when mode 2 has been applied in the encoder of Figure 1. Alternatively, when mode 1 has been applied in the encoder, that is, when the encoder has performed individual channel/object encoding, object processor 1200 is not bypassed, but the plurality of decoded channels and the plurality of decoded objects are fed to object processor 1200 along with decompressed metadata generated by metadata decompressor 1400.

Preferiblemente, la indicación de si debe aplicarse el modo 1 o el modo 2 se incluye los datos de audio codificados y luego el controlador de modo 1600 analiza los datos codificados para detectar una indicación de modo. Se usa el modo 1 cuando la indicación del modo indica que los datos de audio codificados comprenden canales codificados y objetos codificados y el modo 2 se aplica cuando la indicación del modo indica que los datos de audio codificados no contienen ningún objeto de audio, es decir, únicamente contienen canales prerrenderizados obtenidos por el modo 2 del codificador de la figura 1.Preferably, the indication of whether mode 1 or mode 2 should be applied is included in the encoded audio data and then the mode controller 1600 analyzes the encoded data to detect a mode indication. Mode 1 is used when the mode indication indicates that the coded audio data comprises coded channels and coded objects and mode 2 is applied when the mode indication indicates that the coded audio data does not contain any audio objects, i.e. , only contain pre-rendered channels obtained by mode 2 of the encoder of Figure 1.

La figura 4 ilustra otra realización preferida comparada con el decodificador de la figura 2 y el ejemplo de la figura 4 corresponde al codificador de la figura 3. Además de la implementación del decodificador de la figura 2, el decodificador en la figura 4 comprende un decodificador de SAOC 1800. De forma adicional, el procesador de objetos 1200 de la figura 2 se implementa como un renderizador de objetos 1210 independiente y el mezclador 1220 mientras que, dependiendo del modo, la funcionalidad del renderizador de objetos 1210 también se puede implementar por el decodificador de SAOC 1800.Figure 4 illustrates another preferred embodiment compared to the decoder of Figure 2 and the example of Figure 4 corresponds to the encoder of Figure 3. In addition to the implementation of the decoder of Figure 2, the decoder in Figure 4 comprises a decoder of SAOC 1800. Additionally, the object renderer 1200 of FIG. 2 is implemented as a separate object renderer 1210 and mixer 1220 while, depending on the mode, the functionality of the object renderer 1210 may also be implemented by the SAOC 1800 decoder.

De forma adicional, el posprocesador 1700 puede implementarse como un renderizador binaural 1710 o un conversor de formato 1720. Alternativamente, una salida directa de datos 1205 de la figura 2 también puede implementarse como se ilustra por 1730. Por lo tanto, se prefiere realizar el procesamiento en el decodificador sobre la cantidad más elevada de canales tales como 22.2 o 32 con el objetivo de tener flexibilidad y luego posprocesar si se requiere un formato más pequeño. Sin embargo, cuando queda claro desde el mismísimo comienzo que únicamente se requiere un formato pequeño tales como un formato 5.1, entonces se prefiere, como se indica por la figura 2 o 6 por el acceso directo 1727, que un determinado control sobre el decodificador de SAOC y/o el decodificador USAC puede aplicarse con el fin de evitar operaciones innecesarias de mezcla ascendente y las posteriores operaciones de mezcla descendente.Additionally, post processor 1700 may be implemented as a binaural renderer 1710 or format converter 1720. Alternatively, a direct data output 1205 of FIG. 2 may also be implemented as illustrated by 1730. Therefore, it is preferred to perform the processing in the decoder on the higher number of channels such as 22.2 or 32 for flexibility and then post-processing if a smaller format is required. However, when it is clear from the very beginning that only a small format such as a 5.1 format is required, then it is preferred, as indicated by Figure 2 or 6 by shortcut 1727, that some control over the decoder SAOC and/or USAC decoder may be applied in order to avoid unnecessary upmix operations and subsequent downmix operations.

En un ejemplo, el procesador de objetos 1200 comprende el decodificador de SAOC 1800 y el decodificador de SAOC se configura para decodificar uno o más canales de transporte emitidos por el decodificador central y datos paramétricos asociados y usar metadatos descomprimidos para obtener la pluralidad de objetos de audio renderizados. Hasta este punto, la salida de OAM se conecta al casillero 1800.In one example, object processor 1200 comprises SAOC decoder 1800 and the SAOC decoder is configured to decode one or more transport channels broadcast by the core decoder and associated parametric data and use decompressed metadata to obtain the plurality of objects from rendered audio. Up to this point, the OAM output is connected to box 1800.

De forma adicional, el procesador de objetos 1200 se configura para renderizar objetos decodificados emitidos por el decodificador central que no se codifican en los canales de transporte de SAOC pero que se codifican individualmente en normalmente elementos en canales individuales como se indica por el renderizador de objetos 1210. De forma adicional, el decodificador comprende una interfaz de salida que corresponde a la salida 1730 para emitir una salida del mezclador a los altavoces.Additionally, the object processor 1200 is configured to render decoded objects output by the core decoder that are not encoded on the SAOC transport channels but are individually encoded into elements on individual channels as indicated by the object renderer. 1210. Additionally, the decoder comprises an output interface corresponding to output 1730 for outputting a mixer output to speakers.

En un ejemplo adicional, el procesador de objetos 1200 comprende un decodificador de codificación de objetos de audio espacial 1800 para decodificar uno o más canales de transporte e información lateral paramétrica asociada que representa objetos de audio codificados o canales de audio codificados, en el que el decodificador de codificación de objetos de audio espacial se configura para transcodificar la información paramétrica asociada y los metadatos descomprimidos en información lateral paramétrica transcodificada susceptible de usarse para la renderización directa del formato de salida, como se define por ejemplo en una versión anterior de SAOC. El posprocesador 1700 se configura para calcular canales de audio del formato de salida usando los canales de transporte decodificados y la información lateral paramétrica transcodificada. El procesamiento realizado por el posprocesador puede ser similar al procesamiento envolvente MPEG o puede ser cualquier otro procesamiento tal como procesamiento BCC o similares.In a further example, object processor 1200 comprises a spatial audio object encoding decoder 1800 for decoding one or more transport channels and associated parametric side information representing encoded audio objects or encoded audio channels, wherein the decoder spatial audio object coding is configured to transcode the associated parametric information and decompressed metadata into transcoded parametric side information usable for direct rendering of the output format, as defined for example in an earlier version of SAOC. Post processor 1700 is configured to compute audio channels of the output format using the decoded transport channels and transcoded parametric side information. The processing performed by the post processor may be similar to MPEG surround processing or it may be any other processing such as BCC processing or the like.

En un ejemplo adicional, el procesador de objetos 1200 comprende un decodificador de codificación de objetos de audio espacial 1800 configurado para mezclar de forma ascendente directamente y renderizar señales de canales para el formato de salida usando los canales de transporte decodificados (por el decodificador central) y la información lateral paramétrica.In a further example, object processor 1200 comprises a spatial audio object encoding decoder 1800 configured to directly upmix and render channel signals to the output format using the decoded transport channels (by the core decoder). and parametric lateral information.

De forma adicional, e importante, el procesador de objetos 1200 de la figura 2 de forma adicional comprende el mezclador 1220 que recibe, como entrada, datos generados por el decodificador USAC 1300 directamente cuando existen objetos prerrenderizados mezclados con canales, es decir, cuando el mezclador 200 de la figura 1 estaba activo. De forma adicional, el mezclador 1220 recibe datos del renderizador de objetos que realiza renderización de objetos sin decodificación SAOC. De forma adicional, el mezclador recibe datos de salida del decodificador SAOC, es decir, objetos renderizados por SAOC.Additionally, and importantly, the object processor 1200 of Figure 2 further comprises the mixer 1220 which receives, as input, data generated by the USAC decoder 1300 directly when there are pre-rendered objects mixed with channels, that is, when the mixer 200 of Figure 1 was active. Additionally, mixer 1220 receives data from the object renderer which performs object rendering without SAOC decoding. Additionally, the mixer receives output data from the SAOC decoder, ie objects rendered by SAOC.

El mezclador 1220 se conecta a la interfaz de salida 1730, el renderizador binaural 1710 y el conversor de formato 1720. El renderizador binaural 1710 se configura para renderizar los canales de salida en dos canales binaurales usando funciones de transferencia relacionadas con el cabezal o respuestas a los impulsos de sala binaural (BRIR). El conversor de formato 1720 se configura para convertir los canales de salida en un formato de salida que tiene una cantidad menor de canales que los canales de salida 1205 del mezclador y el conversor de formato 1720 requiere información sobre la disposición de reproducción tal como altavoz 5.1 o similares.The 1220 mixer connects to the 1730 output interface, the 1710 binaural renderer, and the 1720 format converter. The 1710 binaural renderer is configured to render the output channels into two binaural channels using head-related transfer functions or responses to binaural room pulses (BRIR). The format converter 1720 is configured to convert the output channels to an output format that has a smaller number of channels than the output channels 1205 of the mixer and the format converter 1720 requires information about the playback layout such as 5.1 speaker. or the like.

El decodificador de la figura 6 es diferente del decodificador de la figura 4 porque decodificador de SAOC no solo puede generar objetos renderizados sino también canales renderizados y este es el caso cuando el codificador de la figura 5 se ha usado y la conexión 900 entre los canales/objetos prerrenderizados y la interfaz de entrada del codificador de SAOC 800 está activa.The figure 6 decoder is different from the figure 4 decoder because SAOC decoder can not only generate rendered objects but also rendered channels and this is the case when the figure 5 encoder has been used and the connection 900 between the channels /pre-rendered objects and the input interface of the SAOC 800 encoder is active.

De forma adicional, se configura una etapa de paneo de amplitud de base del vector (VPAP) 1810 que recibe, del decodificador de SAOC, la información sobre la disposición de reproducción y que emite una matriz de renderización al decodificador de SAOC de modo tal que el decodificador de SAOC puede, al final, proporcionar canales renderizados sin ninguna operación adicional del mezclador en el formato del canal alto de 1205, es decir, 32 altavoces.Additionally, a vector basis amplitude panning (VPAP) stage 1810 is configured which receives from the SAOC decoder the playback layout information and which outputs a rendering matrix to the SAOC decoder such that the SAOC decoder can, in the end, provide rendered channels without any additional mixer operation in the high channel format of 1205, ie 32 loudspeakers.

El bloque VBAP preferiblemente recibe los datos OAM decodificados para derivar las matrices de renderización. Más en general, preferiblemente requiere información geométrica no solo de la disposición de reproducción sino también de las posiciones donde las señales de entrada deben renderizarse en la disposición de reproducción. Estos datos de entrada geométricos pueden ser datos OAM para información de la posición del canal u objetos para canales que se han transmitido usando SAOC.The VBAP block preferably receives the decoded OAM data to derive the render arrays. More generally, it preferably requires geometric information not only of the playback layout but also of the positions where the input signals are to be rendered in the playback layout. This geometric input data may be OAM data for channel position information or objects for channels that have been transmitted using SAOC.

Sin embargo, si solo se requiere una interfaz de salida específica, entonces el estado de VBAP 1810 ya puede proporcionar la matriz de renderización requerida para la salida, por ejemplo, 5.1. El decodificador de SAOC 1800 realiza entonces una renderización directa de los canales de transporte de SAOC, los datos paramétricos asociados y metadatos descomprimidos, una renderización directa en el formato de salida requerido sin ninguna interacción del mezclador 1220. Sin embargo, cuando se aplica una determinada mezcla entre modos, es decir, donde varios canales se codifican con SAOC pero no todos los canales se codifican con SAOC o donde varios objetos se codifican con SAOC pero no todos los objetos se codifican con SAOC o cuando solo una cierta cantidad de objetos prerrenderizados con canales están decodificados por SAOC y los canales restantes no se procesan con SAOC luego el mezclador unificará los datos de las porciones de entrada individuales, es decir, directamente del decodificador central 1300, del renderizador de objetos 1210 y del decodificador de SAOC 1800.However, if only a specific output interface is required, then the VBAP 1810 state may already provide the required render array for the output, eg 5.1. The SAOC decoder 1800 then performs a direct rendering of the SAOC transport channels, associated parametric data and uncompressed metadata, a direct rendering in the required output format without any interaction from the mixer 1220. However, when applying a certain mixing between modes, i.e. where several channels are encoded with SAOC but not all channels are encoded with SAOC or where several objects are encoded with SAOC but not all objects are encoded with SAOC or when only a certain number of objects pre-rendered with channels are SAOC-decoded and the remaining channels are not SAOC-processed then the mixer will unify the data from the individual input portions, i.e. directly from the core decoder 1300, object renderer 1210 and SAOC decoder 1800.

Posteriormente, se comenta la figura 7 para indicar ciertos modos de codificador/decodificador que pueden aplicarse por el concepto de codificador de audio altamente flexible y de alta calidad de la invención o el concepto altamente flexible y de alta calidad para los decodificadores de la invención.Subsequently, Figure 7 is discussed to indicate certain encoder/decoder modes that can be implemented by the high quality and highly flexible audio encoder concept of the invention or the high quality and highly flexible concept for the inventive decoders.

De acuerdo con el primer modo de codificación, el mezclador 200 en el codificador de la figura 1 se traspasa y, por lo tanto, el procesador de objetos en el decodificador de la figura 2 no se traspasa.According to the first encoding mode, the mixer 200 in the encoder of Figure 1 is bypassed and therefore the object processor in the decoder of Figure 2 is not bypassed.

En el segundo modo, el mezclador 200 en la figura 1 es activo y el procesador de objetos en la figura 2 se traspasa. In the second mode, the mixer 200 in Figure 1 is active and the object renderer in Figure 2 is passed through.

Entonces, en el tercer modo de codificación, el codificador de SAOC de la figura 3 es activo pero únicamente SAOC codifica los objetos en lugar de canales o canales como salida por el mezclador. Por lo tanto, el modo 3 requiere que, en el lado del decodificador ilustrado en la figura 4, el decodificador de SAOC esté únicamente activo para los objetos y genere objetos renderizados.Then, in the third encoding mode, the SAOC encoder of Figure 3 is active but only SAOC encodes objects instead of channels or channels as output by the mixer. Therefore, mode 3 requires that, on the decoder side illustrated in Figure 4, the SAOC decoder is only active for objects and generates rendered objects.

En un cuarto modo de codificación como se ilustra en la figura 5, el codificador de SAOC se configura para codificación SAOC de canales prerrenderizados, es decir, el mezclador es activo como en el segundo modo. En el lado del decodificador, la decodificación SAOC se realiza para objetos prerrenderizados de modo tal que el procesador de objetos se traspasa como en el segundo modo de codificación.In a fourth encoding mode as illustrated in Figure 5, the SAOC encoder is configured for SAOC encoding of pre-rendered channels, ie the mixer is active as in the second mode. On the decoder side, SAOC decoding is performed for pre-rendered objects in such a way that the object renderer is passed through as in the second encoding mode.

De forma adicional, existe un quinto modo de codificación que puede mezclarse por cualquiera de los modos 1 a 4. En particular, un modo de codificación por mezclado existirá cuando el mezclador 1220 en la figura 6 reciba canales directamente del decodificador USAC y, de forma adicional, reciba canales con objetos prerrenderizados del decodificador USAC. De forma adicional, en este modo de codificación por mezclado, se codifican objetos usando directamente, de manera preferible, un elemento de canal simple del decodificador USAC. En este contexto, el renderizador de objetos 1210 renderizará entonces estos objetos decodificados y los enviará al mezclador 1220. De forma adicional, varios objetos se codifican de forma adicional por un codificador de SAOC de modo tal que el decodificador de SAOC generará objetos renderizados al mezclador y/o canales renderizados cuando existan varios canales codificados por tecnología SAOC.Additionally, there is a fifth encoding mode that can be mixed by any of modes 1 to 4. In particular, a mixed encoding mode will exist when the mixer 1220 in Figure 6 receives channels directly from the USAC decoder and, in a way, Additionally, receive channels with pre-rendered objects from the USAC decoder. Additionally, in this shuffle coding mode, objects are coded directly using, preferably, a single channel element of the USAC decoder. In this context, the object renderer 1210 will then render these decoded objects and send them to the mixer 1220. Additionally, various objects are further encoded by a SAOC encoder such that the SAOC decoder will output rendered objects to the mixer. and/or rendered channels when there are several channels encoded by SAOC technology.

Cada porción de entrada del mezclador 1220 puede entonces, de forma ejemplar, tener por lo menos un potencial para recibir la cantidad de canales tales como 32 como se indica en 1205. De este modo, básicamente, el mezclador podría recibir 32 canales del decodificador USAC y, de forma adicional, 32 canales mixtos/prerrenderizados del decodificador USAC y, de forma adicional, 32 “canales” del renderizador de objetos y, de forma adicional, 32 “canales” del decodificador de SAOC, donde cada “canal” entre los bloques 1210 y 1218 por un lado y el bloque 1220 por otro lado tiene una contribución de los correspondientes objetos en un correspondiente canal de altavoz y luego el mezclador 1220 mezcla, es decir, agrega contribuciones individuales para cada canal de altavoz.Each input portion of mixer 1220 may then, exemplarily, have at least one potential to receive the number of channels such as 32 as indicated at 1205. Thus, basically, the mixer could receive 32 channels from the USAC decoder. and additionally 32 mixed/prerendered channels of the USAC decoder and additionally 32 object renderer “channels” and additionally 32 SAOC decoder “channels”, where each “channel” between the blocks 1210 and 1218 on the one hand and block 1220 on the other hand have a contribution from the corresponding objects on a corresponding speaker channel and then mixer 1220 mixes, ie adds individual contributions for each speaker channel.

En una realización preferida de la presente invención, el sistema de codificación/decodificación se basa en un códec USAC de MPEG-D para codificar el canal y las señales de objeto. Para aumentar la eficiencia para codificar una gran cantidad de objetos, se ha adaptado la tecnología SAOC de MPEG. Tres tipos de renderizadores realizan la tarea de renderizar objetos a los canales, renderizar canales a auriculares o renderizar canales a diferentes configuraciones de altavoz. Cuando las señales de objeto se transmiten explícitamente o se codifican paramétricamente usando SAOC, la correspondiente información de metadatos de objetos se comprime y se multiplexa en los datos de salida codificados.In a preferred embodiment of the present invention, the encoding/decoding system is based on an MPEG-D USAC codec to encode the channel and object signals. To increase the efficiency for encoding a large number of objects, the SAOC technology of MPEG has been adapted. Three types of renderers perform the task of rendering objects to channels, rendering channels to headphones, or rendering channels to different speaker configurations. When object signals are transmitted explicitly or parametrically encoded using SAOC, the corresponding object metadata information is compressed and multiplexed into the encoded output data.

En una realización, el mezclador/prerrenderizador 200 se usa para convertir una escena de entrada de objeto más canal en una escena de canal antes de la codificación. Funcionalmente, esto es idéntico a la combinación del mezclador/procesador de objetos en el lado del decodificador como se ilustra en la figura 4 o la figura 6 y como se indica por el procesador de objetos 1200 de la figura 2. La prerrenderización de objetos asegura una entropía de señal determinante en la entrada del codificador que es básicamente independiente de la cantidad de las señales de objeto simultáneamente activas. Con la prerrenderización de objetos, no se requiere transmisión de metadatos de objetos. Las señales de objeto individuales se renderizan a la disposición del canal que el codificador está configurado para usar. El peso de los objetos para cada canal se obtiene de los metadatos OAM de objetos asociados como se indica por la flecha 402.In one embodiment, mixer/prerender 200 is used to convert an object plus channel input scene to a channel scene prior to encoding. Functionally, this is identical to the mixer/object processor combination on the decoder side as illustrated in Figure 4 or Figure 6 and as indicated by the object processor 1200 of Figure 2. Object pre-rendering ensures a determining signal entropy at the encoder input which is basically independent of the number of simultaneously active object signals. With object pre-rendering, object metadata transmission is not required. The individual object signals are rendered to the channel layout that the encoder is configured to use. The weight of the objects for each channel is obtained from the associated object OAM metadata as indicated by arrow 402.

Como codificador/decodificador/núcleo para señales de canal de altavoz, señales de objeto individuales, señales de mezcla descendente del objeto y señales prerrenderizados, se prefiere una tecnología USAC. Gestiona la codificación de la gran cantidad de señales al crear información de mapeo de canal y objeto (la información semántica y geométrica de la asignación de objeto y canal de entrada). Esta información de mapeo describe cómo los objetos y canales de entrada se mapean a los elementos del canal USAC como se ilustra en la figura 10, es decir, elementos del par de canales (CPE), elementos de canal simple (SCE), elementos de canal cuádruple (QCE) y la correspondiente información se transmite al decodificador central del codificador central. Todas las cargas adicionales como datos SAOC o metadatos de objetos se han pasado a través de los elementos de extensión y se han considerado en el control de tasa del codificador.As an encoder/decoder/core for speaker channel signals, individual object signals, object downmix signals and pre-rendered signals, a USAC technology is preferred. It handles the encoding of the large number of signals by creating channel and object mapping information (the semantic and geometric information of the input channel and object mapping). This mapping information describes how input objects and channels are mapped to USAC channel elements as illustrated in Figure 10, i.e. Channel Pair Elements (CPE), Single Channel Elements (SCE), quad channel (QCE) and the corresponding information is transmitted to the central decoder from the central encoder. All additional payloads such as SAOC data or object metadata have been passed through the extension elements and accounted for in the encoder's rate control.

La codificación de objetos es posible en modos diferentes, dependiendo de los requisitos de velocidad de transmisión/distorsión y los requisitos de interactividad para el renderizador. Son posibles las siguientes variantes de codificación de objetos:Object encoding is possible in different ways, depending on the bitrate/distortion requirements and the interactivity requirements for the renderer. The following object encoding variants are possible:

• Objetos prerrenderizados: Las señales de objeto se renderizan previamente y se mezclan con las señales del canal 22.2 antes de la codificación. La posterior cadena de codificación ve señales del canal 22.2. • Pre-rendered Objects: Object signals are pre-rendered and mixed with the 22.2 channel signals before encoding. The subsequent encoding chain sees signals from channel 22.2.

• Formas de onda de objetos individuales: Los objetos se suministran como formas de onda monofónicas al codificador. El codificador usa elementos de canal simple SCE para transmitir los objetos además de las señales del canal. Los objetos decodificados se renderizan y se mezclan en el lado del receptor. La información de metadatos comprimidos de objetos se transmite al receptor/renderizador en todo su recorrido.• Individual object waveforms: Objects are supplied as mono waveforms to the encoder. The encoder uses simple channel elements SCE to transmit the objects in addition to the channel signals. The decoded objects are rendered and mixed on the receiver side. The object's compressed metadata information is passed to the receiver/renderer all the way.

• Formas de onda de objeto paramétricos: Las propiedades de los objetos y su relación entre sí se describen por medio de los parámetros de SAOC. La mezcla descendente de las señales de objeto se codifica con USAC. La información paramétrica se transmite en toda su longitud. La cantidad de canales para mezcla descendente se elige dependiendo de la cantidad de objetos y la velocidad de datos en general. La información de metadatos comprimidos de objetos se transmite al renderizador de SAOC.• Parametric object waveforms: The properties of the objects and their relationship to each other are described by the SAOC parameters. The downmix of the object signals is encoded with USAC. The parametric information is transmitted in its entire length. The number of channels for downmixing is chosen depending on the number of objects and the overall data rate. The object's compressed metadata information is passed to the SAOC renderer.

El codificador y decodificador de SAOC para las señales de objeto se basan en tecnología SAOC MPEG. El sistema es capaz de recrear, modificar y renderizar una cantidad de objetos de audio basándonos en una menor cantidad de canales transmitidos y datos paramétricos adicionales (OLD, IOC (Coherencia Entre Objetos), DMGs (Ganancias de mezcla descendente)). Los datos paramétricos adicionales exhiben una velocidad de datos significativamente menor que la requerida para transmitir todos los objetos de forma individual, haciendo que la codificación sea muy eficiente.The SAOC encoder and decoder for the object signals are based on SAOC MPEG technology. The system is capable of recreating, modifying and rendering a number of audio objects based on fewer transmitted channels and additional parametric data (OLD, IOC (Inter Object Coherence), DMGs (Down Mix Gains)). The additional parametric data exhibits a data rate significantly lower than that required to transmit all the objects individually, making the encoding very efficient.

El codificador de SAOC toma como entrada las señales de objeto/canal como formas de onda monofónicas y emite la información paramétrica (que se empaqueta en el flujo de transferencia de bits de Audio 3D) y los canales de transporte de SAOC (que se codifican con el uso de elementos de canal simple y transmitido).The SAOC encoder takes the object/channel signals as monophonic waveforms as input and outputs the parametric information (which is packaged into the 3D Audio bitstream) and the SAOC transport channels (which are encoded with the use of simple and transmitted channel elements).

El decodificador de SAOC reconstruye las señales de objeto/canal de los canales de transporte de SAOC decodificados y la información paramétrica, y genera la escena de audio de salida basándonos en la disposición de reproducción, la información de los metadatos descomprimidos de objetos y de forma opcional a la interacción con la información del usuario.The SAOC decoder reconstructs the decoded SAOC transport channel object/channel signals and parametric information, and generates the output audio scene based on the playback layout, uncompressed object metadata information, and shape. optional to interaction with user information.

Para cada objeto, los metadatos asociados que especifican la posición geométrica y volumen del objeto en espacio 3D se codifican de forma eficiente por cuantificación de las propiedades del objeto en tiempo y espacio. Los metadatos comprimidos de objetos cOAM se transmiten al receptor como información lateral. El volumen del objeto puede comprender información sobre un grado espacial y/o información del nivel de señal de la señal de audio de este objeto de audio.For each object, the associated metadata specifying the geometric position and volume of the object in 3D space is efficiently encoded by quantifying the properties of the object in time and space. The compressed metadata of cOAM objects is transmitted to the receiver as side information. The volume of the object may comprise information about a spatial degree and/or signal level information of the audio signal of this audio object.

El renderizador de objetos utiliza los metadatos comprimidos de objetos para generar formas de onda de objeto de acuerdo con el formato de reproducción dado. Cada objeto se renderiza a ciertos canales de salida de acuerdo con sus metadatos. La emisión de este bloque es el resultado de la suma de los resultados parciales.The object renderer uses the object's compressed metadata to generate object waveforms according to the given playback format. Each object is rendered to certain output channels according to its metadata. The emission of this block is the result of the sum of the partial results.

Si ambos contenidos basados en canal así como también objetos individuales/paramétricos se descodifican, las formas de onda basadas en canal y las formas de onda del objeto renderizado se mezclan antes de emitir las formas de onda resultantes (o antes de introducirlos en un módulo posprocesador como el renderizador binaural o el módulo renderizador del altavoz).If both channel-based content as well as individual/parametric objects are decoded, the channel-based waveforms and the rendered object waveforms are mixed before the resulting waveforms are output (or before they are fed into a post-processor module). such as the binaural renderer or the speaker renderer module).

El módulo del renderizador binaural produce una mezcla descendente binaural del material de audio multicanal, de tal manera que cada canal de entrada está representado por una fuente de sonido virtual. El procesamiento se lleva a cabo en forma de tramas en el dominio de QMF (banco de filtros espejo en cuadratura).The binaural renderer module produces a binaural downmix of multichannel audio material, such that each input channel is represented by a virtual sound source. Processing is done as frames in the QMF (Quadrature Mirror Filterbank) domain.

La binarización se basa en repuestas medidas a los impulsos de sala binaural.Binarization is based on measured responses to binaural room pulses.

La figura 8 ilustra un ejemplo del conversor de formato 1720. El renderizador del altavoz o conversor de formato convierte entre la configuración del canal transmisor y el formato de reproducción deseado. Este conversor de formato realiza conversiones hasta una cantidad menor de canales de salida, es decir, crea mezcla descendentes. Hasta este punto, un dispositivo de mezcla descendente 1722 que preferiblemente opera en el dominio QMF recibe señales de salida del mezclador 1205 y emite señales del altavoz. Preferiblemente, se proporciona un controlador 1724 para configurar el dispositivo de mezcla descendente 1722 que recibe, como entrada de control, una disposición de salida del mezclador, es decir, la disposición para la que se determinan los datos 1205 y una disposición de reproducción deseada normalmente se introduce en el bloque de conversión de formato 1720 ilustrado en la figura 6. Basándonos en esta información, el controlador 1724 preferiblemente genera de forma automática matrices de mezcla descendente optimizadas para la combinación dada de formatos de entrada y salida y aplica estas matrices en el bloque del dispositivo de mezcla descendente 1722 en el proceso de mezcla descendente. El conversor de formato permite configuraciones de altavoz estándar así como configuraciones aleatorias con posiciones de altavoz no estándar.Figure 8 illustrates an example of the format converter 1720. The loudspeaker renderer or format converter converts between the transmit channel setting and the desired playback format. This format converter converts down to a smaller number of output channels, ie creates downmixes. Up to this point, a downmix device 1722 preferably operating in the QMF domain receives output signals from the mixer 1205 and outputs signals from the loudspeaker. Preferably, a controller 1724 is provided to configure the downmixer 1722 which receives, as control input, a mixer output layout, i.e., the layout for which data 1205 is determined, and a normally desired playback layout. is entered into the format conversion block 1720 illustrated in Figure 6. Based on this information, the controller 1724 preferably automatically generates downmix matrices optimized for the given combination of input and output formats and applies these matrices to the input and output formats. downmix device block 1722 in the downmix process. The format converter allows for standard speaker configurations as well as random configurations with non-standard speaker positions.

Como se ilustra en el contexto de la figura 6, el decodificador de SAOC está diseñado para renderizar a la disposición del canal predefinido tal como 22.2 con una conversión posterior de formato a la disposición de reproducción buscada. Alternativamente, sin embargo, el decodificador de SAOC se implementa para soportar el modo de “baja energía” donde el decodificador de SAOC se configura para decodificar a la disposición de reproducción directamente sin la posterior conversión de formato. En esta implementación, el decodificador de SAOC 1800 directamente emite la señal del altavoz tal como las señales del altavoz 5.1 y el decodificador de SAOC 1800 requiere la información de la disposición de reproducción y la matriz de renderización de modo tal que el paneo de amplitud de base de vector o cualquier otra clase de procesador para generar información de mezcla descendente pueda operar.As illustrated in the context of Figure 6, the SAOC decoder is designed to render to the predefined channel layout such as 22.2 with subsequent format conversion to the 22.2 channel layout. wanted playback. Alternatively, however, the SAOC decoder is implemented to support "low power" mode where the SAOC decoder is configured to decode to the playback layout directly without subsequent format conversion. In this implementation, the SAOC decoder 1800 directly outputs the speaker signal such as 5.1 speaker signals and the SAOC decoder 1800 requires the playback layout and rendering matrix information such that the amplitude panning of vector base or any other kind of processor to generate downmix information can operate.

La figura 9 ilustra un ejemplo adicional del renderizador binaural 1710 de la figura 6. Específicamente, para dispositivos móviles, la renderización binaural es necesaria para auriculares unidos a dichos dispositivos móviles o para altavoces directamente unidos a dispositivos móviles normalmente pequeños. Para dichos dispositivos móviles, pueden existir limitaciones para limitar la complejidad del decodificador y la renderización. Además de omitir la decorrelación en dichos escenarios de procesamiento, se prefiere en primera instancia mezclar de manera descendente usando dispositivo para mezcla descendente 1712 a una mezcla descendente intermedio, es decir, a una cantidad menor de canales de salida que luego da como resultado una menor cantidad de canal de entrada para el conversor binaural 1714. A modo de ejemplo, el material del canal 22.2 se mezcla de manera descendente por medio del dispositivo para mezcla descendente 1712 a una mezcla descendente intermedia 5.1 o, alternativamente, la mezcla descendente intermedia se calcula directamente por el decodificador de SAOC 1800 de la figura 6 en una clase de modo de “acceso directo”. Entonces, la renderización binaural únicamente tiene que aplicar diez funciones HRTF (Funciones de transferencia relacionadas con el cabezal) o BRIR para renderizar los cinco canales individuales en diferentes posiciones, en contraste con aplicar 44 HRTF para funciones BRIR si los canales de entrada 22.2 ya se han renderizado directamente. Específicamente, en las operaciones de convolución necesarias para la renderización binaural requieren una gran cantidad de potencia de procesamiento y, por lo tanto, la reducción de esta potencia de procesamiento mientras que aún se obtiene una calidad de audio aceptable es particularmente útil para dispositivos móviles.Figure 9 illustrates a further example of the binaural renderer 1710 of Figure 6. Specifically, for mobile devices, binaural rendering is required for headphones attached to such mobile devices or for speakers directly attached to typically small mobile devices. For such mobile devices, there may be limitations to limit the complexity of the decoder and rendering. In addition to omitting decorrelation in such processing scenarios, downmixing using downmixer 1712 is preferred first to intermediate downmixing, i.e., a smaller number of output channels which then results in a smaller number of output channels. amount of input channel to binaural converter 1714. As an example, material from channel 22.2 is downmixed by means of downmixer 1712 to an intermediate 5.1 downmix or, alternatively, the intermediate downmix is calculated directly by the SAOC decoder 1800 of FIG. 6 in a kind of "direct access" mode. So binaural rendering only has to apply ten HRTFs (Head Related Transfer Functions) or BRIRs to render the five individual channels at different positions, in contrast to applying 44 HRTFs for BRIRs if the 22.2 input channels are already have rendered directly. Specifically, the convolution operations required for binaural rendering require a large amount of processing power, and therefore reducing this processing power while still achieving acceptable audio quality is particularly useful for mobile devices.

De preferencia, el “acceso directo” como se ilustra por medio de la línea de control 1727 comprende controlar el decodificador 1300 para decodificar a una cantidad menor de canales, es decir, saltear el bloque de procesamiento completo OTT en el decodificador o un formato que se convierte a una cantidad menor de canales y, como se ilustra en la figura 9, una renderización binaural se realiza para la menor cantidad de canales. El mismo procesamiento puede aplicarse no solamente para procesamiento binaural sino también para una conversión de formato como se ilustra por medio de la línea 1727 en la figura 6.Preferably, "direct access" as illustrated by control line 1727 comprises controlling set-top box 1300 to decode to a smaller number of channels, i.e., skipping the entire OTT processing block at the set-top box or a format that is converted to a smaller number of channels and, as illustrated in Figure 9, a binaural rendering is performed for the smaller number of channels. The same processing can be applied not only for binaural processing but also for format conversion as illustrated by line 1727 in Figure 6.

En un ejemplo adicional, se requiere una generación de interfaz eficiente entre bloques de procesamiento. En particular en la figura 6, se representa la vía de la señal de audio entre el los diferentes bloques de procesamiento. El renderizador binaural 1710, el conversor de formato 1720, el decodificador de SAOC 1800 y el decodificador USAC 1300, en el caso que se aplique SBR (replicación de banda espectral), todos operan en un dominio QMF o QMF híbrido. De acuerdo con un ejemplo, todos estos bloques de procesamiento proporcionan una interfaz QMF o QMF híbrida para permitir el paso de señales de audio entre sí en el dominio QMF en un modo eficiente. De forma adicional, se prefiere implementar el módulo del mezclador y el módulo del renderizador de objetos para trabajar en el QMF o dominio QMF híbrido también. Como consecuencia, las etapas de síntesis y análisis de QMF independiente o QMF híbrido pueden evitarse lo cual da como resultado considerables ahorros de complejidad y luego se requiere únicamente una etapa de síntesis de QMF final para generar los altavoces indicados en 1730 o para generar los datos binaurales en la emisión del bloque 1710 o para generar la reproducción de señales del altavoz de disposición en la emisión del bloque 1720. Posteriormente, se hace referencia a la figura 11 con el fin de explicar los elementos de canal cuádruple (QCE). En contraste con un elemento de par de canales como se define en el estándar USAC-MPEG, un elemento de canal cuádruple requiere cuatro canales de entrada 90 y produce un elemento QCE codificado 91. En una realización, se proporcionan una jerarquía de dos cajas envolventes MPEG en modo 2-1-2 o dos cajas TTO (TTO = dos a uno) y herramientas de codificación de estéreo conjunta adicional (por ejemplo, MS-Stereo) como se define en MPEG USAC o envolvente MPEG y el elemento QCE no solamente comprende dos canales para mezcla descendente codificados en estéreo de forma conjunta y de forma opcional dos canales residuales codificados en estéreo de forma conjunta y, de forma adicional, datos paramétricos derivados de, por ejemplo, dos cajas TTO. En el lado del decodificador, se aplica una estructura donde la decodificación de estéreo conjunta de los dos canales de mezcla descendente y de forma opcional dos canales residuales se aplican y en una segunda etapa con dos cajas OTT la mezcla descendente y canales residuales opcionales se someten a mezcla ascendente a los cuatro canales de salida. Sin embargo, las operaciones de procesamiento alternativas para un codificador QCE pueden aplicarse en lugar de la operación jerárquica. De este modo, además de la codificación de canal conjunta de un grupo de dos canales, el codificador/decodificador central de forma adicional usa una codificación conjunta de canal de un grupo de cuatro canales.In a further example, efficient interface generation between processing blocks is required. In particular, in Figure 6, the path of the audio signal between the different processing blocks is represented. The binaural renderer 1710, the format converter 1720, the SAOC decoder 1800 and the USAC decoder 1300, in the case that SBR (spectral band replication) is applied, all operate in a QMF or hybrid QMF domain. According to one example, all of these processing blocks provide a QMF or hybrid QMF interface to allow audio signals to pass each other in the QMF domain in an efficient manner. Additionally, it is preferred to implement the mixer module and object renderer module to work in the QMF or hybrid QMF domain as well. As a consequence, the stand-alone QMF or hybrid QMF synthesis and analysis steps can be avoided resulting in considerable savings in complexity and then only a final QMF synthesis step is required to generate the indicated loudspeakers in 1730 or to generate the data. binaurals at the broadcast of block 1710 or to generate playback of layout loudspeaker signals at the broadcast of block 1720. Reference is then made to Fig. 11 for the purpose of explaining Quad Channel Elements (QCE). In contrast to a channel pair element as defined in the USAC-MPEG standard, a quad channel element requires four input channels 90 and produces an encoded QCE element 91. In one embodiment, a hierarchy of two surround boxes is provided. MPEG in 2-1-2 mode or two TTO boxes (TTO = two to one) and additional joint stereo encoding tools (eg MS-Stereo) as defined in MPEG USAC or MPEG Surround and QCE element not only comprises two co-stereo encoded downmix channels and optionally two co-stereo encoded residual channels and additionally parametric data derived from, for example, two TTO boxes. On the decoder side, a structure is applied where the joint stereo decoding of the two downmix channels and optionally two residual channels are applied and in a second stage with two OTT boxes the downmix and optional residual channels are subjected. upmix to all four output channels. However, alternative processing operations for a QCE encoder can be applied instead of the hierarchical operation. Thus, in addition to the joint channel coding of a group of two channels, the central encoder/decoder additionally uses a joint channel coding of a group of four channels.

De forma adicional, se prefiere realizar un procedimiento de llenado de ruido potenciado para permitir la codificación de banda completa no comprometida (18 kHz) a 1200 kbps. Additionally, it is preferred to perform an enhanced noise filling procedure to allow uncommitted full band (18 kHz) encoding at 1200 kbps.

El codificador se ha operado en un modo de ‘tasa constante con reserva de bits’, usando un máximo de 6144 bits por canal como memoria intermedia de tasa para los datos dinámicos.The encoder has been operated in a 'constant rate with bit reservation' mode, using a maximum of 6144 bits per channel as rate buffer for dynamic data.

Todas las cargas adicionales como datos SAOC o metadatos de objetos se han pasado a través de los elementos de extensión y se han considerado en el control de tasa del codificador.All additional payloads such as SAOC data or object metadata have been passed through the extension elements and accounted for in the encoder's rate control.

Con el fin de aprovechar las funcionalidades de SAOC también por el contenido de audio 3D, se han implementado las siguientes extensiones para MPEG SAOC:In order to take advantage of SAOC functionalities also for 3D audio content, the following extensions for MPEG SAOC have been implemented:

• Mezcla descendente a cantidad arbitraria de los canales de transporte de SAOC.• Downmix to arbitrary number of SAOC transport channels.

• Renderización potenciada para configuraciones de salida con alta cantidad de altavoces (hasta 22.2).• Enhanced rendering for high speaker count output configurations (up to 22.2).

El módulo del renderizador binaural produce una mezcla descendente binaural del material de audio multicanal, de manera tal que cada canal de entrada (sin incluir los canales LFE) está representado por una fuente de sonido virtual. El procesamiento se lleva a cabo en forma de tramas en dominio QMF.The binaural renderer module produces a binaural downmix of multi-channel audio material such that each input channel (not including LFE channels) is represented by a virtual sound source. The processing is carried out in the form of frames in the QMF domain.

La binarización se basa en repuestas medidas a los impulsos de sala binaural. El sonido directo y los reflejos tempranos se imprimen en el material de audio por medio de un enfoque convolucional en un dominio pseudo FFT usando una rápida convolución por encima del dominio QMF. Aunque algunos aspectos se han descrito en el contexto de un aparato, resulta evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. De forma análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente. Algunas o todas las etapas del método pueden ejecutarse por (o usando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunas de las etapas más importantes del método pueden ser ejecutadas por dicho aparato. Binarization is based on measured responses to binaural room pulses. The direct sound and early reflections are imprinted on the audio material by means of a convolutional approach in a pseudo FFT domain using fast convolution on top of the QMF domain. Although some aspects have been described in the context of an apparatus, it is clear that these aspects also represent a description of the corresponding method, where a block or device corresponds to a method step or a feature of a method step. Analogously, aspects described in the context of a method step also represent a description of a corresponding block or element or feature of a corresponding apparatus. Some or all of the steps of the method may be executed by (or using) a hardware apparatus, such as a microprocessor, a programmable computer, or an electronic circuit. In some embodiments, some of the most important steps of the method may be performed by said apparatus.

Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blu-Ray, un CD, un ROM, un PROM y EPROM, un EEPROM o una memoria flash, que tiene almacenadas en su interior señales de control legibles de forma electrónica, que cooperan (o son capaces de cooperar) con un sistema informático programable de manera tal que se realiza el método respectivo. Por lo tanto, el medio de almacenamiento digital puede leerse por ordenador.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or in software. The implementation can be done using a non-transient storage medium such as a digital storage medium, for example a floppy disk, a DVD, a Blu-Ray, a CD, a ROM, a PROM and EPROM, an EEPROM or a flash memory. , which has electronically readable control signals stored inside it, which cooperate (or are capable of cooperating) with a programmable computer system in such a way that the respective method is carried out. Therefore, the digital storage medium can be read by a computer.

Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que tiene señales de control legibles por medios electrónicos, que son capaces de cooperar con un sistema informático programable, de manera tal que se realiza uno de los métodos descritos en el presente documento.Some embodiments according to the invention comprise a data carrier having electronically readable control signals, which are capable of cooperating with a programmable computer system, such that one of the methods described herein is performed.

En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos cuando el producto del programa informático se ejecuta en un ordenador. El código de programa puede, por ejemplo, almacenarse en un portador legible en la máquina.In general, embodiments of the present invention may be implemented as a computer program product with program code, the program code being operative to perform one of the methods when the computer program product is run on a computer. The program code may, for example, be stored on a machine-readable carrier.

Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenados en un portador legible en la máquina.Other embodiments comprise the computer program for performing one of the methods described herein, stored on a machine-readable carrier.

En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.In other words, an embodiment of the method of the invention is thus a computer program having program code for performing one of the methods described herein, when the computer program is run on a computer.

Una realización adicional del método de la invención es, por lo tanto, un portador de datos (o un medio de almacenamiento digital o un medio que se lee por ordenador) que comprende, grabado allí, el programa informático para realizar uno de los métodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o el medio de registro normalmente son tangibles y/o no transitorios.A further embodiment of the method of the invention is therefore a data carrier (either a digital storage medium or a computer-readable medium) comprising, recorded thereon, the computer program for performing one of the methods described in the present document. The data carrier, digital storage medium, or recording medium is typically tangible and/or non-transient.

Una realización adicional del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa informático para realizar uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales pueden, por ejemplo, configurarse para transferirse por medio de una conexión de comunicación de datos, por ejemplo, a través de Internet.A further embodiment of the method of the invention is thus a data stream or sequence of signals representing the computer program for performing one of the methods described herein. The data stream or signal sequence can, for example, be configured to be transferred via a data communication connection, eg via the Internet.

Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o adaptado para, realizar uno de los métodos descritos en el presente documento. A further embodiment comprises processing means, eg, a computer or programmable logic device, configured or adapted to perform one of the methods described herein.

Una realización adicional comprende un ordenador que tiene instalado el programa informático para realizar uno de los métodos descritos en el presente documento.A further embodiment comprises a computer having installed the software for performing one of the methods described herein.

Una realización adicional de acuerdo con la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, electrónicamente u ópticamente) un programa informático para realizar uno de los métodos descritos en el presente documento a un receptor. El receptor puede, por ejemplo, ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema puede, por ejemplo, comprender un servidor de archivos para transferir el programa informático al receptor.A further embodiment in accordance with the invention comprises an apparatus or system configured to transfer (eg, electronically or optically) a computer program for performing one of the methods described herein to a recipient. The receiver can, for example, be a computer, a mobile device, a memory device or the like. The apparatus or system may, for example, comprise a file server for transferring the computer program to the recipient.

En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de puertas lógicas programable en campo) puede usarse para realizar todas o algunas de las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas lógicas programable en campo puede cooperar con un microprocesador con el fin de realizar uno de los métodos descritos en el presente documento. En general, los métodos se realizan preferiblemente por cualquier aparato de hardware.In some embodiments, a programmable logic device (eg, a field-programmable logic gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a field programmable logic gate array may cooperate with a microprocessor in order to perform one of the methods described herein. In general, the methods are preferably performed by any hardware apparatus.

Las realizaciones descritas con anterioridad son simplemente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán obvias para otros expertos en la técnica. La intención es, por lo tanto, limitarse únicamente por el alcance de las reivindicaciones de la patente inminentes y no por los detalles específicos representados a modo de descripción y explicación de las realizaciones del presente documento. The embodiments described above are merely illustrative of the principles of the present invention. It is understood that modifications and variations of the arrangements and details described herein will be obvious to others skilled in the art. It is intended, therefore, to be limited only by the scope of the imminent patent claims and not by the specific details depicted by way of description and explanation of the embodiments herein.

Claims

Audio encoder for encoding audio input data (101) to obtain audio output data (501) comprising:

an input interface (100) configured to receive a plurality of audio channels, a plurality of audio objects, and metadata related to one or more of the plurality of audio objects;

a mixer (200) configured to mix the plurality of audio objects and the plurality of audio channels to obtain a plurality of premixed channels, each premixed channel comprising audio data of one audio channel and audio data of at least minus one audio object;

a core encoder (300) configured to centrally encode input data from the core encoder; Y

a metadata compressor (400) configured to compress metadata related to one or more of the plurality of audio objects to obtain compressed metadata; Y

wherein the audio encoder is configured to operate in both a first mode and a second mode of a group of at least two modes comprising

the first mode, in which the core encoder (300) is configured to individually encode the plurality of audio channels and the plurality of audio objects received by the input interface (100) as the input data of the core encoder without any interaction by the mixer (200), and

the second mode, in which the core encoder (300) is configured to receive, as input data from the core encoder, the plurality of premixed channels generated by the mixer (200) and to encode the plurality of premixed channels generated by the mixer (200), and

an output interface (500) for providing an output signal as audio output data (501),

the output signal comprising, when the audio encoder operates in the first mode, audio channels encoded in the first mode, audio channels encoded and audio objects encoded as an output of the core encoder (300) and the compressed metadata, and

the output signal comprising, when the audio encoder operates in the second mode, the output of the core encoder (300) without any metadata related to the one or more of the plurality of audio objects.

Audio encoder according to claim 1, further comprising:

a spatial audio object encoder (800) for generating one or more transport channels and parametric data from the input data of the spatial audio object encoder,

wherein the audio encoder is configured to additionally operate in a third mode, in which the core encoder (300) encodes the one or more transport channels derived from the input data of the spatial audio object encoder, the input data of the spatial audio object encoder comprising the plurality of audio objects or two or more of the plurality of audio channels.

Audio encoder according to claim 1 or claim 2, further comprising:

wherein the audio encoder is configured to operate in yet another mode, in which the core encoder (300) encodes transport channels derived from the spatial audio object encoder (800) from the premixed channels as the input data from the spatial audio object encoder.

Audio encoder according to any one of the preceding claims, further comprising a connector

to connect an output of the input interface (100) to an input of the core encoder (300) in the first mode, and

to connect the output of the input interface (100) to an input of the mixer (200) and to connect an output of the mixer (200) to the input of the central encoder (300) in the second mode, and a mode controller ( 600) to control the connector according to a mode indication received from a user interface or extracted from the audio input data (101).

Audio encoder according to claim 2, further comprising:

wherein the output interface (500) is configured to provide an output signal as the audio output data (501), the output signal comprising, in the third mode, an output from the core encoder (300), information SAOC side information and compressed metadata and comprising, even further, an output from the core encoder (300) and SAOC side information.

Audio encoder according to any one of the preceding claims,

wherein the mixer (200) is configured to pre-render the plurality of audio objects using the metadata and an indication of the position of each audio channel in a playback configuration with which the plurality of channels is associated,

wherein the mixer (200) is configured to mix an audio object with at least two audio channels, where the audio object shall be placed between at least two audio channels in the playback configuration, as determined by the metadata.

Audio encoder according to any one of the preceding claims,

further comprising a metadata decompressor (420) for decompressing compressed metadata outputted by the metadata compressor (400), and

wherein the mixer (200) is configured to mix the plurality of audio objects according to compressed metadata, wherein a compression operation performed by the metadata compressor (400) is a lossy compression operation comprising a quantification stage.

Audio input data encoding method (101) to obtain audio output data (501) comprising:

receiving (100) a plurality of audio channels, a plurality of audio objects, and metadata related to one or more of the plurality of audio objects;

mixing (200) the plurality of audio objects and the plurality of audio channels to obtain a plurality of premixed channels, each premixed channel comprising audio data of one audio channel and audio data of at least one object of Audio;

centrally encrypting (300) centrally encrypted input data;

compressing (400) metadata related to one or more of the plurality of audio objects, wherein the audio input data encoding method (101) operates in both a first mode and a second mode of a group of two or more modes comprising:

the first mode, in which the core encoding (300) individually encodes the received plurality of audio channels as the core encoding input data and the received plurality of audio objects as the core encoding input data without any interaction by mixing (200), and

the second mode, in which the core encoding (300) receives, as the core encoding input data, the plurality of premixed channels generated by the coremixer (200) and centrally encodes the plurality of premixed channels generated by the mixed (200); Y provide an output signal as the audio output data (501),

the output signal comprising, when the audio input data encoding method (101) is in the first mode, encoded audio channels and encoded audio objects as an output of the core encoding and compressed metadata, and

the output signal comprising, when the audio input data encoding method (101) is in the second mode, the output of the core encoding without any metadata related to one or more of the plurality of audio objects.

A computer program comprising instructions which, when the program is executed by a computer or processor, causes the computer or processor to carry out the method of claim 8.