ES2980359T3

ES2980359T3 - Codificador de audio y decodificador de audio

Info

Publication number: ES2980359T3
Application number: ES19791289T
Authority: ES
Inventors: Tobias Friedrich; Heiko Purnhagen; Stanislaw Gorlow; Celine Merpillat
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2018-11-02
Filing date: 2019-10-30
Publication date: 2024-10-01
Anticipated expiration: 2039-10-30
Also published as: EP3874491A1; JP7504091B2; US11929082B2; WO2020089302A1; US20220005484A1; KR20210076145A; JP2022506338A; JP2024107272A; JP2026012934A; JP7771274B2; BR112021008089A2; EP3874491B1; CN113168838A

Abstract

La presente divulgación se refiere al campo de la codificación de audio, y en particular a un decodificador de audio que tiene al menos dos modos de decodificación, y métodos de decodificación asociados y software de decodificación para dicho decodificador de audio. En uno de los modos de decodificación, al menos un objeto de audio dinámico se asigna a un conjunto de objetos de audio estáticos, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoces predefinida. La presente divulgación se refiere además a un codificador de audio correspondiente, y a métodos de codificación asociados y software de codificación para dicho codificador de audio. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Codificador de audio y decodificador de audio

Referencia cruzada a solicitudes relacionadas

Esta solicitud reivindica prioridad de las siguientes solicitudes prioritarias: solicitud provisional de EE.UU.

62/754758 (referencia: D18053USP1), presentada el 2 de noviembre de 2018, solicitud EP 18204046.9 (referencia: D18053EP), presentada el 2 de noviembre de 2018, y solicitud provisional de EE.UU. 62/793073 (referencia D18053USP2), presentada el 16 de enero de 2019.

Campo técnico

La presente divulgación se refiere al campo de la codificación de audio y, en particular, a un decodificador de audio que tiene al menos dos modos de decodificación y a métodos de decodificación y productos de programa de ordenador asociados.

La presente divulgación se refiere además a un codificador de audio correspondiente y a métodos de codificación y productos de programa de ordenador asociados.

Antecedentes

Una escena de audio generalmente puede comprender objetos de audio. Un objeto de audio es una señal de audio que tiene una posición espacial asociada.

El documento WO 2015/150384 A1 divulga decodificadores de audio basados en objetos, en los que un decodificador admite la reconstrucción de objetos de audio y otro decodificador de baja complejidad no admite la reconstrucción de objetos de audio.

Si la posición espacial de un objeto de audio puede variar con el tiempo, el objeto de audio típicamente se denomina objeto de audio dinámico. Si la posición es estática, el objeto de audio típicamente se denomina objeto de audio estático u objeto de cama. Un objeto de cama es típicamente una señal de audio que corresponde directamente a un canal de una configuración de altavoces multicanal, tal como una configuración estéreo clásica con un altavoz izquierdo y otro derecho, o la llamada configuración de altavoces 5.1 con tres altavoces delanteros, dos altavoces envolventes, y un altavoz de efectos de baja frecuencia, etc. Una cama puede contener de uno a muchos objetos de cama. Se trata de un conjunto de objetos de cama que, por tanto, pueden adaptarse a una configuración de altavoces multicanal.

Puesto que el número de objetos de audio típicamente puede ser muy grande, por ejemplo del orden de decenas o cientos de objetos de audio, existe la necesidad de métodos de codificación que permitan que los objetos de audio se compriman eficientemente en un lado de codificador, por ejemplo para la transmisión como un flujo de bits (flujo de datos, etc.), especialmente cuando se buscan tasas de bits bajas para la transmisión. Los grupos de objetos de audio dinámicos pueden luego, en ciertos modos de decodificación en un decodificador de audio, reconstruirse paramétricamente en objetos de audio individuales nuevamente para ser renderizados en un conjunto de señales de audio de salida dependiendo de la configuración del dispositivo de salida (por ejemplo, altavoces, auriculares, etc.), empleados para la reproducción de la señal de audio. Sin embargo, en algunos casos, el decodificador se ve obligado a funcionar en modo central, lo que significa que no es posible la reconstrucción paramétrica de objetos de audio dinámicos individuales a partir de grupos de objetos de audio dinámicos, por ejemplo debido a restricciones de potencia de procesamiento del decodificador, o por otras razones. Esto puede causar un problema, especialmente cuando se espera una experiencia de audio inmersivo (por ejemplo, audio 3D) de un usuario que está escuchando el audio de salida.

Por tanto, existe de este modo una necesidad de mejoras en este contexto.

Sumario de la invención

En vista de lo anterior, un objetivo de la presente invención es de este modo superar o mitigar al menos algunos de los problemas discutidos anteriormente. En particular, un objeto de la presente divulgación es proporcionar una salida de audio, preferiblemente inmersivo, a partir de objetos de audio dinámicos recibidos en un decodificador en un modo de decodificación central. Además, un objeto de la presente divulgación es proporcionar un codificador para codificar un flujo de bits de audio a partir de un conjunto de objetos de audio dinámicos de una manera que pueda permitir la decodificación del flujo de bits de audio en una salida de audio, preferiblemente inmersivo, de acuerdo con lo anterior. Objetos adicionales y/o alternativos de la presente invención quedarán claros para el lector de esta divulgación. La invención se define en las reivindicaciones independientes. Las realizaciones preferidas se establecen en las reivindicaciones dependientes.

De acuerdo con un primer aspecto de la invención, se proporciona un decodificador de audio según lo establecido en la reivindicación 1, que comprende uno o más búferes para almacenar un flujo de bits de audio recibido, y un controlador acoplado al uno o más búferes.

El controlador está configurado para funcionar en un modo de decodificación seleccionado entre una pluralidad de modos de decodificación diferentes, comprendiendo la pluralidad de modos de decodificación diferentes un primer modo de decodificación y un segundo modo de decodificación, en donde de los modos de decodificación primero y segundo solo el primer modo de decodificación permite decodificación completa de uno o más objetos de audio dinámicos codificados en el flujo de bits, en objetos de audio individuales reconstruidos.

Cuando el modo de decodificación seleccionado es el segundo modo de decodificación, el controlador está configurado para acceder al flujo de bits de audio recibido, para determinar si el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos y, en respuesta al menos a determinar que el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos, mapear al menos uno del uno o más objetos de audio dinámicos a un conjunto de objetos de audio estáticos, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoces inmersiva predefinida que contiene altavoces superiores.

Al incluir el paso de mapear al menos uno del uno o más objetos de audio dinámicos a un conjunto de objetos de audio estáticos, se puede lograr una salida de audio inmersivo a partir de un flujo de bits de baja tasa de bits, por ejemplo restringido para incluir solo hasta 10 objetos de audio (dinámico y estático), o hasta 7, 5, etc., objetos de audio, incluso en un decodificador que funciona en un modo de decodificación de baja complejidad (decodificación central) donde no es posible la reconstrucción paramétrica de objetos de audio dinámicos individuales a partir de grupos de objetos de audio dinámicos (no es posible la decodificación completa).

Por el término "salida de audio inmersivo", en el contexto de la presente memoria descriptiva, debe entenderse una configuración de salida de canal que contiene canales para los altavoces superiores.

Por el término "configuración de altavoces inmersiva" se debe entender un significado similar, es decir, una configuración de altavoces que contiene altavoces superiores.

Además, la presente realización proporciona un método de decodificación flexible, ya que no todos los objetos de audio dinámicos recibidos son mapeados necesariamente al conjunto de objetos de audio estáticos correspondientes a una configuración de altavoces predefinida. Esto, por ejemplo, permite la inclusión de objetos de diálogo adicionales en el flujo de bits de audio que tienen un propósito diferente, por ejemplo diálogo o audio asociado.

Además, la presente realización permite un proceso flexible de proporcionar y posteriormente renderizar el conjunto de objetos de audio estáticos, que se discutirá más adelante, para lograr, por ejemplo, una menor complejidad computacional, o permitir la reutilización de códigos/funciones de software existentes usados para implementar un decodificador.

Generalmente, la presente realización permite flexibilidad de lado de decodificador en un escenario de baja tasa de bits y baja complejidad.

El paso de determinar, mediante el controlador, que el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos se puede realizar de diferentes maneras. De acuerdo con algunas realizaciones, esto se determina a partir del flujo de bits, por ejemplo metadatos como valores enteros o valores de indicador, etc. En otras realizaciones, esto puede determinarse mediante el análisis del objeto de audio o los metadatos del objeto asociado.

El controlador puede seleccionar el modo de decodificación de diferentes maneras. Por ejemplo, la selección se puede realizar usando un parámetro de flujo de bits y/o en vista de la configuración de salida para las señales de audio de salida renderizadas y/o verificando el número de objetos de audio dinámicos (objetos de audio mezclados de forma descendente, grupos, etc.) en el flujo de bits de audio y/o basándose en un parámetro de usuario, etc.

Cabe señalar que la decisión de mapear al menos uno del uno o más objetos de audio dinámicos a un conjunto de objetos de audio estáticos se puede tomar usando más información que simplemente determinar si el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos. De acuerdo con algunas realizaciones, el controlador basa dicha decisión también en datos adicionales tales como parámetros de flujo de bits.

A modo de ejemplo, si se determina que el flujo de bits de audio recibido no comprende objetos de audio dinámicos, o se determina de otro modo que no se debe realizar el mapeo de objetos de audio dinámicos discutido anteriormente, el controlador puede decidir renderizar los objetos de audio estáticos recibidos (objetos de la cama) directamente a un conjunto de canales de audio de salida, usando, por ejemplo, coeficientes de renderización recibidos (por ejemplo, coeficientes de mezcla descendente) aplicables a la configuración de los canales de audio de salida. En este modo operativo del controlador, cualquier objeto de audio dinámico recibido es renderizado convencionalmente en los canales de audio de salida.

De acuerdo con algunas realizaciones, cuando el modo de decodificación seleccionado es el segundo modo de decodificación, el controlador está configurado además para renderizar el conjunto de objetos de audio estáticos en un conjunto de canales de audio de salida. Cualquier otro objeto de audio estático recibido en el flujo de bits de audio (tal como un LFE) también es renderizado en el conjunto de canales de audio de salida, ventajosamente en el mismo paso de renderización.

De acuerdo con algunas realizaciones, la configuración del conjunto de canales de audio de salida difiere de la configuración de altavoz predefinida usada para mapear los objetos de audio dinámicos a un conjunto de objetos de audio estáticos como se describió anteriormente. Puesto que la configuración de altavoces predefinida no se limita a la configuración de los canales de audio de salida, se logra una mayor flexibilidad.

De acuerdo con algunas realizaciones, el flujo de bits de audio comprende un primer conjunto de coeficientes de mezcla descendente, en el que el controlador está configurado para utilizar el primer conjunto de coeficientes de mezcla descendente para renderizar el conjunto de objetos de audio estáticos en un conjunto de canales de audio de salida. En el caso de que se reciban más objetos de audio estáticos en el flujo de bits, los coeficientes de mezcla descendente se aplicarán tanto al conjunto de objetos de audio estáticos como a los objetos de audio estáticos adicionales.

En algunas realizaciones, el controlador puede usar el primer conjunto recibido de coeficientes de mezcla descendente tal como está para renderizar el conjunto de objetos de audio estáticos en un conjunto de canales de audio de salida. Sin embargo, en otras realizaciones, el primer conjunto de coeficientes de mezcla descendente primero debe procesarse basándose en el tipo de operación de mezcla descendente en el lado de codificador que dio como resultado el uno o más objetos de audio dinámicos recibidos en el flujo de bits.

En algunas realizaciones, el controlador está configurado además para recibir información perteneciente a la atenuación aplicada en al menos uno del uno o más objetos de audio dinámicos en un lado de codificador. La información puede recibirse en el flujo de bits o puede estar predefinida en el decodificador. Luego, el controlador puede configurarse para modificar el primer conjunto de coeficientes de mezcla descendente en consecuencia cuando se utiliza el primer conjunto de coeficientes de mezcla descendente para renderizar el conjunto de objetos de audio estáticos en un conjunto de canales de audio de salida. En consecuencia, la atenuación incluida en los coeficientes de mezcla descendente pero que ya se ha aplicado en el lado de codificador no se aplica dos veces, lo que da como resultado una mejor experiencia auditiva.

En algunas realizaciones, el controlador está configurado además para recibir información perteneciente a una operación de mezcla descendente realizada en un lado de codificador, en donde la información define una configuración de canal original de una señal de audio, en donde la operación de mezcla descendente da como resultado la mezcla descendente de la señal de audio al uno o más objetos de audio dinámicos. En este caso, el controlador puede configurarse para seleccionar un subconjunto del primer conjunto de coeficientes de mezcla descendente basándose en la información perteneciente a la información de mezcla descendente, en donde la utilización del primer conjunto de coeficientes de mezcla descendente para renderizar el conjunto de objetos de audio estáticos en un conjunto de canales de audio de salida comprende utilizar el subconjunto del primer conjunto de coeficientes de mezcla descendente para renderizar el conjunto de objetos de audio estáticos en un conjunto de canales de audio de salida. Esto puede dar como resultado un método de decodificación más flexible que maneja todos los tipos de operaciones de mezcla descendente realizadas en el lado de codificador y que dan como resultado el uno o más objetos de audio dinámicos recibidos.

De acuerdo con algunas realizaciones, el controlador está configurado para realizar el mapeo del al menos uno del uno o más objetos de audio dinámicos y la renderización del conjunto de objetos de audio estáticos en un cálculo combinado usando una única matriz. Ventajosamente, esto puede reducir la complejidad computacional de la renderización de los objetos de audio en el flujo de bits de audio recibido.

De acuerdo con algunas realizaciones, el controlador está configurado para realizar el mapeo del al menos uno del uno o más objetos de audio dinámicos y la renderización del conjunto de objetos de audio estáticos en cálculos individuales usando respectivas matrices. En esta realización, el uno o más objetos de audio dinámicos se prerenderizan en un conjunto de objetos de audio estáticos, es decir, definiendo una representación de cama intermedia del uno o más objetos de audio dinámicos. Ventajosamente, esto permite la reutilización del código/función de software existente usado para implementar un decodificador que está adaptado para renderizar una representación de cama de la escena de audio en un conjunto de canales de audio de salida. Además, esta realización reduce la complejidad adicional de implementación de la invención descrita en el presente documento en un decodificador.

De acuerdo con algunas realizaciones, el flujo de bits de audio recibido comprende metadatos que identifican el al menos uno del uno o más objetos de audio dinámicos. Esto permite una mayor flexibilidad del método de decodificador, ya que no todos los uno o más objetos de audio dinámicos recibidos necesitan ser mapeados al conjunto de objetos de audio estáticos, y el controlador puede determinar fácilmente, usando dichos metadatos, cuál de los uno o más objetos dinámicos recibidos deberían mapearse y deberían reenviarse directamente a la renderización del conjunto de canales de audio de salida.

De acuerdo con algunas realizaciones, los metadatos indican que N del uno o más objetos de audio dinámicos van a ser mapeados al conjunto de objetos de audio estáticos, en donde, en respuesta a los metadatos, el controlador está configurado para mapear, al conjunto de objetos de audio estáticos, N del uno o más objetos de audio dinámicos seleccionados de una ubicación predefinida o ubicaciones predefinidas en el flujo de bits de audio recibido. Por ejemplo, los N objetos de audio dinámicos pueden ser los primeros N objetos de audio dinámicos recibidos o los últimos N objetos de audio dinámicos recibidos. En consecuencia, en algunas realizaciones, en respuesta a los metadatos, el controlador está configurado para mapear, al conjunto de objetos de audio estáticos, los primeros N del uno o más objetos de audio dinámicos en el flujo de bits de audio recibido. Esto permite que haya menos metadatos para identificar el al menos uno del uno o más objetos de audio dinámicos, por ejemplo un valor entero.

De acuerdo con algunas realizaciones, el uno o más objetos de audio dinámicos incluidos en el flujo de bits de audio recibido comprende más de N objetos de audio dinámicos. Como se mencionó anteriormente, por ejemplo para audio que comprende diálogos en diferentes idiomas, puede ser ventajoso proporcionar un objeto de audio dinámico para cada uno de los idiomas admitidos.

De acuerdo con algunas realizaciones, el uno o más objetos de audio dinámicos incluidos en el flujo de bits de audio recibido comprende los N objetos de audio dinámicos y K objetos de audio dinámicos adicionales, en donde el controlador está configurado para renderizar el conjunto de objetos de audio estáticos y los K objetos de audio adicionales a un conjunto de canales de audio de salida. En consecuencia, por ejemplo, el idioma seleccionado (es decir, el correspondiente objeto de audio dinámico) de acuerdo con el ejemplo anterior se puede renderizar junto con el conjunto de objetos de audio estáticos en el conjunto de señales de audio de salida.

De acuerdo con algunas realizaciones, el conjunto de objetos de audio estáticos consta de M objetos de audio estáticos y M > N > 0. Ventajosamente, se puede ahorrar tasa de bits ya que se puede reducir el número de objetos de audio dinámicos a mapear. Alternativamente, se puede aumentar el número (K) de objetos de audio dinámicos adicionales en el flujo de bits de audio.

De acuerdo con algunas realizaciones, el flujo de bits de audio recibido comprende además uno o más objetos de audio estáticos adicionales. Los objetos estáticos adicionales pueden comprender un LFE u otra cama u objetos de formato espacial intermedio (ISF).

De acuerdo con algunas realizaciones, el conjunto de canales de audio de salida es uno de: canales de salida de sonido inmersivo 5.1.2; o canales de salida de sonido inmersivo 5.1.4.

De acuerdo con algunas realizaciones, la configuración de altavoces predefinida es una configuración de altavoces 5.0.2. En esta realización, N puede ser igual a 5.

De acuerdo con un segundo aspecto de la invención, al menos algunos de los objetivos anteriores se logran mediante un método en un decodificador como se establece en la reivindicación 11, que comprende los pasos de:

- recibir un flujo de bits de audio y almacenar el flujo de bits de audio recibido en uno o más búferes,

- seleccionar un modo de decodificación entre una pluralidad de modos de decodificación diferentes, comprendiendo la pluralidad de modos de decodificación diferentes un primer modo de decodificación y un segundo modo de decodificación, en donde de los modos de decodificación primero y segundo solo el primer modo de decodificación permite la reconstrucción paramétrica de objetos de audio dinámicos individuales de grupos de objetos de audio dinámicos;

- operar un controlador acoplado al uno o más búferes en el modo de decodificación seleccionado,

- cuando el modo de decodificación seleccionado es el segundo modo de decodificación, el método comprende además los pasos de:

° acceder, mediante el controlador, al flujo de bits de audio recibido;

° determinar, mediante el controlador, si el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos; y

° en respuesta al menos a determinar que el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos, mapear, mediante el controlador, al menos uno del uno o más objetos de audio dinámicos a un conjunto de objetos de audio estáticos, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoces inmersiva predefinida que contiene altavoces superiores.

De acuerdo con un tercer aspecto de la invención, al menos algunos de los objetos anteriores se obtienen mediante un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones de código de ordenador adaptadas para llevar a cabo el método del segundo aspecto cuando se ejecuta mediante un dispositivo que tiene capacidad de procesamiento.

El segundo y tercer aspecto pueden tener generalmente las mismas características y ventajas que el primer aspecto.

De acuerdo con un cuarto aspecto de la invención, al menos algunos de los objetos anteriores se obtienen mediante un codificador de audio como se establece en la reivindicación 12, que comprende:

un componente de recepción configurado para recibir un conjunto de objetos de audio;

un componente de mezcla descendente configurado para mezclar de forma descendente el conjunto de objetos de audio en uno o más objetos de audio dinámicos mezclados de forma descendente, en donde al menos uno del uno o más objetos de audio dinámicos mezclados de forma descendente está destinado a, en al menos uno de una pluralidad de modos de decodificación en un lado de decodificador, ser mapeado a un conjunto de objetos de audio estáticos, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoces inmersiva predefinida que contiene altavoces superiores;

un componente que proporciona coeficientes de mezcla descendente configurado para determinar un primer conjunto de coeficientes de mezcla descendente que se utilizarán para renderizar el conjunto de objetos de audio estáticos correspondientes a la configuración de altavoces inmersiva predefinida a un conjunto de canales de audio de salida en el lado de decodificador;

un multiplexor de flujo de bits configurado para multiplexar el al menos un objeto de audio dinámico mezclado de forma descendente y el primer conjunto de coeficientes de mezclado descendente en un flujo de bits de audio. De acuerdo con algunas realizaciones, el componente de mezcla descendente está configurado además para proporcionar metadatos que identifican el al menos uno del uno o más objetos de audio dinámicos mezclados de forma descendente al multiplexor de flujo de bits, en donde el multiplexor de flujo de bits está configurado además para multiplexar los metadatos en el flujo de bits de audio.

De acuerdo con algunas realizaciones, el codificador está adaptado además para determinar información perteneciente a la atenuación aplicada en al menos uno del uno o más objetos de audio dinámicos cuando se mezcla de forma descendente el conjunto de objetos de audio en uno o más objetos de audio dinámicos mezclados de forma descendente, en donde el multiplexor de flujo de bits está configurado además para multiplexar la información perteneciente a la atenuación en el flujo de bits de audio.

De acuerdo con algunas realizaciones, el multiplexor de flujo de bits está configurado además para multiplexar información perteneciente a una configuración de canal de los objetos de audio recibidos por el componente de recepción.

De acuerdo con un quinto aspecto de la invención, al menos algunos de los objetos anteriores se obtienen mediante un método en un codificador como se establece en la reivindicación 14, que comprende las etapas de: - recibir un conjunto de objetos de audio;

- mezclar de forma descendente el conjunto de objetos de audio con uno o más objetos de audio dinámicos mezclados de forma descendente, en donde al menos uno del uno o más objetos de audio dinámicos mezclados de forma descendente está destinado a, en al menos uno de una pluralidad de modos de decodificación en un lado de decodificador, ser mapeado para un conjunto de objetos de audio estáticos, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoces inmersiva predefinida que contiene altavoces superiores;

- determinar un primer conjunto de coeficientes de mezcla descendente que se utilizarán para renderizar el conjunto de objetos de audio estáticos correspondiente a la configuración de altavoces inmersiva predefinida en un conjunto de canales de audio de salida en el lado de decodificador; y

- multiplexar el al menos un objeto de audio dinámico mezclado de forma descendente y el primer conjunto de coeficientes de mezclado descendente en un flujo de bits de audio.

De acuerdo con un sexto aspecto de la invención, al menos algunos de los objetos anteriores se obtienen mediante un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones de código de ordenador adaptadas para llevar a cabo el método del quinto aspecto cuando se ejecuta mediante un dispositivo que tiene capacidad de procesamiento.

Los aspectos quinto y sexto generalmente pueden tener las mismas características y ventajas que el cuarto aspecto. Además, los aspectos cuarto, quinto y sexto pueden tener generalmente las características correspondientes (pero desde el lado de codificador) que los aspectos primero, segundo y tercero. Por ejemplo, el codificador puede adaptarse para incluir objetos de audio estáticos (tales como un LFE) en el flujo de bits de audio.

Breve descripción de los dibujos

Lo anterior, así como objetos, características y ventajas adicionales de la presente invención, se entenderán mejor a través de la siguiente descripción detallada ilustrativa y no limitativa de realizaciones preferidas de la presente invención, con referencia a los dibujos adjuntos, donde se usarán los mismos números de referencia para elementos similares, en los que:

la figura 1 muestra un decodificador de audio de acuerdo con algunas realizaciones,

la figura 2 muestra una operación de decodificación de acuerdo con una primera realización,

la figura 3 muestra una operación de decodificación de acuerdo con una segunda realización, la figura 4 muestra una operación de decodificación de acuerdo con una tercera realización,

la figura 5 muestra una operación de codificación de acuerdo con algunas realizaciones,

la figura 6 muestra a modo de ejemplo una unidad de un decodificador de audio para producir una matriz de ganancia usada para renderizar un conjunto de canales de audio de salida.

Descripción detallada de realizaciones

La presente invención se describirá ahora más completamente a continuación con referencia a los dibujos adjuntos, en los que se muestran realizaciones de la invención. Los sistemas y dispositivos divulgados en el presente documento se describirán durante el funcionamiento.

A continuación, se usará el formato de audio Dolby AC-4 (como se publica en el documento ETSI TS 103 190-2 V1.2.1 (2018-02)) como contexto para ejemplificar la presente invención. Sin embargo, cabe señalar que el alcance de la invención no se limita al AC-4, y las diferentes realizaciones descritas en el presente documento pueden emplearse para cualquier formato de audio adecuado.

Debido a restricciones computacionales en algunos decodificadores de audio, no es posible la reconstrucción paramétrica de objetos de audio dinámicos individuales a partir de grupos de objetos de audio dinámicos. Además, las restricciones en la tasa de bits de destino para un flujo de bits de audio pueden establecer restricciones del contenido del flujo de bits de audio, por ejemplo limitando el número de objetos/canales de audio transmitidos a 10. Otra restricción puede deberse al estándar de codificación usado, por ejemplo restringiendo el uso de determinadas herramientas de codificación en algunos casos específicos. Por ejemplo, un decodificador AC-4 está configurado en diferentes niveles, donde un decodificador de nivel tres restringe el uso de herramientas de codificación como A-JCC (codificación conjunta de canales avanzada) y A-CPL (acoplamiento avanzado) que de otro modo podrían usarse ventajosamente para lograr una experiencia de audio inmersivo en determinadas circunstancias. Tales circunstancias pueden incluir un modo de codificación de canal esencial, pero donde el decodificador no tiene las herramientas de codificación para decodificar dicho contenido (por ejemplo, no se permite el uso de A-JCC). En este caso, la presente invención se puede usar para "imitar" la inmersiva basada en canales como se describe a continuación. Otras posibles restricciones incluyen la posibilidad de incluir tanto contenido basado en canales como objetos de audio dinámicos/estáticos (objetos de audio discretos) en el mismo flujo de bits, lo que puede no estar permitido en determinadas circunstancias. En este documento, el término "grupos" se refiere a objetos de audio que se mezclan de forma descendente en el codificador, como se describirá más adelante con referencia a la figura 5. En un ejemplo no limitativo, se pueden introducir 10 objetos dinámicos individuales en el codificador. En algunos casos, como se describió anteriormente, no es posible codificar los 10 objetos de audio dinámicos de forma independiente. Por ejemplo, la tasa de bits de destino es tal que solo permite codificar 5 objetos de audio dinámicos. En este caso es necesario reducir el número total de objetos de audio dinámicos. Una posible solución es combinar los 10 objetos de audio dinámicos en un número menor, 5 en este ejemplo, de objetos de audio dinámicos. Estos 5 objetos de audio dinámicos derivados de la combinación (mezcla descendente) de los 10 objetos de audio dinámicos son los objetos de audio dinámicos mezclados de forma descendente a los que se hace referencia como "grupos" en esta solicitud.

La presente invención tiene como objetivo eludir algunas de las restricciones anteriores y proporcionar una experiencia auditiva ventajosa al oyente de salida de audio con una tasa de bits y una complejidad de decodificador bajas.

La figura 1 muestra a modo de ejemplo un decodificador 100 de audio. El decodificador de audio comprende uno o más búferes 102 para almacenar un flujo 110 de bits de audio recibido. En algunas realizaciones, el flujo de bits de audio recibido contiene un subflujo A-JOC (codificación conjunta de objetos avanzada), que representa, por ejemplo, música y efectos (M&E), o una combinación de M&E y diálogo (D) (es decir, el MAIN completo (CM)).

La codificación conjunta de objetos avanzada (A-JOC) es una herramienta de codificación paramétrica para codificar un conjunto de objetos de manera eficiente. A-JOC se basa en un modelo paramétrico del contenido basado en objetos. Esta herramienta de codificación puede determinar dependencias entre objetos de audio y utilizar un modelo paramétrico basado en la percepción para lograr una alta eficiencia de codificación.

El decodificador 100 de audio comprende además un controlador 104 acoplado al uno o más búferes 102. El controlador 104 puede así extraer al menos partes 112 del flujo 110 de bits de audio del búfer o búferes 102, para decodificar el flujo de bits de audio codificado en un conjunto de canales 118 de salida de audio. El conjunto de canales 118 de salida de audio puede usarse entonces para reproducción mediante un conjunto de altavoces 120.

Como se describió anteriormente, el decodificador 100 de audio, o el controlador 104, pueden funcionar en diferentes modos de decodificación. A continuación, dos modos de decodificación ejemplificarán esto. Sin embargo, se pueden emplear modos de decodificación adicionales.

En un primer modo de decodificación (modo de decodificación completa, modo de decodificación compleja, etc.) es posible la reconstrucción paramétrica de objetos de audio dinámicos individuales a partir de grupos de objetos de audio dinámicos. En el contexto de AC-4, el primer modo de decodificación puede denominarse decodificación completa A-JOC. En el ejemplo no limitativo dado anteriormente con 10 objetos dinámicos individuales y 5 grupos (objetos de audio dinámicos mezclados de forma descendente), el modo de decodificación completa permite reconstruir los 10 objetos dinámicos individuales originales (o una aproximación de los mismos) a partir de los 5 grupos.

En un segundo modo de decodificación (decodificación central, decodificación de baja complejidad, etc.), dicha reconstrucción no se lleva a cabo debido a restricciones en el decodificador 100. En el contexto de AC-4, el segundo modo de decodificación puede denominarse decodificación central A-JOC. En el ejemplo no limitativo dado anteriormente con 10 objetos dinámicos individuales y 5 grupos (objetos de audio dinámicos mezclados de forma descendente), el modo de decodificación central no es capaz de reconstruir los 10 objetos dinámicos individuales originales (o una aproximación de los mismos) a partir de los 5 grupos.

De este modo, el controlador está configurado para seleccionar un modo de decodificación, ya sea el primer o el segundo modo de decodificación. Tal decisión se puede tomar basándose en parámetros internos 116 del decodificador 100, por ejemplo almacenados en una memoria 106 del decodificador. Alternativamente, o adicionalmente, la decisión también se puede tomar basándose en la entrada 114 de, por ejemplo, un usuario. De forma alternativa, o adicional, la decisión puede basarse además en el contenido del flujo 110 de bits de audio. Por ejemplo, si el flujo de bits de audio recibido comprende más de un número umbral de objetos de audio dinámicos mezclados de forma descendente (por ejemplo, más de 6, o más de 10, o cualquier otro número adecuado dependiendo del contexto), el controlador puede seleccionar el segundo modo de decodificación. El flujo 110 de bits de audio puede comprender en algunas realizaciones un valor de indicador que indica al controlador qué modo de decodificación seleccionar.

Por ejemplo, en el contexto de AC-4, de acuerdo con una realización, la selección del primer modo de decodificación puede ser uno o muchos de los siguientes:

• El nivel de presentación es 2 o inferior (parámetro de flujo de bits).

• La etapa de salida está configurada para salida 5.1.2 (parámetro de usuario).

• El subflujo A-JOC contiene como máximo 5 objetos de mezcla descendente (grupos) (parámetro de flujo de bits).

• La solicitud no fuerza la decodificación central a través de API (parámetro de usuario).

A continuación, se ejemplificará el segundo modo de decodificación (decodificación central) junto con las figuras 2-4.

La figura 2 muestra una primera realización 109a del segundo modo de decodificación 109 que se explicará junto con la figura 1.

El controlador 104 está configurado para determinar si el flujo 110 de bits de audio recibido incluye uno o más objetos de audio dinámicos (que en esta realización están todos mapeados a un conjunto de objetos de audio estáticos) y para basar la decisión en cómo decodificar el flujo de bits de audio recibido, al respecto. De acuerdo con algunas realizaciones, el controlador basa dicha decisión también en datos adicionales tales como parámetros de flujo de bits. Por ejemplo, en AC-4, el controlador puede determinar decodificar el flujo de bits de audio recibido como se describe en la figura 2 de acuerdo con el valor de uno o ambos de los siguientes parámetros del flujo de bits, es decir, si uno de los siguientes es verdadero:

1. "num_bed_obj_ajoc" es mayor que cero (por ejemplo, de 1 a 7) o

2. "num_bed_obj_ajoc" no está presente en el flujo de bits y "n_fullband_dmx_signals" es menor que 6.

En caso de que el controlador 104 determine que uno o más objetos 210 de audio dinámicos deben tenerse en cuenta, y opcionalmente también en vista de otros datos como se describe anteriormente, el controlador está configurado para mapear al menos uno 210 del uno o más objetos de audio dinámicos a un conjunto de objetos de audio estáticos. En la figura 2, todos los objetos de audio dinámicos recibidos son mapeados al conjunto de objetos 222 de audio estáticos, correspondiendo el conjunto de objetos 222 de audio estáticos a una configuración de altavoz predefinida. El mapeo se realiza de acuerdo a lo siguiente. El flujo 110 de bits de audio comprende N objetos 210 de audio dinámicos. El flujo de bits de audio comprende además N metadatos de objeto correspondientes (metadatos de audio de objeto, OAMD) 212. Cada OAM<d>212 define las propiedades de cada uno de los N objetos 210 de audio dinámicos, por ejemplo ganancia y posición. Los N OAMD 212 se usan para calcular 206 una matriz 218 de ganancia que se usa para prerenderizar 202 los N objetos 210 de audio dinámicos en un conjunto de objetos 222 de audio estáticos. El tamaño del conjunto de objetos de audio estáticos es M. Los N objetos 210 de audio dinámicos se transforman (se renderizan) así en una cama 222, por ejemplo una cama 5.0.2 (M = 7). Otras configuraciones son igualmente posibles, como 7.0.2 (M = 9). La configuración de la cama (por ejemplo, 5.0.2) está predefinido en el decodificador 100 que usa este conocimiento para calcular 206 la matriz 218 de ganancia. En otras palabras, el conjunto de objetos 222 de audio estáticos corresponde a una configuración de altavoz predefinida. La matriz 218 de ganancia en este caso tiene por tanto un tamaño M X N.

De acuerdo con algunas realizaciones, M > N > 0.

Una ventaja de renderizar realmente los N objetos 210 de audio dinámicos en una cama 222 es que las operaciones restantes del decodificador 100 (es decir, producir un conjunto de señales 118 de audio de salida) se pueden lograr reutilizando códigos/funciones de software existentes usados para implementar un decodificador que está adaptado para renderizar una cama 222 (y opcionalmente otros objetos de audio dinámicos como se describe en la figura 3) en un conjunto de señales de audio de salida 118.

El decodificador produce un conjunto de OAMD 214 adicionales. Estos OAMD 214 definen las posiciones y las ganancias para la cama 222 renderizada intermediamente. Por lo tanto, el OAMD 214 no se transmite en el flujo de bits sino que se "genera" localmente en el decodificador para describir la configuración de canal (típicamente 5.0.2) generada en la salida de la prerenderización 202. Por ejemplo, si la cama intermedia 222 está configurada como 5.0.2, el OAMD 214 define las posiciones (L, R, C, Ls, Rs, Ltm, Rtm) y las ganancias para la cama 5.0.2 222. Si se emplea otra configuración de la cama intermedia, por ejemplo 3.0.0, las posiciones serían L, R, C. El número de OAMD 214 en esta realización corresponde por lo tanto al número de objetos 222 de audio estáticos, por ejemplo 7 en el caso de la cama 5.0.2222. En algunas realizaciones, la ganancia en cada uno de los OAMD 214 es la unidad (1). El OAMD 214 comprende así propiedades para el conjunto de objetos 222 de audio estáticos, por ejemplo ganancia y posición para cada objeto 222 de audio estático. En otras palabras, el OAMD 214 indica la configuración predefinida de la cama 222.

El flujo 110 de bits de audio comprende además coeficientes 216 de mezcla descendente. Dependiendo de la configuración del conjunto de canales 118 de salida, el controlador selecciona los coeficientes 216 de mezcla descendente correspondientes para utilizarlos al calcular una segunda matriz 220 de ganancia. A modo de ejemplo, el conjunto de canales de audio de salida es uno de: canales de salida estéreo; canales de salida de sonido envolvente 5.1 canales de salida de sonido inmersivo 5.1.2 (configuración de salida de audio inmersivo); canales de salida de sonido inmersivo 5.1.4 (configuración de salida de audio inmersivo); canales de salida de sonido envolvente 7.1; o canales de salida de sonido envolvente 9.1. La matriz de ganancia resultante tiene, por tanto, un tamaño de Ch (número de canales de salida) X M. Los coeficientes de mezcla descendente seleccionados se pueden usar tal cual al calcular la segunda matriz 220 de ganancia. Sin embargo, como se describirá más adelante junto con la figura 6, es posible que sea necesario modificar los coeficientes de mezcla descendente seleccionados para compensar la atenuación realizada en un lado de codificador al mezclar de forma descendente la señal de audio original para lograr los N objetos 210 de audio dinámicos. Además, en algunas realizaciones, el proceso de selección de qué coeficientes de mezcla descendente entre los coeficientes 216 de mezcla descendente recibidos que deberían utilizarse para calcular la segunda matriz 220 de ganancia también puede basarse en la operación de mezcla descendente realizada en el lado de codificador, además de la configuración del conjunto de canales 118 de salida. Esto también se describirá más adelante junto con la figura 6.

La segunda matriz de ganancia se usa en una etapa 204 de renderización del decodificador 100, para renderizar el conjunto de objetos 222 de audio estáticos en el conjunto de canales 118 de audio de salida.

Cabe señalar que en la figura 2 no se muestra el LFE. En este contexto, el LFE debería transmitirse directamente a la etapa 204 de renderización final para ser incluido en (o mezclado en) el conjunto de canales 118 de audio de salida.

En la figura 3, se muestra una segunda realización 109b del segundo modo 109 de decodificación. De manera similar a la realización mostrada en la figura 2, en esta realización, se muestra una transmisión de baja tasa (flujo de bits de audio con baja tasa de bits) decodificada en un modo de decodificación central. La diferencia en la figura 3 es que el flujo 110 de bits de audio recibido transporta más objetos 302 de audio además de los N objetos 210 de audio dinámicos que son mapeados a los objetos 222 de audio estáticos. Dichos objetos de audio adicionales pueden comprender objetos de audio dinámicos discretos y conjuntos (A-JOC) y/u objetos de audio estáticos (objetos de cama) o ISF. Por ejemplo, los objetos 302 de audio adicionales pueden comprender:

• LFE (cero a muchos)

• otros objetos de cama

• otros objetos dinámicos

• FIS

En consecuencia, en algunas realizaciones, los objetos de audio dinámicos incluidos en el flujo de bits de audio recibido cuentan más de N objetos 210 de audio dinámico. Por ejemplo, los objetos de audio dinámicos incluidos en el flujo de bits de audio recibido comprenden N objetos de audio dinámicos y K objetos de audio dinámicos adicionales. De acuerdo con algunas realizaciones, el flujo de bits de audio recibido comprende M&E D. En ese caso, si se debe agregar un diálogo separado al renderizar el conjunto de canales 118 de salida, esto puede causar un problema en el caso de baja tasa donde solo 10 objetos de audio puede incluirse en el flujo 110 de bits de audio recibido. En el caso de que el conjunto de canales 118 de salida esté en una configuración 5.1.2 y se usaran objetos de cama (es decir, la solución heredada), se necesitarían 8 objetos de cama para transmitirse. Esto dejaría solo dos posibles objetos de audio que representen el diálogo, que pueden ser muy pocos, por ejemplo si se deben admitir cinco objetos de diálogo diferentes. Usando la presente invención en el presente documento, en este caso se puede lograr una salida de audio inmersivo, por ejemplo transmitir cuatro (N) objetos de audio dinámicos para M&E, que son mapeados 202 al conjunto de objetos 222 de audio estáticos, un objeto estático adicional 302 para el LFE y cinco (K) objetos dinámicos adicionales para el diálogo.

En la realización de la figura 3, los N objetos 210 de audio dinámico se prerenderizan en M objetos 222 de audio estáticos como se describió anteriormente junto con la figura 2.

Para la renderización 204, se emplea un conjunto de OAMD 214. El flujo de bits de audio recibido comprende, en este ejemplo, 6 OAMD 214, uno por cada objeto 302 de audio adicional. Por lo tanto, estos 6 OAMD se incluyen en el flujo de bits de audio en un lado de codificador, para usarse en el decodificador 100 para el proceso de decodificación descrito en el presente documento. Además, como se describió anteriormente junto con la figura 2, el decodificador produce un conjunto de OAMD 214 adicionales que define las posiciones y las ganancias para la cama 222 renderizada de manera intermedia. En total, existen 13 OAMD 214 en este ejemplo. Un OAMD 214 comprende propiedades para el conjunto de objetos 222 de audio estáticos, por ejemplo ganancia (es decir, unidad) y posición para cada objeto 222 de audio estático, y propiedades para los objetos 302 de audio adicionales, por ejemplo ganancia y posición para cada objeto 302 de audio adicional.

El flujo 110 de bits de audio comprende además coeficientes 216 de mezcla descendente que se utilizan para renderizar el conjunto de canales 118 de salida a lo que se describió anteriormente junto con la figura 2, y se describirá a continuación junto con la figura 6.

La segunda matriz 220 de ganancia se usa en una etapa 204 de renderización del decodificador 100, para renderizar el conjunto de objetos 222 de audio estáticos y el conjunto de objetos 302 de audio adicionales (que pueden incluir objetos de audio dinámicos y/u objetos de audio estáticos y/o u objetos ISF como se define anteriormente) al conjunto de canales 118 de audio de salida.

En el caso descrito en la figura 3, el controlador necesita ser consciente de qué objetos de audio dinámicos recibidos deben ser mapeados al conjunto de objetos 222 de audio estáticos, y cuáles deben pasar directamente a la etapa 204 de renderización final. Esto se puede lograr de varias maneras diferentes. Por ejemplo, cada objeto de audio recibido puede comprender un valor de indicador que informa al controlador de si el objeto de audio se va a ser mapeado (prerenderizado). En otro ejemplo, el flujo de bits de audio recibido comprende metadatos que identifican los objetos de audio dinámicos que deben mapearse. Cabe señalar que en el contexto de AC-4, solo si algún objeto dinámico adicional forma parte de un mismo subflujo A-JOC que los N objetos de audio dinámicos, es necesario averiguar el subconjunto que va al prerenderizador 202, por ejemplo usando un valor de indicador o metadatos como se describe anteriormente.

En una realización, los metadatos indican que N del uno o más objetos de audio dinámicos deben ser mapeados al conjunto de objetos de audio estáticos, por lo que el controlador sabe que estos N objetos de audio dinámicos deben seleccionarse de una ubicación predefinida o ubicaciones predefinidas en el flujo de bits de audio recibido. Los objetos 210 de audio dinámicos a mapear pueden ser, por ejemplo, el primero o el último N objetos de audio en el flujo 110 de bits de audio. El número de objetos de audio que serán mapeados puede indicarse mediante el valor del indicador Num_bed_obj_ajoc (también puede denominarse num_obj_with_bed_render_info) y/o n_fullband_dmx_signals en el estándar AC-4 (como se publica en el documento ETSI TS 103 190-2 V1.2.1 (2018- 02)). En otros estándares, se pueden usar otros nombres de los valores de los indicadores. También se debe tener en cuenta que los valores de los indicadores pueden cambiar de nombre para las versiones más recientes del estándar AC-4 mencionado anteriormente. De acuerdo con algunas realizaciones, si num_bed_obj_ajoc es mayor que cero, esto significa que los objetos dinámicos num_bed_obj_ajoc son mapeados al conjunto de objetos de audio estáticos. De acuerdo con algunas realizaciones, si num_bed_obj_ajoc no está presente y n_fullband_dmx_signals es menor que seis, esto significa que todos los objetos dinámicos son mapeados al conjunto de objetos de audio estáticos.

En algunas realizaciones, los objetos de audio dinámicos se reciben antes que cualquier objeto de audio estático en el flujo 110 de bits recibido. En otras realizaciones, el LFE se recibe primero en el flujo 110 de bits, antes de los objetos de audio dinámicos y cualquier objeto de audio estático adicional.

La figura 4 muestra a modo de ejemplo una tercera realización 109c del segundo modo 109 de decodificación. Las etapas 202, 204 de renderización doble de las realizaciones de las figuras 2-3 pueden en algunos casos considerarse ineficaces debido a la complejidad computacional. En consecuencia, en algunas realizaciones las dos matrices 218, 220 de ganancia se combinan 402 en una única matriz 404 antes de renderizar 204 los objetos 210, 302 de audio del flujo de bits de audio recibido 110 en el conjunto de canales 118 de salida. En esta realización, se emplea una única etapa 204 de renderizado. La configuración de la figura 4 es aplicable tanto al caso descrito en la figura 2, donde solo los objetos dinámicos 210 que están mapeados al conjunto de objetos 222 de audio estáticos se incluyen en el flujo 110 de bits de audio recibido, como al caso descrito en la figura 3. donde el flujo 110 de bits de audio recibido comprende además otros objetos 302 de audio. En el caso de la figura 3, cabe señalar que la matriz 218 necesita ser aumentada con columnas y/o filas adicionales que gestionen el "paso" de los objetos adicionales 302 en caso de que se deba emplear una multiplicación de matrices de acuerdo con la figura 4.

La figura 5 muestra a modo de ejemplo un codificador 500 para codificar un flujo 110 de bits de audio a decodificar de acuerdo con cualquier realización descrita anteriormente. En términos generales, el codificador 500 comprende componentes correspondientes al contenido del flujo 110 de bits de audio, para lograr dicho flujo 110 de bits, como lo entenderá un lector de esta divulgación. Típicamente, el codificador 500 comprende un componente receptor (no mostrado) configurado para recibir un conjunto de objetos de audio (dinámicos y/o estáticos). El codificador 500 comprende además un componente 502 de mezcla descendente configurado para mezclar de forma descendente el conjunto de objetos 508 de audio en uno o más objetos 510 de audio dinámicos mezclados de forma descendente, en donde al menos un objeto 510 de audio mezclado de forma descendente del uno o más objetos de audio dinámicos mezclados de forma descendente está destinado a, en al menos uno de una pluralidad de modos de decodificación en un lado de decodificador, ser mapeado a un conjunto de objetos de audio estáticos, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoz predefinida. El componente 502 de mezcla descendente puede atenuar algunos de los objetos de audio como se describirá a continuación junto con la figura 6. En este caso, la atenuación realizada debe compensarse en el lado de decodificador. En consecuencia, la información de la atenuación realizada y/o la configuración de los objetos 508 de audio se incluye en algunas realizaciones en el flujo 110 de bits. En otras realizaciones, el decodificador está preconfigurado con toda/parte de esta información y, en consecuencia, dicha información puede omitirse del flujo 110 de bits. En otras palabras, en algunas realizaciones, el multiplexor 506 de flujo de bits está configurado además para multiplexar información perteneciente a una configuración de canal de los objetos 508 de audio recibidos por el componente de recepción en el flujo de bits de audio. La configuración del canal original (el formato de la señal de audio original) puede ser cualquier configuración adecuada, como 7.1.4, 5.1.4, etc. En algunas realizaciones, el codificador (por ejemplo, el componente de mezcla descendente 502) está adaptado además para determinar información perteneciente a la atenuación aplicada en al menos uno del uno o más objetos 510 de audio dinámicos al mezclar de forma descendente el conjunto de objetos 508 de audio en uno o más objetos 510 de audio dinámicos. objetos 510 de audio dinámicos. Esta información (no mostrada en la figura 5) se transmite luego al multiplexor 506 de flujo de bits que está configurado para multiplexar la información perteneciente a la atenuación en el flujo 110 de bits de audio.

El codificador 500 comprende además un componente 504 que proporciona coeficientes de mezcla descendente configurado para determinar un primer conjunto de coeficientes 516 de mezcla descendente que se utilizará para renderizar el conjunto de objetos de audio estáticos correspondientes a la configuración de altavoces predefinida a un conjunto de canales de audio de salida en el lado de decodificador. Como se describe más adelante junto con la figura 6, dependiendo, por ejemplo, de la operación de mezcla descendente realizada por el componente de mezcla descendente (atenuación y/o qué tipo de mezcla descendente se ha realizado, desde qué configuración a qué configuración), el decodificador puede necesitar realizar un proceso de selección adicional y/o ajuste entre el primer conjunto de coeficientes 516 de mezcla descendente antes de usar realmente los coeficientes de mezcla descendente resultantes para la renderización.

El codificador comprende además un multiplexor 506 de flujo de bits configurado para multiplexar el al menos un objeto 510 de audio dinámico mezclado de forma descendente y el primer conjunto de coeficientes 516 de mezcla descendente en un flujo 110 de bits de audio.

En algunas realizaciones, el componente 502 de mezcla descendente también proporciona metadatos 514 que identifican al menos un objeto 510 de audio mezclado descendente del uno o más objetos de audio dinámicos mezclados de forma descendente al multiplexor 506 de flujo de bits. En este caso, el multiplexor 506 de flujo de bits está configurado además para multiplexar los metadatos 514 en el flujo 110 de bits de audio.

En algunas realizaciones, el componente 502 de mezcla descendente recibe una tasa 509 de bits de destino, para determinar detalles específicos de la operación de mezcla descendente, por ejemplo cuántos objetos de audio mezclados de forma descendente deben computarse a partir del conjunto de objetos 508 de audio dinámicos. En otras palabras, la tasa de bits de destino puede determinar un parámetro de agrupación para la operación de mezcla descendente.

Como se entiende, en caso de que el uno o más objetos 510 de audio dinámicos mezclados de forma descendente comprendan más que el objeto de audio dinámico que está destinado a ser mapeado al conjunto de objetos de audio estáticos en un lado de decodificador, los coeficientes de mezclado descendente también deben computarse para ellos. Además, los objetos de audio estáticos (por ejemplo, LFE, etc.) también pueden transmitirse mediante el multiplexor 506 de flujo de bits para su inclusión en el flujo 110 de bits de audio, junto con los correspondientes coeficientes de mezcla descendente. Además, cada objeto de audio incluido en el flujo 110 de bits de audio tendrá un OAMD asociado, por ejemplo el OAMD 512 asociado con todos los objetos 510 de audio dinámicos que están destinados a ser mapeados al conjunto de objetos de audio estáticos en un lado de decodificador, que serán multiplexados en el flujo 110 de bits de audio.

La figura 6 muestra, a modo de ejemplo, detalles adicionales de cómo se puede determinar la segunda matriz 220 de ganancia de la figura 2-4 usando una unidad 208 de cálculo de matriz de ganancia. Como se describió anteriormente, la unidad 208 de cálculo de matriz de ganancia recibe coeficientes 216 de mezcla descendente del flujo de bits. La unidad 208 de cálculo de matriz de ganancia también, en esta realización, recibe datos 612 relacionados con qué tipo de mezcla descendente de la señal de audio se realizó en un lado de codificador. Los datos 612 comprenden así información perteneciente a una operación de mezcla descendente realizada en un lado de codificador, resultando la operación de mezcla descendente en los N objetos 210 de audio dinámicos. Los datos 612 pueden definir/indicar una configuración de canal original de una señal de audio que se está mezclando de forma descendente en los N objetos 210 de audio dinámicos. En base a los datos recibidos 612 y los coeficientes 216 de mezcla descendente recibidos, una unidad 606 de selección y modificación de coeficientes de mezcla descendente (DC) determina los coeficientes 608 de mezcla descendente, que posteriormente se usarán en una unidad 610 de cálculo de matriz de ganancia para formar la segunda matriz 220 de ganancia, usando OAMD 214 como se describió anteriormente, así como la configuración de los canales 118 de salida, por ejemplo 5.1. La unidad 610 de cálculo de matriz de ganancia selecciona así aquellos coeficientes de los coeficientes 608 de mezcla descendente que son adecuados para la configuración solicitada de los canales 118 de salida y determina la segunda matriz 220 de ganancia que se usará para esta configuración de renderización de audio particular. En algunas realizaciones, la unidad 606 de selección y modificación de DC puede seleccionar directamente un conjunto de coeficientes 608 de mezcla descendente de los coeficientes 216 de mezcla descendente recibidos. En otras realizaciones, la unidad 606 de selección y modificación de DC puede necesitar primero seleccionar coeficientes de mezcla descendente y luego modificarlos para derivar los coeficientes 608 de mezcla descendente que se usarán en la unidad 610 de cálculo de matriz de ganancia para calcular la segunda matriz 220 de ganancia.

La funcionalidad de la unidad 606 de selección y modificación de DC se ejemplificará ahora para configuraciones particulares de audio codificado y decodificado.

En alguna realización, el codificador aplica atenuación en/a algunos de los objetos 210 de audio transmitidos. Dicha atenuación es el resultado de un proceso de mezcla descendente de una señal de audio original en una señal de audio de mezcla descendente en el codificador. Por ejemplo, si el formato de la señal de audio original es 7.1.4 (L, R, C, LFE, Ls, Rs, Lb, Rb, Tfl, Tfr, Tbl, Tbr), que se mezcla de forma descendente a 5.1.2 (Ld, Rd, Cd, LFE, Lsd, Rsd, Tld, Trd) en el codificador, la señal Lsd se determina en el codificador como:

- N dB (Ls Lb),

y la señal Tld se determina en el codificador como:

- M dB (Tfl Tbl)

Típicamente, N = M = 3, pero se pueden aplicar otros niveles de atenuación.

En esta configuración, ya se aplica una atenuación de 3 dB en el Lsd y el Tld. En estos ejemplos, solo se describen los canales del lado izquierdo, mientras que los canales del lado derecho se manejan correspondientemente.

Cabe señalar que la mezcla descendente (por ejemplo, canal de audio 5.1.2) luego se reduce aún más en el codificador a, por ejemplo, cinco objetos de audio dinámicos (210 en las figuras 2 y 3) para reducir aún más la tasa de bits.

Los coeficientes 216 de enlace descendente relevantes transmitidos en el flujo de bits en este caso son

• gain_tfb_to_tm: ganancias delantera superior y/o trasera superior a media superior

• gain_t2a, gain_t2b: ganancias para los canales delanteros superiores a los respectivos canales delantero y envolvente

• Típico/predeterminado: gain_t2a se mapea a -Inf dB, gain_t2b se mapea a -3 dB, lo que significa realizar una mezcla descendente a los canales envolventes con -3 dB

• gain_t2d, gain_t2e: ganancias para los canales superiores traseros hacia los canales delanteros o envolventes • Típico/predeterminado: gain_t2d se mapea a -Inf dB, gain_t2e se mapea a -3 dB, lo que significa una mezcla descendente a los canales envolventes con -3 dB

• gain_b4_to_b2: canales traseros y envolventes a canales envolventes

• Típico/predeterminado: se mapea a -3dB

Sin embargo, si los coeficientes de mezcla descendente anteriores se aplican directamente para el caso en el que el formato de audio de los canales 118 de salida es 5,1, esto dará como resultado que los canales superiores Tfl y Tbl se atenúen con 6 dB en la salida envolvente, es decir, M = 3 dB ya aplicados en el codificador y los 3dB del coeficiente de mezcla descendente gain_t2b recibidos en el flujo de bits. Lo mismo ocurre con los canales inferiores Ls y Lb que también serán atenuados con 6 dB en la salida envolvente, es decir, los N = 3 dB ya aplicados en el codificador y los 3 dB del coeficiente de mezcla descendente gain_b4_to_b2 recibidos en el flujo de bits. Para compensar la atenuación ya realizada en el lado de codificador, la unidad 606 de selección y modificación de DC está configurada para, en este caso, determinar los coeficientes 608 de mezcla descendente de modo que los canales de salida se renderizarán como:

Lout = Ld (+M dB gain_t2a) Tld = L gain_t2a (Tfl Tbl), y

Lsout = (+N dB gain_b4_to_b2)Lsd (+M dB gain_t2b) Tld = gain_b4_to_b2 (Ls Lb) gain_t2b (Tfl Tbl). En esta realización, el decodificador selecciona gain_t2a, gain_t2b, que son ganancias para el canal delantero superior respecto de los respectivos canales delantero y envolvente. Por lo tanto, es posible que se prefieran a gain_t2d y gain_t2e, que son las ganancias para los canales superiores traseros. También se debe tener en cuenta que las ecuaciones anteriores sirven para transmitir la idea de compensación de atenuación realizada por el codificador en el decodificador y que, en realidad, las ecuaciones para lograr esto se diseñarían para garantizar que, por ejemplo, la conversión de ganancias/atenuaciones en el dominio dB logarítmico a ganancias lineales se maneja correctamente.

Para lograr lo anterior, el decodificador debe ser consciente de la atenuación realizada por el codificador. En algunas realizaciones, el valor de N (dB) y M (dB) se indican en el flujo de bits como metadatos adicionales 602. Los metadatos adicionales 602 definen así información perteneciente a la atenuación aplicada en al menos uno del uno o más objetos de audio dinámicos en un lado de codificador. En otras realizaciones, el decodificador está preconfigurado (en una memoria 604) con la atenuación 603 aplicada en el codificador. Por ejemplo, el decodificador puede ser consciente de que siempre se realiza una atenuación de 3 dB en el caso de la mezcla descendente de 7.1.4 (o 5.1.4) a 5.1.2 en el codificador. En las realizaciones, el decodificador recibe información 602, 603 perteneciente a la atenuación aplicada en al menos uno del uno o más objetos de audio dinámicos en un lado de codificador. Esta información 602, 603, junto con los datos recibidos 612 que indican qué tipo de mezcla descendente se ha realizado en el codificador, se puede usar para seleccionar y/o ajustar los coeficientes 216 de mezcla descendente en la unidad 606 de selección y modificación de DC. Los coeficientes ajustados y7o seleccionados 608 serán usados como se mencionó anteriormente por la unidad 610 de cálculo de matriz de ganancia, junto con el OAMD 214 y la configuración de la señal 118 de audio de salida para formar la segunda matriz 220 de ganancia.

En otra configuración de ejemplo, la señal de audio original en el codificador es 5.1.2 con canales delanteros superiores (L, R, C, LFE, Ls, Rs, Tfl, Tfr) que se mezcla de forma descendente a un formato 5.1.2 con canales intermedios superiores. en su lugar (Ld, Rd, Cd, LFE, Lsd, Rsd, Tld, Trd). En esta realización, no se realiza ninguna atenuación en el codificador. Sin embargo, en este caso, la unidad 606 de selección y modificación de DC necesita saber cuál era la configuración de señal original en el lado de codificador para seleccionar los coeficientes de mezcla descendente apropiados para la señal de salida 5.1 118. Los coeficientes de mezcla descendente relevantes 216 transmitidos en el flujo de bits en este caso son: gain_t2a, gain_t2b que son ganancias para los canales delanteros superiores con respecto a los respectivos canales delantero y envolvente. La unidad 606 de selección y modificación de DC está configurada para, en este caso, determinar coeficientes 608 de mezcla descendente de manera que los canales 118 de salida se renderizarán como:

Lout = Ld gain_t2a (Tld) = L gain_t2a (Tfl)

y

Lsout = Lsd gain_t2b (Tld) = Ls gain_t2b (Tfl).

Otras realizaciones de la presente divulgación resultarán evidentes para un experto en la técnica después de estudiar la descripción anterior. Aunque la presente descripción y los dibujos divulgan realizaciones y ejemplos, la divulgación no se limita a estos ejemplos específicos. Se pueden realizar numerosas modificaciones y variaciones sin apartarse del alcance de la presente divulgación, que está definido por las reivindicaciones adjuntas. Los signos de referencia que aparecen en las reivindicaciones no deben entenderse como limitativos de su alcance.

Además, el experto en la práctica de la divulgación puede comprender y efectuar variaciones de las realizaciones divulgadas, a partir de un estudio de los dibujos, la divulgación y las reivindicaciones adjuntas. En las reivindicaciones, la palabra "que comprende" no excluye otros elementos o pasos, y el artículo indefinido "un" o "una" no excluye una pluralidad. El mero hecho de que determinadas medidas se mencionen en reivindicaciones dependientes mutuamente diferentes no indica que una combinación de estas medidas no pueda usarse con beneficio.

Los sistemas y métodos divulgados anteriormente pueden implementarse como software, firmware, hardware o una combinación de los mismos. En una implementación de hardware, la división de tareas entre unidades funcionales a la que se hace referencia en la descripción anterior no corresponde necesariamente a la división en unidades físicas; por el contrario, un componente físico puede tener múltiples funcionalidades y una tarea puede ser realizada por varios componentes físicos en cooperación. Ciertos componentes o todos los componentes pueden implementarse como software ejecutado por un procesador o microprocesador de señales digitales, o implementarse como hardware o como un circuito integrado de aplicación específica. Dicho software puede distribuirse en medios legibles por ordenador, que pueden comprender medios de almacenamiento informático (o medios no transitorios) y medios de comunicación (o medios transitorios). Como es bien conocido por un experto en la técnica, el término medios de almacenamiento informático incluye medios tanto volátiles como no volátiles, extraíbles y no extraíbles implementados en cualquier método o tecnología para el almacenamiento de información tal como instrucciones legibles por ordenador, estructuras de datos, módulos de programa. u otros datos. Los medios de almacenamiento informático incluyen, entre otros, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento en disco óptico, casetes magnéticos, cintas magnéticas, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda usarse para almacenar la información deseada y al que se pueda acceder mediante un ordenador. Además, el experto en la materia sabe bien que los medios de comunicación típicamente incorporan instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información.

Claims

REIVINDICACIONES

1. - Un decodificador de audio que comprende:

uno o más búferes (102) para almacenar un flujo de bits de audio recibido; y

un controlador (104) acoplado al uno o más búferes y configurado para operar en un modo de decodificación seleccionado entre una pluralidad de modos de decodificación diferentes para decodificar el flujo de bits de audio recibido en uno o más objetos de audio dinámicos o estáticos, comprendiendo un objeto de audio dinámico una señal de audio asociada con una posición espacial variable en el tiempo, y comprendiendo un objeto de audio estático una señal de audio asociada con una posición espacial estática, comprendiendo la pluralidad de modos de decodificación diferentes un primer modo de decodificación y un segundo modo de decodificación, en donde de los modos primero y segundo de decodificación solo el primer modo de decodificación permite la decodificación completa de uno o más objetos de audio dinámicos codificados en el flujo de bits, en objetos de audio individuales reconstruidos; y

cuando el modo de decodificación seleccionado es el segundo modo de decodificación:

para acceder al flujo de bits de audio recibido;

para determinar si el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos; y

en respuesta al menos a determinar que el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos, para mapear al menos uno del uno o más objetos de audio dinámicos a un conjunto de objetos de audio estáticos, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoces inmersiva predefinida que contiene altavoces superiores.

2. - El decodificador de audio de la reivindicación 1, en el que, cuando el modo de decodificación seleccionado es el segundo modo de decodificación, el controlador está configurado además para renderizar el conjunto de objetos de audio estáticos en un conjunto de canales de audio de salida.

3. - El decodificador de audio de la reivindicación 2, en el que el flujo de bits de audio comprende un primer conjunto de coeficientes de mezcla descendente, en el que el controlador está configurado para utilizar el primer conjunto de coeficientes de mezcla descendente para renderizar el conjunto de objetos de audio estáticos en el conjunto de canales de audio de salida.

4. - El decodificador de audio de la reivindicación 3, en el que el controlador está configurado además para recibir información perteneciente a la atenuación aplicada en al menos uno del uno o más objetos de audio dinámicos en un lado de codificador, en el que el controlador está configurado para modificar el primer conjunto de coeficientes de mezcla descendente en consecuencia, cuando se utiliza el primer conjunto de coeficientes de mezcla descendente para renderizar el conjunto de objetos de audio estáticos en un conjunto de canales de audio de salida, y/o en el que el controlador está configurado además para recibir información perteneciente a una operación de mezcla descendente realizada en un lado de codificador, en el que la información define una configuración de canal original de una señal de audio, en donde la operación de mezcla descendente da como resultado la mezcla descendente de la señal de audio en el uno o más objetos de audio dinámicos, en donde el controlador está configurado para seleccionar un subconjunto del primer conjunto de coeficientes de mezcla descendente basándose en la información perteneciente a la información de mezcla descendente, en donde la utilización del primer conjunto de coeficientes de mezcla descendente para renderizar el conjunto de objetos de audio estáticos en un conjunto de canales de audio de salida comprende utilizar el subconjunto del primer conjunto de coeficientes de mezcla descendente para renderizar el conjunto de objetos de audio estáticos a un conjunto de canales de audio de salida.

5. - El decodificador de audio de cualquiera de las reivindicaciones 2 a 4, en el que el controlador está configurado para realizar el mapeo del al menos uno del uno o más objetos de audio dinámicos y la renderización del conjunto de objetos de audio estáticos en un cálculo combinado usando una única matriz, o en donde el controlador está configurado para realizar el mapeo del al menos uno del uno o más objetos de audio dinámicos y la renderización del conjunto de objetos de audio estáticos en cálculos individuales usando respectivas matrices.

6. - El decodificador de audio de cualquiera de las reivindicaciones anteriores, en el que el flujo de bits de audio recibido comprende metadatos que identifican el al menos uno del uno o más objetos de audio dinámicos.

7. - El decodificador de audio de la reivindicación 6, en el que los metadatos indican que N del uno o más objetos de audio dinámicos han de ser mapeados al conjunto de objetos de audio estáticos, en el que, en respuesta a los metadatos, el controlador está configurado para mapear, al conjunto de objetos de audio estáticos, N del uno o más objetos de audio dinámicos seleccionados de una ubicación predefinida o ubicaciones predefinidas en el flujo de bits de audio recibido.

8. - El decodificador de audio de la reivindicación 7, en el que el uno o más objetos de audio dinámicos incluidos en el flujo de bits de audio recibido comprende más de N objetos de audio dinámicos, y opcionalmente en el que el uno o más objetos de audio dinámicos incluidos en el flujo de bits de audio recibido comprenden los N objetos de audio dinámicos y K objetos de audio dinámicos adicionales, en donde el controlador está configurado para renderizar el conjunto de objetos de audio estáticos y los K objetos de audio adicionales en un conjunto de canales de audio de salida.

9. - El decodificador de audio de la reivindicación 7 o la reivindicación 8, en el que, en respuesta a los metadatos, el controlador está configurado para mapear, al conjunto de objetos de audio estáticos, el primer o los primeros N del uno o más objetos de audio dinámicos en el flujo de bits de audio recibido, y/o en el que el conjunto de objetos de audio estáticos consta de M objetos de audio estáticos y M > N > 0.

10. - El decodificador de audio de cualquiera de las reivindicaciones anteriores, en el que la configuración de altavoces inmersiva predefinida es una configuración de altavoces 5.0.2, y/o en el que el flujo de bits de audio recibido comprende además uno o más objetos de audio estáticos adicionales.

11. - Un método en un decodificador que comprende los pasos de:

recibir un flujo de bits de audio y almacenar el flujo de bits de audio recibido en uno o más búferes, seleccionar un modo de decodificación entre una pluralidad de modos de decodificación diferentes para decodificar el flujo de bits de audio recibido en uno o más objetos de audio dinámicos o estáticos, comprendiendo un objeto de audio dinámico una señal de audio asociada con una posición espacial variable en el tiempo y comprendiendo un objeto de audio estático una señal de audio asociada con una posición espacial estática, comprendiendo la pluralidad de modos de decodificación diferentes un primer modo de decodificación y un segundo modo de decodificación, en donde de los modos de decodificación primero y segundo solo el primer modo de decodificación permite la decodificación completa de uno o más objetos de audio dinámicos codificados en el flujo de bits, en objetos de audio individuales reconstruidos;

operar un controlador acoplado al uno o más búferes en el modo de decodificación seleccionado,

cuando el modo de decodificación seleccionado es el segundo modo de decodificación, el método comprende además los pasos de:

acceder, mediante el controlador, al flujo de bits de audio recibido;

determinar, mediante el controlador, si el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos; y

en respuesta al menos a determinar que el flujo de bits de audio recibido incluye uno o más objetos de audio dinámicos, mapear, mediante el controlador, al menos uno del uno o más objetos de audio dinámicos a un conjunto de objetos de audio estáticos, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoces inmersiva predefinida que contiene altavoces superiores.

12. - Un codificador de audio que comprende

un componente (502) de mezcla descendente configurado para mezclar de forma descendente el conjunto de objetos de audio en uno o más objetos de audio dinámicos mezclados de forma descendente, comprendiendo un objeto de audio dinámico mezclado de forma descendente una señal de audio asociada con una posición espacial variable en el tiempo, en donde al menos uno del uno o más objetos de audio dinámicos mezclados de forma descendente están destinados a, en al menos uno de una pluralidad de modos de decodificación en un lado de decodificador, ser mapeados a un conjunto de objetos de audio estáticos, comprendiendo un objeto de audio estático una señal de audio asociada con una posición espacial estática, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoces inmersiva predefinida que contiene altavoces superiores;

un componente (504) que proporciona coeficientes de mezcla descendente configurado para determinar un primer conjunto de coeficientes de mezcla descendente que se utilizará para renderizar el conjunto de objetos de audio estáticos correspondientes a la configuración de altavoces inmersiva predefinida a un conjunto de canales de audio de salida en el lado de decodificador;

un multiplexor (506) de flujo de bits configurado para multiplexar el al menos un objeto de audio dinámico mezclado de forma descendente y el primer conjunto de coeficientes de mezcla descendente en un flujo de bits de audio.

13. - El codificador de audio de la reivindicación 12, en el que el componente de mezcla descendente está configurado además para proporcionar metadatos que identifican el al menos uno del uno o más objetos de audio dinámicos mezclado de forma descendente al multiplexor de flujo de bits, en el que el multiplexor de flujo de bits está configurado además para multiplexar los metadatos en el flujo de bits de audio, y/o en el que el codificador de audio está adaptado además para determinar información perteneciente a la atenuación aplicada en al menos uno del uno o más objetos de audio dinámicos cuando se mezcla de forma descendente el conjunto de objetos de audio en uno o más objetos de audio dinámicos mezclados de forma descendente, en el que el multiplexor de flujo de bits está configurado además para multiplexar la información perteneciente a la atenuación en el flujo de bits de audio, y/o en el que el multiplexor de flujo de bits está configurado además para multiplexar información perteneciente a una configuración de canal de los objetos de audio recibidos por el componente de recepción en el flujo de bits de audio.

14. - Un método en un codificador que comprende los pasos de:

recibir un conjunto de objetos de audio;

mezclar de forma descendente el conjunto de objetos de audio en uno o más objetos de audio dinámicos mezclados de forma descendente, comprendiendo un objeto de audio dinámico mezclado de forma descendente una señal de audio asociada con una posición espacial variable en el tiempo, en donde al menos uno del uno o más objetos de audio dinámicos mezclados de forma descendente está destinado a, en al menos uno de una pluralidad de modos de decodificación en un lado de decodificador, ser mapeado a un conjunto de objetos de audio estáticos, comprendiendo un objeto de audio estático una señal de audio asociada con una posición espacial estática, correspondiendo el conjunto de objetos de audio estáticos a una configuración de altavoces inmersiva predefinida que contiene altavoces superiores;

determinar un primer conjunto de coeficientes de mezcla descendente que se utilizarán para renderizar el conjunto de objetos de audio estáticos correspondientes a la configuración de altavoces inmersiva predefinida en un conjunto de canales de audio de salida en el lado de decodificador; y

multiplexar el al menos un objeto de audio dinámico mezclado de forma descendente y el primer conjunto de coeficientes de mezcla descendente en un flujo de bits de audio.

15. - Un producto de programa de ordenador que comprende un medio de almacenamiento legible por ordenador con instrucciones adaptadas para llevar a cabo el método de la reivindicación 11 o la reivindicación 14 cuando se ejecuta mediante un dispositivo que tiene capacidad de procesamiento.