BR112021008089A2

BR112021008089A2 - codificador de áudio e decodificador de áudio

Info

Publication number: BR112021008089A2
Application number: BR112021008089-9A
Authority: BR
Inventors: Tobias Friedrich; Heiko Purnhagen; Stanislaw Gorlow; Celine Merpillat
Original assignee: Dolby International Ab
Priority date: 2018-11-02
Filing date: 2019-10-30
Publication date: 2021-08-03
Also published as: WO2020089302A1; EP3874491A1; KR20210076145A; JP2022506338A; CN113168838A; EP3874491B1; US11929082B2; US20220005484A1

Abstract

CODIFICADOR DE ÁUDIO E DECODIFICADOR DE ÁUDIO REFERÊNCIA CRUZADA COM PEDIDOS RELACIONADOS. A presente divulgação se refere à codificação de áudio de campo, em particular a um decodificador de áudio tendo pelo menos dois modos de decodificação e métodos de decodificação associados e software de decodificação para tal decodificador de áudio. Em um dos modos de decodificação, pelo menos um objeto de áudio dinâmico é mapeado para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto-falante predefinida. A presente divulgação se refere ainda a um codificador de áudio correspondente e métodos de codificação associados e software de codificação para tal codificador de áudio.

Description

"CODIFICADOR DE ÁUDIO E DECODIFICADOR DE ÁUDIO" REFERÊNCIA CRUZADA COM PEDIDOS RELACIONADOS

[001] Este pedido reivindica prioridade dos seguintes pedidos prioritários: Pedido Provisório dos EUA 62/754.758 (referência: D18053USP1), depositado em 02 de novembro de 2018, Pedido EP 18204046.9 (referência: D18053EP), depositado em 02 de novembro de 2018, e Pedido Provisório dos EUA 62/793.073 (referência D18053USP2), depositado em 16 de janeiro de 2019, cujas descrições estão incorporadas ao presente por referência.

CAMPO DA TÉCNICA

[002] A presente divulgação se refere ao campo da codificação de áudio e, em particular, a um decodificador de áudio com pelo menos dois modos de decodificação e métodos de decodificação associados e software de decodificação para tal decodificador de áudio. A presente divulgação se refere adicionalmente a um codificador de áudio correspondente e métodos de codificação associados e software de codificação para tal codificador de áudio.

FUNDAMENTOS DA INVENÇÃO

[003] Uma cena de áudio pode geralmente compreender objetos de áudio. Um objeto de áudio é um sinal de áudio que possui uma posição espacial associada. Se a posição espacial de um objeto de áudio puder variar com o tempo, o objeto de áudio é normalmente chamado de objeto de áudio dinâmico. Se a posição for estática, o objeto de áudio é normalmente chamado de objeto de áudio estático ou objeto de cama. Um objeto de cama é normalmente um sinal de áudio que corresponde diretamente a um canal de uma configuração de alto-falante multicanal, como uma configuração estéreo clássica com um alto-falante esquerdo e um direito, ou uma configuração chamada de alto-falante 5.1 com três alto-falantes frontais, dois alto-falantes circundantes e um alto-falante de efeitos de baixa frequência, etc. Uma cama pode conter de um a vários objetos de cama. É um conjunto de objetos de cama que, portanto, podem corresponder a uma configuração de alto-falante multicanal.

[004] Uma vez que o número de objetos de áudio normalmente pode ser muito grande, por exemplo, na ordem de dezenas ou centenas de objetos de áudio, há uma necessidade de métodos de codificação que permitam que os objetos de áudio sejam comprimidos de forma eficiente no lado do codificador, por exemplo. para transmissão como um fluxo de bits (fluxo de dados, etc.), especialmente quando almejando taxas de bits baixas para a transmissão. Os clusters de objetos de áudio dinâmicos podem, então, em certos modos de decodificação em um decodificador de áudio, ser reconstruídos parametricamente em objetos de áudio individuais novamente para serem renderizados em um conjunto de sinais de saída de áudio, dependendo da configuração do dispositivo de saída (por exemplo, alto- falantes, fones de ouvido, etc.,) empregado para a reprodução do sinal de áudio. No entanto, em alguns casos, o decodificador é forçado a trabalhar em um modo de núcleo, o que significa que a reconstrução paramétrica de objetos de áudio dinâmicos individuais a partir de clusters de objetos de áudio dinâmicos não é possível, por exemplo, devido a restrições de força de processamento do decodificador, ou por outros motivos. Isso pode causar um problema, especialmente quando uma experiência de áudio envolvente (por exemplo, áudio 3D) é esperada de um usuário que esteja ouvindo o saída de áudio.

[005] Há, portanto, necessidade de melhorias neste contexto.

SUMÁRIO DA INVENÇÃO

[006] Tendo em vista o acima exposto, é, portanto, um objetivo da presente invenção superar ou mitigar pelo menos alguns dos problemas comentados acima. Em particular, é um objetivo da presente divulgação fornecer uma saída de áudio, de preferência imersiva, de objetos de áudio dinâmicos recebidos em um decodificador em um modo de decodificação de núcleo. Além disso, é um objeto da presente divulgação fornecer um codificador para codificar um fluxo de bits de áudio de um conjunto de objetos de áudio dinâmicos de uma forma que possa permitir a decodificação do fluxo de bits de áudio em uma saída de áudio, de preferência imersiva, de acordo com o acima de. Objetivos adicionais e / ou alternativos da presente invenção serão claros para um leitor desta divulgação.

[007] De acordo com um primeiro aspecto da invenção, é fornecido um decodificador de áudio que compreende um ou mais buffers para armazenar um fluxo de bits de áudio recebido e um controlador acoplado a um ou mais buffers.

[008] O controlador é configurado para operar em um modo de decodificação selecionado a partir de uma pluralidade de modos de decodificação diferentes, a pluralidade de modos de decodificação diferentes compreendendo um primeiro modo de decodificação e um segundo modo de decodificação, em que do primeiro e segundo modos de decodificação apenas o primeiro modo de decodificação permite a decodificação completa de um ou mais objetos de áudio dinâmicos codificados no fluxo de bits, em objetos de áudio individuais reconstruídos.

[009] Quando o modo de decodificação selecionado é o segundo modo de decodificação, o controlador é configurado para acessar o fluxo de bits de áudio recebido, para determinar se o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos e responsivo pelo menos para determinar que o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos, para mapear pelo menos um dos um ou mais objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto-falante predefinida.

[010] Ao incluir a etapa de mapeamento de pelo menos um dos um ou mais objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos, a saída de áudio imersiva pode ser alcançada a partir de um fluxo de bits de baixa taxa de bits, por exemplo, restrito para incluir apenas até 10 objetos de áudio ( dinâmico e estático), ou até 7, 5, etc., objetos de áudio, mesmo em um decodificador operando em um modo de decodificação de baixa complexidade (decodificação de núcleo), onde a reconstrução paramétrica de objetos de áudio dinâmicos individuais a partir de clusters de objetos de áudio dinâmicos não é possível (a decodificação completa não é possível).

[011] Pelo termo "saída de áudio imersiva" deve, no contexto da presente especificação, ser entendida uma configuração de saída de canal que contém canais para alto-falantes superiores.

[012] Pelo termo "configuração de alto-falante imersiva", deve ser entendido um significado semelhante deve ser entendido, ou seja, uma configuração de alto- falante que contém alto-falantes superiores.

[013] Além disso, a presente modalidade fornece um método de decodificação flexível, uma vez que nem todos os objetos de áudio dinâmicos recebidos são necessariamente mapeados para o conjunto de objetos de áudio estáticos correspondentes a uma configuração de alto-falante predefinida. Este, por exemplo, permite a inclusão de objetos de diálogo adicionais no fluxo de bits de áudio que servem a uma finalidade diferente, por exemplo, diálogo ou áudio associado.

[014] Além disso, a presente modalidade permite um processo flexível de fornecer e, posteriormente, renderizar o conjunto de objetos de áudio estáticos, que serão comentados mais detalhadamente abaixo, para atingir, por exemplo, uma complexidade computacional mais baixa, ou permitir a reutilização de código / funções de software existentes usados para implementar um decodificador.

[015] Geralmente, a presente modalidade permite flexibilidade do lado do decodificador em um cenário de baixa taxa de bits e complexidade.

[016] A etapa de determinar, pelo controlador, que o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos pode ser realizada de maneiras diferentes. De acordo com algumas modalidades, isso é determinado a partir do fluxo de bits, por exemplo, metadados, como valores inteiros ou valores de sinalização, etc. Em outras modalidades, isso pode ser determinado pela análise do objeto de áudio ou metadados do objeto associado.

[017] O controlador pode selecionar o modo de decodificação de diferentes maneiras. Por exemplo, a seleção pode ser feita usando um parâmetro fluxo de bits e / ou tendo em vista a configuração de saída para os sinais de saída de áudio renderizados e / ou verificando o número de objetos de áudio dinâmicos (objetos de áudio de mixagem descendente, clusters, etc.) no fluxo de bits de áudio e / ou com base em um parâmetro do usuário, etc.

[018] Deve ser observado que a decisão de mapear pelo menos um de um ou mais objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos pode ser feita usando mais informações do que apenas determinar se o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos. De acordo com algumas modalidades, o controlador baseia essa decisão também em outros dados, como parâmetros de fluxo de bits.

[019] A título de exemplo, se for determinado que o fluxo de bits de áudio recebido não compreende objetos de áudio dinâmicos, ou de outra forma determinado que o mapeamento de objetos de áudio dinâmicos comentados acima não deva ser realizado, o controlador pode decidir renderizar os objetos de áudio estáticos recebidos ( objetos de cama) diretamente para um conjunto de canais de saída de áudio, usando, por exemplo, coeficientes de renderização recebidos (por exemplo, coeficientes de mixagem descendente) aplicáveis à configuração dos canais de saída de áudio. Neste modo operacional do controlador, quaisquer objetos de áudio dinâmicos recebidos são convencionalmente renderizados para os canais de saída de áudio.

[020] De acordo com algumas modalidades, quando o modo de decodificação selecionado é o segundo modo de decodificação, o controlador é ainda configurado para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio. Quaisquer outros objetos de áudio estáticos recebidos no fluxo de bits de áudio (como um LFE) também são renderizados para o conjunto de canais de saída de áudio, vantajosamente na mesma etapa de renderização.

[021] De acordo com algumas modalidades, a configuração do conjunto de canais de saída de áudio difere da configuração de alto-falante predefinida usada para mapear os objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos, conforme descrito acima. Uma vez que a configuração predefinida do alto- falante não se limita à configuração dos canais de saída de áudio, é obtida maior flexibilidade.

[022] De acordo com algumas modalidades, o fluxo de bits de áudio compreende um primeiro conjunto de coeficientes de mixagem descendente, em que o controlador é configurado para utilizar o primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio. No caso de outros objetos de áudio estáticos recebidos no fluxo de bits, os coeficientes de mixagem descendente serão aplicados tanto ao conjunto de objetos de áudio estáticos quanto aos demais objetos de áudio estáticos.

[023] O controlador pode, em algumas modalidades, usar o primeiro conjunto recebido de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio. No entanto, em outras modalidades, o primeiro conjunto de coeficientes de mixagem descendente primeiro precisa ser processado com base em que tipo de operação de mixagem descendente no lado do codificador que resultou em um ou mais objetos de áudio dinâmicos recebidos no fluxo de bits.

[024] Em algumas modalidades, o controlador é ainda configurado para receber informações relativas à atenuação aplicada em pelo menos um dos um ou mais objetos de áudio dinâmicos em um lado do codificador. As informações podem ser recebidas no fluxo de bits ou podem ser predefinidas no decodificador. O controlador pode então ser configurado para modificar o primeiro conjunto de coeficientes de mixagem descendente de acordo ao utilizar o primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio. Consequentemente, a atenuação incluída nos coeficientes de mixagem descendente, mas já aplicada no lado do codificador, não é aplicada duas vezes, resultando em uma melhor experiência de audição.

[025] Em algumas modalidades, o controlador é ainda configurado para receber informações relativas a uma operação de mixagem descendente realizada em um lado do codificador, em que as informações definem uma configuração de canal original de um sinal de áudio, em que a operação de mixagem descendente resulta na mixagem descendente do sinal de áudio para um ou mais objetos de áudio dinâmicos. Neste caso, o controlador pode ser configurado para selecionar um subconjunto do primeiro conjunto de coeficientes de mixagem descendente com base nas informações relativas às informações de mixagem descendente, em que a utilização do primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio compreende a utilização do subconjunto do primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio. Isso pode resultar em um método de decodificação mais flexível que lida com todos os tipos de operações de mixagem descendente realizadas no lado do codificador e resultando no recebimento de um ou mais objetos de áudio dinâmicos.

[026] De acordo com algumas modalidades, o controlador é configurado para realizar o mapeamento de pelo menos um dos um ou mais objetos de áudio dinâmicos e a renderização do conjunto de objetos de áudio estáticos em um cálculo combinado usando uma única matriz. Vantajosamente, isso pode reduzir a complexidade computacional da renderização dos objetos de áudio no fluxo de bits de áudio recebido.

[027] De acordo com algumas modalidades, o controlador é configurado para realizar o mapeamento de pelo menos um dos um ou mais objetos de áudio dinâmicos e a renderização do conjunto de objetos de áudio estáticos em cálculos individuais usando as respectivas matrizes. Nesta modalidade, um ou mais objetos de áudio dinâmicos são pré-renderizados em um conjunto de objetos de áudio estáticos, ou seja, definindo uma representação de cama intermediária de um ou mais objetos de áudio dinâmicos. Vantajosamente, isso permite a reutilização do código / função de software existente usado para implementar um decodificador que é adaptado para renderizar uma representação de cama da cena de áudio em um conjunto de canais de saída de áudio. Além disso, esta modalidade reduz a complexidade adicional de implementação da invenção aqui descrita em um decodificador.

[028] De acordo com algumas modalidades, o fluxo de bits de áudio recebido compreende metadados que identificam pelo menos um dentre um ou mais objetos de áudio dinâmicos. Isso permite uma maior flexibilidade do método do decodificador, uma vez que nem todos os um ou mais objetos de áudio dinâmicos recebidos precisam ser mapeados para o conjunto de objetos de áudio estáticos, e o controlador pode facilmente determinar, usando os referidos metadados, quais dos objetos dinâmicos recebidos devem ser mapeados e quais devem ser encaminhados diretamente para a renderização do conjunto canais de saída de áudio.

[029] De acordo com algumas modalidades, os metadados indicam que N de um ou mais objetos de áudio dinâmicos devem ser mapeados para o conjunto de objetos de áudio estáticos, em que responsivos aos metadados que o controlador está configurado para mapear, para o conjunto de objetos de áudio estáticos, N de um ou mais objetos de áudio dinâmicos selecionados a partir de um local predefinido ou locais predefinidos no fluxo de bits de áudio recebido. Por exemplo, os N objetos de áudio dinâmicos podem ser os primeiros N objetos de áudio dinâmico recebidos ou os últimos N objetos de áudio dinâmico recebidos. Consequentemente, em algumas modalidades, em resposta aos metadados, o controlador é configurado para mapear, para o conjunto de objetos de áudio estáticos, os primeiros N de um ou mais objetos de áudio dinâmicos no fluxo de bits de áudio recebido. Isso permite que menos metadados identifiquem pelo menos um dentre um ou mais objetos de áudio dinâmicos, por exemplo, um valor inteiro.

[030] De acordo com algumas modalidades, um ou mais objetos de áudio dinâmicos incluídos no fluxo de bits de áudio recebido compreendem mais de N. objetos de áudio dinâmicos. Como mencionado acima, por exemplo, para áudio compreendendo diálogo em diferentes idiomas, pode ser vantajoso fornecer um objeto de áudio dinâmico para cada um dos idiomas suportados.

[031] De acordo com algumas modalidades, um ou mais objetos de áudio dinâmicos incluídos no fluxo de bits de áudio recebido compreendem os objetos de áudio dinâmicos N e K objetos de áudio dinâmicos adicionais, em que o controlador é configurado para entregar o conjunto de objetos de áudio estáticos e os outros objetos de áudio K a um conjunto de canais de saída de áudio. Consequentemente, por exemplo, o idioma selecionado (ou seja, o objeto de áudio dinâmico correspondente) de acordo com o exemplo acima pode, assim, ser renderizado junto com o conjunto de objetos de áudio estáticos para o conjunto de sinais de saída de áudio.

[032] De acordo com algumas modalidades, o conjunto de objetos de áudio estáticos consiste em M objetos de áudio estáticos e M> N> 0. Vantajosamente, a taxa de bits pode ser salva, uma vez que o número de objetos de áudio dinâmicos a ser mapeado pode ser reduzido. Alternativamente, o número (K) de outros objetos de áudio dinâmicos no fluxo de bits de áudio pode ser aumentado.

[033] De acordo com algumas modalidades, o fluxo de bits de áudio recebido compreende ainda um ou mais outros objetos de áudio estáticos. Os outros objetos estáticos podem compreender um LFE, ou outra cama ou objetos de Formato Espacial Intermediário (ISF).

[034] De acordo com algumas modalidades, o conjunto de canais de saída de áudio é um de: canais de saída estéreo; canais de saída de som circundante 5.1, canais de saída de som imersivo 5.1.2; ou canais de saída de som imersivo 5.1.4.

[035] De acordo com algumas modalidades, a configuração de alto-falante predefinida é uma configuração de alto-falante 5.0.2. Nesta modalidade, N pode ser igual a 5.

[036] De acordo com um segundo aspecto da invenção, pelo menos alguns dos objetivos acima são alcançados por um método em um decodificador que compreende as etapas de: - receber um fluxo de bits de áudio e armazenar o fluxo de bits de áudio recebido em um ou mais buffers, - selecionar um modo de decodificação de uma pluralidade de modos de decodificação diferentes, a pluralidade de modos de decodificação diferentes compreendendo um primeiro modo de decodificação e um segundo modo de decodificação, em que do primeiro e segundo modos de decodificação, apenas o primeiro modo de decodificação permite a reconstrução paramétrica de objetos áudio dinâmico individuais de clusters de objetos de áudio dinâmicos; - operar um controlador acoplado a um ou mais buffers no modo de decodificação selecionado, - quando o modo de decodificação selecionado é o segundo modo de decodificação, o método compreende ainda as etapas de: o acessar, pelo controlador, o fluxo de bits de áudio recebido; o determinar, pelo controlador, se o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos; e o responsivo pelo menos a determinar que o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos, mapeamento, pelo controlador, de pelo menos um de um ou mais objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondentes a uma configuração de alto-falante predefinida.

[037] De acordo com um terceiro aspecto da invenção, pelo menos alguns dos objetivos acima são obtidos por um produto de programa de computador que compreende um meio legível por computador com instruções de código de computador adaptadas para realizar o método do segundo aspecto quando executado por um dispositivo com capacidade de processamento.

[038] O segundo e o terceiro aspectos podem ter geralmente as mesmas características e vantagens do primeiro aspecto.

[039] De acordo com um quarto aspecto da invenção, pelo menos alguns dos objetivos acima são obtidos por um codificador de áudio que compreende: um componente receptor configurado para receber um conjunto de objetos de áudio; um componente de mixagem descendente configurado para mixar descendentemente o conjunto de objetos de áudio para um ou mais objetos de áudio dinâmicos mixados descendentemente, em que pelo menos um dos um ou mais objetos de áudio dinâmicos mixados descendentemente se destina a, em pelo menos um de uma pluralidade de modos de decodificação em um lado do decodificador, a ser mapeado para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto- falante predefinida; um componente de fornecimento de coeficientes de mixagem descendente configurado para determinar um primeiro conjunto de coeficientes de mixagem descendente a ser utilizado para renderizar o conjunto de objetos de áudio estáticos correspondentes à configuração de alto-falante predefinida para um conjunto de canais de saída de áudio no lado do decodificador; um multiplexador de fluxo de bits configurado para multiplexar o pelo menos um objeto de áudio dinâmico mixado descendentemente e o primeiro conjunto de coeficientes de mixagem descendente em um fluxo de bits de áudio.

[040] De acordo com algumas modalidades, o componente de mixagem descendente é ainda configurado para fornecer metadados que identificam pelo menos um dos um ou mais objetos de áudio dinâmicos mixados descendentemente para o multiplexador de fluxo de bits, em que o multiplexador de fluxo de bits é ainda configurado para multiplexar os metadados em fluxo de bits de áudio.

[041] De acordo com algumas modalidades, o codificador é ainda adaptado para determinar as informações relativas à atenuação aplicada em pelo menos um dos um ou mais objetos de áudio dinâmicos ao fazer a mixagem descendente do conjunto de objetos de áudio para um ou mais objetos de áudio dinâmicos mixados descendentemente, em que o multiplexador de fluxo de bits é ainda configurado para multiplexar as informações relativas à atenuação no fluxo de bits de áudio.

[042] De acordo com algumas modalidades, o multiplexador de fluxo de bits é ainda configurado para multiplexar informações relativas a uma configuração de canal dos objetos de áudio recebidos pelo componente receptor.

[043] De acordo com um quinto aspecto da invenção, pelo menos alguns dos objetivos acima são obtidos por um método em um codificador que compreende as etapas de: - receber um conjunto de objetos de áudio; - mixar descendentemente o conjunto de objetos de áudio para um ou mais objetos de áudio dinâmicos mixados descendentemente, em que pelo menos um dos um ou mais objetos de áudio dinâmicos mixados descendentemente se destina a, em pelo menos um de uma pluralidade de modos de decodificação em um lado do decodificador, ser mapeado para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto- falante predefinida; - determinar um primeiro conjunto de coeficientes de mixagem descendente a ser utilizado para renderizar o conjunto de objetos de áudio estáticos correspondentes à configuração de alto-falante predefinida para um conjunto de canais de saída de áudio no lado do decodificador; e - multiplexar o pelo menos um objeto de áudio dinâmico mixado descendentemente e o primeiro conjunto de coeficientes de mixagem descendente em um fluxo de bits de áudio.

[044] De acordo com um sexto aspecto da invenção, pelo menos alguns dos objetivos acima são obtidos por um produto de programa de computador que compreende um meio legível por computador com instruções de código de computador adaptadas para realizar o método do quinto aspecto quando executado por um dispositivo com capacidade de processamento.

[045] O quinto e o sexto aspectos geralmente podem ter as mesmas características e vantagens do quarto aspecto. Além disso, o quarto, quinto e sexto aspectos podem geralmente ter os recursos correspondentes (mas do lado do codificador) como o primeiro, segundo e terceiro aspectos. Por exemplo, o codificador pode ser adaptado para incluir objetos de áudio estáticos (como um LFE) no fluxo de bits de áudio.

[046] Pode ser ainda observado que a invenção se refere a todas as combinações possíveis de características, a menos que explicitamente indicado de outra forma.

BREVE DESCRIÇÃO DOS DESENHOS

[047] O acima, bem como os objetivos, características e vantagens adicionais da presente invenção, serão mais bem compreendidos através da seguinte descrição detalhada ilustrativa e não limitativa de modalidades preferidas da presente invenção, com referência aos desenhos anexos, onde a mesma referência numerais será usada para elementos semelhantes, em que:

[048] A Figura 1 mostra um decodificador de áudio de acordo com algumas modalidades,

[049] A Figura 2 mostra uma operação de decodificação de acordo com uma primeira modalidade,

[050] A Figura 3 mostra uma operação de decodificação de acordo com uma segunda modalidade,

[051] A Figura 4 mostra uma operação de decodificação de acordo com uma terceira modalidade,

[052] A Figura 5 mostra uma operação de codificação de acordo com algumas modalidades,

[053] A Figura 6 mostra, a título de exemplo, uma unidade de um decodificador de áudio para produzir uma matriz de ganho usada para renderizar um conjunto de canais de saída de áudio.

DESCRIÇÃO DETALHADA

[054] A presente invenção será agora descrita mais completamente a seguir com referência aos desenhos anexos, nos quais são mostradas modalidades da invenção. Os sistemas e dispositivos divulgados neste documento serão descritos durante a operação.

[055] A seguir, o formato de áudio Dolby AC-4 (conforme publicado no documento ETSI TS 103 190-2 V1.2.1 (2018-02)) será usado como contexto para exemplificar a presente invenção. No entanto, deve ser observado que o escopo da invenção não está limitado a AC-4 e as diferentes modalidades aqui descritas podem ser empregadas para qualquer formato de áudio adequado.

[056] Devido a restrições computacionais em alguns decodificadores de áudio, não é possível a reconstrução paramétrica de objetos de áudio dinâmicos individuais a partir de clusters de objetos de áudio dinâmicos. Além disso, as restrições na taxa de bits alvo para um fluxo de bits de áudio podem definir a restrição do conteúdo do fluxo de bits de áudio, por exemplo, limitando o número de objetos de áudio / canais de áudio transmitidos a 10. Uma restrição adicional pode ser originada do padrão de codificação usado, por exemplo, restringindo o uso de determinadas ferramentas de codificação em alguns casos específicos. Por exemplo, um decodificador AC-4 é configurado em diferentes níveis, onde um decodificador de três níveis restringe o uso de ferramentas de codificação como A- JCC (Codificação de Canal Conjunta Avançada) e A-CPL (Acoplamento Avançado) que, de outra forma, podem ser usadas com vantagem para obter uma experiência de áudio imersiva em determinadas circunstâncias. Tais circunstâncias podem incluir um modo de codificação de canal essencial, mas onde o decodificador não tem as ferramentas de codificação para decodificar esse conteúdo (por exemplo, o uso de A-JCC não é permitido). Neste caso, a presente invenção pode ser usada para "imitar" canal com base imersiva, conforme descrito abaixo. Outras restrições possíveis compreendem a possibilidade de incluir conteúdo baseado em canal e objetos de áudio dinâmicos / estáticos (objetos de áudio distintos) no mesmo fluxo de bits, o que pode não ser permitido em determinadas circunstâncias.

[057] Neste documento, o termo "clusters" se refere a objetos de áudio que são mixados no codificador, conforme será descrito posteriormente com referência à

Figura 5. Em um exemplo não limitativo, 10 objetos dinâmicos individuais podem ser inseridos no codificador. Em alguns casos, conforme descrito acima, não é possível codificar todos os 10 objetos de áudio dinâmicos de forma independente. Por exemplo, a taxa de bits alvo é tal que só permite a codificação de 5 objetos de áudio dinâmicos. Neste caso, é necessário reduzir o número total de objetos de áudio dinâmicos. Uma solução possível é combinar os 10 objetos de áudio dinâmicos em um número menor, 5 neste exemplo, de objetos de áudio dinâmicos. Esses 5 objetos de áudio dinâmicos derivados pela combinação (mixagem descendente) dos 10 objetos de áudio dinâmicos são os objetos de áudio dinâmicos mixados descendentemente que são referidos como "clusters" neste pedido.

[058] A presente invenção visa contornar algumas das restrições acima e fornecer uma experiência de audição vantajosa para o ouvinte de saída de áudio em baixa taxa de bits e complexidade do decodificador.

[059] A Figura 1 mostra, a título de exemplo, um decodificador de áudio 100. O decodificador de áudio compreende um ou mais buffers 102 para armazenar um fluxo de bits de áudio recebido 110. Em algumas modalidades, o fluxo de bits de áudio recebido contém um subfluxo A-JOC (Codificação Avançada de Objeto Conjunto), por exemplo, representando Música e Efeitos (M&E), ou uma combinação de M&E e diálogo (D) (ou seja, o PRINCIPAL completo (CM)).

[060] A Codificação Avançada de Objeto Conjunto (A-JOC) é uma ferramenta de codificação paramétrica para codificar um conjunto de objetos de forma eficiente. O A-JOC depende de um modelo paramétrico do conteúdo baseado em objeto. Esta ferramenta de codificação pode determinar dependências entre objetos de áudio e utilizar um modelo paramétrico baseado em percepção para alcançar codificação de alta eficiência.

[061] O decodificador de áudio 100 compreende ainda um controlador 104 acoplado a um ou mais buffers 102. O controlador 104 pode, assim, extrair pelo menos partes 112 do fluxo de bits de áudio 110 do (s) buffer (es) 102, para decodificar o fluxo de bits de áudio codificado em um conjunto de canais de saída de áudio 118. O conjunto de canais de saída de áudio 118 pode então ser usado para reprodução por um conjunto de alto-falantes 120.

[062] Conforme descrito acima, o decodificador de áudio 100, ou o controlador 104, pode operar em diferentes modos de decodificação. A seguir, dois modos de decodificação exemplificarão isso. No entanto, podem ser empregados outros modos de decodificação.

[063] Em um primeiro modo de decodificação (modo de decodificação completa, modo de decodificação complexa, etc.), é possível a reconstrução paramétrica de objetos de áudio dinâmicos individuais a partir de clusters de objetos de áudio dinâmicos. No contexto do AC-4, o primeiro modo de decodificação pode ser chamado de decodificação completa A-JOC. No exemplo não limitativo dado acima com 10 objetos dinâmicos individuais e 5 clusters (objetos de áudio dinâmicos mixados descendentemente), o modo de decodificação completo permite reconstruir os 10 objetos dinâmicos individuais originais (ou uma aproximação dos mesmos) a partir dos 5 clusters.

[064] Em um segundo modo de decodificação (decodificação de núcleo, decodificação de baixa complexidade, etc.), tal reconstrução não é realizada devido a restrições no decodificador 100. No contexto de AC-4, o segundo modo de decodificação pode ser chamado de decodificação do núcleo A-JOC. No exemplo não limitativo fornecido acima com 10 objetos dinâmicos individuais e 5 clusters (objetos de áudio dinâmicos de mixagem descendente), o modo de decodificação de núcleo não é capaz de reconstruir os 10 objetos dinâmicos individuais originais (ou sua aproximação) a partir dos 5 clusters.

[065] O controlador é, portanto, configurado para selecionar um modo de decodificação, seja o primeiro ou o segundo modo de decodificação. Tal decisão pode ser feita com base nos parâmetros internos 116 do decodificador 100, por exemplo, armazenados em uma memória 106 do decodificador. Alternativa, ou adicionalmente, a decisão também pode ser feita com base na entrada 114 de, por exemplo, um usuário. Alternativa, ou adicionalmente, a decisão pode ser ainda baseada no conteúdo do fluxo de bits de áudio 110. Por exemplo, se o fluxo de bits de áudio recebido compreender mais do que um número limite de objetos de áudio dinâmicos mixados descendentemente (por exemplo, mais do que 6, ou mais do que 10, ou qualquer outro número adequado dependendo do contexto), o controlador pode selecionar o segundo modo de decodificação. O fluxo de bits de áudio 110 pode, em algumas modalidades, compreender um valor de sinalizador indicando ao controlador qual modo de decodificação selecionar.

[066] Por exemplo, no contexto de AC-4, de acordo com uma modalidade, a seleção do primeiro modo de decodificação pode ser um ou muitos dos seguinte: • O nível de apresentação é 2 ou inferior (parâmetro de fluxo de bits). • O estágio de saída é configurado para saída 5.1.2 (parâmetro do usuário). • O subfluxo A-JOC contém no máximo 5 objetos de mixagem descendente (clusters) (parâmetro de fluxo de bits). • O aplicativo não força a decodificação do núcleo via API (parâmetro do usuário).

[067] A seguir, o segundo modo de decodificação (decodificação de núcleo) será exemplificado em combinação com as Figuras 2 a 4.

[068] A Figura 2 mostra uma primeira modalidade 109a do segundo modo de decodificação 109, que será explicado em conjunto com a Figura 1.

[069] O controlador 104 é configurado para determinar se o fluxo de bits de áudio recebido 110 inclui um ou mais objetos de áudio dinâmicos (que nesta modalidade são todos mapeados para um conjunto de objetos de áudio estáticos) e para basear a decisão, como decodificar o fluxo de bits de áudio recebido. De acordo com algumas modalidades, o controlador baseia essa decisão também em outros dados, como parâmetros de fluxo de bits. Por exemplo, em AC-4, o controlador pode determinar a decodificação do fluxo de bits de áudio recebido, conforme descrito na Figura 2, de acordo com o valor de um ou ambos os seguintes parâmetros de fluxo de bits, ou seja, se um dos seguintes for verdadeiro:

1. “num_bed_obj_ajoc” é maior que zero (por exemplo, 1 a 7) ou

2. “num_bed_obj_ajoc” não está presente no fluxo de bits e “n_fullband_dmx_signals” é menor que 6.

[070] No caso do controlador 104 determinar que um ou mais objetos de áudio dinâmicos 210 devam ser levados em consideração e, opcionalmente, também em vista de outros dados conforme descrito acima, o controlador é configurado para mapear pelo menos um 210 de um ou mais objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos. Na Figura 2, todos os objetos de áudio dinâmicos recebidos são mapeados para o conjunto de objetos de áudio estáticos 222, o conjunto de objetos de áudio estáticos 222 correspondendo a uma configuração de alto-falante predefinida. O mapeamento é feito de acordo com o seguinte. O fluxo de bits de áudio 110 compreende N objetos de áudio dinâmicos

210. O fluxo de bits de áudio compreende ainda N metadados de objetos correspondentes (metadados de objetos de áudio, OAMD) 212. Cada OAMD 212 define as propriedades de cada um dos N objetos de áudio dinâmicos 210, por exemplo, ganho e posição. Os N OAMD 212 são usado para calcular 206 uma matriz de ganho 218 que é usada para pré-renderizar 202 os N objetos de áudio dinâmicos 210 em um conjunto de objetos de áudio estáticos 222. O tamanho do conjunto de objetos de áudio estáticos é M. Os N objetos de áudio dinâmicos 210 são, portanto, transformados (renderizados) em uma cama 222, por exemplo, uma cama 5.0.2 (M = 7). Outras configurações são igualmente possíveis, como 7.0.2 (M = 9). A configuração da cama (por exemplo, 5.0.2) é predefinida no decodificador 100 que usa esse conhecimento para calcular 206 a matriz de ganho 218. Em outras palavras, o conjunto de objetos de áudio estáticos 222 corresponde a uma configuração de alto-falante predefinida. A matriz de ganho 218, neste caso, é, portanto, de tamanho M X N.

[071] De acordo com algumas modalidades, M> N> 0.

[072] Uma vantagem de realmente renderizar os N objetos de áudio dinâmicos 210 em uma cama 222 é que as operações restantes do decodificador 100 (ou seja, produzir um conjunto de sinais de saída de áudio 118) podem ser alcançadas reutilizando código / funções de software existentes usados para implementar um decodificador que é adaptado para renderizar uma cama 222 (e, opcionalmente, outros objetos de áudio dinâmicos, conforme descrito na figura 3) em um conjunto de sinais de saída de áudio 118.

[073] O decodificador produz um conjunto de OAMD 214 adicional. Esses OAMD 214 definem as posições e os ganhos para a cama renderizada intermediário

222. O OAMD 214, portanto, não é transmitido no fluxo de bits, mas em vez disso "gerado" localmente no decodificador para descrever configuração de canal (tipicamente 5.0.2) gerada na saída da pré-renderização 202. Por exemplo, se a cama intermediária 222 for configurada como 5.0.2, o OAMD 214 definirá as posições (L, R, C, Ls, Rs, Ltm, Rtm) e os ganhos para a cama 5.0.2 222. Se for empregada outra configuração da cama intermediária, por exemplo, 3.0.0, as posições seriam L, R, C. O número de OAMD 214 nesta modalidade, portanto, corresponde ao número de objetos de áudio estáticos 222, por exemplo 7 no caso de 5.0.2 cama 222. Em algumas modalidades, o ganho em cada um dos o OAMD 214 é a unidade (1). O OAMD 214, portanto, compreende propriedades para o conjunto de objetos de áudio estáticos 222, por exemplo, ganho e posição para cada objeto de áudio estático 222. Em outras palavras, o OAMD 214 indica a configuração predefinida da cama 222.

[074] O fluxo de bits de áudio 110 compreende ainda coeficientes de mixagem descendente 216. Dependendo da configuração do conjunto de canais de saída 118, o controlador seleciona os coeficientes de mixagem descendente correspondentes 216 a serem utilizados ao calcular uma segunda matriz de ganho

220. A título de exemplo, o conjunto canais de saída é um de: canais de saída estéreo; canais de saída de som circundante 5.1 Canais de saída de som imersivo

5.1.2 (configuração de saída de áudio imersivo); canais de saída de som imersivos

5.1.4 (configuração de saída de áudio imersiva); canais de saída de som circundante

7.1; ou canais de saída de som circundante 9.1. A matriz de ganho resultante é, portanto, de tamanho Ch (número de canais de saída) X M. Os coeficientes de mixagem descendente selecionados podem ser usados como estão calculando a segunda matriz de ganho 220. No entanto, como será descrito mais abaixo em combinação com a figura 6, os coeficientes de mixagem descendente selecionados podem precisar ser modificados para compensar a atenuação realizada no lado do codificador ao fazer a mixagem descendente do sinal de áudio original para alcançar os objetos de áudio dinâmicos 210. Além disso, em algumas modalidades, o processo de seleção dos coeficientes de mixagem descendente entre os coeficientes de mixagem descendente 216 recebidos que devem ser utilizados para calcular a segunda matriz de ganho 220 também pode ser baseado na operação de mixagem descendente realizada no lado do codificador, além da configuração do conjunto de canais de saída 118. Isso também será descrito mais adiante em combinação com a Figura 6.

[075] A segunda matriz de ganho é usada em um estágio de renderização 204 do decodificador 100, para renderizar o conjunto de objetos de áudio estáticos 222 para o conjunto de canais de áudio de saída 118.

[076] Deve ser observado que na Figura 2, o LFE não é mostrado. Neste contexto, o LFE deve ser transmitido diretamente para o estágio de renderização final 204 a ser incluído (ou mixado descendentemente) no conjunto de canais de áudio de saída 118.

[077] Na Figura 3, é mostrada uma segunda modalidade 109b do segundo modo de decodificação 109. Semelhante à modalidade mostrada na Figura 2, nesta modalidade é mostrada, uma transmissão de baixa taxa (fluxo de bits de áudio com baixa taxa de bits) decodificada em um modo de decodificação de núcleo. A diferença na Figura 3 é que o fluxo de bits de áudio recebido 110 transporta outros objetos de áudio 302 além dos N objetos de áudio dinâmicos 210 que são mapeados para os objetos de áudio estáticos 222. Tais objetos de áudio adicionais podem compreender objetos de áudio dinâmicos discretos e conjuntos (A-JOC) e / ou objetos de áudio estáticos (objetos de cama) ou ISF. Por exemplo, os objetos de áudio adicionais 302 podem compreender: • LFE (zero a muitos) • outros objetos de cama • outros objetos dinâmicos • ISF

[078] Por conseguinte, em algumas modalidades, os objetos de áudio dinâmicos incluídos no fluxo de bits de áudio recebido contam mais do que N objetos de áudio dinâmico 210. Por exemplo, objetos de áudio dinâmicos incluídos no fluxo de bits de áudio recebido compreendem os N objetos de áudio dinâmico e K outros objetos de áudio dinâmicos. De acordo com algumas modalidades, o fluxo de bits de áudio recebido compreende M&E + D. Nesse caso, se um diálogo separado for adicionado ao renderizar o conjunto de canais de saída 118, isso pode causar um problema no caso de baixa taxa, onde apenas 10 objetos de áudio podem ser incluídos no fluxo de bits de áudio recebido 110. No caso do conjunto de canais de saída 118 esta em uma configuração 5.1.2, e foram usados objetos de ama (isto é, a solução legada), seriam necessários 8 objetos de cama para serem transmitidos.

Isso deixaria apenas dois objetos de áudio possíveis que representam o diálogo, que podem ser muito pouco, por exemplo, se cinco objetos de diálogo diferentes devam ser suportados. Usando a presente invenção, saída de áudio imersivo pode ser alcançada neste caso, por exemplo, transmitindo quatro (N) objetos de áudio dinâmicos para M&E, que são mapeados 202 para o conjunto de objetos de áudio estáticos 222, um objeto estático adicional 302 para o LFE e cinco (K) objetos dinâmicos adicionais para o diálogo.

[079] Na modalidade da Figura 3, os N objetos de áudio dinâmicos 210 são pré-renderizados em M objetos de áudio estáticos 222, conforme descrito acima em combinação com a Figura 2.

[080] Para a renderização 204, é empregado um conjunto de OAMD 214. O fluxo de bits de áudio recebido compreende, neste exemplo, 6 OAMD 214, um para cada objeto de áudio adicional 302. Esses 6 OAMD são, portanto, incluídos no fluxo de bits de áudio em um lado do codificador, para ser usado no decodificador 100 para o processo de decodificação aqui descrito . Além disso, como descrito acima em combinação com a Figura 2, o decodificador produz um conjunto de OAMD 214 adicional que define as posições e os ganhos para a cama renderizada intermediária

222. No total, há 13 OAMD 214 neste exemplo. Um OAMD 214 compreende propriedades para o conjunto de objetos de áudio estáticos 222, por exemplo, ganho (ou seja, unidade) e posição para cada objeto de áudio estático 222 e propriedades para os objetos de áudio adicionais 302, por exemplo, ganho e posição para cada objeto de áudio adicional 302.

[081] O fluxo de bits de áudio 110 compreende ainda coeficientes de mixagem descendente 216 que são utilizados para renderizar o conjunto de canais de saída 118 semelhante ao que foi descrito acima em combinação com a Figura 2 e será descrito abaixo em combinação com a Figura 6.

[082] A segunda matriz de ganho 220 é usada em um estágio de renderização 204 do decodificador 100, para renderizar o conjunto de objetos de áudio estáticos 222 e o conjunto de outros objetos de áudio 302 (que pode incluir objetos de áudio dinâmicos e / ou objetos de áudio estáticos e / ou objetos ISF, conforme definido acima) para o conjunto de canais de áudio de saída de 118.

[083] No caso descrito na Figura 3, o controlador precisa estar ciente de quais objetos de áudio dinâmicos recebidos devem ser mapeados para o conjunto de objetos de áudio estáticos 222 e quais devem ser passados diretamente para o estágio de renderização final 204. Isso pode ser realizado de várias maneiras diferentes. Por exemplo, cada objeto de áudio recebido pode compreender um valor de sinalizador informando ao controlador se o objeto de áudio deve ser mapeado (pré-renderizado). Em outro exemplo, o fluxo de bits de áudio recebido compreende metadados que identificam o (s) objeto (s) de áudio dinâmico (s) que devem ser mapeados. Deve ser observado que, no contexto de AC-4, apenas se quaisquer objetos dinâmicos adicionais fizerem parte de um mesmo subfluxo A-JOC que os N objetos de áudio dinâmicos, é necessário descobrir o subconjunto que está indo para o pré-renderizador 202, por exemplo usando um valor de sinalizador ou metadados conforme descrito acima.

[084] Em uma modalidade, os metadados indicam que N de um ou mais objetos de áudio dinâmicos devem ser mapeados para o conjunto de objetos de áudio estáticos, pelo que o controlador sabe que esses N objetos de áudio dinâmicos devem ser selecionados a partir de um local predefinido, ou locais predefinidos, no fluxo de bits de áudio recebido. Os objetos de áudio dinâmicos 210 a serem mapeados podem ser, por exemplo, os primeiros ou os últimos de N objetos de áudio no fluxo de bits de áudio 110. O número de objetos de áudio a serem mapeados pode ser indicado pelo valor de sinalizador Num_bed_obj_ajoc (também pode ser chamado num_obj_with_bed_render_info ) e / ou n_fullband_dmx_signals no padrão AC-4 (conforme publicado no documento ETSI TS 103 190-2 V1.2.1

(2018-02)). Em outros padrões, podem ser usados outros nomes dos valores dos sinalizadores. Também deve ser observado que os valores do sinalizador podem ser renomeados para versões mais recentes do padrão AC-4 referido acima. De acordo com algumas modalidades, se num_bed_obj_ajoc for maior que zero, isso significa que objetos dinâmicos num_bed_obj_ajoc são mapeados para o conjunto de objetos de áudio estáticos. De acordo com algumas modalidades, se num_bed_obj_ajoc não estiver presente e n_fullband_dmx_signals for menor que seis, isso significa que todos os objetos dinâmicos são mapeados para o conjunto de objetos de áudio estáticos.

[085] Em algumas modalidades, os objetos de áudio dinâmicos são recebidos antes de quaisquer objetos de áudio estáticos no fluxo de bits 110 recebido. Em outras modalidades, o LFE é recebido primeiro no fluxo de bits 110, antes dos objetos de áudio dinâmicos e quaisquer outros objetos de áudio estáticos.

[086] A Figura 4 mostra a título de exemplo uma terceira modalidade 109c do segundo modo de decodificação 109. Os estágios de renderização dupla 202, 204 das modalidades das Figuras 2 e 3 podem, em alguns casos, ser considerados ineficientes devido à complexidade computacional. Consequentemente, em algumas modalidades, as duas matrizes de ganho 218, 220 são combinadas 402 em uma única matriz 404 antes de renderizar 204 os objetos de áudio 210, 302 do fluxo de bits de áudio recebido 110 no conjunto de canais de saída 118. Nesta modalidade, é empregado um único estágio de renderização 204. A configuração da Figura 4 é aplicável tanto para o caso descrito na Figura 2, onde apenas objetos dinâmicos 210 que são mapeados para o conjunto de objetos de áudio estáticos 222 estão incluídos no fluxo de bits de áudio recebido 110, quanto para o caso descrito na Figura 3 onde o fluxo de bits de áudio recebido 110 compreende, além disso, outros objetos de áudio 302. No caso de Figura 3, deve ser observado que a matriz 218 precisa ser aumentada por colunas e / ou linhas adicionais que manipulam a

"passagem" dos objetos adicionais 302 no caso em que deva ser empregada uma multiplicação de matriz de acordo com a Figura 4.

[087] A Figura 5 mostra a título de exemplo um codificador 500 para codificar um fluxo de bits de áudio 110 a ser decodificado de acordo com qualquer modalidade descrita acima. Em termos gerais, o codificador 500 compreende componentes correspondentes ao conteúdo do fluxo de bits de áudio 110, para alcançar tal fluxo de bits 110, conforme entendido por um leitor desta divulgação. Normalmente, o codificador 500 compreende um componente receptor (não mostrado) configurado para receber um conjunto de objetos de áudio (dinâmico e / ou estático). O codificador 500 compreende ainda um componente de mixagem descendente 502 configurado para mixar descendentemente o conjunto de objetos de áudio 508 para um ou mais objetos de áudio dinâmicos mixados descendentemente 510, em que pelo menos um objeto de áudio mixado descendentemente 510 de um ou mais objetos de áudio dinâmicos mixados descendentemente se destina a, em pelo menos uma de uma pluralidade de modos de decodificação em um lado do decodificador, ser mapeado para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto-falante predefinida. O componente de mixagem descendente 502 pode atenuar alguns dos objetos de áudio, conforme será descrito abaixo em combinação com a Figura 6. Neste caso, a atenuação realizada precisa ser compensada no lado do decodificador. Consequentemente, a informação da atenuação realizada e / ou a configuração dos objetos de áudio 508 está incluída em algumas modalidades no fluxo de bits 110. Em outras modalidades, o decodificador é pré-configurado com todas / algumas dessas informações e, consequentemente, essas informações podem ser omitidas do fluxo de bits 110. Em outras palavras, em algumas modalidades, o multiplexador de fluxo de bits 506 é ainda configurado para multiplexar informações relativas a uma configuração de canal dos objetos de áudio

508 recebidos pelo componente receptor no fluxo de bits de áudio. A configuração do canal original (o formato do sinal de áudio original) pode ser qualquer configuração adequada, como 7.1.4, 5.1.4, etc. Em algumas modalidades, o codificador (por exemplo, o componente de mixagem descendente 502) é ainda adaptado para determinar as informações relativas à atenuação aplicada em pelo menos um dos um ou mais objetos de áudio dinâmicos 510 ao fazer a mixagem descendente do conjunto de objetos de áudio 508 para um ou mais objetos de áudio dinâmicos mixados descendentemente 510. Esta informação (não mostrada na Figura 5) é então transmitida para o multiplexador de fluxo de bits 506, que está configurado para multiplexar as informações relativas à atenuação no fluxo de bits de áudio 110.ç

[088] O codificador 500 compreende ainda coeficientes de mixagem descendente que fornecem o componente 504 configurado para determinar um primeiro conjunto de coeficientes de mixagem descendente 516 a ser utilizado para renderizar o conjunto de objetos de áudio estáticos correspondente à configuração de alto-falante predefinida para um conjunto de canais de saída de áudio no lado do decodificador. Conforme descrito posteriormente em combinação com a Figura 6, dependendo, por exemplo, da operação de mixagem descendente realizada pelo componente de mixagem descendente (atenuação e / ou o tipo de mixagem descendente que foi realizado, de qual configuração para qual configuração), o decodificador pode precisar fazer um processo de seleção adicional e / ou de ajuste entre o primeiro conjunto de coeficientes de mixagem descendente 516 antes de realmente usar os coeficientes de mixagem descendente resultantes para renderização.

[089] O codificador compreende ainda um multiplexador de fluxo de bits 506 configurado para multiplexar o pelo menos um objeto de áudio dinâmico mixado descendentemente 510 e o primeiro conjunto de coeficientes de mixagem descendente 516 em um fluxo de bits de áudio 110.

[090] Em algumas modalidades, o componente de mixagem descendente 502 também fornece metadados 514 que identificam o pelo menos um objeto de áudio mixado descendentemente 510 de um ou mais objetos de áudio dinâmicos mixados descendentemente para o multiplexador de fluxo de bits 506. Neste caso, o multiplexador de fluxo de bits 506 é ainda configurado para multiplexar os metadados 514 no fluxo de bits de áudio 110.

[091] Em algumas modalidades, o componente de mixagem descendente 502 recebe uma taxa de bits alvo 509, para determinar as especificações da operação de mixagem descendente, por exemplo, quantos objetos de áudio convertidos que devem ser computados a partir do conjunto de objetos de áudio dinâmicos 508. Em outras palavras, a taxa de bits alvo pode determinar um parâmetro de agrupamento para a operação de mixagem descendente.

[092] Como entendido, no caso de um ou mais objetos de áudio dinâmicos mixados descendentemente 510 compreenderem mais do que o objeto de áudio dinâmico que se destina a ser mapeado para o conjunto de objetos de áudio estáticos em um lado do decodificador, os coeficientes de mixagem descendente precisam ser computados também para eles. Além disso, objetos de áudio estáticos (por exemplo, LFE, etc.) também podem ser transmitidos pelo multiplexador de fluxo de bits 506 para inclusão no fluxo de bits de áudio 110, juntamente com coeficientes de mixagem descendente correspondentes. Além disso, cada objeto de áudio incluído no fluxo de bits de áudio 110 terá um OAMD associado, por exemplo OAMD 512 associado a todos os objetos de áudio dinâmicos 510 que se destinam a ser mapeados para o conjunto de objetos de áudio estáticos em um lado do decodificador, que será multiplexado no fluxo de bits de áudio 110.

[093] A Figura 6 mostra, a título de exemplo, detalhes adicionais de como a segunda matriz de ganho 220 da Figura 2-4 pode ser determinada usando uma unidade de cálculo de matriz de ganho 208. Como descrito acima, a unidade de cálculo de matriz de ganho 208 recebe coeficientes de mixagem descendente 216 do fluxo de bits.

A unidade de cálculo de matriz de ganho 208 também, nesta modalidade, recebe dados 612 relativos a que tipo de mixagem descendente do sinal de áudio que foi realizado em um lado do codificador.

Os dados 612 compreendem, assim, informações pertencentes a uma operação de mixagem descendente realizada em um lado do codificador, a operação de mixagem descendente resultando nos objetos de áudio dinâmicos N 210. Os dados 612 podem definir / indicar uma configuração de canal original de um sinal de áudio sendo mixado descendentemente no N objetos de áudio dinâmicos 210. Com base nos dados recebidos 612 e nos coeficientes de mixagem descendente recebidos 216, uma unidade de seleção e modificação de coeficientes de mixagem descendente (DC) 606 determina coeficientes de mixagem descendente 608, que subsequentemente serão usados em uma unidade de cálculo de matriz de ganho 610 para formar a segunda matriz de ganho 220, usando OAMD 214 como descrito acima, bem como a configuração dos canais de saída 118, por, 5.1. A unidade de cálculo de matriz de ganho 610 está, assim, selecionando aqueles coeficientes dos coeficientes de mixagem descendente 608 que são adequados para a configuração solicitada dos canais de saída 118 e determinando a segunda matriz de ganho 220 a ser usada para esta configuração de renderização de áudio particular.

Em algumas modalidades, a unidade de seleção e modificação DC 606 pode selecionar diretamente um conjunto de coeficientes de mixagem descendente 608 dos coeficientes de mixagem descendente recebidos 216. Em outras modalidades, a unidade de seleção e modificação de DC 606 pode precisar primeiro selecionar coeficientes de mixagem descendente e, em seguida, modificá-los para derivar os coeficientes de mixagem descendente 608 a serem usados na unidade de cálculo de matriz de ganho 610 para calcular a segunda matriz de ganho 220.

[094] A funcionalidade da unidade de seleção e modificação DC 606 será agora exemplificada para configurações particulares de áudio codificado e decodificado.

[095] Em algumas modalidades, a atenuação é aplicada em / para alguns dos objetos de áudio transmitidos 210 pelo codificador. Essa atenuação é o resultado de um processo de mixagem descendente de um sinal de áudio original para um sinal de áudio de mixagem descendente no codificador. Por exemplo, se o formato do sinal de áudio original for 7.1.4 (L, R, C, LFE, Ls, Rs, Lb, Rb, Tfl, Tfr, Tbl, Tbr), que é mixado descendentemente para 5.1.2 (Formato Ld, Rd, Cd, LFE, Lsd, Rsd, Tld, Trd) no codificador, o sinal Lsd é determinado no codificador como: -N dB (Ls + Lb), e o sinal Tld é determinado no codificador como: -M dB (Tfl + Tbl)

[096] Tipicamente, N = M = 3, mas podem ser aplicados outros níveis de atenuação.

[097] Nesta configuração, uma atenuação de 3dB já é aplicada no Lsd e no Tld. Nestes exemplos, apenas os canais do lado esquerdo são descritos, enquanto os canais do lado direito são tratados de forma correspondente.

[098] Deve ser observado que a mixagem descendente (por exemplo, áudio de canal 5.1.2) é então ainda mais reduzido no codificador para, por exemplo, cinco objetos de áudio dinâmicos (210 nas Figuras 2 e 3) para reduzir a taxa de bits ainda mais.

[099] Os coeficientes de mixagem descendente relevantes 216 transmitidos no fluxo de bits, neste caso, são: • gain_tfb_to_tm: ganho superior frontal e / ou superior posterior para superior médio. • gain_t2a, gain_t2b: ganhos para os canais frontais superiores para os respectivos canais frontais e circundantes • Típico / padrão: gain_t2a mapeia para –Inf dB, gain_t2b mapeia para -3 dB, o que significa fazer mixagem descendente para os canais circundantes com -3dB • gain_t2d, gain_t2e: ganhos para canais superiores traseiros para canais frontais ou circundantes. • típico / padrão: gain_t2d mapeia para –Inf dB, gain_t2e mapeia para -3 dB, o que significa fazer a mixagem descendente para os canais surround com -3dB • gain_b4_to_b2: canais traseiros e surround para canais surround • Típico / padrão: mapeia para -3dB • típico / padrão: mapas para -3dB

[0100] No entanto, se os coeficientes de mixagem descendente acima forem aplicados diretamente para o caso em que o formato de áudio dos canais de saída 118 é 5.1, isso resultará em que os canais superiores Tfl e Tbl sejam atenuados com 6 dB na saída circundante, ou seja, M = 3 dB já aplicado no codificador e 3dB do coeficiente de mixagem descendente gain_t2b recebido no fluxo de dados. O mesmo vale para os canais inferiores Ls e Lb que também serão atenuados com 6 dB na saída circundante, ou seja, o N = 3 dB já aplicado no codificador e os 3dB do coeficiente de mixagem descendente gain_b4_to_b2 recebido no fluxo de dados. Para compensar a atenuação já feita no lado do codificador, a unidade de seleção e modificação DC 606 é configurada para, neste caso, determinar os coeficientes de mixagem descendente 608 de modo que os canais de saída sejam renderizados como: Lout = Ld + (+ M dB + ganho_t2a) Tld = L + ganho_t2a (Tfl + Tbl), e Lsout = (+ N dB + ganho_b4_to_b2) Lsd + (+ M dB + ganho_t2b) Tld = ganho_b4_to_b2 (Ls + Lb) + ganho_t2b (Tfl + Tbl).

[0101] Nesta modalidade, o decodificador seleciona gain_t2a, gain_t2b que são ganhos para o canal frontal superior para os respectivos canais frontal e circundante. Eles podem, portanto, ser preferidos em relação a gain_t2d, gain_t2e que são os ganhos para os canais superiores traseiros. Também deve ser notado que as equações acima são para transmitir a ideia de compensação de atenuação feita pelo codificador no decodificador, e que, na realidade, as equações para atingir isso seriam projetadas para garantir que, por exemplo, a conversão de ganhos / atenuações no domínio dB logarítmico em ganhos lineares é tratada corretamente.

[0102] Para alcançar o acima exposto, o decodificador precisa estar ciente da atenuação feita pelo codificador. Em algumas modalidades, o valor de N (dB) e M (dB) são indicados no fluxo de bits como metadados adicionais 602. Os metadados adicionais 602 definem, assim, informações relativas à atenuação aplicada em pelo menos um de um ou mais objetos áudio dinâmico no lado do codificador. Em outras modalidades, o decodificador é pré-configurado (em uma memória 604) com a atenuação 603 aplicada no codificador. Por exemplo, o decodificador pode estar ciente de que a atenuação de 3 dB é sempre realizada no caso de mixagem descendente de 7.1.4 (ou 5.1.4) para 5.1.2 no codificador. Nas modalidades, o decodificador está recebendo informações 602, 603 relativas a atenuação aplicada em pelo menos um dos um ou mais objetos de áudio dinâmicos em um lado do codificador. Esta informação 602, 603, em conjunto com os dados recebidos 612 indicando que tipo de mixagem descendente que foi realizado no codificador, pode ser usado para selecionar e / ou ajustar os coeficientes de mixagem descendente 216 na unidade de seleção e modificação DC 606 Os coeficientes selecionados e / ou ajustados 608 serão usados, como mencionado acima, pela unidade de cálculo de matriz de ganho 610, em conjunto com o OAMD 214 e a configuração do sinal de áudio de saída 118 para formar a segunda matriz de ganho 220.

[0103] Em outra configuração exemplificativa, o sinal de áudio original no codificador é 5.1.2 com canais frontais superiores (L, R, C, LFE, Ls, Rs, Tfl, Tfr) que é mixado para um formato 5.1.2 com canais intermediários superiores em vez disso

(Ld, Rd, Cd, LFE, Lsd, Rsd, Tld, Trd). Nesta modalidade, nenhuma atenuação é feita no codificador. No entanto, neste caso, a unidade de seleção e modificação DC 606 precisa saber qual era a configuração do sinal original no lado do codificador, a fim de selecionar os coeficientes de mixagem descendente apropriados para o sinal de saída 5.1 118. Os coeficientes de mixagem descendente relevantes 216 transmitidos no fluxo de bits neste caso são: gain_t2a, gain_t2b que são ganhos para os canais frontais superiores para os respectivos canais frontais e circundantes. A unidade de seleção e modificação DC 606 é configurada para, neste caso, determinar coeficientes de mixagem descendente 608 de modo que os canais de saída 118 sejam renderizados como: Lout = Ld + gain_t2a (Tld) = L + gain_t2a (Tfl) e Lsout = Lsd + gain_t2b (Tld) = Ls + gain_t2b (Tfl).

[0104] Outras modalidades da presente divulgação se tornarão evidentes para aquele versado na técnica após estudar a descrição acima. Mesmo que a presente descrição e as figuras divulguem modalidades e exemplos, a divulgação não se restringe a estes exemplos específicos. Podem ser feitas numerosas modificações e variações sem se afastar do escopo da presente divulgação, que é definido pelas reivindicações anexas. Quaisquer sinais de referência que apareçam nas reivindicações não devem ser entendidos como limitando seu escopo.

[0105] Além disso, as variações das modalidades divulgadas podem ser compreendidas e efetuadas pelo especialista na prática da divulgação, a partir de um estudo dos desenhos, da divulgação e das reivindicações anexas. Nas reivindicações, a palavra "compreendendo" não exclui outros elementos ou etapas, e o artigo indefinido "um" ou "uma" não exclui uma pluralidade. O mero fato de que determinadas medidas sejam citadas em reivindicações dependentes mutuamente diferentes não indica que uma combinação dessas medidas não possa ser usada com vantagem.

[0106] Os sistemas e métodos divulgados acima podem ser implementados como software, firmware, hardware ou uma combinação dos mesmos.

Em uma implementação de hardware, a divisão de tarefas entre as unidades funcionais referidas na descrição acima não corresponde necessariamente à divisão em unidades físicas; ao contrário, um componente físico pode ter múltiplas funcionalidades e uma tarefa pode ser realizada por vários componentes físicos em cooperação.

Certos componentes ou todos os componentes podem ser implementados como software executado por um processador de sinal digital ou microprocessador, ou ser implementados como hardware ou como um circuito integrado de aplicação específica.

Tal software pode ser distribuído em mídia legível por computador, que pode compreender mídia de armazenamento de computador (ou mídia não transitória) e mídia de comunicação (ou mídia transitória). Como é bem conhecido por um versado na técnica, o termo mídia de armazenamento de computador inclui mídia volátil e não volátil, removível e não removível implementada em qualquer método ou tecnologia para armazenamento de informações, tais como instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados.

A mídia de armazenamento de computador inclui, mas não está limitada a, RAM, ROM, EEPROM, memória flash ou outra tecnologia de memória, CD-ROM, discos versáteis digitais (DVD) ou outro armazenamento de disco óptico, cassetes magnéticos, fita magnética, armazenamento de disco magnético ou outros dispositivos de armazenamento magnético, ou qualquer outro meio que possa ser usado para armazenar a informação desejada e que possa ser acessado por um computador.

Além disso, é bem conhecido para aqueles versados na técnica que os meios de comunicação tipicamente incorporam instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados em um sinal de dados modulado, como uma onda portadora ou outro mecanismo de transporte e inclui qualquer meio de entrega de informações.

[0107] Vários aspectos da presente invenção podem ser apreciados a partir das seguintes modalidades de exemplo enumeradas (EEEs): EEE1. Um decodificador de áudio, compreendendo: um ou mais buffers para armazenar um fluxo de bits de áudio recebido; e um controlador acoplado a um ou mais buffers e configurado: para operar em um modo de decodificação selecionado a partir de uma pluralidade de modos de decodificação diferentes, a pluralidade de modos de decodificação diferentes compreendendo um primeiro modo de decodificação e um segundo modo de decodificação, em que do primeiro e segundo modos de decodificação, apenas o primeiro modo de decodificação permite a reconstrução paramétrica do objetos de áudio dinâmicos individuais de grupos de objetos de áudio dinâmicos; e quando o modo de decodificação selecionado é o segundo modo de decodificação: acessar o fluxo de bits de áudio recebido; determinar se o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos; e responsivo pelo menos a determinar que o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos, para mapear pelo menos um dos um ou mais objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto-falante predefinida.

[0108] EEE2. O decodificador de áudio de EEE1, em que quando o modo de decodificação selecionado é o segundo modo de decodificação, o controlador é ainda configurado para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio.

[0109] EEE3. O decodificador de áudio de EEE2, em que o fluxo de bits de áudio compreende um primeiro conjunto de coeficientes de mixagem descendente, em que o controlador é configurado para utilizar o primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para o conjunto de canais de saída de áudio.

[0110] EEE4. O decodificador de áudio de EEE3, em que o controlador é ainda configurado para receber informações relativas à atenuação aplicada em pelo menos um dos um ou mais objetos de áudio dinâmicos em um lado do codificador, em que o controlador é configurado para modificar o primeiro conjunto de coeficientes de mixagem descendente de acordo ao utilizar o primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio.

[0111] EEE5. O decodificador de áudio de EEE3 ou EEE4, em que o controlador é ainda configurado para receber informações relativas a uma operação de mixagem descendente realizada em um lado do codificador, em que as informações definem uma configuração de canal original de um sinal de áudio, em que a operação de mixagem descendente resulta em mixagem descendente do sinal de áudio para um ou mais objetos de áudio dinâmicos, em que o controlador é configurado para selecionar um subconjunto do primeiro conjunto de coeficientes de mixagem descendente com base nas informações relativas às informações de mixagem descendente, em que a utilização do primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de os canais de saída de áudio compreende a utilização do subconjunto do primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio.

[0112] EEE6. O decodificador de áudio de qualquer um dos EEE2 a EEE5,

em que o controlador é configurado para realizar o mapeamento de pelo menos um dos um ou mais objetos de áudio dinâmicos e a renderização do conjunto de objetos de áudio estáticos em um cálculo combinado usando uma único matriz.

[0113] EEE7. O decodificador de áudio de qualquer um dos EEE2 a EEE5, em que o controlador é configurado para realizar o mapeamento de pelo menos um dos um ou mais objetos de áudio dinâmicos e a renderização do conjunto de objetos de áudio estáticos em cálculos individuais usando as respectivas matrizes.

[0114] EEE8. O decodificador de áudio de qualquer EEE anterior, em que o fluxo de bits de áudio recebido compreende metadados que identificam pelo menos um dos um ou mais objetos de áudio dinâmicos.

[0115] EEE9. O decodificador de áudio de EEE8, em que os metadados indicam que N de um ou mais objetos de áudio dinâmicos devem ser mapeados para o conjunto de objetos de áudio estáticos, em que, em resposta aos metadados, o controlador é configurado para mapear, para o conjunto de objetos de áudio estáticos, N de um ou mais objetos de áudio dinâmicos selecionados a partir de um local predefinido ou locais predefinidos no fluxo de bits de áudio recebido.

[0116] EEE10. O decodificador de áudio de EEE9, em que um ou mais objetos de áudio dinâmicos incluídos no fluxo de bits de áudio recebido compreende mais de N objetos de áudio dinâmicos.

[0117] EEE11. O decodificador de áudio de EEE10, em que um ou mais objetos de áudio dinâmicos incluídos no fluxo de bits de áudio recebido compreende os N objetos de áudio dinâmicos e K objetos de áudio dinâmicos adicionais, em que o controlador é configurado para renderizar o conjunto de objetos de áudio estáticos e K objetos de áudio adicionais para um conjunto de canais de saída de áudio.

[0118] EEE12. O decodificador de áudio de qualquer um dos EEE9 a EEE11, em que, em resposta aos metadados, o controlador é configurado para mapear, para o conjunto de objetos de áudio estáticos, o primeiro N de um ou mais objetos de áudio dinâmicos no fluxo de bits de áudio recebido.

[0119] EEE13. O decodificador de áudio de qualquer um dos EEE9 a EEE12, em que o conjunto de objetos de áudio estáticos consiste em M objetos de áudio estáticos e M> N> 0.

[0120] EEE14. O decodificador de áudio de qualquer EEE anterior, em que o fluxo de bits de áudio recebido compreende ainda um ou mais outros objetos de áudio estáticos.

[0121] EEE15. O decodificador de áudio de EEE2, ou qualquer EEE anterior dependente de EEE2, em que o conjunto de canais de saída de áudio é um de: canais de saída estéreo; canais de saída de som circundante 5.1, canais de saída de som imersivos 5.1.2; ou canais de saída de som imersivos 5.1.4.

[0122] EEE16. O decodificador de áudio de qualquer EEE anterior, em que a configuração de alto-falante predefinida é uma configuração de alto-falante 5.0.2.

[0123] EEE17. Método em um decodificador, compreendendo as etapas de: receber um fluxo de bits de áudio e armazenar o fluxo de bits de áudio recebido em um ou mais buffers, selecionar um modo de decodificação de uma pluralidade de diferentes modos de decodificação, a pluralidade de diferentes modos de decodificação compreendendo um primeiro modo de decodificação e um segundo modo de decodificação, em que do primeiro e segundo modos de decodificação, apenas o primeiro modo de decodificação permite a reconstrução paramétrica de objetos de áudio dinâmicos individuais de grupos de objetos de áudio dinâmicos; operar um controlador acoplado a um ou mais buffers no modo de decodificação selecionado, quando o modo de decodificação selecionado é o segundo modo de decodificação, o método compreende ainda as etapas de:

acessar, pelo controlador, o fluxo de bits de áudio recebido; determinar, pelo controlador, se o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos; e responsivo pelo menos a determinar que o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos, mapear, pelo controlador, pelo menos um de um ou mais objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondentes a uma configuração de alto-falante predefinida.

[0124] EEE18. Um codificador de áudio que compreende: um componente receptor configurado para receber um conjunto de objetos de áudio; um componente de mixagem descendente configurado para mixar descendentemente o conjunto de objetos de áudio para um ou mais objetos de áudio dinâmicos mixados descendentemente, em que pelo menos um dos um ou mais objetos de áudio dinâmicos mixados descendentemente se destina a, em pelo menos uma de uma pluralidade de modos de decodificação em um lado do decodificador, ser mapeado para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto- falante predefinida; um coeficiente de mixagem descendente fornecendo componente configurado para determinar um primeiro conjunto de coeficientes de mixagem descendente a ser utilizado para renderizar o conjunto de objetos de áudio estáticos correspondentes à configuração de alto-falante predefinida para um conjunto de canais de saída de áudio no lado do decodificador; um multiplexador de fluxo de bits configurado para multiplexar o pelo menos um objeto de áudio dinâmico mixado descendentemente e o primeiro conjunto de coeficientes de mixagem descendente em um fluxo de bits de áudio.

[0125] EEE19. O codificador de EEE18, em que o componente de mixagem descendente ainda é configurado para fornecer metadados que identificam pelo menos um de um ou mais objetos de áudio dinâmicos mixados descendentemente para o multiplexador de fluxo de bits, em que o multiplexador de fluxo de bits é ainda configurado para multiplexar os metadados no fluxo de bits de áudio.

[0126] EEE20. O codificador de qualquer um dos EEE18 a EEE19, em que o codificador é ainda adaptado para determinar informações relativas à atenuação aplicada em pelo menos um dos um ou mais objetos de áudio dinâmicos ao fazer a mixagem descendente do conjunto de objetos de áudio para um ou mais objetos de áudio dinâmicos mixados descendentemente, em que o multiplexador de fluxo de bits é ainda configurado para multiplexar as informações relativas à atenuação no fluxo de bits de áudio.

[0127] EEE21. O codificador de qualquer um dos EEE18 a EEE20, em que o multiplexador de fluxo de bits é ainda configurado para multiplexar informações relativas a uma configuração de canal dos objetos de áudio recebidos pelo componente receptor no fluxo de bits de áudio.

[0128] EEE22. Método em um codificador, compreendendo as etapas de: receber um conjunto de objetos de áudio; mixar descendentemente o conjunto de objetos de áudio para um ou mais objetos de áudio dinâmicos mixados descendentemente, em que pelo menos um dos um ou mais objetos de áudio dinâmicos mixados descendentemente se destina a, em pelo menos um de uma pluralidade de modos de decodificação em um lado do decodificador, ser mapeado para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto- falante predefinida; determinar um primeiro conjunto de coeficientes de mixagem descendente a ser utilizado para renderizar o conjunto de objetos de áudio estáticos correspondentes à configuração de alto-falante predefinida para um conjunto de canais de saída de áudio no lado do decodificador; e multiplexar o pelo menos um objeto de áudio dinâmico mixado descendentemente e o primeiro conjunto de coeficientes de mixagem descendente em um fluxo de bits de áudio.

EEE23. Um produto de programa de computador que compreende um meio de armazenamento legível por computador com instruções adaptadas para realizar o método de qualquer um de EEE17 ou EEE22 quando executado por um dispositivo com capacidade de processamento.

Claims

REIVINDICAÇÕES

1. Decodificador de áudio, CARACTERIZADO pelo fato de que compreende: um ou mais buffers para armazenar um fluxo de bits de áudio recebido; e um controlador acoplado a um ou mais buffers e configurado: para operar em um modo de decodificação selecionado de uma pluralidade de modos de decodificação diferentes para decodificar o fluxo de bits de áudio recebido em um ou mais objetos de áudio dinâmicos ou estáticos, um objeto de áudio dinâmico ou estático compreendendo um sinal de áudio associado a uma posição espacial estática ou com tempo variável, a pluralidade de diferentes modos de decodificação compreendendo um primeiro modo de decodificação e um segundo modo de decodificação, em que do primeiro e segundo modos de decodificação, apenas o primeiro modo de decodificação permite a decodificação completa de um ou mais objetos de áudio dinâmicos codificados no fluxo de bits, em objetos de áudio individuais reconstruídos; e quando o modo de decodificação selecionado é o segundo modo de decodificação: acessar o fluxo de bits de áudio recebido; determinar se o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos; e responsivo pelo menos a determinar que o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos, para mapear pelo menos um dos um ou mais objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto-falante imersivo predefinida.

2. Decodificador de áudio, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que quando o modo de decodificação selecionado é o segundo modo de decodificação, o controlador é ainda configurado para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio.

3. Decodificador de áudio, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que o fluxo de bits de áudio compreende um primeiro conjunto de coeficientes de mixagem descendente, em que o controlador é configurado para utilizar o primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para o conjunto de canais de saída de áudio.

4. Decodificador de áudio, de acordo com a reivindicação 3, CARACTERIZADO pelo fato de que o controlador é ainda configurado para receber informações relativas à atenuação aplicada em pelo menos um dos um ou mais objetos de áudio dinâmicos, em um lado do codificador, em que o controlador é configurado para modificar o primeiro conjunto de coeficientes de mixagem descendente de acordo, ao utilizar o primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio.

5. Decodificador de áudio, de acordo com as reivindicações 3 ou 4, CARACTERIZADO pelo fato de que o controlador é ainda configurado para receber informações relativas a uma operação de mixagem descendente realizada em um lado do codificador, em que as informações definem uma configuração de canal original de um sinal de áudio, em que a operação de mixagem descendente resulta em mixar descendentemente o sinal de áudio para um ou mais objetos de áudio dinâmicos, em que o controlador é configurado para selecionar um subconjunto do primeiro conjunto de coeficientes de mixagem descendente com base nas informações relativas às informações de mixagem descendente, em que a utilização do primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio compreende a utilização do subconjunto do primeiro conjunto de coeficientes de mixagem descendente para renderizar o conjunto de objetos de áudio estáticos para um conjunto de canais de saída de áudio.

6. Decodificador de áudio, de acordo com qualquer uma das reivindicações 2 a 5, CARACTERIZADO pelo fato de que o controlador é configurado para realizar o mapeamento de pelo menos um dentre um ou mais objetos de áudio dinâmicos e a renderização do conjunto de objetos de áudio estáticos em um cálculo combinado usando uma única matriz.

7. Decodificador de áudio, de acordo com qualquer uma das reivindicações 2 a 5, CARACTERIZADO pelo fato de que o controlador é configurado para realizar o mapeamento de pelo menos um dentre um ou mais objetos de áudio dinâmicos e a renderização do conjunto de objetos de áudio estáticos em cálculos individuais usando matrizes respectivas.

8. Decodificador de áudio, de acordo com qualquer uma das reivindicações precedentes, CARACTERIZADO pelo fato de que o fluxo de bits de áudio recebido compreende metadados que identificam pelo menos um de um ou mais objetos de áudio dinâmicos.

9. Decodificador de áudio, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que os metadados indicam que N de um ou mais objetos de áudio dinâmicos devem ser mapeados para o conjunto de objetos de áudio estáticos, em que, em resposta aos metadados, o controlador é configurado para mapear, para o conjunto de objetos de áudio estáticos, N de um ou mais objetos de áudio dinâmicos selecionados de um local predefinido ou locais predefinidos no fluxo de bits de áudio recebido.

10. Decodificador de áudio, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que um ou mais objetos de áudio dinâmicos incluídos no fluxo de bits de áudio recebido compreendem mais do que N objetos de áudio dinâmicos.

11. Decodificador de áudio, de acordo com a reivindicação 10, CARACTERIZADO pelo fato de que um ou mais objetos de áudio dinâmicos incluídos no fluxo de bits de áudio recebidos compreendem os N objetos de áudio dinâmicos e K objetos de áudio dinâmicos adicionais, em que o controlador é configurado para renderizar o conjunto de objetos de áudio estáticos e o K objetos de áudio adicionais para um conjunto de canais de saída de áudio.

12. Decodificador de áudio, de acordo com qualquer uma das reivindicações 9 a 11, CARACTERIZADO pelo fato de que, em resposta aos metadados, o controlador é configurado para mapear, para o conjunto de objetos de áudio estáticos, o primeiro N de um ou mais objetos de áudio dinâmicos no fluxo de áudio recebido.

13. Decodificador de áudio, de acordo com qualquer uma das reivindicações 9 a 12, CARACTERIZADO pelo fato de que o conjunto de objetos de áudio estáticos consiste em M objetos de áudio estáticos e M> N> 0.

14. Decodificador de áudio, de acordo com qualquer uma das reivindicações precedentes, CARACTERIZADO pelo fato de que o fluxo de bits de áudio recebido compreende ainda um ou mais outros objetos de áudio estáticos.

15. Decodificador de áudio, de acordo com qualquer uma das reivindicações precedentes, na medida em que dependente da reivindicação 2, CARACTERIZADO pelo fato de que o conjunto de canais de saída de áudio é um de: canais de saída estéreo; canais de saída de som circundante 5.1, canais de saída de som imersivo

5.1.2; ou canais de saída de som imersivos. 5.1.4.

16. Decodificador de áudio, de acordo com qualquer uma das reivindicações precedentes, CARACTERIZADO pelo fato de que a configuração de alto-falante imersiva predefinida é uma configuração de alto-falante 5.0.2.

17. Método em um decodificador, CARACTERIZADO pelo fato de que compreende as etapas de: receber um fluxo de bits de áudio e armazenar o fluxo de bits de áudio recebido em um ou mais buffers, selecionar um modo de decodificação de uma pluralidade de modos de decodificação diferentes para decodificar o fluxo de bits de áudio recebido em um ou mais objetos de áudio estáticos ou dinâmicos, um objeto de áudio estático ou dinâmico compreendendo um sinal de áudio associado a uma posição espacial variável no tempo ou estática, a pluralidade de modos de decodificação diferentes compreendendo um primeiro modo de decodificação e um segundo modo de decodificação, em que do primeiro e segundo modos de decodificação, apenas o primeiro modo de decodificação permite a decodificação completa de um ou mais objetos de áudio dinâmico codificados no fluxo de bits, em objetos de áudio individuais reconstruídos; operar um controlador acoplado a um ou mais buffers no modo de decodificação selecionado, quando o modo de decodificação selecionado é o segundo modo de decodificação, o método compreende ainda as etapas de: acessar, pelo controlador, o fluxo de bits de áudio recebido; determinar, pelo controlador, se o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos; e responsivo pelo menos a determinar que o fluxo de bits de áudio recebido inclui um ou mais objetos de áudio dinâmicos, mapear, pelo controlador, de pelo menos um de um ou mais objetos de áudio dinâmicos para um conjunto de objetos de áudio estáticos, o conjunto de objetos de áudio estáticos correspondentes para uma configuração de alto-falante imersiva predefinida.

18. Codificador de áudio, CARACTERIZADO pelo fato de que compreende:

um componente receptor configurado para receber um conjunto de objetos de áudio; um componente de mixagem descendente configurado para mixar descendentemente o conjunto de objetos de áudio para um ou mais objetos de áudio dinâmicos mixados descendentemente, em que pelo menos um dos um ou mais objetos de áudio dinâmicos mixados descendentemente se destina a, em pelo menos um de uma pluralidade de modos de decodificação em um lado do decodificador, ser mapeado para um conjunto de objetos de áudio estáticos, os objetos de áudio estáticos compreendendo o sinal de áudio associado a posições espaciais estáticas, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto-falante imersiva predefinida; um coeficiente de mixagem descendente fornecendo componente configurado para determinar um primeiro conjunto de coeficientes de mixagem descendente a ser utilizado para renderizar o conjunto de objetos de áudio estáticos correspondentes à configuração de alto-falante imersivo predefinido para um conjunto de canais de saída de áudio no lado do decodificador; um multiplexador de fluxo de bits configurado para multiplexar o pelo menos um objeto de áudio dinâmico mixado descendentemente e o primeiro conjunto de coeficientes de mixagem descendente em um fluxo de bits de áudio.

19. Codificador, de acordo com a reivindicação 18, CARACTERIZADO pelo fato de que o componente de mixagem descendente ainda é configurado para fornecer metadados que identificam pelo menos um dentre um ou mais objetos de áudio dinâmicos mixados descendentemente para o multiplexador de fluxo de bits, em que o multiplexador de fluxo de bits é ainda configurado para multiplexar os metadados no fluxo de bits de áudio.

20. Codificador, de acordo com qualquer uma das reivindicações 18 ou 19, CARACTERIZADO pelo fato de que o codificador é ainda adaptado para determinar informações relativas à atenuação aplicada em pelo menos um dos um ou mais objetos de áudio dinâmicos ao fazer a mixagem descendente do conjunto de objetos de áudio para um ou mais objetos de áudio dinâmicos mixados descendentemente, em que o multiplexador de fluxo de bits é ainda configurado para multiplexar as informações relativas à atenuação no fluxo de bits de áudio.

21. Codificador, de acordo com qualquer uma das reivindicações 18 a 20, CARACTERIZADO pelo fato de que o multiplexador de fluxo de bits é configurado adicionalmente para multiplexar informações relativas a uma configuração de canal dos objetos de áudio recebidos pelo componente receptor no fluxo de bits de áudio.

22. Método em um codificador, CARACTERIZADO pelo fato de que compreende as etapas de: receber um conjunto de objetos de áudio; mixar descendentemente o conjunto de objetos de áudio para um ou mais objetos de áudio dinâmicos mixados descendentemente, em que pelo menos um dos um ou mais objetos de áudio dinâmicos mixados descendentemente se destina a, em pelo menos um de uma pluralidade de modos de decodificação em um lado do decodificador, ser mapeado para um conjunto de objetos de áudio estáticos, os objetos de áudio estáticos compreendendo sinais de áudio associados a posições espaciais estáticas, o conjunto de objetos de áudio estáticos correspondendo a uma configuração de alto-falante imersiva predefinida; determinar um primeiro conjunto de coeficientes de mixagem descendente a ser utilizado para renderizar o conjunto de objetos de áudio estáticos correspondentes à configuração de alto-falante imersiva predefinida para um conjunto de canais de saída de áudio no lado do decodificador; e multiplexar o pelo menos um objeto de áudio dinâmico mixado descendentemente e o primeiro conjunto de coeficientes de mixagem descendente em um fluxo de bits de áudio.

23. Produto de programa de computador, CARACTERIZADO pelo fato de que compreende um meio de armazenamento legível por computador com instruções adaptadas para realizar o método de qualquer uma das reivindicações 17 a 22, quando executado por um dispositivo com capacidade de processamento.