BR112020019890A2

BR112020019890A2 - Métodos, aparelho e sistemas para sinal pré-renderizado para renderização de áudio

Info

Publication number: BR112020019890A2
Application number: BR112020019890-0A
Authority: BR
Inventors: Leon Terentiv; Christof FERSCH; Daniel Fischer
Original assignee: Dolby International Ab
Priority date: 2018-04-11
Filing date: 2019-04-08
Publication date: 2021-01-05
Also published as: JP2021521681A; CN111955020B; WO2019197349A1; US20210120360A1; JP7371003B2; RU2020132974A; CN115334444A; KR20240033290A; KR102643006B1; EP3777245A1; CN115346539A; CN115346538A; KR20200140875A; JP2024012333A; US11540079B2; CN111955020A

Abstract

a presente divulgação refere-se a um método para decodificação de conteúdo de cena de áudio a partir de um fluxo de bits por um decodificador que inclui um renderizador de áudio com uma ou mais ferramentas de renderização. o método compreende receber o fluxo de bits, decodificar uma descrição de uma cena de áudio a partir do fluxo de bits, determinar um ou mais elementos de áudio eficazes a partir da descrição da cena de áudio, determinar informações de elemento de áudio eficaz indicativas de posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes elementos a partir da descrição da cena de áudio, decodificar uma indicação de modo de renderização a partir do fluxo de bits, em que a indicação de modo de renderização é indicativa de se os um ou mais elementos de áudio eficazes representam um campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando um modo de renderização predeterminado, e em resposta à indicação de modo de renderização indicando que os um ou mais elementos de áudio eficazes representam o campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando o modo de renderização predeterminado, renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado, em que renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado leva em consideração as informações de elemento de áudio eficaz, e em que o modo de renderização predeterminado define uma configuração predeterminada das ferramentas de renderização para controlar um impacto de um ambiente acústico da cena de áudio na saída de renderização.

Description

“MÉTODOS, APARELHO E SISTEMAS PARA SINAL PRÉ-RENDERIZADO PARA RENDERIZAÇÃO DE ÁUDIO” REFERÊNCIA CRUZADA PARA APLICATIVOS RELACIONADOS

[001] Este pedido reivindica prioridade dos seguintes pedidos prioritários: pedido provisório US 62/656,163 (referência: D18040USP1), depositado em 11 de abril de 2018 e pedido provisório US 62/755.957 (referência: D18040USP2), depositado em 05 de novembro de 2018, que são aqui incorporados por referência.

CAMPO TÉCNICO

[002] A presente divulgação se refere a prover um aparelho, sistema e método para renderização de áudio.

ANTECEDENTES

[003] A Fig. 1 ilustra um codificador exemplar que é configurado para processar metadados e extensões de renderizador de áudio.

[004] Em alguns casos, renderizadores 6DoF não são capazes de reproduzir o campo sonoro desejado do criador de conteúdo em algumas posições (regiões, trajetórias) no espaço da realidade virtual/realidade aumentada/realidade mista (VR/AR/MR) porque há:

1. metadados insuficientes descrevendo fontes sonoras e ambiente VR/AR/MR; e

2. capacidades limitadas de renderizadores 6DoF e recursos.

[005] Certos renderizadores 6DoF (que criam campos sonoros com base apenas em sinais de fonte de áudio original e uma descrição de ambiente VR/AR/MR) podem falhar em reproduzir o sinal pretendido na posição (s) desejada devido aos seguintes motivos:

1.1) limitações de taxa de bits para informações parametrizadas (metadados) que descrevem o ambiente VR/AR/MR e os sinais de áudio correspondentes;

1.2) indisponibilidade de dados para renderização 6DoF inversa (por exemplo, as gravações de referência em um ou vários pontos de interesse estão disponíveis, mas não se sabe como recriar este sinal pelo renderizador 6DoF e qual entrada de dados é necessária para isso) ;

2.1) intenção artística que pode diferir da saída padrão (por exemplo, consistente com lei física) do renderizador 6DoF (por exemplo, semelhante ao conceito de "mixagem descendente artística"); e

2.2) limitações de capacidade (por exemplo, taxa de bits, complexidade, atraso, restrições etc.) na implementação do decodificador (renderizador 6DoF).

[006] Ao mesmo tempo, pode-se exigir que a reprodução de áudio de alta qualidade de áudio (e/ou fidelidade ao sinal de referência predefinido) (ou seja, saída do renderizador 6DoF) para determinada posição (s) no espaço VR/AR/MR. Por exemplo, isso pode ser necessário para uma restrição de compatibilidade 3DoF/3DoF+ ou uma demanda de compatibilidade para diferentes modos de processamento (por exemplo, entre o modo "linha de base" e o modo "baixa potência" que não leva em consideração a influência da geometria VR/AR/MR) de renderizadores 6DoF.

[007] Assim, há uma necessidade por métodos para codificação/decodificação e codificadores/decodificadores correspondentes que aprimorem a reprodução do campo sonoro desejado pelo criador de conteúdo no espaço VR/AR/MR.

SUMÁRIO

[008] Um aspecto da divulgação se refere a um método para decodificar o conteúdo da cena de áudio de um fluxo de bits por um decodificador que inclui um renderizador de áudio com uma ou mais ferramentas de renderização O método pode incluir recebimento do fluxo de bits. O método pode adicionalmente incluir decodificação de uma descrição de uma cena de áudio do fluxo de bits. A cena de áudio pode incluir um ambiente acústico, como um ambiente acústico VR/AR/MR, por exemplo. O método pode adicionalmente incluir determinar os um ou mais elementos de áudio eficazes a partir da descrição da cena de áudio. O método pode adicionalmente incluir determinação de informações de elemento de áudio eficaz indicativas de posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes a partir da descrição da cena de áudio. O método pode adicionalmente incluir decodificação de uma indicação de modo de renderização do fluxo de bits. A indicação de modo de renderização pode ser indicativa de se os um ou mais elementos de áudio eficazes representam um campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando um modo de renderização predeterminado. O método pode adicionalmente incluir, em resposta à indicação de modo de renderização indicando que os um ou mais elementos de áudio eficazes representam o campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando o modo de renderização predeterminado, renderizar o os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado. Renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado pode levar em consideração as informações de elemento de áudio eficaz. O modo de renderização predeterminado pode definir uma configuração predeterminada das ferramentas de renderização para controlar um impacto de um ambiente acústico da cena de áudio na saída de renderização. Os elementos de áudio eficazes podem ser renderizados para uma posição de referência, por exemplo. O modo de renderização predeterminado pode ativar ou desativar certas ferramentas de renderização. Além disso, o modo de renderização predeterminado pode melhorar a acústica para os um ou mais elementos de áudio eficazes (por exemplo, adicionar acústica artificial).

[009] Os os um ou mais elementos de áudio eficazes, por assim dizer, encapsulam um impacto do ambiente de áudio, como eco, reverberação e oclusão acústica, por exemplo. Isso permite o uso de um modo de renderização particularmente simples (isto é, o modo de renderização predeterminado) no decodificador. Ao mesmo tempo, a intenção artística pode ser preservada e o usuário (ouvinte) pode ser provido com uma rica experiência acústica imersiva, mesmo para decodificadores de baixa potência. Além disso, as ferramentas de renderização do decodificador podem ser configuradas individualmente com base na indicação de modo de renderização, que oferece controle adicional de efeitos acústicos. O encapsulamento do impacto do ambiente acústico finalmente permite a compressão eficiente de metadados que indicam o ambiente acústico.

[010] Em algumas modalidades, o método pode adicionalmente incluir a obtenção de informações de posição de ouvinte indicativas de uma posição da cabeça de um ouvinte no ambiente acústico e/ou informações de orientação de ouvinte indicativas de uma orientação da cabeça do ouvinte no ambiente acústico. Um decodificador correspondente pode incluir uma interface para receber as informações de posição de ouvinte e/ou informações de orientação de ouvinte. Então, a renderização dos um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado pode ainda levar em consideração as informações de posição de ouvinte e/ou as informações de orientação de ouvinte. Ao se referir a essas informações adicionais, a experiência acústica do usuário pode se tornar ainda mais envolvente e significativa.

[011] Em algumas modalidades, as informações de elemento de áudio eficaz podem incluir informações indicativas dos respectivos padrões de radiação sonora dos um ou mais elementos de áudio eficazes. Renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado pode, então, levar em consideração as informações indicativas dos respectivos padrões de radiação sonora dos um ou mais elementos de áudio eficazes. Por exemplo, um fator de atenuação pode ser calculado com base no padrão de radiação sonora de um respectivo elemento de áudio eficaz e um arranjo relativo entre o respectivo elemento de áudio eficaz e uma posição de ouvinte. Ao levar em consideração os padrões de radiação, a experiência acústica do usuário pode se tornar ainda mais envolvente e significativa.

[012] Em algumas modalidades, renderizar os um ou mais elementos de áudio usando o modo de renderização predeterminado pode aplicar modelagem de atenuação sonora de acordo com as respectivas distâncias entre uma posição de ouvinte e as posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes. Ou seja, o modo de renderização predeterminado pode não considerar quaisquer elementos acústicos no ambiente acústico e aplicar (apenas) modelagem de atenuação sonora (no espaço vazio). Isso define um modo de renderização simples que pode ser aplicado até mesmo em decodificadores de baixa potência. Além disso, a modelagem de diretividade sonora pode ser aplicada, por exemplo, com base em padrões de radiação sonora dos um ou mais elementos de áudio eficazes.

[013] Em algumas modalidades, pelo menos dois elementos de áudio eficazes podem ser determinados a partir da descrição da cena de áudio. Então, a indicação de modo de renderização pode indicar um respectivo modo de renderização predeterminado para cada um dos pelo menos dois elementos de áudio eficazes. Além disso, o método pode incluir renderizar os pelo menos dois elementos de áudio eficazes usando seus respectivos modos de renderização predeterminados. Renderizar cada elemento de áudio eficaz usando seu respectivo modo de renderização predeterminado pode levar em consideração as informações de elemento de áudio eficaz para esse elemento de áudio eficaz. Além disso, o modo de renderização predeterminado para esse elemento de áudio eficaz pode definir uma respectiva configuração predeterminada das ferramentas de renderização para controlar um impacto de um ambiente acústico da cena de áudio na saída de renderização para esse elemento de áudio eficaz. Desse modo, controle adicional sobre os efeitos acústicos que são aplicados a elementos de áudio eficazes individuais pode ser provido, permitindo uma correspondência muito próxima à intenção artística do criador de conteúdo.

[014] Em algumas modalidades, o método pode adicionalmente incluir determinar os um ou mais elementos de áudio originais a partir da descrição da cena de áudio. O método pode adicionalmente incluir determinar as informações de elemento de áudio indicativas de posições de elementos de áudio dos um ou mais elementos de áudio da descrição da cena de áudio. O método pode adicionalmente incluir renderizar os um ou mais elementos de áudio usando um modo de renderização para os um ou mais elementos de áudio que é diferente do modo de renderização predeterminado usado para os um ou mais elementos de áudio eficazes. Renderizar os um ou mais elementos de áudio usando o modo de renderização para os um ou mais elementos de áudio pode levar em consideração as informações de elemento de áudio. A referida renderização pode ainda levar em consideração o impacto do ambiente acústico na saída de renderização. Consequentemente, elementos de áudio eficazes que encapsulam o impacto do ambiente acústico podem ser renderizados usando, por exemplo, o modo de renderização simples, enquanto os elementos de áudio (originais) podem ser renderizados usando um modo de renderização mais sofisticado, por exemplo, de referência.

[015] Em algumas modalidades, o método pode adicionalmente incluir obtenção de informações de área de posição de ouvinte indicativas de uma área de posição de ouvinte para a qual o modo de renderização predeterminado deve ser usado. A informações de área de posição de ouvinte pode ser codificada no fluxo de bits, por exemplo. Desse modo, pode ser assegurado que o modo de renderização predeterminado seja usado apenas para aquelas áreas de posição de ouvinte para as quais o elemento de áudio eficaz provê uma representação significativa da cena de áudio original (por exemplo, dos elementos de áudio originais).

[016] Em algumas modalidades, o modo de renderização predeterminado indicado pela indicação de modo de renderização pode depender da posição de ouvinte. Além disso, o método pode incluir renderizar os um ou mais elementos de áudio eficazes usando aquele modo de renderização predeterminado que é indicado pela indicação de modo de renderização para a área de posição de ouvinte indicada pelas informações de área de posição de ouvinte. Ou seja, a indicação de modo de renderização pode indicar diferentes modos de renderização (predeterminados) para diferentes áreas de posição de ouvinte.

[017] Outro aspecto da divulgação se refere a um método para geração de conteúdo de cena de áudio. O método pode incluir obtenção dos um ou mais elementos de áudio que representam sinais capturados a partir de uma cena de áudio. O método pode adicionalmente incluir obtenção de informações de elemento de áudio eficaz indicativas de posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes a serem gerados. O método pode adicionalmente incluir determinação dos um ou mais elementos de áudio eficazes dos um ou mais elementos de áudio que representam os sinais capturados pela aplicação de modelagem de atenuação sonora de acordo com as distâncias entre uma posição na qual os sinais capturados foram capturados e as posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes.

[018] Por este método, o conteúdo da cena de áudio pode ser gerado que, quando renderizado para uma posição de referência ou posição de captura, produz uma aproximação perceptivamente próxima do campo sonoro que se originaria da cena de áudio original. Além disso, no entanto, o conteúdo da cena de áudio pode ser renderizado para posições de ouvinte que são diferentes da posição de referência ou da posição de captura, permitindo assim uma experiência acústica imersiva.

[019] Outro aspecto da divulgação se refere a um método para codificação de conteúdo de cena de áudio em um fluxo de bits. O método pode incluir recebimento de uma descrição de uma cena de áudio. A cena de áudio pode incluir um ambiente acústico e os um ou mais elementos de áudio nas respectivas posições dos elementos de áudio. O método pode adicionalmente incluir determinação dos um ou mais elementos de áudio eficazes nas respectivas posições de elemento de áudio eficaz a partir dos um ou mais elementos de áudio. Esta determinação pode ser realizada de tal maneira que renderizar os um ou mais elementos de áudio eficazes em suas respectivas posições de elemento de áudio eficaz para uma posição de referência usando um modo de renderização que não leva em consideração um impacto do ambiente acústico na saída de renderização (por exemplo, que aplica modelagem de atenuação de distância no espaço vazio) produz uma aproximação psicoacústica de um campo sonoro de referência na posição de referência que resultaria da renderização dos os um ou mais elementos de áudio em suas respectivas posições de elemento de áudio para a posição de referência usando um modo de renderização de referência que leva em consideração o impacto do ambiente acústico na saída de renderização. O método pode adicionalmente incluir geração de informações de elemento de áudio eficaz indicativas das posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes. O método pode adicionalmente incluir gerar uma indicação de modo de renderização que indica que os um ou mais elementos de áudio eficazes representam um campo sonoro obtido a partir de elementos de áudio pré- renderizados e deve ser renderizado usando um modo de renderização predeterminado que define uma configuração predeterminada de ferramentas de renderização de um decodificador para controlar um impacto do ambiente acústico na saída de renderização no decodificador. O método pode adicionalmente incluir codificação dos um ou mais elementos de áudio, as posições dos elementos de áudio, os um ou mais elementos de áudio eficazes, as informações de elemento de áudio eficaz e a indicação de modo de renderização no fluxo de bits.

[020] Os os um ou mais elementos de áudio eficazes, por assim dizer, encapsulam um impacto do ambiente de áudio, tais como eco, reverberação e oclusão acústica, por exemplo. Isso permite o uso de um modo de renderização particularmente simples (isto é, o modo de renderização predeterminado) no decodificador. Ao mesmo tempo, a intenção artística pode ser preservada e o usuário (ouvinte) pode receber uma rica experiência acústica imersiva, mesmo para decodificadores de baixa potência. Além disso, as ferramentas de renderização do decodificador podem ser configuradas individualmente com base na indicação de modo de renderização, que oferece controle adicional de efeitos acústicos. O encapsulamento do impacto do ambiente acústico finalmente permite a compressão eficiente de metadados que indicam o ambiente acústico.

[021] Em algumas modalidades, o método pode adicionalmente incluir obtenção de informações de posição de ouvinte indicativas de uma posição da cabeça de um ouvinte no ambiente acústico e/ou informações de orientação de ouvinte indicativas de uma orientação da cabeça do ouvinte no ambiente acústico. O método pode adicionalmente incluir codificação das informações de posição de ouvinte e/ou das informações de orientação de ouvinte no fluxo de bits.

[022] Em algumas modalidades, as informações de elemento de áudio eficaz podem ser geradas para incluir informações indicativas dos respectivos padrões de radiação sonora dos um ou mais elementos de áudio eficazes.

[023] Em algumas modalidades, pelo menos dois elementos de áudio eficazes podem ser gerados e codificados no fluxo de bits. Então, a indicação de modo de renderização pode indicar um respectivo modo de renderização predeterminado para cada um dos pelo menos dois elementos de áudio eficazes.

[024] Em algumas modalidades, o método pode adicionalmente incluir obtenção de informações de área de posição de ouvinte indicativas de uma área de posição de ouvinte para a qual o modo de renderização predeterminado deve ser usado. O método pode adicionalmente incluir codificação das informações de área de posição de ouvinte no fluxo de bits.

[025] Em algumas modalidades, o modo de renderização predeterminado indicado pela indicação de modo de renderização pode depender da posição de ouvinte tal que a indicação de modo de renderização indique um respectivo modo de renderização predeterminado para cada uma de uma pluralidade de posições de ouvinte.

[026] Outro aspecto da divulgação se refere a um decodificador de áudio incluindo um processador acoplado a uma memória que armazena instruções para o processador. O processador pode ser adaptado para executar o método de acordo com os respectivos aspectos ou modalidades acima.

[027] Outro aspecto da divulgação se refere a um codificador de áudio incluindo um processador acoplado a uma memória que armazena instruções para o processador. O processador pode ser adaptado para executar o método de acordo com os respectivos aspectos ou modalidades acima.

[028] Outros aspectos da divulgação se referem a programas de computador correspondentes e mídia de armazenamento legível por computador.

[029] Será apreciado que etapas do método e recursos de aparelho podem ser trocados de muitas maneiras. Em particular, os detalhes do método divulgado podem ser implementados como um aparelho adaptado para executar algumas ou todas ou as etapas do método e vice-versa, como o especialista irá apreciar. Em particular, entende-se que as respectivas declarações feitas em relação aos métodos também se aplicam ao aparelho correspondente e vice-versa.

BREVE DESCRIÇÃO DOS DESENHOS

[030] Modalidades exemplares da divulgação são explicadas abaixo com referência aos desenhos anexos, em que números de referência semelhantes indicam elementos semelhantes ou similares e em que

[031] Fig. 1 ilustra esquematicamente um exemplo de um sistema codificador/decodificador,

[032] Fig. 2 ilustra esquematicamente um exemplo de uma cena de áudio,

[033] Fig. 3 ilustra esquematicamente um exemplo de posições em um ambiente acústico de uma cena de áudio,

[034] Fig. 4 ilustra esquematicamente um exemplo de um sistema codificador/decodificador de acordo com modalidades da divulgação,

[035] Fig. 5 ilustra esquematicamente outro exemplo de um sistema codificador/decodificador de acordo com modalidades da divulgação,

[036] Fig. 6 é um fluxograma que ilustra esquematicamente um exemplo de um método para codificação de conteúdo de cena de áudio de acordo com modalidades da divulgação,

[037] Fig. 7 é um fluxograma que ilustra esquematicamente um exemplo de um método para decodificação de conteúdo de cena de áudio de acordo com modalidades da divulgação,

[038] Fig. 8 é um fluxograma que ilustra esquematicamente um exemplo de um método para geração de conteúdo de cena de áudio de acordo com modalidades da divulgação,

[039] Fig. 9 ilustra esquematicamente um exemplo de um ambiente no qual o método da Fig. 8 pode ser executado,

[040] Fig. 10 ilustra esquematicamente um exemplo de um ambiente para testar uma saída de um decodificador de acordo com modalidades da divulgação,

[041] Fig. 11 ilustra esquematicamente um exemplo de elementos de dados transportados no fluxo de bits de acordo com modalidades da divulgação,

[042] Fig. 12 ilustra esquematicamente exemplos de diferentes modos de renderização com referência a uma cena de áudio,

[043] Fig. 13 ilustra esquematicamente exemplos de processamento de codificador e decodificador de acordo com modalidades da divulgação com referência a uma cena de áudio,

[044] Fig. 14 ilustra esquematicamente exemplos de renderização de um elemento de áudio eficaz para diferentes posições de ouvinte de acordo com modalidades da divulgação, e

[045] Fig. 15 ilustra esquematicamente um exemplo de elementos de áudio, elementos de áudio eficazes e posições de ouvinte em um ambiente acústico de acordo com modalidades da divulgação.

DESCRIÇÃO DETALHADA

[046] Conforme indicado acima, números de referência idênticos ou semelhantes na divulgação indicam elementos idênticos ou semelhantes, e a descrição repetida dos mesmos pode ser omitida por razões de concisão.

[047] A presente divulgação se refere a um renderizador VR/AR/MR ou um renderizador de áudio (por exemplo, um renderizador de áudio cuja renderização é compatível com o padrão de áudio MPEG). A presente divulgação se refere ainda a conceitos de pré-renderização artística que proveem representações de qualidade e com eficiência de taxa de bits de um campo sonoro na região (s) predefinida 3DoF+ do codificador.

[048] Em um exemplo, um renderizador de áudio 6DoF pode gerar uma correspondência para um sinal de referência (campo sonoro) em uma posição (s) particular. O renderizador de áudio 6DoF pode estender a conversão de metadados relacionados a VR/AR/MR para um formato nativo, como um formato de entrada de renderizador de áudio 3D MPEG-H.

[049] O objetivo é prover um renderizador de áudio que seja compatível com o padrão (por exemplo, compatível com um padrão MPEG ou compatível com quaisquer padrões MPEG futuros) para produzir saída de áudio como um sinal (s) de referência predefinido em uma posição (s) 3DoF).

[050] Uma abordagem direta para oferecer suporte a tais requisitos seria transportar os sinais predefinidos (pré-renderizados) diretamente para o lado do decodificador/renderizador. Essa abordagem tem as seguintes desvantagens óbvias:

1. aumento da taxa de bits (ou seja, os sinais pré-renderizados são enviados além dos sinais da fonte de áudio original); e

2. validade limitada (ou seja, o sinal (s) pré-renderizado são válidos apenas para posição (s) 3DoF).

[051] Em termos gerais, a presente divulgação se refere à geração, codificação, decodificação e renderização eficiente de tais sinais, a fim de prover a funcionalidade de renderização 6DoF. Por conseguinte, a presente divulgação descreve maneiras de superar as desvantagens acima mencionadas, incluindo:

1. usar sinal (s) pré-renderizado em vez de (ou como uma adição complementar) aos sinais da fonte de áudio original; e

2. aumentar uma faixa de aplicabilidade (uso para renderização 6DoF) a partir da posição (s) 3DoF para região 3DoF+ para o sinal (s) pré-renderizado, preservando um alto nível de aproximação de campo sonoro.

[052] Um cenário exemplar ao qual a presente divulgação é aplicável é ilustrado na Fig. 2. A Fig. 2 ilustra um espaço exemplar, por exemplo, um elevador e um ouvinte. Em um exemplo, um ouvinte pode estar em frente a um elevador que abre e fecha suas portas. Dentro da cabine do elevador há várias pessoas falando e música ambiente. O ouvinte pode se mover, mas não pode entrar na cabine do elevador. A Fig. 2 ilustra uma vista superior e uma vista frontal do sistema de elevador.

[053] Como tal, pode-se dizer que o elevador e as fontes sonoras (pessoas falando, música ambiente) na Fig. 2 definem uma cena de áudio.

[054] Em geral, uma cena de áudio no contexto desta divulgação é entendida como significando todos os elementos de áudio, elementos acústicos e ambiente acústico que são necessários para renderizar o som na cena, ou seja, os dados de entrada necessários para o renderizador de áudio (por exemplo, renderizador de áudio MPEG-I). No contexto da presente divulgação, um elemento de áudio é entendido como significando um ou mais sinais de áudio e metadados associados. Elementos de áudio podem ser objetos de áudio, canais ou sinais HOA, por exemplo. Um objeto de áudio é entendido como um sinal de áudio com metadados estáticos/dinâmicos associados (por exemplo, informações de posição) que contém as informações necessárias para reproduzir o som de uma fonte de áudio. Um elemento acústico é entendido como um objeto físico no espaço que interage com elementos de áudio e impacta a renderização dos elementos de áudio com base na posição e orientação do usuário. Um elemento acústico pode compartilhar metadados com um objeto de áudio (por exemplo, posição e orientação). Um ambiente acústico é entendido como significando metadados que descrevem as propriedades acústicas da cena virtual a ser renderizada, por exemplo, sala ou localidade.

[055] Para tal cenário (ou qualquer outra cena de áudio na verdade), seria desejável permitir que um renderizador de áudio renderizasse uma representação de campo sonoro da cena de áudio que fosse uma representação fiel do campo sonoro original, pelo menos em uma posição de referência, que atenda a uma intenção artística e/ou cuja renderização pode ser efetuada com os recursos de renderização (limitados) do renderizador de áudio. É ainda desejável atender a quaisquer limitações de taxa de bits na transmissão do conteúdo de áudio de um codificador para um decodificador.

[056] A Fig. 3 ilustra esquematicamente um esboço de uma cena de áudio em relação a um ambiente de escuta. A cena de áudio compreende um ambiente acústico 100. O ambiente acústico 100, por sua vez, compreende os um ou mais elementos de áudio 102 nas respectivas posições. os um ou mais elementos de áudio podem ser usados para gerar os um ou mais elementos de áudio eficazes 101 nas respectivas posições que não são necessariamente iguais à posição (s) dos um ou mais elementos de áudio. Por exemplo, para um determinado conjunto de elementos de áudio, a posição de um elemento de áudio eficaz pode ser definida para estar em um centro (por exemplo, centro de gravidade) das posições dos elementos de áudio. O elemento de áudio eficaz gerado pode ter a propriedade de que renderizar o elemento de áudio eficaz para uma posição de referência 111 em uma área de posição de ouvinte 110 com uma função de renderização predeterminada (por exemplo, uma função de renderização simples que aplica apenas atenuação de distância no espaço vazio) produzirá um campo sonoro que é (substancialmente) perceptivamente equivalente ao campo sonoro, na posição de referência 111, que resultaria da renderização dos elementos de áudio 102 com uma função de renderização de referência (por exemplo, uma função de renderização que leva em consideração as características (por exemplo, um impacto) do ambiente acústico, incluindo elementos acústicos (por exemplo, eco, reverberação, oclusão, etc.)). Naturalmente, uma vez gerados, os elementos de áudio eficazes 101 também podem ser renderizados, usando a função de renderização predeterminada, para uma posição de ouvinte 112 na área de posição de ouvinte 110 que é diferente da posição de referência 111. A posição de ouvinte pode estar a uma distância 103 da posição do elemento de áudio eficaz 101. Um exemplo para gerar um elemento de áudio eficaz 101 a partir de elementos de áudio 102 será descrito em mais detalhes abaixo.

[057] Em algumas modalidades, os elementos de áudio eficazes 102 podem ser determinados alternativamente com base em um ou mais sinais capturados 120 que são capturados em uma posição de captura na área de posição de ouvinte 110. Por exemplo, um usuário na audiência de uma apresentação musical pode capturar som emitido de um elemento de áudio (por exemplo, músico) em um palco. Então, dada uma posição desejada do elemento de áudio eficaz (por exemplo, em relação à posição de captura, como especificando uma distância 121 entre o elemento de áudio eficaz 101 e a posição de captura, possivelmente em conjunto com ângulos indicando a direção de um vetor de distância entre o elemento de áudio eficaz 101 e a posição de captura), o elemento de áudio eficaz 101 pode ser gerado com base no sinal capturado 120. O elemento de áudio eficaz 101 gerado pode ter a propriedade que renderiza o elemento de áudio eficaz 101 para uma posição de referência 111 (que não é necessariamente igual à posição de captura) com uma função de renderização predeterminada (por exemplo, uma função de renderização simples que aplica apenas atenuação de distância no espaço vazio) produzirá um campo sonoro que é (substancialmente) perceptivamente equivalente ao campo sonoro, na posição de referência 111, que se originou do elemento de áudio original 102 (por exemplo, músico). Um exemplo de tal caso de uso será descrito com mais detalhes abaixo.

[058] Notavelmente, a posição de referência 111 pode ser a mesma que a posição de captura em alguns casos, e o sinal de referência (ou seja, o sinal na posição de referência 111) pode ser igual ao sinal capturado 120. Esta pode ser uma suposição válida para uma aplicação VR/AR/MR, onde o usuário pode usar uma opção de gravação de avatar na cabeça. Em aplicações do mundo real, esta suposição pode não ser válida, uma vez que os receptores de referência são os ouvidos do usuário, enquanto o dispositivo de captura de sinal (por exemplo, telefone celular ou microfone) pode estar muito longe dos ouvidos do usuário.

[059] Métodos e aparelhos para atender às necessidades inicialmente mencionadas serão descritos a seguir.

[060] A Fig. 4 ilustra um exemplo de um sistema codificador/decodificador de acordo com modalidades da divulgação. Um codificador 210 (por exemplo, codificador MPEG-I) emite um fluxo de bits 220 que pode ser usado por um decodificador 230 (por exemplo, decodificador MPEG-I) para gerar uma saída de áudio 240. O decodificador 230 pode ainda receber informações de ouvinte 233. As informações de ouvinte 233 não são necessariamente incluídas no fluxo de bits 220, mas podem ser originais de qualquer fonte. Por exemplo, as informações de ouvinte podem ser geradas e enviadas por um dispositivo de rastreamento de cabeça e inseridas em uma interface (dedicada) do decodificador 230.

[061] O decodificador 230 compreende um renderizador de áudio 250 que por sua vez compreende uma ou mais ferramentas de renderização 251. No contexto da presente divulgação, um renderizador de áudio é entendido como significando o módulo de renderização de áudio normativo, por exemplo de MPEG-I, incluindo ferramentas de renderização e interfaces para ferramentas de renderização externas e interfaces para a camada de sistema para recursos externos. Ferramentas de renderização são entendidas como significando componentes do renderizador de áudio que executam aspectos de renderização, por exemplo, parametrização do modelo de sala, oclusão, reverberação, renderização binaural, etc.

[062] O renderizador 250 é provido com os um ou mais elementos de áudio eficazes, informações de elemento de áudio eficaz 231 e uma indicação de modo de renderização 232 como entradas. Os elementos de áudio eficazes, as informações de elemento de áudio eficaz e a indicação de modo de renderização 232 serão descritos em mais detalhes abaixo. As informações de elemento de áudio eficaz 231 e a indicação de modo de renderização 232 podem ser derivadas (por exemplo, determinadas/decodificadas) a partir do fluxo de bits 220. O renderizador 250 renderiza uma representação de uma cena de áudio com base nos elementos de áudio eficazes e nas informações de elemento de áudio eficaz, usando uma ou mais ferramentas de renderização 251. Nesse sentido, a indicação de modo de renderização 232 indica um modo de renderização no qual uma ou mais ferramentas de renderização 251 operam. Por exemplo, certas ferramentas de renderização 251 podem ser ativadas ou desativadas de acordo com a indicação de modo de renderização 232. Além disso, certas ferramentas de renderização 251 podem ser configuradas de acordo com a indicação de modo de renderização 232. Por exemplo, parâmetros de controle de certas ferramentas de renderização 251 podem ser selecionados (por exemplo, definidos) de acordo com a indicação de modo de renderização 232.

[063] No contexto da presente divulgação, o codificador (por exemplo, codificador MPEG-I) tem as tarefas de determinar os metadados 6DoF e dados de controle, determinar os elementos de áudio eficazes (por exemplo, incluindo um sinal de áudio mono para cada elemento de áudio eficaz), determinar posições para elementos de áudio eficazes (por exemplo, x, y, z) e determinar dados para controlar as ferramentas de renderização (por exemplo, habilitar/desabilitar sinalizadores e dados de configuração). Os dados para controlar as ferramentas de renderização podem corresponder a, incluir ou ser incluídos na indicação de modo de renderização acima mencionada.

[064] Além do acima, um codificador de acordo com modalidades da divulgação pode minimizar a diferença perceptiva do sinal de saída 240 em relação a um sinal de referência R (se existente) para uma posição de referência 111. Ou seja, para uma ferramenta de renderização/função de renderização F() a ser usado pelo decodificador, um sinal processado A, e uma posição (x, y, z) de um elemento de áudio eficaz, o codificador pode implementar a seguinte otimização: {x,y,z; F}: ||Output(reference position)(F(x,y,z)(A)) - R||perceptual -> min

[065] Além disso, um codificador de acordo com modalidades da divulgação pode atribuir partes "diretas" do sinal processado A às posições estimadas dos objetos originais 102. Para o decodificador, isso significaria, por exemplo, que ele deve ser capaz de recriar vários elementos de áudio eficazes 101 a partir do único sinal capturado 120.

[066] Em algumas modalidades, um renderizador de áudio MPEG-H 3D estendido por modelagem de distância simples para 6DoF pode ser usado, onde a posição do elemento de áudio eficaz é expressa em termos de azimute, elevação, raio e a ferramenta de renderização F() se relaciona a uma simples modificação multiplicativa de ganho de objeto. A posição do elemento de áudio e o ganho podem ser obtidos manualmente (por exemplo, por ajuste do codificador) ou automaticamente (por exemplo, por uma otimização de força bruta).

[067] A Fig. 5 ilustra esquematicamente outro exemplo de um sistema codificador/decodificador de acordo com modalidades da divulgação.

[068] O codificador 210 recebe uma indicação de uma cena de áudio A (um sinal processado), que é então submetido à codificação da maneira descrita na presente divulgação (por exemplo, codificação MPEG-H). Além disso, o codificador 210 pode gerar metadados (por exemplo, metadados 6DoF), incluindo informações sobre o ambiente acústico. O codificador pode ainda gerar, possivelmente como parte dos metadados, uma indicação de modo de renderização para configurar ferramentas de renderização do renderizador de áudio 250 do decodificador 230. As ferramentas de renderização podem incluir, por exemplo, uma ferramenta de modificação de sinal para elementos de áudio eficazes. Dependendo da indicação de modo de renderização, ferramentas de renderização específicas do renderizador de áudio podem ser ativadas ou desativadas. Por exemplo, se a indicação de modo de renderização indica que um elemento de áudio eficaz deve ser renderizado, a ferramenta de modificação de sinal pode ser ativada, enquanto todas as outras ferramentas de renderização são desativadas. O decodificador 230 emite a saída de áudio 240, que pode ser comparada a um sinal de referência R que resultaria da renderização dos elementos de áudio originais para a posição de referência 111 usando uma função de renderização de referência. Um exemplo de um arranjo para comparar a saída de áudio 240 com o sinal de referência R é esquematicamente ilustrado na Fig. 10.

[069] A Fig. 6 é um fluxograma que ilustra um exemplo de um método 600 de codificação de conteúdo de cena de áudio em um fluxo de bits de acordo com modalidades da divulgação.

[070] Na etapa S610, uma descrição de uma cena de áudio é recebida. A cena de áudio compreende um ambiente acústico e os um ou mais elementos de áudio nas respectivas posições dos elementos de áudio.

[071] Na etapa S620, os um ou mais elementos de áudio eficazes nas respectivas posições de elemento de áudio eficaz são determinados a partir dos um ou mais elementos de áudio. os um ou mais elementos de áudio eficazes são determinados de tal maneira que renderizar os um ou mais elementos de áudio eficazes em suas respectivas posições de elemento de áudio eficaz para uma posição de referência usando um modo de renderização que não leva em consideração um impacto do ambiente acústico no a saída de renderização produz uma aproximação psicoacústica de um campo sonoro de referência na posição de referência que resultaria da renderização dos os um ou mais elementos de áudio (originais) em suas respectivas posições de elemento de áudio para a posição de referência usando um modo de renderização de referência que leva em consideração o impacto do ambiente acústico na saída de renderização. O impacto do ambiente acústico pode incluir eco, reverberação, reflexão, etc. O modo de renderização que não leva em consideração um impacto do ambiente acústico na saída de renderização pode aplicar modelagem de atenuação de distância (no espaço vazio). Um exemplo não limitativo de um método para determinação de tais elementos de áudio eficazes será descrito mais abaixo.

[072] Na etapa S630, as informações de elemento de áudio eficaz indicativa das posições do elemento de áudio eficaz dos um ou mais elementos de áudio eficazes é gerada.

[073] Na etapa S640, uma indicação de modo de renderização é gerada que indica que os um ou mais elementos de áudio eficazes representam um campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando um modo de renderização predeterminado que define uma configuração predeterminada de ferramentas de renderização de um decodificador para controlar um impacto do ambiente acústico na saída de renderização no decodificador.

[074] Na etapa S650, os um ou mais elementos de áudio, as posições do elemento de áudio, os um ou mais elementos de áudio eficazes, as informações de elemento de áudio eficaz e a indicação de modo de renderização são codificados no fluxo de bits.

[075] No caso mais simples, a indicação de modo de renderização pode ser um sinalizador indicando que toda a acústica (isto é, o impacto do ambiente acústico) está incluída (isto é, encapsulada) em os um ou mais elementos de áudio eficazes. Consequentemente, a indicação de modo de renderização pode ser uma indicação para o decodificador (ou renderizador de áudio do decodificador) para usar um modo de renderização simples no qual apenas a atenuação de distância é aplicada (por exemplo, por multiplicação com um ganho dependente da distância) e todas as outras ferramentas de renderização são desativadas. Em casos mais sofisticados, a indicação de modo de renderização pode incluir um ou mais valores de controle para configurar as ferramentas de renderização. Isso pode incluir ativação e desativação de ferramentas de renderização individuais, mas também um controle mais refinado das ferramentas de renderização. Por exemplo, as ferramentas de renderização podem ser configuradas pela indicação de modo de renderização para melhorar a acústica ao renderizar os um ou mais elementos de áudio eficazes. Isso pode ser usado para adicionar acústica (artificial), como eco, reverberação, reflexão, etc., por exemplo, de acordo com uma intenção artística (por exemplo, de um criador de conteúdo).

[076] Em outras palavras, o método 600 pode se referir a um método para codificação de dados de áudio, os dados de áudio representando os um ou mais elementos de áudio nas respectivas posições de elemento de áudio em um ambiente acústico que inclui os um ou mais elementos acústicos (por exemplo, representações de objetos físicos). Este método pode incluir determinar um elemento de áudio eficaz em uma posição de elemento de áudio eficaz no ambiente acústico, de tal maneira que renderizar o elemento de áudio eficaz para uma posição de referência ao usar uma função de processamento que leva em consideração a atenuação de distância entre a posição do elemento de áudio eficaz e a posição de referência, mas não leva em consideração os elementos acústicos no ambiente acústico, aproxima um campo sonoro de referência na posição de referência que resultaria da renderização de referência dos um ou mais elementos de áudio em suas respectivas posições de elemento de áudio para a posição. O elemento de áudio eficaz e a posição do elemento de áudio eficaz podem então ser codificados no fluxo de bits.

[077] Na situação acima, determinar o elemento de áudio eficaz na posição do elemento de áudio eficaz pode envolver renderizar os um ou mais elementos de áudio para a posição de referência no ambiente acústico usando uma primeira função de renderização, obtendo assim o campo sonoro de referência na posição de referência, em que a primeira função de renderização leva em consideração os elementos acústicos no ambiente acústico, bem como a atenuação de distância entre as posições do elemento de áudio e a posição de referência, e determinar,

com base no campo sonoro de referência na posição de referência, o elemento de áudio eficaz na posição de elemento de áudio eficaz no ambiente acústico, de tal maneira que renderizar o elemento de áudio eficaz para a posição de referência usando uma segunda função de renderização produziria um campo sonoro na posição de referência que se aproxima do campo sonoro de referência, em que a segunda função de renderização leva em consideração atenuação de distância entre a posição de elemento de áudio eficaz e a posição de referência, mas não leva em consideração os elementos acústicos no ambiente acústico.

[078] O método 600 descrito acima pode estar relacionado a um caso de uso 0DoF sem dados do ouvinte. Em geral, o método 600 suporta o conceito de um codificador "inteligente" e um decodificador "simples".

[079] No que diz respeito aos dados do ouvinte, o método 600 em algumas implementações pode compreender obtenção de informações de posição de ouvinte indicativas de uma posição da cabeça de um ouvinte no ambiente acústico (por exemplo, na área de posição de ouvinte). Adicionalmente ou em alternativa, o método 600 pode compreender obtenção de informações de orientação de ouvinte indicativas de uma orientação da cabeça do ouvinte no ambiente acústico (por exemplo, na área de posição de ouvinte). As informações de posição de ouvinte e/ou informações de orientação de ouvinte podem então ser codificadas no fluxo de bits. As informações de posição de ouvinte e/ou informações de orientação de ouvinte podem ser usadas pelo decodificador para renderizar os um ou mais elementos de áudio eficazes. Por exemplo, o decodificador pode renderizar os um ou mais elementos de áudio eficazes para uma posição real do ouvinte (em oposição à posição de referência). Da mesma forma, especialmente para aplicativos de fone de ouvido, o decodificador pode executar uma rotação do campo sonoro renderizado de acordo com a orientação da cabeça do ouvinte.

[080] Em algumas implementações, o método 600 pode gerar as informações de elemento de áudio eficaz para compreender as informações indicativas dos respectivos padrões de radiação sonora dos os um ou mais elementos de áudio eficazes. Estas informações podes então ser usadas pelo decodificador para processar adequadamente os um ou mais elementos de áudio eficazes. Por exemplo, ao renderizar os um ou mais elementos de áudio eficazes, o decodificador pode aplicar um respectivo ganho a cada um dos os um ou mais elementos de áudio eficazes. Esses ganhos podem ser determinados com base nos respectivos padrões de radiação. Cada ganho pode ser determinado com base em um ângulo entre o vetor de distância entre o respectivo elemento de áudio eficaz e a posição de ouvinte (ou posição de referência, se a renderização para a posição de referência for realizada) e um vetor de direção de radiação indicando uma direção de radiação do respectivo elemento de áudio. Para padrões de radiação mais complexos com múltiplos vetores de direção de radiação e coeficientes de ponderação correspondentes, o ganho pode ser determinado com base em uma soma ponderada de ganhos, cada ganho determinado com base no ângulo entre o vetor de distância e o respectivo vetor de direção de radiação. As ponderações na soma podem corresponder aos coeficientes de ponderação. O ganho determinado com base no padrão de radiação pode adicionar ao ganho de atenuação de distância aplicado pelo modo de renderização predeterminado.

[081] Em algumas implementações, pelo menos dois elementos de áudio eficazes podem ser gerados e codificados no fluxo de bits. Então, a indicação de modo de renderização pode indicar um respectivo modo de renderização predeterminado para cada um dos pelo menos dois elementos de áudio eficazes. Os pelo menos dois modos de renderização predeterminados podem ser distintos. Desse modo, diferentes quantidades de efeitos acústicos podem ser indicados para diferentes elementos de áudio eficazes, por exemplo, de acordo com a intenção artística de um criador de conteúdo.

[082] Em algumas implementações, o método 600 pode adicionalmente compreender obtenção de informações de área de posição de ouvinte indicativas de uma área de posição de ouvinte para a qual o modo de renderização predeterminado deve ser usado. Essas informações de área de posição de ouvinte podem então ser codificadas no fluxo de bits. No decodificador, o modo de renderização predeterminado deve ser usado se a posição de ouvinte para a qual a renderização é desejada estiver dentro da área de posição de ouvinte indicada pelas informações de área de posição de ouvinte. Caso contrário, o decodificador pode aplicar um modo de renderização de sua escolha, como um modo de renderização padrão, por exemplo.

[083] Além disso, diferentes modos de renderização predeterminados podem ser previstos na dependência de uma posição de ouvinte para a qual a renderização é desejada. Assim, o modo de renderização predeterminado indicado pela indicação de modo de renderização pode depender da posição de ouvinte de modo que a indicação de modo de renderização indique um respectivo modo de renderização predeterminado para cada uma de uma pluralidade de posições de ouvinte. Da mesma forma, diferentes modos de renderização predeterminados podem ser previstos na dependência de uma área de posição de ouvinte para a qual a renderização é desejada. Notavelmente, pode haver diferentes elementos de áudio eficazes para diferentes posições do ouvinte (ou áreas de posição de ouvinte). Prover tal indicação de modo de renderização permite o controle da acústica (artificial), como eco (artificial), reverberação, reflexão, etc., que são aplicadas para cada posição de ouvinte (ou área de posição de ouvinte).

[084] A Fig. 7 é um fluxograma que ilustra um exemplo de um método correspondente 700 de decodificação de conteúdo de cena de áudio a partir de um fluxo de bits por um decodificador de acordo com modalidades da divulgação. O decodificador pode incluir um renderizador de áudio com uma ou mais ferramentas de renderização.

[085] Na etapa S710, o fluxo de bits é recebido. Na etapa S720, uma descrição de uma cena de áudio é decodificada a partir do fluxo de bits. Na etapa S730, os um ou mais elementos de áudio eficazes são determinados a partir da descrição da cena de áudio.

[086] Na etapa S740, as informações de elemento de áudio eficaz indicativa das posições do elemento de áudio eficaz dos um ou mais elementos de áudio eficazes é determinada a partir da descrição da cena de áudio.

[087] Na etapa S750, uma indicação de modo de renderização é decodificada a partir do fluxo de bits. A indicação de modo de renderização é indicativa de se os um ou mais elementos de áudio eficazes representam um campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando um modo de renderização predeterminado.

[088] Na etapa S760, em resposta à indicação de modo de renderização indicando que os um ou mais elementos de áudio eficazes representam o campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando o modo de renderização predeterminado, os um ou mais elementos de áudio eficazes são renderizados usando o modo de renderização predeterminado. Renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado leva em consideração as informações de elemento de áudio eficaz. Além disso, o modo de renderização predeterminado define uma configuração predeterminada das ferramentas de renderização para controlar um impacto de um ambiente acústico da cena de áudio na saída de renderização.

[089] Em algumas implementações, o método 700 pode compreender obtenção de informações de posição de ouvinte indicativas de uma posição da cabeça de um ouvinte no ambiente acústico (por exemplo, na área de posição de ouvinte) e/ou informações de orientação de ouvinte indicativas de uma orientação da cabeça do ouvinte no ambiente acústico (por exemplo, na área de posição de ouvinte). Então, renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado pode ainda levar em consideração as informações de posição de ouvinte e/ou informações de orientação de ouvinte, por exemplo, da maneira indicada acima com referência ao método 600. Um decodificador correspondente pode compreender uma interface para receber as informações de posição de ouvinte e/ou informações de orientação de ouvinte.

[090] Em algumas implementações do método 700, as informações de elemento de áudio eficaz podem compreender informações indicativas de respectivos padrões de radiação sonora dos um ou mais elementos de áudio eficazes. A renderização dos um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado pode, então, ainda levar em consideração as informações indicativas dos respectivos padrões de radiação sonora dos um ou mais elementos de áudio eficazes, por exemplo, da maneira indicada acima com referência ao método 600.

[091] Em algumas implementações do método 700, renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado pode aplicar modelagem de atenuação sonora (no espaço vazio) de acordo com as respectivas distâncias entre uma posição de ouvinte e as posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes. Esse modo de renderização predeterminado seria referido como um modo de renderização simples. Aplicar o modo de renderização simples (ou seja, apenas atenuação de distância no espaço vazio) é possível, uma vez que o impacto do ambiente acústico é "encapsulado" nos um ou mais elementos de áudio eficazes. Ao fazer isso, parte da carga de processamento do decodificador pode ser delegada ao codificador, permitindo a renderização de um campo sonoro imersivo de acordo com uma intenção artística, mesmo por decodificadores de baixa potência.

[092] Em algumas implementações do método 700, pelo menos dois elementos de áudio eficazes podem ser determinados a partir da descrição da cena de áudio. Então, a indicação de modo de renderização pode indicar um respectivo modo de renderização predeterminado para cada um dos pelo menos dois elementos de áudio eficazes. Em tal situação, o método 700 pode adicionalmente compreender renderizar os pelo menos dois elementos de áudio eficazes usando seus respectivos modos de renderização predeterminados. Renderizar cada elemento de áudio eficaz usando seu respectivo modo de renderização predeterminado pode levar em consideração as informações de elemento de áudio eficaz para esse elemento de áudio eficaz, e o modo de renderização para esse elemento de áudio eficaz pode definir uma respectiva configuração predeterminada das ferramentas de renderização para controlar um impacto de um ambiente acústico da cena de áudio na saída de renderização para esse elemento de áudio eficaz. Os pelo menos dois modos de renderização predeterminados podem ser distintos. Desse modo, diferentes quantidades de efeitos acústicos podem ser indicados para diferentes elementos de áudio eficazes, por exemplo, de acordo com a intenção artística de um criador de conteúdo.

[093] Em algumas implementações, tanto os elementos de áudio eficazes quanto os elementos de áudio (reais/originais) podem ser codificados no fluxo de bits a ser decodificado. Então, o método 700 pode compreender determinar os um ou mais elementos de áudio a partir da descrição da cena de áudio e determinar informações de elemento de áudio indicativas das posições do elemento de áudio dos um ou mais elementos de áudio a partir da descrição da cena de áudio. A renderização dos um ou mais elementos de áudio é então realizada usando um modo de renderização para os um ou mais elementos de áudio que é diferente do modo de renderização predeterminado usado para os um ou mais elementos de áudio eficazes. Renderizar os um ou mais elementos de áudio usando o modo de renderização para os um ou mais elementos de áudio pode levar em consideração as informações de elemento de áudio. Isso permite renderizar elementos de áudio eficazes com, por exemplo, o modo de renderização simples, enquanto renderiza os elementos de áudio (reais/originais) com, por exemplo, o modo de renderização de referência. Além disso, o modo de renderização predeterminado pode ser configurado separadamente do modo de renderização usado para os elementos de áudio. Mais geralmente, os modos de renderização para elementos de áudio e elementos de áudio eficazes podem implicar em diferentes configurações das ferramentas de renderização envolvidas. A renderização acústica (que leva em consideração um impacto do ambiente acústico) pode ser aplicada aos elementos de áudio, enquanto a modelagem de atenuação de distância (em espaço vazio) pode ser aplicada aos elementos de áudio eficazes, possivelmente junto com acústica artificial (que não são necessariamente determinados pelo ambiente acústico assumido para codificação).

[094] Em algumas implementações, método 700 pode adicionalmente compreender obtenção de informações de área de posição de ouvinte indicativas de uma área de posição de ouvinte para a qual o modo de renderização predeterminado deve ser usado. Para renderizar para uma posição de escuta indicada pelas informações de área de posição de ouvinte dentro da área de posição de ouvinte, o modo de renderização predeterminado deve ser usado. Caso contrário, o decodificador pode aplicar um modo de renderização de sua escolha (que pode ser dependente da implementação), como um modo de renderização padrão, por exemplo.

[095] Em alguma implementação do método 700, o modo de renderização predeterminado indicado pela indicação de modo de renderização pode depender da posição de ouvinte (ou área de posição de ouvinte). Em seguida, o decodificador pode executar a renderização dos um ou mais elementos de áudio eficazes usando esse modo de renderização predeterminado que é indicado pela indicação de modo de renderização para a área de posição de ouvinte indicada pelas informações de área de posição de ouvinte.

[096] A Fig. 8 é um fluxograma que ilustra um exemplo de um método 800 de geração de conteúdo de cena de áudio.

[097] Na etapa S810, os um ou mais elementos de áudio que representam sinais capturados de uma cena de áudio são obtidos. Isso pode ser feito, por exemplo, por captura de som, por exemplo, usando um microfone ou um dispositivo móvel com capacidade de gravação.

[098] Na etapa S820, as informações de elemento de áudio eficaz indicativa das posições do elemento de áudio eficaz dos um ou mais elementos de áudio eficazes a serem gerados é obtida. As posições de elemento de áudio eficaz podem ser estimadas ou podem ser recebidas como uma entrada do usuário.

[099] Na etapa S830, os um ou mais elementos de áudio eficazes são determinados a partir dos um ou mais elementos de áudio que representam os sinais capturados pela aplicação de modelagem de atenuação sonora de acordo com as distâncias entre uma posição na qual os sinais capturados foram capturados e as posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes.

[0100] O método 800 permite a gravação A (/V) do mundo real de sinais de áudio capturados 120 que representam elementos de áudio 102 a partir de uma posição de captura discreta (vide Fig. 3). Métodos e aparelhos de acordo com a presente divulgação devem permitir o consumo deste material a partir da posição de referência 111 ou outras posições 112 e orientações (isto é, em uma estrutura 6DoF) dentro da área de posição de ouvinte 110 (por exemplo, com uma experiência de usuário tão significativa quanto possível, usando plataformas 3DoF+, 3DoF, 0DoF,

por exemplo). Isso é esquematicamente ilustrado na Fig. 9.

[0101] Um exemplo não limitativo para determinar os elementos de áudio eficazes de elementos de áudio (reais/originais) em uma cena de áudio será descrito a seguir.

[0102] Como foi indicado acima, as modalidades da presente divulgação se referem à recriação do campo sonoro na "posição 3DoF" de uma forma que corresponde a um sinal de referência predefinido (que pode ou não ser consistente com as leis físicas de propagação do som). Este campo sonoro deve ser baseado em todas as "fontes de áudio" originais (elementos de áudio) e refletir a influência da geometria complexa (e possivelmente em mudança dinâmica) do ambiente acústico correspondente (por exemplo, ambiente VR/AR/MR, ou seja, “portas”, “paredes”, etc.). Por exemplo, em referência ao exemplo na Fig. 2, o campo sonoro pode se relacionar a todas as fontes sonoras (elementos de áudio) dentro do elevador.

[0103] Além disso, o campo sonoro de saída do renderizador correspondente (por exemplo, renderizador 6DoF) deve ser recriado suficientemente bem, a fim de prover um alto nível de imersão VR/AR/MR para um "espaço 6DoF".

[0104] Por conseguinte, as modalidades da divulgação se referem a, em vez de renderizar vários objetos de áudio originais (elementos de áudio) e contabilizar a influência do ambiente acústico complexo, introduzir objeto (s) de áudio virtual (elementos de áudio eficazes) que são pré-renderizados no codificador, representando uma cena de áudio geral (ou seja, levando em consideração o impacto de um ambiente acústico da cena de áudio). Todos os efeitos do ambiente acústico (por exemplo, oclusão acústica, reverberação, reflexão direta, eco, etc.) são capturados diretamente na forma de onda do objeto virtual (elemento de áudio eficaz) que é codificado e transmitido ao renderizador (por exemplo, renderizador 6DoF).

[0105] O renderizador do lado do decodificador correspondente (por exemplo, renderizador 6DoF) pode operar em um "modo de renderização simples" (sem consideração de ambiente VR/AR/MR) em todo o espaço 6DoF para tais tipos de objeto (tipos de elemento). O modo de renderização simples (como um exemplo do modo de renderização predeterminado acima) pode levar em consideração apenas a atenuação de distância (no espaço vazio), mas pode não levar em consideração os efeitos do ambiente acústico (por exemplo, do elemento acústico no ambiente acústico), como reverberação, eco, reflexão direta, oclusão acústica, etc.

[0106] A fim de estender a faixa de aplicabilidade do sinal de referência predefinido, os objetos virtuais (elementos de áudio eficazes) podem ser colocados em posições específicas no ambiente acústico (espaço VR/AR/MR) (por exemplo, no centro de intensidade do som da cena de áudio original ou dos elementos de áudio originais). Esta posição pode ser determinada no codificador automaticamente por renderização inversa de áudio ou manualmente especificado por um provedor de conteúdo. Nesse caso, o codificador transporta apenas:

1.b) um sinalizador sinalizando o “tipo pré-renderizado” do objeto de áudio virtual (ou, em geral, a indicação de modo de renderização);

2.b) um sinal de objeto de áudio virtual (um elemento de áudio eficaz) obtido a partir de pelo menos uma referência pré-renderizada (por exemplo, objeto mono); e

3.b) coordenadas da "posição 3DoF" e uma descrição do "espaço 6DoF" (por exemplo, informações de elemento de áudio eficaz, incluindo posições de elemento de áudio eficaz)

[0107] O sinal de referência predefinido para a abordagem convencional não é o mesmo que o sinal do objeto de áudio virtual (2.b) para a abordagem proposta. Nomeadamente, a renderização 6DoF “simples” do sinal de objeto de áudio virtual (2.b) deve aproximar-se do sinal de referência predefinido o melhor possível para as “posições 3DoF” dadas.

[0108] Em um exemplo, o seguinte método para codificação pode ser realizado por um codificador de áudio:

1. determinação das "posições 3DoF" desejadas e das "regiões 3DoF+" correspondentes (por exemplo, posições de ouvinte e/ou áreas de posição de ouvinte para as quais a renderização é desejada)

2. renderização de referência (ou gravação direta) para essas "posições 3DoF"

3. renderização inversa de áudio, determinação de sinal (s) e posição (s) do objeto de áudio virtual (elementos de áudio eficazes) que resultam na melhor aproximação possível do sinal (s) de referência obtido na “posição (s) 3DoF)”.

4. codificação do objeto (s) de áudio virtual resultante (elementos de áudio eficazes) e sua posição (s) juntamente com a sinalização do espaço 6DoF correspondente (ambiente acústico) e atributos de "objeto pré-renderizado" permitindo o "modo de renderização simples" do renderizador 6DoF (por exemplo, a indicação de modo de renderização)

[0109] A complexidade de renderização inversa de áudio (vide item 3 acima) está diretamente correlacionada à complexidade de processamento 6DoF do “modo de renderização simples” do renderizador 6DoF. Além disso, esse processamento acontece no lado do codificador que presume-se ter menos limitação em termos de potência computacional.

[0110] Exemplos de elementos de dados que precisam ser transportados no fluxo de bits são ilustrados esquematicamente na Fig. 11A. A Fig. 11B ilustra esquematicamente os elementos de dados que seriam transportados no fluxo de bits em sistemas de codificação/decodificação convencionais.

[0111] A Fig. 12 ilustra os casos de uso dos modos de renderização direta “simples” e de “referência”. O lado esquerdo da Fig. 12 ilustra a operação dos modos de renderização acima mencionados e o lado direito ilustra esquematicamente a renderização de um objeto de áudio para uma posição de ouvinte usando qualquer modo de renderização (com base no exemplo da Fig. 2). • O "modo de renderização simples" pode não levar em consideração o ambiente acústico (por exemplo, ambiente VR/AR/MR acústico). Ou seja, o modo de renderização simples pode considerar apenas atenuação de distância (por exemplo, no espaço vazio). Por exemplo, como mostrado no painel superior no lado esquerdo da Fig. 12, no modo de renderização simples Fsimple apenas leva em consideração a atenuação de distância, mas falha em levar em consideração os efeitos do ambiente VR/AR/MR, tal como a porta abrindo e fechando (vide, por exemplo, Fig. 2). • O “modo de renderização de referência” (painel inferior no lado esquerdo da Fig. 12) pode ser responsável por alguns ou todos os efeitos de ambiente VR/AR/MR.

[0112] A Fig. 13 ilustra o processamento lateral do codificador/decodificador exemplar de um modo de renderização simples. O painel superior do lado esquerdo ilustra o processamento do codificador e o painel inferior do lado esquerdo ilustra o processamento do decodificador. O lado direito ilustra esquematicamente a renderização inversa de um sinal de áudio na posição de ouvinte para uma posição de um elemento de áudio eficaz.

[0113] A saída de um renderizador (por exemplo, renderizador 6DoF) pode se aproximar de um sinal de áudio de referência na posição (s) 3DoF. Esta aproximação pode incluir influência do codificador de núcleo de áudio e efeitos de agregação de objeto de áudio (ou seja, representação de várias fontes de áudio espacialmente distintas (elementos de áudio) por um número menor de objetos virtuais (elementos de áudio eficazes)). Por exemplo, o sinal de referência aproximado pode ser responsável por uma mudança de posição de ouvinte no espaço 6DoF e também pode representar várias fontes de áudio (elementos de áudio) com base em um número menor de objetos virtuais (elementos de áudio eficazes). Isso é esquematicamente ilustrado na Fig. 14.

[0114] Em um exemplo, a Fig. 15 ilustra a fonte de som/sinais de objeto (elementos de áudio) 𝑥 101, sinais de objeto virtual (elementos de áudio eficazes) ( ) ( ) 𝑥 100, saída de renderização desejada em 3DoF 102 𝑥 →𝑥 , e ( ) ( ) aproximação da renderização desejada 103 103 𝑥 ≈𝑥 .

[0115] Terminologia adicional inclui: - 3DoF Posição (s) de compatibilidade de referência provida (s) ∈ espaço 6DoF - 6 DoF Posição (s) arbitrária permitida ∈ Cena VR/AR/MR -𝐹 (𝑥) renderização de referência determinada por codificador -𝐹 (x) “renderização de modo simples” 6DoF especificada por decodificador ( ) -𝑥 representação de campo sonoro na posição 3DoF / espaço 6DoF ( ) -𝑥 sinal (s) de referência determinado por codificador (s) para posição (s) 3DoF: ( ) -𝑥 :=𝐹 (𝑥) 𝑓𝑜𝑟 3𝐷𝑜𝐹 ( ) -𝑥 saída de renderização de referência genérica ( ) -𝑥 :=𝐹 (𝑥) 𝑝𝑎𝑟𝑎 6𝐷𝑜𝐹 Dados (no lado do decodificador): • Sinal (s) de fonte de audio 𝑥 ( ) • Sinal (s) de referência para posição (s) 3DoF 𝑥 Disponível (no renderizador): • Sinal (s) de objeto virtual 𝑥 • “modo de renderização simples” 6DoF de decodificador 𝐹 𝑝𝑎𝑟𝑎 6𝐷𝑜𝐹, ∃𝐹 ( ) Problema: definir 𝑥 e𝑥 para prover

( ) ( ) • Saída de renderização desejada em 3DoF 𝑥 →𝑥 ( ) ( ) • Aproximação da renderização desejada 𝑥 ≈𝑥 Solução: ( ) • Definição do objeto (s) virtual 𝑥 := 𝐹 𝑥 , ( ) 𝑥 −𝐹 𝑥 𝑝𝑎𝑟𝑎 3𝐷𝑜𝐹 → 𝑚𝑖𝑛 ( ) • Renderização de 6DoF do objeto (s) virtual 𝑥 := 𝐹 𝑥 𝑝𝑎𝑟𝑎 6𝐷𝑜𝐹

[0116] As seguintes vantagens principais da abordagem proposta podem ser identificadas: • Suporte de funcionalidade de renderização artística: a saída do renderizador 6DoF pode corresponder ao sinal de referência pré-renderizado artístico arbitrário (conhecido no lado do codificador). • Complexidade computacional: um renderizador de áudio 6DoF (por exemplo, renderizador de áudio MPEG-I) pode funcionar no "modo de renderização simples" para ambientes VR/AR/MR acústicos complexos. • Eficiência de codificação: para esta abordagem, a taxa de bits de áudio para o sina (s) pré-renderizado é proporcional ao número de posições 3DoF (mais precisamente, ao número dos objetos virtuais correspondentes) e não ao número das fontes de áudio originais. Isso pode ser muito benéfico para os casos com alto número de objetos e liberdade de movimento 6DoF limitada. • Controle de qualidade de áudio na posição (s) predeterminada: a melhor qualidade perceptiva de áudio pode ser explicitamente assegurada pelo codificador para qualquer posição (s) arbitrária e a região (s) 3DoF+ correspondente no espaço VR/AR/MR.

[0117] A presente invenção suporta um conceito de renderização/gravação de referência (ou seja, "intenção artística"): efeitos de qualquer ambiente acústico complexo (ou efeitos de renderização artística) podem ser codificados (e transmitidos em) pelo sinal (s) de áudio pré-renderizado.

[0118] As seguintes informações podem ser sinalizadas no fluxo de bits para permitir a renderização/gravação de referência: • Os sinalizadores de tipo de sinal pré-renderizado, que permitem o "modo de renderização simples", negligenciando a influência do ambiente VR/AR/MR acústico para o objeto (s) virtual correspondente. • Parametrização que descreve a região de aplicabilidade (ou seja, espaço 6DoF) para a renderização do sinal (s) do objeto virtual.

[0119] Durante o processamento de áudio 6DoF (por exemplo, processamento de áudio MPEG-I), o seguinte pode ser especificado: • Como o renderizador 6DoF mistura esses sinais pré-renderizados uns com os outros e com os normais.

[0120] Portanto, a presente invenção: • é genérico em relação à definição da função de "renderização de modo simples" especificada pelo decodificador (ou seja, 𝐹 ; pode ser arbitrário complexo, mas no lado do decodificador a aproximação correspondente deve existir (ou seja, ∃𝐹 ; idealmente, essa aproximação deve ser matematicamente "bem definida" (por exemplo, algoritmicamente estável, etc.) • é extensível e aplicável a representações genéricas de campo sonoro e fontes sonoras (e suas combinações): objetos, canais, FOA, HOA • pode levar em consideração aspectos de diretividade da fonte de áudio (além da modelagem de atenuação de distância) • é aplicável a múltiplas posições 3DoF (mesmo sobrepostas) para sinais pré-renderizados • é aplicável aos cenários onde os sinais pré-renderizados são misturados com os regulares (ambiente, objetos, FOA, HOA, etc.) ( ) • permite definir e obter o sinal (s) de referência 𝑥 para as posições 3DoF como: - uma saída de qualquer "renderizador de produção" (complexo arbitrário) aplicado no lado do criador de conteúdo - sinais reais de áudio/gravações de campo (e sua modificação artística)

[0121] Algumas modalidades da presente divulgação podem ser direcionadas para determinar uma posição 3DoF com base em: ( ) 𝐹 𝑥 ≅𝐹 (𝐹 (𝑥 ))

[0122] Os métodos e sistemas descritos neste documento podem ser implementados como software, firmware e/ou hardware. Certos componentes podem ser implementados como software em execução em um processador de sinal digital ou microprocessador. Outros componentes podem ser implementados como hardware e/ou como circuitos integrados de aplicação específica. Os sinais encontrados nos métodos e sistemas descritos podem ser armazenados em mídia, como memória de acesso aleatório ou mídia de armazenamento óptico. Eles podem ser transferidos através de redes, tais como redes de rádio, redes de satélite, redes sem fio ou redes fixas, por exemplo, a Internet. Dispositivos típicos que fazem uso dos métodos e sistemas descritos neste documento são dispositivos eletrônicos portáteis ou outros equipamentos de consumo que são usados para armazenar e/ou renderizar sinais de áudio.

[0123] Implementações exemplares de métodos e aparelhos de acordo com a presente divulgação se tornarão aparentes a partir das seguintes modalidades exemplares enumeradas (EEEs), que não são reivindicações.

[0124] EEE1 refere-se a um método para codificar dados de áudio que compreende: codificar um sinal de objeto de áudio virtual obtido a partir de pelo menos um sinal de referência pré-renderizado; codificar metadados indicando a posição 3DoF e uma descrição do espaço 6DoF; e transmitir o sinal de áudio virtual codificado e os metadados indicando a posição 3DoF e uma descrição do espaço

6DoF.

[0125] EEE2 se refere ao método de EEE1, adicionalmente compreendendo transmitir um sinal indicando a existência de um tipo pré-renderizado do objeto de áudio virtual.

[0126] EEE3 refere-se ao método de EEE1 ou EEE2, em que pelo menos uma referência pré-renderizada é determinada com base em uma renderização de referência de uma posição 3DoF e região 3DoF+ correspondente.

[0127] EEE4 refere-se ao método de qualquer um de EEE1 a EEE3, adicionalmente compreendendo determinar uma localização do objeto de áudio virtual em relação ao espaço 6DoF.

[0128] EEE5 se refere ao método de qualquer um de EEE1 a EEE4, em que a localização do objeto de áudio virtual é determinada com base em pelo menos uma de renderização inversa de áudio ou especificação manual por um provedor de conteúdo.

[0129] EEE6 se refere ao método de qualquer um de EEE1 a EEE5, em que o objeto de áudio virtual se aproxima de um sinal de referência predefinido para a posição 3DoF.

[0130] EEE7 se refere ao método de qualquer um de EEE1 a EEE6, em que o objeto virtual é definido com base em: ( ) 𝑥 := 𝐹 𝑥 , ( ) 𝑥 −𝐹 𝑥 𝑝𝑎𝑟𝑎 3𝐷𝑜𝐹 → 𝑚𝑖𝑛 em que um sinal de objeto virtual é 𝑥 , um "modo de renderização simples" 6DoF de decodificador 𝐹 𝑝𝑎𝑟𝑎 6𝐷𝑜𝐹, ∃𝐹 , em que o objeto virtual é determinado para minimizar uma diferença absoluta entre uma posição 3DoF e uma determinação de modo de renderização simples para o objeto virtual.

[0131] EEE8 se refere ao método para renderizar um objeto de áudio virtual, o método compreendendo: renderizar uma cena de áudio 6DoF com base no objeto de áudio virtual.

[0132] EEE9 se refere ao método de EEE8, em que a renderização do objeto virtual é baseada em: ( ) 𝑥 := 𝐹 𝑥 𝑝𝑎𝑟𝑎 6𝐷𝑜𝐹 ( ) em que 𝑥 corresponde ao objeto virtual; em que 𝑥 corresponde a um objeto renderizado aproximado em 6DoF; e 𝐹 corresponde a uma função de renderização de modo simples especificada pelo decodificador.

[0133] EEE10 refere-se ao método de EEE8 ou EEE9, em que a renderização do objeto virtual é realizada com base em um sinalizador sinalizando um tipo pré-renderizado do objeto de áudio virtual.

[0134] EEE11 se refere ao método de qualquer um de EEE8 a EEE10, adicionalmente compreendendo receber metadados indicando a posição 3DoF pré- renderizada e uma descrição do espaço 6DoF, em que a renderização é baseada na posição 3DoF e na descrição do espaço 6DoF.

Claims

REIVINDICAÇÕES

1. Método para decodificação de conteúdo de cena de áudio a partir de um fluxo de bits por um decodificador que inclui um renderizador de áudio com uma ou mais ferramentas de renderização, o método CARACTERIZADO pelo fato de que compreende: receber o fluxo de bits; decodificar uma descrição de uma cena de áudio a partir do fluxo de bits, a cena de áudio compreendendo um ambiente acústico; determinar os um ou mais elementos de áudio eficazes a partir da descrição da cena de áudio, em que os um ou mais elementos de áudio eficazes encapsulam um impacto do ambiente acústico e correspondem a um ou mais objetos de áudio virtuais que representam a cena de áudio; determinar informações de elemento de áudio eficaz indicativas de posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes a partir da descrição da cena de áudio, em que as informações de elemento de áudio eficaz compreendem informações indicativas de respectivos padrões de radiação sonora dos um ou mais elementos de áudio eficazes ; decodificar uma indicação de modo de renderização a partir do fluxo de bits, em que a indicação de modo de renderização é indicativa de se os um ou mais elementos de áudio eficazes representam um campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando um modo de renderização predeterminado; e em resposta à indicação de modo de renderização indicando que os um ou mais elementos de áudio eficazes representam o campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando o modo de renderização predeterminado, renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado, em que renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado leva em consideração as informações de elemento de áudio eficaz e as informações indicativas dos respectivos padrões de radiação sonora dos um ou mais elementos de áudio eficazes, e em que o modo de renderização predeterminado define um configuração predeterminada das ferramentas de renderização para controlar um impacto do ambiente acústico da cena de áudio na saída de renderização.

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que adicionalmente compreende: obter informações de posição de ouvinte indicativas de uma posição da cabeça de um ouvinte no ambiente acústico e/ou informações de orientação de ouvinte indicativas de uma orientação da cabeça do ouvinte no ambiente acústico, em que renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado leva em consideração adicionalmente as informações de posição de ouvinte e/ou as informações de orientação de ouvinte.

3. Método, de acordo com a reivindicação 1 ou 2, CARACTERIZADO pelo fato de que renderizar os um ou mais elementos de áudio eficazes usando o modo de renderização predeterminado aplica modelagem de atenuação sonora de acordo com as respectivas distâncias entre uma posição de ouvinte e as posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes.

4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que pelo menos dois elementos de áudio eficazes são determinados a partir da descrição da cena de áudio; em que a indicação de modo de renderização indica um respectivo modo de renderização predeterminado para cada um dos pelo menos dois elementos de áudio eficazes ; em que o método compreende renderizar os pelo menos dois elementos de áudio eficazes usando seus respectivos modos de renderização predeterminados; e em que renderizar cada elemento de áudio eficaz usando seu respectivo modo de renderização predeterminado leva em consideração as informações de elemento de áudio eficaz para esse elemento de áudio eficaz, e em que o modo de renderização para esse elemento de áudio eficaz define uma respectiva configuração predeterminada das ferramentas de renderização para controlar o impacto do ambiente acústico da cena de áudio na saída de renderização para esse elemento de áudio eficaz.

5. Método, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato de que adicionalmente compreende: determinar os um ou mais elementos de áudio da descrição da cena de áudio; determinar informações de elemento de áudio indicativas de posições de elemento de áudio dos um ou mais elementos de áudio a partir da descrição da cena de áudio; e renderizar os um ou mais elementos de áudio usando um modo de renderização para os um ou mais elementos de áudio que é diferente do modo de renderização predeterminado usado para os um ou mais elementos de áudio eficazes, em que a renderização dos um ou mais elementos de áudio usando o modo de renderização para os um ou mais elementos de áudio leva em consideração as informações de elemento de áudio.

6. Método, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO pelo fato de que adicionalmente compreende: obter informações de área de posição de ouvinte indicativas de uma área de posição de ouvinte para a qual o modo de renderização predeterminado deve ser usado.

7. Método, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que o modo de renderização predeterminado indicado pela indicação de modo de renderização depende da posição de ouvinte; e em que o método compreende renderizar os um ou mais elementos de áudio eficazes usando esse modo de renderização predeterminado que é indicado pela indicação de modo de renderização para a área de posição de ouvinte indicado pelas informações de área de posição de ouvinte.

8. Método para geração de conteúdo de cena de áudio, o método CARACTERIZADO pelo fato de que compreende: obter os um ou mais elementos de áudio que representam sinais capturados de uma cena de áudio, a cena de áudio compreendendo um ambiente acústico;

obter informações de elemento de áudio eficaz indicativas de posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes a serem gerados, em que os um ou mais elementos de áudio eficazes encapsulam um impacto do ambiente acústico e correspondem a um ou mais objetos de áudio virtuais que representam a cena de áudio, e em que as informações de elemento de áudio eficaz compreende informações indicativas dos respectivos padrões de radiação sonora dos um ou mais elementos de áudio eficazes ; e determinar os um ou mais elementos de áudio eficazes dos um ou mais elementos de áudio que representam os sinais capturados pela aplicação de modelagem de atenuação sonora de acordo com as distâncias entre uma posição na qual os sinais capturados foram capturados e as posições do elemento de áudio eficaz dos um ou mais elementos de áudio eficazes.

9. Método para codificação de conteúdo de cena de áudio em um fluxo de bits, o método CARACTERIZADO pelo fato de que compreende: receber uma descrição de uma cena de áudio, a cena de áudio compreendendo um ambiente acústico e os um ou mais elementos de áudio nas respectivas posições de elemento de áudio; determinar os um ou mais elementos de áudio eficazes nas respectivas posições de elemento de áudio eficaz a partir dos um ou mais elementos de áudio, em que os um ou mais elementos de áudio correspondem a um ou mais objetos de áudio originais e em que os um ou mais elementos de áudio eficazes encapsulam um impacto do ambiente acústico e correspondem a um ou mais objetos de áudio virtuais que representam a cena de áudio; gerar informações de elemento de áudio eficaz indicativas das posições de elemento de áudio eficaz dos um ou mais elementos de áudio eficazes, em que as informações de elemento de áudio eficaz são geradas para compreender informações indicativas de respectivos padrões de radiação sonora dos um ou mais elementos de áudio eficazes ; gerar uma indicação de modo de renderização que indica que os um ou mais elementos de áudio eficazes representam um campo sonoro obtido a partir de elementos de áudio pré-renderizados e devem ser renderizados usando um modo de renderização predeterminado que define uma configuração predeterminada de ferramentas de renderização de um decodificador para controlar um impacto do ambiente acústico na saída de renderização no decodificador; e codificar os um ou mais elementos de áudio, as posições dos elementos de áudio, os um ou mais elementos de áudio eficazes, as informações de elemento de áudio eficaz e a indicação de modo de renderização no fluxo de bits.

10. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que adicionalmente compreende: obter informações de posição de ouvinte indicativas de uma posição da cabeça de um ouvinte no ambiente acústico e/ou informações de orientação de ouvinte indicativas de uma orientação da cabeça do ouvinte no ambiente acústico; e codificar as informações de posição de ouvinte e/ou informações de orientação de ouvinte no fluxo de bits.

11. Método, de acordo com a reivindicação 9 ou 10, CARACTERIZADO pelo fato de que pelo menos dois elementos de áudio eficazes são gerados e codificados no fluxo de bits; e em que a indicação de modo de renderização indica um respectivo modo de renderização predeterminado para cada um dos pelo menos dois elementos de áudio eficazes.

12. Método, de acordo com qualquer uma das reivindicações 9 a 11, CARACTERIZADO pelo fato de que adicionalmente compreende: obter informações de área de posição de ouvinte indicativas de uma área de posição de ouvinte para a qual o modo de renderização predeterminado deve ser usado; e codificar as informações de área de posição de ouvinte no fluxo de bits.

13. Método, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que o modo de renderização predeterminado indicado pela indicação de modo de renderização depende da posição de ouvinte de modo que a indicação de modo de renderização indique um respectivo modo de renderização predeterminado para cada uma de uma pluralidade de posições de ouvinte.

14. Decodificador de áudio, CARACTERIZADO pelo fato de que compreende um processador acoplado a uma memória que armazena instruções para o processador, em que o processador está adaptado para executar o método como definido em qualquer uma das reivindicações 1 a 7.

15. Programa de computador, CARACTERIZADO pelo fato de que inclui instruções para fazer com que um processador que executa as instruções execute o método como definido em qualquer uma das reivindicações 1 a 7.

16. Meio de armazenamento legível por computador, CARACTERIZADO pelo fato de que armazena o programa de computador como definido na reivindicação 15.

17. Codificador de áudio, CARACTERIZADO pelo fato de que compreende um processador acoplado a uma memória que armazena instruções para o processador, em que o processador está adaptado para executar o método como definido em qualquer uma das reivindicações 8 a 13.

18. Programa de computador, CARACTERIZADO pelo fato de que inclui instruções para fazer com que um processador que executa as instruções execute o método de acordo com qualquer uma das reivindicações 8 a 13.

19. Meio de armazenamento legível por computador, CARACTERIZADO pelo fato de que armazena o programa de computador, como definido na reivindicação 18.