BR112020015835A2

BR112020015835A2 - Métodos, aparelho e sistemas para renderização de áudio 6dof e representações de dados e estruturas de fluxo de bits para renderização de áudio 6dof

Info

Publication number: BR112020015835A2
Application number: BR112020015835-6A
Authority: BR
Inventors: Leon Terentiv; Christof FERSCH; Daniel Fischer
Original assignee: Dolby International Ab
Priority date: 2018-04-11
Filing date: 2019-04-09
Publication date: 2020-12-15
Also published as: US20210168550A1; EP4123644A1; EP3776543A1; JP2024024085A; JP7093841B2; KR20200141438A; EP3776543B1; WO2019197404A1; JP2022120190A; US11432099B2; JP2021517987A; CN111712875A; JP7418500B2; US20230065644A1; RU2020127372A

Abstract

a presente revelação relaciona-se a métodos, aparelhos e sistemas para codificar um sinal de áudio em um fluxo de bits, mais especificamente em um codificador, compreendendo: codificar ou incluir dados de sinal de áudio associados à renderização de áudio 3dof em uma ou mais primeiras partes de fluxo de bits do fluxo de bits, e codificar ou incluir metadados associados à renderização de áudio 6dof em uma ou mais segundas partes de fluxo de bits do fluxo de bits. a presente revelação adicionalmente se relaciona a métodos, aparelho e sistemas para decodificação de um sinal de áudio e renderização de áudio baseada no fluxo de bits.

Description

“MÉTODOS, APARELHO E SISTEMAS PARA RENDERIZAÇÃO DE ÁUDIO 6DOF E REPRESENTAÇÕES DE DADOS E ESTRUTURAS DE FLUXO DE BITS PARA RENDERIZAÇÃO DE ÁUDIO 6DOF”

PEDIDOS RELACIONADOS

[001] O presente pedido reivindica o benefício do pedido US provisório No 62/655,990 depositado em 11 de abril de 2018, pedido este que é incorporado neste para fins de referência em sua totalidade.

CAMPO TÉCNICO

[002] A presente revelação relaciona-se à provisão de um aparelho, sistema e método para renderização de áudio de Seis Graus de Liberdade (“Six Degrees of Freedom” – 6DoF), mais particularmente em associação com representações de dados e estruturas de fluxo de bits para renderização de áudio 6DoF.

ANTECEDENTES DA INVENÇÃO

[003] Há, atualmente, uma falta de solução adequada para renderizar áudio em combinação com o movimento em Seis Graus de Liberdade (6DoF) de um usuário. Embora haja soluções para renderizar sinais Ambisonics de Primeira Ordem / Ordem Superior (HOA), de canal e objeto, em combinação com movimento em Três Graus de Liberdade (3DoF) (guinada, arfagem, rolamento), há uma falta de suporte no tratamento de tais sinais em combinação com o movimento em Seis Graus de Liberdade (6DoF) do usuário (guinada, arfagem, rolamento e movimento translacional).

[004] Em geral, a renderização de áudio 3DoF fornece um campo sonoro no qual uma ou mais fontes de áudio são renderizadas em posições angulares circundando uma posição de ouvinte predeterminada, chamada de posição 3DoF.

Um exemplo de renderização de áudio 3DoF está incluído no padrão de Áudio 3D MPEG-H (abreviado como MPEG-H 3DA).

[005] Embora o MPEG-H 3DA tenha sido desenvolvido para suportar sinais de canal, objeto e HOA para 3DoF, ele ainda não é capaz de lidar com áudio 6DoF real. Deseja-se que a implementação de áudio 3D MPEG-I concebida estenda a funcionalidade 3DoF (e 3DoF+) para equipamentos de áudio 3D 6DoF de forma eficiente (de preferência incluindo geração de sinal, codificação, decodificação e/ou renderização eficientes), ao mesmo em que preferivelmente ofereça retrocompatibilidade com renderização 3DoF.

[006] Em vista do acima exposto, a presente revelação tem por objetivo prover métodos, aparelhos e representações de dados e/ou estruturas de fluxo de bits para codificação de áudio 3D e/ou renderização de áudio 3D, que possibilite codificação e/ou renderização de áudio 6DoF eficiente, de preferência com retrocompatibilidade para renderização de áudio 3DoF, por exemplo, de acordo com o padrão MPEG-H 3DA.

[007] Pode ser outro objetivo da presente revelação prover representações de dados e/ou estruturas de fluxo de bits para codificação de áudio 3D e/ou renderização de áudio 3D, que possibilitem codificação e/ou renderização de áudio 6DoF eficiente, de preferência com retrocompatibilidade para renderização de áudio 3DoF, por exemplo, de acordo com o padrão MPEG-H 3DA, e aparelho de codificação e/ou renderização para codificação e/ou renderização de áudio 6DoF eficiente, de preferência com retrocompatibilidade para renderização de áudio 3DoF, por exemplo, de acordo com o padrão MPEG-H 3DA.

SUMÁRIO

[008] De acordo com aspectos ilustrativos, pode ser proporcionado um método para codificar um sinal de áudio em um fluxo de bits, mais especificamente em um codificador, o método compreendendo: codificar e/ou incluir dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits; e/ou codificar e/ou incluir metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits.

[009] De acordo com aspectos ilustrativos, os dados de sinal de áudio associados à renderização de áudio 3DoF incluem dados de sinal de áudio de um ou mais objetos de áudio.

[010] De acordo com aspectos ilustrativos, os um ou mais objetos de áudio são posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

[011] De acordo com aspectos ilustrativos, os dados de sinal de áudio associados à renderização de áudio 3DoF incluem dados direcionais de um ou mais objetos de áudio e/ou dados de distância de um ou mais objetos de áudio.

[012] De acordo com aspectos ilustrativos, os metadados associados à renderização de áudio 6DoF são indicativos de uma ou mais posições de ouvinte 3DoF padrão.

[013] De acordo com aspectos ilustrativos, os metadados associados à renderização de áudio 6DoF incluem ou são indicativos de pelo menos um dentre: uma descrição do espaço 6DoF, opcionalmente incluindo coordenadas de objetos; direções de objetos de áudio de um ou mais objetos de áudio; um ambiente de realidade virtual (VR); e/ou parâmetros relacionados à atenuação de distância, oclusão e/ou reverberações.

[014] De acordo com aspectos ilustrativos, o método pode adicionalmente incluir: receber sinais de áudio a partir de uma ou mais fontes de áudio; e/ou gerar os dados de sinal de áudio associados à renderização de áudio 3DoF com base nos sinais de áudio a partir das uma ou mais fontes de áudio e em uma função de transformada.

[015] De acordo com aspectos ilustrativos, os dados de sinal de áudio associados à renderização de áudio 3DoF são gerados por meio da transformação dos sinais de áudio provenientes das uma ou mais fontes de áudio em sinais de áudio 3DoF usando a função de transformada.

[016] De acordo com aspectos ilustrativos, a função de transformada mapeia ou projeta os sinais de áudio das uma ou mais fontes de áudio sobre respectivos objetos de áudio posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

[017] De acordo com aspectos ilustrativos, o método pode adicionalmente incluir: determinar uma parametrização da função de transformada baseado em características ambientais e/ou parâmetros relacionados à atenuação de distância, oclusão e/ou reverberações.

[018] De acordo com aspectos ilustrativos, o fluxo de bits é um fluxo de bits de áudio MPEG-H 3D ou um fluxo de bits usando sintaxe de Áudio MPEG-H 3D.

[019] De acordo com aspectos ilustrativos, as uma ou mais primeiras partes de fluxo de bits do fluxo de bits representam uma carga útil do fluxo de bits, e/ou as uma ou mais segundas partes de fluxo de bits representam um ou mais contêineres de extensão do fluxo de bits.

[020] De acordo com ainda outro aspecto ilustrativo, pode ser proporcionado um método para decodificação e/ou renderização de áudio, mais especificamente em um decodificador ou renderizador de áudio, o método compreendendo: receber um fluxo de bits que inclui dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits e adicionalmente incluindo metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits, e/ou realizar pelo menos uma dentre a renderização de áudio 3DoF e a renderização de áudio 6DoF com base no fluxo de bits recebido.

[021] De acordo com aspectos ilustrativos, quando se realiza a renderização de áudio 3DoF, a renderização de áudio 3DoF é realizada com base nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits, ao mesmo tempo descartando os metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits.

[022] De acordo com aspectos ilustrativos, quando se realiza a renderização de áudio 6DoF, a renderização de áudio 6DoF é realizada com base nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits e nos metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits.

[023] De acordo com aspectos ilustrativos, os dados de sinal de áudio associados à renderização de áudio 3DoF incluem dados de sinal de áudio de um ou mais objetos de áudio.

[024] De acordo com aspectos ilustrativos, os um ou mais objetos de áudio são posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

[025] De acordo com aspectos ilustrativos, os dados de sinal de áudio associados à renderização de áudio 3DoF incluem dados direcionais de um ou mais objetos de áudio e/ou dados de distância de um ou mais objetos de áudio.

[026] De acordo com aspectos ilustrativos, os metadados associados à renderização de áudio 6DoF são indicativos de uma ou mais posições de ouvinte 3DoF padrão.

[027] De acordo com aspectos ilustrativos, os metadados associados à renderização de áudio 6DoF incluem ou são indicativos de pelo menos um dentre: uma descrição do espaço 6DoF, opcionalmente incluindo coordenadas de objetos; direções de objetos de áudio de um ou mais objetos de áudio; um ambiente de realidade virtual (VR); e/ou parâmetros relacionados à atenuação de distância, oclusão e/ou reverberações.

[028] De acordo com aspectos ilustrativos, os dados de sinal de áudio associados à renderização de áudio 3DoF são gerados com base nos sinais de áudio provenientes das uma ou mais fontes de áudio e em uma função de transformada.

[029] De acordo com aspectos ilustrativos, os dados de sinal de áudio associados à renderização de áudio 3DoF são gerados por meio da transformação dos sinais de áudio provenientes das uma ou mais fontes de áudio em sinais de áudio 3DoF usando a função de transformada.

[030] De acordo com aspectos ilustrativos, a função de transformada mapeia ou projeta os sinais de áudio das uma ou mais fontes de áudio sobre respectivos objetos de áudio posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

[031] De acordo com aspectos ilustrativos, o fluxo de bits é um fluxo de bits de áudio MPEG-H 3D ou um fluxo de bits usando sintaxe de Áudio MPEG-H 3D.

[032] De acordo com aspectos ilustrativos, as uma ou mais primeiras partes de fluxo de bits do fluxo de bits representam uma carga útil do fluxo de bits, e/ou as uma ou mais segundas partes de fluxo de bits representam um ou mais contêineres de extensão do fluxo de bits.

[033] De acordo com aspectos ilustrativos, realizar a renderização de áudio 6DoF, sendo baseada nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits e nos metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits, inclui gerar dados de sinal de áudio associados à renderização de áudio 6DoF baseado nos dados de sinal de áudio associados à renderização de áudio 3DoF e em uma função de transformada inversa.

[034] De acordo com aspectos ilustrativos, os dados de sinal de áudio associados à renderização de áudio 6DoF são gerados por meio da transformação dos dados de sinal de áudio associados à renderização de áudio 3DoF usando a função de transformada inversa e os metadados associados à renderização de áudio 6DoF.

[035] De acordo com aspectos ilustrativos, a função de transformada inversa é uma função inversa de uma função de transformada que mapeia ou projeta sinais de áudio das uma ou mais fontes de áudio sobre respectivos objetos de áudio posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

[036] De acordo com aspectos ilustrativos, realizar a renderização de áudio 3DoF nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits resulta no mesmo campo sonoro gerado que realizar a renderização de áudio 6DoF, em uma posição de ouvinte 3DoF padrão, baseado nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits e nos metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits.

[037] De acordo com ainda outro aspecto ilustrativo, pode ser proporcionado um fluxo de bits para renderização de áudio, o fluxo de bits incluindo dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits e adicionalmente incluindo metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits. Este aspecto pode ser combinado com qualquer um ou vários dos aspectos ilustrativos acima.

[038] De acordo com ainda outro aspecto ilustrativo, pode ser proporcionado um aparelho, mais especificamente um codificador, incluindo um processador configurado para: codificar e/ou incluir dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits; codificar e/ou incluir metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits; e/ou emitir o fluxo de bits codificado. Este aspecto pode ser combinado com qualquer um ou vários dos aspectos ilustrativos acima.

[039] De acordo com ainda outro aspecto ilustrativo, pode ser proporcionado um aparelho, mais especificamente um decodificador ou renderizador de áudio, incluindo um processador configurado para: receber um fluxo de bits que inclui dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits e adicionalmente incluindo metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits, e/ou realizar pelo menos uma dentre a renderização de áudio 3DoF e a renderização de áudio 6DoF com base no fluxo de bits recebido. Este aspecto pode ser combinado com qualquer um ou vários dos aspectos ilustrativos acima.

[040] De acordo com aspectos ilustrativos, quando se realiza a renderização de áudio 3DoF, o processador é configurado para realizar a renderização de áudio 3DoF com base nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits, ao mesmo tempo descartando os metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits.

[041] De acordo com aspectos ilustrativos, quando se realiza a renderização de áudio 6DoF, o processador é configurado para realizar a renderização de áudio 6DoF com base nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits e nos metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits.

[042] De acordo com ainda outro aspecto ilustrativo, pode ser proporcionado um produto de programa de computador não-temporário incluindo instruções que, quando executadas por um processador, fazem o processador executar um método para codificar um sinal de áudio em um fluxo de bits, mais especificamente em um codificador, o método compreendendo: codificar ou incluir dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits; codificar e/ou incluir metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits.

Este aspecto pode ser combinado com qualquer um ou vários dos aspectos ilustrativos acima.

[043] De acordo com ainda outro aspecto ilustrativo, pode ser proporcionado um produto de programa de computador não-temporário incluindo instruções que, quando executadas por um processador, fazem o processador executar um método para decodificação e/ou renderização de áudio, mais especificamente em um decodificador ou renderizador de áudio, o método compreendendo: receber um fluxo de bits que inclui dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits e adicionalmente incluindo metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits, e/ou realizar pelo menos uma dentre a renderização de áudio 3DoF e a renderização de áudio 6DoF com base no fluxo de bits recebido. Este aspecto pode ser combinado com qualquer um ou vários dos aspectos ilustrativos acima.

[044] Aspectos adicionais da revelação se relacionam a programas de computador e meios de armazenamento legíveis por computador correspondentes.

[045] Será apreciado que as etapas do método e as características do aparelho podem ser intercambiadas de diversas maneiras. Mais especificamente, os detalhes do método revelado podem ser implementados como um aparelho adaptado para executar algumas ou todas as etapas do método, e vice-versa, como poderão apreciar os versados na técnica. Mais especificamente, entende-se que as respectivas afirmações feitas com respeito aos métodos se aplicam similarmente ao aparelho correspondente, e vice-versa.

BREVE DESCRIÇÃO DAS FIGURAS

[046] Modalidades ilustrativas da revelação são explicadas abaixo com referência aos desenhos acompanhantes, nos quais números de referências similares podem indicar elementos parecidos ou similares, e nos quais:

[047] A Fig. 1 ilustra, de forma esquemática, um sistema ilustrativo incluindo interfaces de decodificador/codificador de Áudio MPEG-H 3D de acordo com aspectos ilustrativos da presente revelação.

[048] A Fig. 2 ilustra, de forma esquemática, uma vista superior ilustrativa de uma cena 6DoF de uma sala (espaço 6DoF).

[049] A Fig. 3 ilustra esquematicamente a vista superior ilustrativa da cena 6DoF da Fig. 2 e dados de áudio 3DoF e metadados de extensão 6DoF de acordo com aspectos ilustrativos da presente revelação.

[050] A Fig. 4A ilustra, de forma esquemática, um sistema ilustrativo para processar dados 3DoF, 6DoF e de áudio de acordo com aspectos ilustrativos da presente revelação.

[051] A Fig. 4B ilustra, de forma esquemática, métodos ilustrativos de decodificação e renderização para renderização de áudio 6DoF e renderização de áudio 3DoF de acordo com aspectos ilustrativos da presente revelação.

[052] A Fig. 5 ilustra, de forma esquemática, uma condição de correlação ilustrativa da renderização de áudio 6DoF e da renderização de áudio 3DoF em uma posição 3DoF em um sistema de acordo com uma ou mais das Figs. 2 a 4B.

[053] A Fig. 6A ilustra, de forma esquemática, uma representação de dados e/ou estrutura de fluxo de bits ilustrativa de acordo com aspectos ilustrativos da presente revelação.

[054] A Fig. 6B ilustra, de forma esquemática, uma renderização de áudio 3DoF ilustrativa baseada na representação de dados e/ou estrutura de fluxo de bits da Fig. 6A de acordo com aspectos ilustrativos da presente revelação.

[055] A Fig. 6C ilustra, de forma esquemática, uma renderização de áudio 6DoF ilustrativa baseada na representação de dados e/ou estrutura de fluxo de bits da Fig. 6A de acordo com aspectos ilustrativos da presente revelação.

[056] A Fig. 7A ilustra, de forma esquemática, uma transformação de codificação de áudio 6DoF A baseada em dados de sinal de áudio 3DoF de acordo com aspectos ilustrativos da presente revelação.

[057] A Fig. 7B ilustra, de forma esquemática, uma transformação de codificação de áudio 6DoF A-1 para aproximar/restaurar dados de sinal de áudio 6DoF baseado em dados de sinal de áudio 3DoF de acordo com aspectos ilustrativos da presente revelação.

[058] A Fig. 7C ilustra, de forma esquemática, uma renderização de áudio 6DoF ilustrativa baseada nos dados de sinal de áudio 6DoF aproximados/restaurados da Fig. 7B de acordo com aspectos ilustrativos da presente revelação.

[059] A Fig. 8 ilustra, de forma esquemática, um fluxograma ilustrativo de um método de codificação de fluxo de bits 3DoF/6DoF de acordo com aspectos ilustrativos da presente revelação.

[060] A Fig. 9 ilustra, de forma esquemática, um fluxograma ilustrativo de métodos da renderização de áudio 3DoF e/ou 6DoF de acordo com aspectos ilustrativos da presente revelação.

DESCRIÇÃO DETALHADA

[061] No que se segue, aspectos ilustrativos preferidos serão descritos em mais detalhes com referência às figuras acompanhantes. Aspectos iguais ou similares nos diferentes desenhos e modalidades podem ser referenciados por numerais de referência similares. Deve-se entender que a descrição detalhada a seguir relacionando-se a diversos aspectos ilustrativos preferidos não deverá ser considerada como limitante quanto ao escopo da presente invenção.

[062] Como usado aqui, “Áudio 3D MPEG-H” deverá se referir à especificação tal qual normalizada na ISO/IEC 23008-3 e/ou em quaisquer emendas passadas e/ou futuras, edições ou outras versões da mesma da norma ISO/IEC 23008-3.

[063] Como usado aqui, deseja-se que a implementação de áudio 3D MPEG-I estenda a funcionalidade 3DoF (e 3DoF+) para o áudio 3D 6DoF, ao mesmo tempo preferivelmente oferecendo retrocompatibilidade com a renderização 3DoF.

[064] Como usado aqui, o 3DoF é tipicamente um sistema que pode lidar corretamente com o movimento da cabeça de um usuário, mais especificamente a rotação da cabeça, especificada com três parâmetros (por exemplo, guinada, arfagem, rolamento). Tais sistemas geralmente estão disponíveis em diversos sistemas de jogos, tais como sistemas de Realidade Virtual (VR) / Realidade Aumentada (AR) / Realidade Mista (MR), ou outros ambientes acústicos desse tipo.

[065] Como usado aqui, o 6DoF é tipicamente um sistema que pode lidar corretamente com o movimento 3DoF e translacional.

[066] Aspectos ilustrativos da presente revelação relacionam-se a um sistema de áudio (por exemplo, um sistema de áudio que é compatível com o padrão de áudio MPEG-I), em que o renderizador de áudio estende a funcionalidade para o 6DoF por meio da conversão dos metadados relacionados para um formato 3DoF, tal como um formato de entrada de renderizador de áudio que é compatível com um padrão MPEG (por exemplo, o padrão MPEG-H 3DA).

[067] A Fig. 1 ilustra um sistema 100 ilustrativo que é configurado para usar extensões de metadados e/ou extensões de renderizador de áudio além dos sistemas 3DoF existentes, de modo a possibilitar experiências 6DoF. O sistema 100 inclui um ambiente original 101 (que pode, a título de exemplo, incluir uma ou mais fontes de áudio 101a), um formato de conteúdo 102 (por exemplo, um fluxo de bits incluindo dados de áudio 3D), um codificador 103, e uma extensão de codificador de metadados proposta 106. O sistema 100 também pode incluir um renderizador de áudio 3D 105 (por exemplo, um renderizador 3DoF), e extensões de renderizador proponente 107 (por exemplo, extensões de renderizador 6DoF para um ambiente reproduzido 108).

[068] Em um método de renderização de áudio 3D com 3DoF, somente os ângulos (por exemplo, ângulo de guinada y, ângulo de arfagem p, ângulo de rolamento r) da orientação angular de um usuário em uma posição 3DoF predeterminada podem ser passados para o renderizador de áudio 3DoF 105. Com a funcionalidade 6DoF estendida, as coordenadas de localização do usuário (por exemplo, x, y e z) podem adicionalmente ser passadas para o renderizador de áudio 6DoF (renderizador de extensão).

[069] Uma vantagem da presente revelação inclui aprimoramentos da taxa de bits para o fluxo de bits transmitido entre o codificador e o decodificador. O fluxo de bits pode ser codificado e/ou decodificado em conformidade com um padrão, por exemplo, o padrão de Áudio MPEG-I e/ou o padrão de Áudio 3D MPEG-H, ou pelo menos retrocompatível com tal padrão, tal como com o padrão de Áudio 3D MPEG- H.

[070] Em alguns exemplos, aspectos ilustrativos da presente revelação estão direcionados ao processamento de um único fluxo de bits (por exemplo, fluxo de bits (BS) de Áudio 3D (3DA) MPEG-H ou um fluxo de bits que utiliza sintaxe de um BS 3DA MPEG-G) que é compatível com diversos sistemas.

[071] Por exemplo, em alguns aspectos ilustrativos, o fluxo de bits de áudio pode ser compatível com dois ou mais renderizadores diferentes, por exemplo, um renderizador de áudio 3DoF que pode ser compatível com um padrão (por exemplo, o Padrão de Áudio 3D MPEG-H) e um renderizador de áudio 6DoF recém-definido ou extensão de renderizador que pode ser compatível com um segundo padrão diferente (por exemplo, o padrão de Áudio MPEG-I).

[072] Aspectos ilustrativos da presente revelação estão direcionados a diferentes decodificadores configurados para realizar a decodificação e renderização do mesmo fluxo de bits de áudio, de preferência de modo a produzir a mesma saída de áudio.

[073] Por exemplo, aspectos ilustrativos da presente revelação se relacionam a um decodificador 3DoF e/ou um renderizador 3DoF e/ou um decodificador 6DoF e/ou um renderizador 6DoF configurado para produzir a mesma saída para o mesmo fluxo de bits (por exemplo, um BS 3DA ou fluxo de bits usando o BS 3DA). A título de exemplo, o fluxo de bits pode incluir informação relativa às posições definidas de um ouvinte no espaço VR/AR/MR (realidade virtual / realidade aumentada / realidade mista), por exemplo, como parte dos metadados 6DoF.

[074] A título de exemplo, a presente revelação adicionalmente diz respeito a codificadores e/ou decodificadores configurados para codificar e/ou decodificar, respectivamente, informação 6DoF (por exemplo, compatível com um ambiente de Áudio MPEG-I), em que tais codificadores e/ou decodificadores da presente revelação oferecem uma ou várias das seguintes vantagens:

[075]  representações eficientes em termos de qualidade e taxa de bits dos dados de áudio relacionados a VR/AR/MR e sua encapsulação na sintaxe de fluxo de bits de áudio (por exemplo, BS de Áudio 3D MPEG-H);

[076]  retrocompatibilidade entre vários sistemas (por exemplo, o padrão MPEG-H 3DA e um padrão de Áudio MPEG-I almejado).

[077] De modo a preferivelmente evitar competição entre as soluções 3DoF e 6DoF e oferecer uma transição suave entre as tecnologias presentes e futuras, a retrocompatibilidade se mostra altamente benéfica.

[078] Por exemplo, a retrocompatibilidade entre um sistema de áudio 3DoF e um sistema de áudio 6DoF pode ser altamente benéfica, tal como fornecendo, em um sistema de áudio 6DoF, tal como Áudio MPEG-I, retrocompatibilidade para um sistema de áudio 3DoF, tal como Áudio 3D MPEG-H.

[079] De acordo com aspectos ilustrativos da presente revelação, isto pode ser realizado oferecendo-se retrocompatibilidade, por exemplo, em um nível de fluxo de bits, para sistemas relacionados a 6DoF consistindo de:

[080]  Dados codificados de material de áudio 3DoF e metadados relacionados; e

[081]  metadados relacionados a 6DoF.

[082] Aspectos ilustrativos da presente revelação referem-se a uma sintaxe de fluxo de bits 3DoF padrão, tal como um primeiro tipo de sintaxe de fluxo de bits de áudio (por exemplo, BS MPEG-H 3DA), que encapsula elementos de fluxo de bits 6DoF, tais como elementos de fluxo de bits de Áudio MPEG-I, por exemplo, em um ou mais contêineres de extensão do primeiro tipo de fluxo de bits de áudio (por exemplo, BS MPEG-H 3DA).

[083] De modo a proporcionar um sistema que assegure retrocompatibilidade em um nível de desempenho, os seguintes sistemas e/ou estruturas podem ser relevantes e podem ocorrer.

[084] 1a. Um sistema 3DoF (por exemplo, sistemas que são compatíveis com padrões do MPEG-H 3DA) deverá ser capaz de ignorar todos os elementos de sintaxe relacionados a 6DoF (por exemplo, ignorando elementos de sintaxe de fluxo de bits de Áudio MPEG-I baseado na funcionalidade de “mpegh3daExtElementConfig()” ou “mpegh3daExtElement()” de uma sintaxe de fluxo de bits de Áudio 3D MPEG-H), isto é, o sistema 3DoF (decodificador / renderizador) pode preferencialmente ser configurado para negligenciar e/ou metadados relacionados a 6DoF (por exemplo, deixando de ler os dados e/ou metadados relacionados a 6DoF); e

[085] 2a. A parte restante da carga útil de fluxo de bits (por exemplo, carga de útil de fluxo de bits de Áudio MPEG-I contendo dados e/ou metadados compatíveis com um analisador de fluxo de bits MPEG-H 3DA) deverá ser decodificável pelo sistema 3DoF (por exemplo, um sistema MPEG-H 3DA legado) de modo a produzir a saída de áudio desejada, isto é, o sistema 3DoF (decodificador/renderizador) pode preferencialmente ser configurado para decodificar a parte 3DoF do BS; e

[086] 3a. O sistema 6DoF (por exemplo, o sistema de Áudio MPEG-I) deverá ser capaz de processar tanto partes relacionadas ao 3DoF quanto partes relacionadas ao 6DoF de um fluxo de bits de áudio e produzir saída de áudio que correlaciona a saída de áudio do sistema 3DoF (por exemplo, dos sistemas MPEG-H 3DA) em posição(ões) 3DoF retrocompatíveis predefinidas no espaço VR/AR/MR, isto é, o sistema 6DoF (decodificador/renderizador) pode preferivelmente ser configurado para renderizar, na(s) posição(ões) 3DoF padrão, o campo sonoro / saída de áudio que se correlaciona ao campo sonoro / saída de áudio renderizada 3DoF; e

[087] 4a. O sistema 6DoF (por exemplo, o sistema de Áudio MPEG-I) deverá promover uma mudança (transição) suave da saída de áudio em torno da(s) posição(ões) 3DoF retrocompatíveis (isto é, proporcionando um campo sonoro contínuo em um espaço 6DoF), ou seja, o sistema 6DoF (decodificador/renderizador) pode preferivelmente ser configurado para renderizar, nas imediações da(s) posição(ões) 3DoF padrão, o campo sonoro / saída de áudio que transita suavemente, na(s) posição(ões) 3DoF padrão, para o campo sonoro / saída de áudio renderizada 3DoF.

[088] Em alguns exemplos, a presente revelação relaciona-se à provisão de um renderizador de áudio 6DoF (por exemplo, um renderizador de Áudio MPEG-I) que produz a mesma saída de áudio que um renderizador de áudio 3DoF (por exemplo, um renderizador de Áudio 3D MPEG-H) em uma, mais, ou algumas posições 3DoF.

[089] Atualmente, há desvantagens quando se transportam diretamente sinais de áudio e metadados relacionados a 3DoF diretamente para um sistema de áudio 6DoF, as quais incluem:

[090] Aumento da taxa de bits (isto é, os sinais de áudio e metadados relacionados a 3DoF são enviados em acréscimo aos sinais de áudio e metadados relacionados a 6DoF); e

[091] Validade limitada (isto é, o(s) sinal(is) de áudio e metadados relacionado(s) a 3DoF são válidos somente para posição(ões) 3DoF)).

[092] Aspectos ilustrativos da presente revelação se relacionam à superação das desvantagens acima.

[093] Em alguns exemplos, a presente revelação está direcionada a:

[094] usar sinal(is) de áudio e metadados compatíveis com 3DoF (por exemplo, sinais e metadados compatíveis com Áudio 3D MPEG-H) em vez (ou como uma adição complementar) dos sinais de fonte de áudio e metadados originais; e/ou

[095] aumentar a faixa de aplicabilidade (uso para renderização 6DoF) a partir da(s) posição(ões) 3DoF para o espaço 6DoF (definido por um criador de conteúdo), ao mesmo tempo preservando um alto nível de aproximação de campo sonoro.

[096] Aspectos ilustrativos da presente revelação estão direcionados à geração, codificação, decodificação e renderização eficiente de tal(is) sinal(is) de modo a cumprir esses objetivos e oferecer funcionalidade de renderização 6DoF.

[097] A Fig. 2 ilustra uma vista superior 202 ilustrativa de uma sala 201 ilustrativa. Como mostra a Fig. 2, um ouvinte ilustrativo está de pé parado no meio da sala com várias fontes de áudio e geometrias de parede não-triviais. Nos equipamentos 6DoF (por exemplo, sistemas que oferecem capacidades 6DoF), o ouvinte ilustrativo pode circular, mas se parte do pressuposto, em alguns exemplos, de que a posição 3DoF padrão 206 pode corresponder à região pretendida da melhor experiência de áudio VR/AR/MR (por exemplo, de acordo com uma configuração ou intenção de um criador de conteúdo).

[098] Mais especificamente, a Fig. 2 ilustra, a mero título de exemplo, paredes 203, um espaço 6DoF 204, vetores de diretividade (opcionais) 205 ilustrativos (por exemplo, se uma ou mais fontes sonoras emitirem som direcionalmente), uma posição de ouvinte 3DoF 206 (posição 3DoF padrão 206) e fontes de áudio 207 que são ilustradas a título de exemplo na forma de estrela na Fig. 2.

[099] A Fig. 3 ilustra um exemplo de cena VR/AR/NR 6DoF, por exemplo, como na Fig. 2, bem como objetos de áudio (dados de áudio + metadados) 320 contidos em um fluxo de bits de áudio 3DoF 302 (por exemplo, tal como um fluxo de bits de áudio 3D MPEG-H) e um contêiner de extensão 303. O fluxo de bits de áudio 302 e o contêiner de extensão 303 podem ser codificados por meio de um aparelho ou sistema (por exemplo, software, hardware ou através da nuvem) que é compatível com um padrão MPEG (por exemplo, MPEG-H ou MPEG-I).

[0100] Aspectos ilustrativos da presente revelação relacionam-se à recriação do campo sonoro, quando se utiliza um renderizador de áudio 6DoF (por exemplo, um renderizador de Áudio MPEG-I), em uma “posição 3DoF” de uma maneira que corresponda a um sinal de saída de renderizador de áudio 3DoF (por exemplo, um renderizador de áudio MPEG-H) (que pode ou não ser consistente com a lei física de propagação sonora). Este campo sonoro deverá preferencialmente ser baseado nas “fontes de áudio” originais e refletir a influência das geometrias complexas do ambiente VR/AR/MR correspondente (por exemplo, efeito das “paredes”, estruturas,

reflexões sonoras, reverberações e/ou oclusões, etc.).

[0101] Aspectos ilustrativos da presente revelação relacionam-se à parametrização por um codificador de toda a informação relevante descrevendo este cenário de tal maneira a assegurar o cumprimento de um, vários, ou preferivelmente todos os requisitos correspondentes (1a) a (4a) descritos acima.

[0102] Se dois modos de renderização de áudio forem executados (isto é, 3DoF e 6DoF) em paralelo e um algoritmo de interpolação for aplicado às saídas correspondentes no espaço 6DoF, tal abordagem seria inferior à ideal, pois exigiria:

[0103]  a execução paralela de dois algoritmos de renderização distintos (isto é, um para uma posição 3DoF específica e um para o espaço 6DoF);

[0104]  uma grande quantidade de dados de áudio (para transportar dados de áudio adicionais para um Renderizador de Áudio 3DoF).

[0105] Aspectos ilustrativos da presente revelação evitam as desvantagens supracitadas, uma vez que preferencialmente apenas um único modo de renderização de áudio é executado (por exemplo, em vez da execução paralela de dois modos de renderização de áudio) e/ou dados de áudio 3DoF são preferencialmente usados para a renderização de áudio 6DoF com metadados adicionais para restaurar e/ou aproximar o(s) sinal(is) da(s) fonte(s) sonora(s) original(is) (por exemplo, em vez de transmitir os dados de Áudio 3DoF e os dados da(s) fonte(s) sonora(s) original(is)).

[0106] Aspectos ilustrativos da presente revelação relacionam-se (1) a um único algoritmo de renderização de Áudio 6DoF (por exemplo, compatível com Áudio MPEG-I) que preferivelmente produz exatamente a mesma saída que um algoritmo de renderização de Áudio 3DoF (por exemplo, compatível com MPEG-H 3DA) em posição(ões) específica(s) e/ou (2) representando o áudio (por exemplo, dados de áudio 3DoF) e metadados de áudio relacionados a 6DoF para minimizar a redundância nas partes relacionadas ao 3DoF e VR/AR/MR de um dado de fluxo de bits de Áudio 6DoF (por exemplo, um dado de fluxo de bits de Áudio MPEG-I).

[0107] Aspectos ilustrativos da presente revelação relacionam-se ao uso de uma primeira sintaxe de fluxo de bits de formato padronizado (por exemplo, BS MPEG-H 3DA) para encapsular um segundo fluxo de bits de formato padronizado (por exemplo, padrões futuros, por exemplo, MPEG-I) ou partes do mesmo e metadados relacionados a 6DoF para:

[0108]  transportar (por exemplo, na parte de núcleo da sintaxe de fluxo de bits de áudio 3DoF) os sinais de fonte de áudio e metadados que, preferivelmente como sendo decodificados por um sistema de áudio 3DoF, que de preferência se aproximam suficientemente bem do campo sonoro desejado na(s) posição(ões) 3DoF (padrão); e

[0109]  transportar (por exemplo, na parte de extensão da sintaxe de fluxo de bits de áudio 3DoF) os metadados relacionados a 6DoF e/ou dados adicionais (dados paramétricos e/ou de sinal) que são usados para aproximar (restaurar) os sinais de fonte de áudio originais para renderização de áudio 6DoF.

[0110] Um aspecto da presente revelação relaciona-se a uma determinação das “posições 3DoF” desejadas e dos sinais compatíveis com o sistema de áudio 3DoF (por exemplo, sistema MPEG-H 3DA) em um lado do codificador.

[0111] Por exemplo, como ilustrado com relação à Fig. 3, os sinais de objeto 3Da virtuais para 3DA podem produzir o mesmo campo sonoro em uma posição 3DoF específica (baseado nos sinais x3DA) que deverá preferivelmente conter os efeitos do ambiente VR para a(s) posição(ões) 3DoF específicas (sinais “molhados”), uma vez que alguns sistemas 3DoF (tal como o sistema MPEG-H 3DA) não consegue levar em conta os efeitos ambientais VR/AR/MR (por exemplo, oclusão, reverberação, etc.). Os métodos e processos ilustrados na Fig. 3 podem ser realizados por meio de uma variedade de sistemas e/ou produtos.

[0112] A função inversa deverá, em alguns aspectos ilustrativos,

preferivelmente “secar” (ou seja, remover os efeitos do ambiente VR) esses sinais, o que seria útil por ser necessário para aproximar os sinais “secos” originais (que estão livres dos efeitos do ambiente VR).

[0113] O(s) sinal(is) de áudio para renderização 3DoF ((x3DA)) podem preferivelmente ser definidos de modo a fornecer a mesma saída / saída similar tanto para renderizações de áudio 3DoF quanto 6DoF, por exemplo, baseado em: Equação No (1)

[0114] Os objetos de áudio podem estar contidos em um fluxo de bits padronizado. Este fluxo de bits pode ser codificado em conformidade com uma variedade de padrões, tal como MPEG-H 3DA e/ou MPEG-I.

[0115] O BS pode incluir informação referente a sinais de objetos, direções de objetos e distâncias de objetos.

[0116] A Fig. 3 adicionalmente ilustra, a título de exemplo, um contêiner de extensão 303 que pode conter metadados de extensão, por exemplo, no BS. O contêiner de extensão 303 do BS pode incluir pelo menos um dos seguintes metadados: (i) parâmetros de posição (padrão) 3DoF; (ii) parâmetros de descrição de espaço 6DoF (coordenadas de objetos); (iii) (opcional) parâmetros de direcionalidade de objeto; (iv) (opcional) parâmetros de ambiente VR/AR/MR; e/ou (v) (opcional) parâmetros de atenuação de distância, parâmetros de oclusão e/ou parâmetros de reverberação, etc.

[0117] Pode haver uma aproximação da renderização de áudio desejada incluída, baseada em: Equação No (2)

[0118] A aproximação pode ser baseada no ambiente VR, em que as características do ambiente podem ser incluídas nos metadados de contêiner de extensão.

[0119] Adicionalmente ou opcionalmente, a suavidade para uma saída de renderizador de áudio 6DoF (por exemplo, renderizador de Áudio MPEG-I) pode ser proporcionada, de preferência com base em: - classe de continuidade geométrica Equação No (3)

[0120] Aspectos ilustrativos da presente revelação estão direcionados à definição de objetos de áudio 3DoF (por exemplo, objetos MPEG-H 3DA) no lado do codificador, de preferência baseado em: Equação No (4)

[0121] Um aspecto da presente revelação relaciona-se à recuperação dos objetos originais no decodificador baseado em: Equação No (5)

[0122] onde x relaciona-se à fonte sonora / sinais de objetos, x* relaciona-se a uma aproximação da fonte sonora / sinais de objetos, F(x) para 3DoF / para 6DoF relaciona-se a uma função de renderização de áudio para posição(ões) de ouvinte 3DoF / 6DoF, 3DoF relaciona-se a uma ou mais dadas posições de compatibilidades de referência  espaço 6DoF; 6DoF relaciona-se a posição(ões) permitida(s) arbitrárias  cena VR;

[0123]  relaciona-se à renderização de Áudio 6DoF especificada pelo decodificador (por exemplo, renderização de Áudio MPEG-I);

[0124]  F3DoF relaciona-se a um renderizador 3DoF especificado pelo decodificador (por exemplo, renderização MPEG-H 3DA); e

[0125]  A, A-1 relaciona-se a uma função (A) aproximando sinais x3DA baseado nos sinais e seu inverso (A-1).

[0126] As fontes sonoras/sinais de objetos aproximados são preferivelmente recriados usando um renderizador de áudio 6DoF em uma “posição 3DoF” de uma maneira que corresponda a um sinal de saída de renderizador de áudio 3DoF.

[0127] As fontes sonorosas/sinais de objetos são preferivelmente aproximados com base em um campo sonoro que se baseia nas “fontes de áudio” originais e reflete a influência das geometrias complexas do ambiente VR/AR/MR correspondente (por exemplo, “paredes”, estruturas, reverberações, oclusões, etc.).

[0128] Ou seja, os sinais de objetos 3DA virtuais para 3DA preferivelmente produzem o mesmo campo sonoro em uma posição 3DoF específica (baseado nos sinais x3DA) que contém os efeitos do ambiente VR para a(s) posição(ões) 3DoF específica(s).

[0129] O seguinte pode estar disponível no lado de renderização por exemplo, para um decodificador que está em conformidade com um padrão, tais como os padrões MPEG-H ou MPEG-I):

[0130]  sinal(is) de áudio para renderização de Áudio 3DoF:

[0131]  funcionalidade de renderização de Áudio tanto 3DoF quanto 6DoF: ou Equação No 6

[0132] Para renderização de Áudio 6DoF, adicionalmente pode haver metadados 6DoF disponíveis no lado de renderização para a funcionalidade de renderização de Áudio 6DoF (por exemplo, para aproximar / restaurar os sinais de áudio x da uma ou mais fontes de áudio, por exemplo, com base nos sinais de áudio 3DoF x3DA e nos metadados 6DoF.

[0133] Exemplos de aspectos da presente revelação se relacionam (1) à definição dos objetos de áudio 3DoF (por exemplo, objetos MPEG-H 3DA) e/ou (ii) à recuperação (aproximação) dos objetos de áudio originais.

[0134] Os objetos de áudio podem, a título de exemplo, estar contidos em um fluxo de bits de áudio 3DoF (tal como MPEG-H 3DA BS).

[0135] O fluxo de bits pode incluir informação referente a sinais de áudio de objetos, direções de objetos e/ou distâncias de objetos.

[0136] Um contêiner de extensão (por exemplo, do fluxo de bits, tal como o BS MPEG-H 3DA) pode incluir pelo menos um dos seguintes metadados. (i)

parâmetros de posição (padrão) 3DoF; (ii) parâmetros de descrição de espaço 6DoF (coordenadas de objetos); (iii) (opcional) parâmetros de direcionalidade de objeto; (iv) (opcional) parâmetros de ambiente VR/AR/MR; e/ou (v) (opcional) parâmetros de atenuação de distância, parâmetros de oclusão, parâmetros de reverberação, etc.

[0137] A presente invenção pode oferecer as seguintes vantagens:

[0138]  Retrocompatibilidade com a decodificação e renderização de áudio 3DoF (por exemplo, decodificação e renderização MPEG-H 3DA): a saída do renderizador de Áudio 6DoF (por exemplo, renderizador de Áudio MPEG-I) corresponde à saída de renderização 3DoF de um mecanismo de renderização 3DoF (por exemplo, mecanismo de renderização MPEG-H 3DA) para a(s) posição(ões) 3DoF predeterminadas.

[0139]  Eficiência de codificação: para esta abordagem, a estrutura de sintaxe de fluxo de bits de áudio 3DoF (por exemplo, sintaxe de fluxo de bits MPEG- H 3DA pode ser reutilizada de maneira eficiente.

[0140]  Controle de qualidade de áudio na(s) posição(ões) (3DoF) predeterminada(s): a melhor qualidade de áudio perceptiva pode ser assegurada explicitamente pelo codificador para quaisquer posições arbitrárias e o espaço 6DoF correspondente.

[0141] Aspectos ilustrativos da presente revelação podem se relacionar à seguinte sinalização em um formato compatível com um fluxo de bits no padrão MPEG (por exemplo, o padrão MPEG-I):

[0142]  Sinalização de compatibilidade com o sistema de Áudio 3DoF (por exemplo, MPEG-H 3DA) implícita por meio de um mecanismo de contêiner de extensão (por exemplo, BS MPEG-H 3DA) que permite que um algoritmo de processamento de Áudio 6DoF (por exemplo, compatível com Áudio MPEG-1) recupere os sinais de objeto de áudio originais.

[0143]  Parametrização descrevendo os dados para aproximação dos sinais de objeto de áudio originais.

[0144] Um renderizador de Áudio 6DoF pode especificar como recuperar os sinais de objeto de áudio originais, por exemplo, em um sistema compatível com MPEG (por exemplo, sistema de Áudio MPEG-I).

[0145] Este conceito proposto:

[0146]  é genérico quanto à definição da função de aproximação (isto é, A(x));

[0147]  pode ser arbitrariamente complexo, mas no lado do decodificador, deverá existir a aproximação correspondente (isto é, );

[0148]  aproximadamente ser matematicamente “bem definido” (por exemplo, estável do ponto de vista algorítmico, etc);

[0149]  é genérico em termos de tipos da função de aproximação (isto é, A(x));

[0150]  a função de aproximação pode ser baseada nos seguintes tipos de aproximação ou em qualquer combinação dessas abordagens (listados na ordem de aumento de consumo da taxa bits):

[0151] – efeito(s) de áudio parametrizado(s) aplicados para o sinal (por exemplo, nível controlado parametricamente, reverberação, reflexão, oclusão, etc.)

[0152] – Modificação(ões) codificada(s) parametricamente (por exemplo, ganhos de modificação de variante de tempo/frequência para o sinal transmitido )

[0153] – modificação(ões) codificada(s) em sinal (por exemplo, sinais codificados aproximando a forma de onda residual (x – x3DA)); e

[0154]  é extensível e aplicável a representações genéricas de fontes sonorosas e campos sonoros (e suas combinações): objetos, canais, FOA, HOA.

[0155] A Fig. 6A ilustra, de forma esquemática, uma representação de dados e/ou estrutura de fluxo de bits ilustrativa de acordo com aspectos ilustrativos da presente revelação. A representação de dados e/ou estrutura de fluxo de bits pode ter sido codificada por meio de um aparelho ou sistema (por exemplo, software, hardware ou através da nuvem) que é compatível com um padrão MPEG (por exemplo, MPEG-H ou MPEG-I).

[0156] O fluxo de bits BS inclui, a título de exemplo, uma primeira parte de fluxo de bits 302 que inclui dados de áudio codificados em 3DoF (por exemplo, em uma parte principal ou parte núcleo do fluxo de bits). De preferência, a sintaxe de fluxo de bits do fluxo de bits BS é compatível ou em conformidade com uma sintaxe de BS da renderização de áudio 3DoF, tal como, por exemplo, uma sintaxe de fluxo de bits MPEG-H 3DA. Os dados de áudio codificados em 3DoF podem ser incluídos como carga útil em um ou mais pacotes do fluxo de bits BS.

[0157] Como descrito anteriormente, por exemplo, em conjunto com a Fig. 3 acima, os dados de áudio codificados em 3DoF podem incluir sinais de objeto de áudio de um ou mais objetos de áudio (por exemplo, em uma esfera ao redor de uma posição 3DoF padrão). Para objetos de áudio direcionais, os dados de áudio codificados em 3DoF podem adicionalmente opcionalmente incluir direções de objeto, e/ou opcionalmente adicionalmente serem indicativos de distâncias de objetos (por exemplo, pelo uso de um ganho e/ou um ou mais parâmetros de atenuação).

[0158] A título de exemplo, a BS inclui ilustrativamente uma segunda parte de fluxo de bits 303 que inclui metadados 6DoF para codificação de áudio 6DoF (por exemplo, em uma parte de metadados ou parte de extensão do fluxo de bits). De preferência, a sintaxe de fluxo de bits do fluxo de bits BS é compatível ou em conformidade com uma sintaxe de BS da renderização de áudio 3DoF, tal como, por exemplo, uma sintaxe de fluxo de bits MPEG-H 3DA. Os metadados 6DoF podem ser incluídos como metadados de extensão em um ou mais pacotes do fluxo de bits

BS (por exemplo, em um ou mais contêineres de extensão, que já são, por exemplo, fornecidos pela estrutura de fluxo de bits MPEG-H 3DA).

[0159] Como descrito anteriormente, por exemplo, em conjunto com a Fig. 3 acima, os metadados 6DoF podem incluir dados de posição (por exemplo, coordenadas(s)) de uma ou mais posições 3DoF (padrão), ainda como outra opção uma descrição do espaço 6DoF (por exemplo, coordenadas de objeto), ainda como outra opção direcionalidades de objetos, ainda como outra opção metadados descrevendo e/ou parametrizando um ambiente VR e/ou ainda como outra opção incluir informação de parametrização e/ou parâmetros sobre atenuação, oclusões e/ou reverberações, etc.

[0160] A Fig. 6B ilustra, de forma esquemática, uma renderização de áudio 3DoF ilustrativa baseada na representação de dados e/ou estrutura de fluxo de bits da Fig. 6A de acordo com aspectos ilustrativos da presente revelação. Como na Fig.

6a, a representação de dados e/ou estrutura de fluxo de bits pode ter sido codificada por meio de um aparelho ou sistema (por exemplo, software, hardware ou através da nuvem) que é compatível com um padrão MPEG (por exemplo, MPEG-H ou MPEG- I).

[0161] Especificamente, é ilustrado a título de exemplo na Fig. 6B que a renderização de áudio 3DoF pode ser alcançada por um renderizador de áudio 3DoF que pode descartar os metadados 6DoF, para realizar a renderização de áudio 3DoF com base somente nos dados de áudio codificados 3DoF obtidos a partir da primeira parte de fluxo de bits 302. Ou seja, por exemplo, no caso da retrocompatibilidade com MPEG-H 3DA, o renderizador MPEG-H 3DA pode negligenciar / descartar, de forma eficiente e confiável, os metadados 6DoF na parte de extensão (por exemplo, o(s) contêiner(es) de extensão)) do fluxo de bits de modo a realizar a renderização de áudio 3DoF (ou 3DoF+) de MPEG-H 3DA regular eficiente baseado somente nos dados de áudio codificados em 3DoF obtidos a partir da primeira parte de fluxo de bits 302.

[0162] A Fig. 6C ilustra, de forma esquemática, uma renderização de áudio 6DoF ilustrativa baseada na representação de dados e/ou estrutura de fluxo de bits da Fig. 6A de acordo com aspectos ilustrativos da presente revelação. Como na Fig.

[0163] Especificamente, é ilustrado a título de exemplo na Fig. 6C que a renderização de áudio 6DoF pode ser alcançada por um novo renderizador de áudio 6DoF (por exemplo, de acordo com o MPEG-I ou padrões posteriores) que usa os dados de áudio codificados em 3DoF obtidos a partir da primeira parte de fluxo de bits 302 junto com os metadados 6DoF obtidos a partir da segunda parte de fluxo de bits 303, para realizar a renderização de áudio 6DoF baseado nos dados de áudio codificados em 3DoF obtidos a partir da primeira parte de fluxo de bits 302 e os metadados 6DoF obtidos a partir da segunda parte de fluxo de bits 303.

[0164] Por conseguinte, sem ou pelo menos com redundância reduzida no fluxo de bits, o mesmo fluxo de bits pode ser usado pelos renderizadores de áudio 3DoF legados, o que permite retrocompatibilidade simples e benéfica, para renderização de áudio 3DoF e por novos renderizadores de áudio 6DoF para renderização de áudio 6DoF.

[0165] A Fig. 7A ilustra, de forma esquemática, uma transformação de codificação de áudio 6DoF A baseada em dados de sinal de áudio 3DoF de acordo com aspectos ilustrativos da presente revelação. A transformação (e quaisquer transformações inversas) pode ser realizada de acordo com métodos, processos, aparelhos ou sistemas (por exemplo, software, hardware ou através da nuvem) que são compatíveis com um padrão MPEG (por exemplo, MPEG-H ou MPEG-I).

[0166] A título de exemplo, similar às Figs. 2 e 3 acima, a Fig. 7A mostra uma vista superior 202 ilustrativa de uma sala, incluindo, a título de exemplo, várias fontes de áudio 207 (que podem estar localizadas por trás das paredes 203 ou seus sinais sonoros podem ser obstruídos por outras estrutura, o que pode levar a efeitos de atenuação, reverberação e/ou oclusão).

[0167] Para fins de renderização de áudio 3DoF, os sinais de áudio x das várias fontes de áudio 207 são transformados de modo a obter sinais de áudio 3DoF (objetos de áudio) em uma esfera S ao redor de uma posição 3DoF 206 padrão (por exemplo, uma posição de ouvinte em um campo sonoro 3DoF). Como antes, os sinais de áudio 3DoF são designados por x3DA e podem ser obtidos usando a função de transformação A tal que: x3DA = A(x) Equação No (6)

[0168] Na expressão acima, x indica a(s) fonte(s) sonora(s) / sinal(is) de objetos, x3DA indica os sinais de objetos 3DA virtuais correspondentes para 3DA produzindo o mesmo campo sonoro na posição 3DoF padrão 206, e A indica a função de transformação que aproxima os sinais de áudio x3DA com base nos sinais de áudio x. A função de transformação inversa A-1 pode ser usada para restaurar / aproximar os sinais de fonte sonora para renderização de áudio 6DoF, como já discutido acima e em mais detalhes abaixo. Observe que A A-1= 1 e A-1A = 1 ou pelo menos A A-1 ≈ 1 e A-1A ≈ 1.

[0169] De forma geral, a função de transformação A pode ser considerada como uma função de mapeamento/projeção que projeta ou pelo menos mapeia os sinais de áudio x sobre a esfera S circundando a posição 3DoF padrão 206 em alguns aspectos ilustrativos da presente revelação.

[0170] Deve-se notar ainda que a renderização de áudio 3DoF não está ciente de um ambiente VR (tais como paredes 203 existentes, ou similares, ou outras estruturas, o que pode levar a atenuação, reverberações, efeitos de oclusão,

ou similares). Por conseguinte, a função de transformação A pode preferencialmente incluir efeitos baseados em tais características ambientais de VR.

[0171] A Fig. 7B ilustra, de forma esquemática, uma transformação de codificação de áudio 6DoF A-1 para aproximar/restaurar dados de sinal de áudio 6DoF baseado em dados de sinal de áudio 3DoF de acordo com aspectos ilustrativos da presente revelação.

[0172] Usando a função de transformação inversa A-1 e os sinais de áudio 3DoF aproximados x3DA obtidos como na Fig. 7A acima, os sinais de áudio originais x* das fontes de áudio originais 207 podem ser restaurados / aproximados como: x* = A-1(x3DA). Equação No (7)

[0173] Por conseguinte, os sinais de áudio x* dos objetos de áudio 320 na Fig. 7B podem ser restaurados de maneira similar ou igual aos sinais de áudio x das fontes originais 207, especificamente nas mesmas localizações que as fontes originais 207.

[0174] A Fig. 7C ilustra, de forma esquemática, uma renderização de áudio 6DoF ilustrativa baseada nos dados de sinal de áudio 6DoF aproximados/restaurados da Fig. 7B de acordo com aspectos ilustrativos da presente revelação.

[0175] Os sinais de áudio x* dos objetos de áudio 320 na Fig. 7B podem então ser usados para renderização de áudio 6DoF, na qual a posição do ouvinte se torna variável.

[0176] Quando se assume que a posição de ouvinte do ouvinte está na posição 206 (mesma posição que a posição 3DoF padrão), a renderização de áudio 6DoF renderiza o mesmo campo sonoro que a renderização de áudio 3DoF com base nos sinais de áudio x3DA.

[0177] Por conseguinte, a renderização 6DoF F6DoF(x*) na posição 3DoF padrão sendo a posição assumida do ouvinte é igual (ou pelo menos aproximadamente igual) à renderização 3DoF F3DoF(x3DA).

[0178] Adicionalmente, se a posição do ouvinte for desviada, por exemplo, para a posição 206' na Fig. 7C, o campo sonoro gerado na renderização de áudio 6DoF se torna diferente, mas pode de preferência ocorrer suavemente.

[0179] Como outro exemplo, uma terceira posição de ouvinte 206’’ pode ser assumida e o campo sonoro gerado na renderização de áudio 6DoF se torna diferente especificamente para o sinal de áudio superior-esquerdo, que não é obstruído pela parede 203 para a terceira posição de ouvinte 206’’. De preferência, isto se torna possível pelo fato de que a função inversa A-1 restaura a fonte sonora original (sem efeitos ambientais, tais como características de ambiente VR).

[0180] A Fig. 8 ilustra, de forma esquemática, um fluxograma ilustrativo de um método de codificação de fluxo de bits 3DoF e/ou 6DoF de acordo com aspectos ilustrativos da presente revelação. Deve-se observar que a ordem das etapas é não- limitante e pode ser alterada de acordo com as circunstâncias. Além disso, deve-se observar que algumas etapas do método são opcionais. O método pode, por exemplo, ser executado por um decodificador, decodificador de áudio, decodificador de áudio/vídeo ou sistema decodificador.

[0181] Na etapa S801, o método (por exemplo, em um lado do decodificador) recebe sinal(s) de áudio original(is) x de uma ou mais fontes de áudio.

[0182] Na etapa S802, o método (opcionalmente) determina características do ambiente (tal como formato da sala, paredes, características de reflexão sonora das paredes, objetos, obstáculos, etc.) e/ou determina parâmetros (efeitos de parametrização, tal como atenuação, ganho, oclusão, reverberações, etc.).

[0183] Na etapa S803, o método (opcionalmente) determina uma parametrização de uma função de transformação A, por exemplo, com base nos resultados da etapa S802. De preferência, a etapa S803 fornece uma função de transformação parametrizada ou predefinida A.

[0184] Na Etapa S804, o método transforma o(s) sinal(is) de áudio original(is) x de uma ou mais fontes de áudio em um ou mais sinais de áudio 3DoF aproximados x3DA baseado na função de transformação A.

[0185] Na etapa S805, o método determina metadados 6DoF (que podem incluir uma ou mais posições 3DoF, informações ambientais de VR, e/ou parâmetros e parametrizações de efeitos ambientais, tal como atenuação, ganho, oclusão, reverberações, etc.).

[0186] Na etapa S806, o método inclui (incorpora) o(s) sinal(is) de áudio 3DoF x3DA em uma primeira parte de fluxo de bits (ou múltiplas primeiras partes de fluxos de bits).

[0187] Na etapa S807, o método inclui (incorpora) os metadados 6DoF em uma segunda parte de fluxo de bits (ou múltiplas segundas partes de fluxo de bits).

[0188] Então, na etapa S808, o método continua a codificar o fluxo de bits baseado na primeira e segunda partes de fluxo de bits para fornecer o fluxo de bits codificado que inclui o(s) sinal(is) de áudio 3DoF x3DA na primeira parte de fluxo de bits (ou múltiplas primeiras partes de fluxo de bits) e os metadados 6DoF na segunda parte de fluxo de bits (ou múltiplas segundas partes de fluxo de bits).

[0189] O fluxo de bits codificado pode então ser fornecido a um decodificador / renderizador 3DoF para renderização de áudio 3DoF baseado somente no(s) sinal(is) de áudio 3DoF x3DA na primeira parte de fluxo de bits (ou em múltiplas primeiras partes de fluxo de bits), ou a um decodificador / renderizador 6DoF para renderização de áudio 6DoF baseado no(s) sinal(is) de áudio 3DoF x3DA na primeira parte de fluxo de bits (ou em múltiplas primeiras partes de fluxo de bits) e nos metadados 6DoF na segunda parte de fluxo de bits (ou em múltiplas segundas partes de fluxo de bits).

[0190] A Fig. 9 ilustra, de forma esquemática, um fluxograma ilustrativo de métodos da renderização de áudio 3DoF e/ou 6DoF de acordo com aspectos ilustrativos da presente revelação. Deve-se observar que a ordem das etapas é não- limitante e pode ser alterada de acordo com as circunstâncias. Além disso, deve-se observar que algumas etapas dos métodos são opcionais. O método pode, por exemplo, ser executado por um codificador, renderizador, codificador de áudio, renderizador de áudio, codificador de áudio/vídeo ou um sistema codificador ou sistema renderizador.

[0191] Na etapa S901, o fluxo de bits codificado que inclui o(s) sinal(is) de áudio 3DoF x3DA na primeira parte de fluxo de bits (ou múltiplas primeiras partes de fluxo de bits) e os metadados 6DoF na segunda parte de fluxo de bits (ou múltiplas segundas partes de fluxo de bits) são recebidos.

[0192] Na etapa S902, o(s) sinal(is) de áudio 3DoF x3DA é/são obtido(s) a partir da primeira parte de fluxo de bits (ou múltiplas primeiras partes de fluxo de bits). Isto pode ser feito pelo decodificador / renderizador 3DoF e também pelo decodificador / renderizador 6DoF.

[0193] Então, se o decodificador / renderizador for um aparelho legado para fins de renderização de áudio 3DoF (ou um novo decodificador/renderizador 3DoF/6DoF trocado para um modo de renderização de áudio 3DoF), então o método prossegue com a etapa S903, na qual os metadados 6DoF são descartados / negligenciados, e então prossegue para a operação de áudio 3DoF para renderizar o áudio 3DoF com base no(s) sinal(is) de áudio 3DoF x3DA obtidos a partir da primeira parte de fluxo de bits (ou múltiplas primeiras partes de fluxo de bits).

[0194] Ou seja, a retrocompatibilidade é vantajosamente assegurada.

[0195] Por outro lado, se o decodificador / renderizador for para fins de renderização de áudio 6DoF (tal como um novo decodificador / renderizador 6DoF ou um decodificador / renderizador 3DoF/6DoF trocado para um modo de renderização de áudio 6DoF), então o método prossegue com a etapa S905 para obter os metadados 6DoF a partir da(s) segunda(s) parte(s) de fluxo de bits.

[0196] Na etapa S906, o método aproxima / restaura os sinais de áudio x* dos objetos/fontes de áudio a partir do(s) sinal(is) de áudio x3DA obtidos a partir da primeira parte de fluxo de bits (ou múltiplas primeiras partes de fluxo de bits) baseado nos metadados 6DoF obtidos a partir da segunda parte de fluxo de bits (ou múltiplas segundas partes de fluxo de bits) e da função de transformação inversa A- 1 .

[0197] Então, na etapa S907, o método prossegue para realizar a renderização de áudio 6DoF baseado nos sinais de áudio aproximados / restaurados x* dos objetos/fontes de áudio e com base na posição do ouvinte (que pode ser variável dentro do ambiente VR).

[0198] Nos aspectos ilustrativos acima, podem ser proporcionados métodos, aparelhos e representações de dados e/ou estruturas de fluxo de bits eficientes e confiáveis para codificação de áudio 3D e/ou renderização de áudio 3D, que possibilitam a codificação e/ou renderização de áudio 6DoF eficiente, vantajosamente com retrocompatibilidade para renderização de áudio 3DoF, por exemplo, de acordo com o padrão MPEG-H 3DA. Especificamente, é possível fornecer representações de dados e/ou estruturas de fluxo de bits para codificação de áudio 3D e/ou renderização de áudio 3D, que possibilitam codificação e/ou renderização de áudio 6DoF eficiente, de preferência com retrocompatibilidade para renderização de áudio 3DoF, por exemplo, de acordo com o padrão MPEG-H 3DA, e aparelho de codificação e/ou renderização correspondente para codificação e/ou renderização de áudio 6DoF eficiente, com retrocompatibilidade para renderização de áudio 3DoF, por exemplo, de acordo com o padrão MPEG-H 3DA.

[0199] Os métodos e sistemas aqui descritos podem ser implementados na forma de software, firmware e/ou hardware. Certos componentes podem ser implementados como software sendo executado em um processador ou microprocessador de sinais digitais. Outros componentes podem ser implementados como hardware ou como circuitos integrados de aplicação específica. Os sinais encontrados nos métodos e sistemas descritos podem ser armazenados em meios tais como memória de acesso aleatório ou meios de armazenamento óptico. Eles podem ser transferidos através de redes, tais como redes de rádio, redes de satélite, redes sem fio ou redes cabeadas, por exemplo, a Internet. Dispositivos típicos que fazem uso dos métodos e sistemas descritos no presente documento incluem dispositivos eletrônicos portáteis ou outro equipamento do consumidor, os quais são usados para armazenar e/ou renderizar sinais de áudio.

[0200] Exemplos de implementações dos métodos e aparelho de acordo com a presente revelação irão se tornar aparentes a partir das modalidades ilustrativas enumeradas (ESSs) seguintes, as quais não são reivindicações.

[0201] A EEE1 relaciona-se, a título de exemplo, a um método para codificação de áudio compreendendo sinais de fonte de áudio, dados relacionados a 3DoF e dados relacionados a 6DoF compreendendo: codificar, por exemplo, por um aparelho de fonte de áudio, tal como mais especificamente um codificador, os sinais de fonte de áudio que aproximam um campo sonoro desejado na(s) posição(ões) 3DoF para determinar dados 3DoF; e/ou codificar, por exemplo, pelo aparelho de fonte de áudio, tal como mais especificamente o codificador, os dados relacionados a 6DoF para determinar metadados 6DoF, em que os metadados podem ser usados para aproximar sinais de fonte de áudio originais para renderização 6DoF.

[0202] A EEE2 relaciona-se, a título de exemplo, ao método da EEE1, em que os dados 3DoF relacionam-se a pelo menos um dentre sinais de áudio de objetos, direções de objetos e distâncias de objetos.

[0203] A EEE3 relaciona-se, a título de exemplo, ao método da EEE1 ou da EEE2, em que os dados 6DoF relacionam-se a pelo menos um dos seguintes: Parâmetros de posição (padrão) 3DoF, descrição do espaço 6DoF (coordenadas de objetos), parâmetros, parâmetros de direcionalidade de objetos, parâmetros de ambiente VR, parâmetros de atenuação de distância, parâmetros de oclusão e parâmetros de reverberação.

[0204] A EEE4 relaciona-se, a título de exemplo, a um método para transporte de dados, mais especificamente dados de áudio renderizáveis 3DoF e 6DoF, o método compreendendo: transportar, por exemplo, em uma sintaxe de fluxo de bits de áudio, sinais de fonte de áudio que podem preferivelmente aproximar um campo sonoro desejado na(s) posição(ões) 3DoF, por exemplo, quando decodificados por um sistema de áudio 3DoF; e/ou transportar, por exemplo, em uma parte de extensão de uma sintaxe de fluxo de bits de áudio, metadados relacionados a 6DoF para aproximar e/ou restaurar sinais de fonte de áudio originais para renderização 6DoF; em que os metadados relacionados a 6DoF podem ser dados paramétricos e/ou dados de sinal.

[0205] A EEE5 relaciona-se, a título de exemplo, ao método da EEE4, em que a sintaxe de fluxo de bits de áudio, por exemplo, incluindo os metadados 3DoF e/ou os metadados 6DoF, está(ão) em conformidade com pelo menos uma versão do padrão de Áudio MPEG-H.

[0206] A EEE6 relaciona-se, a título de exemplo, a um método para gerar um fluxo de bits, o método compreendendo: determinar metadados 3DoF que se baseiam em sinais de fonte de áudio que aproximam um campo sonoro desejado na(s) posição(ões) 3DoF; determinar metadados relacionados a 6DoF, em que os metadados podem ser usados para aproximar sinais de fonte de áudio originais para renderização 6DoF; e/ou inserir o sinal de fonte de áudio e os metadados relacionados a 6DoF no fluxo de bits.

[0207] A EEE7 relaciona-se, a título de exemplo, a um método para renderização de áudio, o referido método compreendendo:

[0208] pré-processamento de metadados 6DoF de sinais de áudio aproximados x* dos sinais de áudio x na(s) posição(ões) 3DoF, em que a renderização 6DoF pode fornecer a mesma saída que a renderização 3DoF dos sinais de fonte de áudio transportados x3DA para renderização 3DA que aproximam um campo sonoro desejado na(s) posição(ões) 3DoF.

[0209] A EEE8 relaciona-se, a título de ilustração, ao método da EEE7, em que a renderização de áudio é determinada com base em: para 3DoF

[0210] em que F6DoF(x*) refere-se a uma função de renderização de áudio para posição(ões) do ouvinte 6DoF, F3DoF(x3DA) refere-se a funções de renderização de áudio para posição(ões) do ouvinte 3DoF, x3DA são sinais de áudio que contêm os efeitos do ambiente VR para posição(ões) 3DoF específicas, e x* refere-se a sinais de áudio aproximadas.

[0211] A EEE9 refere-se, a título de exemplo, ao método da EEE8, em que os sinais de áudio aproximados x* dos sinais de áudio originais x são baseados em:

[0212] em que A-1 refere-se a um inverso de uma função de aproximação A.

[0213] A EEE10 refere-se, a título de exemplo, ao método da EEE8 ou EEE9, em que os metadados usados para obter os sinais de áudio aproximados x* dos sinais de fonte de áudio originais x usando o método de aproximação A são definidos com base em:

[0214] em que a quantidade dos metadados é menor do que a quantidade de dados de áudio necessária para transportar os sinais de fonte de áudio originais x.

[0215] em que a renderização de áudio é determinada com base em:

[0216] em que F6DoF(x*) refere-se a uma função de renderização de áudio para posição(ões) do ouvinte 6DoF, F3DoF(x3DA) refere-se a funções de renderização de áudio para posição(ões) do ouvinte 3DoF, x3DA são sinais de áudio que contêm os efeitos do ambiente VR para posição(ões) 3DoF específicas, e x* refere-se a sinais de áudio aproximadas.

[0217] Aspectos e modalidades ilustrativas da presente revelação podem ser implementados em hardware, firmware ou software, ou em uma combinação de ambos (por exemplo, como uma matriz lógica programável). Salvo indicação em contrário, os algoritmos ou processos incluídos como parte da revelação não estão intrinsecamente relacionados a qualquer computador ou outro aparelho específico.

Mais especificamente, diversas máquinas de finalidade geral podem ser usadas com programas escritos de acordo com os ensinamentos aqui apresentados, ou pode se mostrar conveniente a construção de aparelhos mais especializados (por exemplo, circuitos integrados) para realizar as etapas do método necessárias. Dessa forma, a revelação pode ser implementada em um ou mais programas de computador sendo executados em um ou mais sistemas de computador programáveis (por exemplo, uma implementação de qualquer um dos elementos das figuras), cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (incluindo memória volátil e não-volátil e/ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada, e pelo menos um dispositivo ou porta de saída. O código de programa é aplicado aos dados de entrada para executar as funções descritas aqui e gerar informação de saída. A informação de saída é aplicada a um ou mais dispositivos de saída, da maneira conhecida.

[0218] Cada tal programa pode ser implementado em qualquer linguagem de computador desejada (inclusive máquina, assembly, ou linguagens procedurais, lógicas ou orientadas a objetos de alto nível) para se comunicar com um sistema de computador. Em todo caso, a linguagem pode ser uma linguagem compilada ou interpretada.

[0219] Por exemplo, quando implementadas por sequências de instruções de software de computador, várias funções e etapas das modalidades da revelação podem ser implementadas por sequências de instruções de software multitarefa sendo executadas em hardware de processamento de sinais digitais apropriado, caso este em que os vários dispositivos, etapas e funções das modalidades podem corresponder a partes das instruções de software.

[0220] Cada tal programa de computador é preferivelmente armazenado em ou baixado em um meio ou dispositivo de armazenamento (por exemplo, memória ou meio de estado sólido, meio óptico ou magnético) legível por um computador programável de finalidade geral ou especial, para configurar e operar o computador quando o meio ou dispositivo de armazenamento é lido pelo sistema de computador para realizar os procedimentos descritos aqui. O sistema inventivo também pode ser implementado como um meio de armazenamento legível por computador, configurado com (ou seja, armazenando) um programa de computador, em que o meio de armazenamento assim configurado faz com que um sistema de computador opere de uma maneira específica e predefinida para executar as funções descritas aqui.

[0221] Uma série de aspectos ilustrativos e modalidades ilustrativas da invenção da presente revelação foram descritos acima. Não obstante, será entendido que é possível realizar várias modificações sem divergir do espírito e escopo da invenção da presente revelação. Numerosas modificações e variações da presente invenção são possíveis à luz dos ensinamentos acima. Deve-se compreender que, dentro do escopo das reivindicações anexas, a invenção da presente revelação pode ser praticada de alguma outra forma além da descrita especificamente.

Claims

REIVINDICAÇÕES

1. Método para codificar um sinal de áudio em um fluxo de bits, mais especificamente em um codificador, o método sendo CARACTERIZADO por compreender: codificar ou incluir dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits; e codificar ou incluir metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits, em que o método adicionalmente inclui: receber sinais de áudio a partir de uma ou mais fontes de áudio; determinar características e parâmetros ambientais relacionados à atenuação de distância, oclusão e/ou reverberações; determinar uma parametrização de uma função de transformada A com base nas referidas características ambientais e nos referidos parâmetros e proporcionar uma função de transformada parametrizada A, em que A A-1  1 e A-1 A  1; e gerar os dados de sinal de áudio associados à renderização de áudio 3DoF por meio da transformação dos sinais de áudio provenientes das uma ou mais fontes de áudio em sinais de áudio 3DoF usando a função de transformada A, em que a função de transformada A mapeia ou projeta os sinais de áudio das uma ou mais fontes de áudio sobre respectivos objetos de áudio posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que: os dados de sinal de áudio associados à renderização de áudio 3DoF incluem dados de sinal de áudio de um ou mais objetos de áudio.

3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que:

os um ou mais objetos de áudio são posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que os dados de sinal de áudio associados à renderização de áudio 3DoF incluem dados direcionais de um ou mais objetos de áudio e/ou dados de distância de um ou mais objetos de áudio.

5. Método, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato de que os metadados associados à renderização de áudio 6DoF são indicativos de uma ou mais posições de ouvinte 3DoF padrão.

6. Método, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO pelo fato de que os metadados associados à renderização de áudio 6DoF incluem ou são indicativos de pelo menos um dentre: uma descrição do espaço 6DoF, opcionalmente incluindo coordenadas de objetos; direções de objetos de áudio de um ou mais objetos de áudio; um ambiente de realidade virtual (VR); e parâmetros relacionados à atenuação de distância, oclusão e/ou reverberações.

7. Método, de acordo com qualquer uma das reivindicações 1 a 6, CARACTERIZADO pelo fato de que o fluxo de bits é um fluxo de bits de Áudio MPEG-H 3D ou um fluxo de bits usando sintaxe de Áudio MPEG-H 3D.

8. Método, de acordo com a reivindicação 7, CARACTERIZADO pelo fato de que:

as uma ou mais primeiras partes de fluxo de bits do fluxo de bits representam uma carga útil do fluxo de bits, e as uma ou mais segundas partes de fluxo de bits representam um ou mais contêineres de extensão do fluxo de bits.

9. Método para decodificação e/ou renderização de áudio, mais especificamente em um decodificador ou renderizador de áudio, o método sendo CARACTERIZADO por compreender: receber um fluxo de bits que inclui dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits, e adicionalmente incluindo metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits, e realizar pelo menos uma dentre a renderização de áudio 3DoF e a renderização de áudio 6DoF com base no fluxo de bits recebido, em que realizar a renderização de áudio 6DoF, sendo baseada nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits e nos metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits, inclui gerar dados de sinal de áudio associados à renderização de áudio 6DoF com base nos dados de sinal de áudio associados à renderização de áudio 3DoF e uma função de transformada inversa, em que a função de transformada inversa é uma função inversa de uma função de transformada que mapeia ou projeta sinais de áudio das uma ou mais fontes de áudio sobre respectivos objetos de áudio posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

10. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que, quando se realiza a renderização de áudio 3DoF, a renderização de áudio 3DoF é realizada com base nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits, ao mesmo tempo descartando os metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits.

11. Método, de acordo com a reivindicação 9 ou 10, CARACTERIZADO pelo fato de que quando se realiza a renderização de áudio 6DoF, a renderização de áudio 6DoF é realizada com base nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits e nos metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits.

12. Método, de acordo com qualquer uma das reivindicações 9 a 11, CARACTERIZADO pelo fato de que os dados de sinal de áudio associados à renderização de áudio 3DoF incluem dados de sinal de áudio de um ou mais objetos de áudio.

13. Método, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que: os um ou mais objetos de áudio são posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

14. Método, de acordo com qualquer uma das reivindicações 9 a 13, CARACTERIZADO pelo fato de que os dados de sinal de áudio associados à renderização de áudio 3DoF incluem dados direcionais de um ou mais objetos de áudio e/ou dados de distância de um ou mais objetos de áudio.

15. Método, de acordo com qualquer uma das reivindicações 9 a 4, CARACTERIZADO pelo fato de que os metadados associados à renderização de áudio 6DoF são indicativos de uma ou mais posições de ouvinte 3DoF padrão.

16. Método, de acordo com qualquer uma das reivindicações 9 a 15, CARACTERIZADO pelo fato de que os metadados associados à renderização de áudio 6DoF incluem ou são indicativos de pelo menos um dentre: uma descrição do espaço 6DoF, opcionalmente incluindo coordenadas de objetos; direções de objetos de áudio de um ou mais objetos de áudio; um ambiente de realidade virtual (VR); e parâmetros relacionados à atenuação de distância, oclusão e/ou reverberações.

17. Método, de acordo com qualquer uma das reivindicações 9 a 16, CARACTERIZADO pelo fato de que os dados de sinal de áudio associados à renderização de áudio 3DoF são gerados com base nos sinais de áudio provenientes das uma ou mais fontes de áudio e uma função de transformada.

18. Método, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que: os dados de sinal de áudio associados à renderização de áudio 3DoF são gerados por meio da transformação dos sinais de áudio provenientes das uma ou mais fontes de áudio em sinais de áudio 3DoF usando a função de transformada.

19. Método, de acordo com a reivindicação 17 ou 18, CARACTERIZADO pelo fato de que a função de transformada mapeia ou projeta os sinais de áudio das uma ou mais fontes de áudio sobre respectivos objetos de áudio posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

20. Método, de acordo com qualquer uma das reivindicações 9 a 19, CARACTERIZADO pelo fato de que o fluxo de bits é um fluxo de bits de Áudio MPEG-H 3D ou um fluxo de bits usando sintaxe de Áudio MPEG-H 3D.

21. Método, de acordo com a reivindicação 20, CARACTERIZADO pelo fato de que: as uma ou mais primeiras partes de fluxo de bits do fluxo de bits representam uma carga útil do fluxo de bits, e as uma ou mais segundas partes de fluxo de bits representam um ou mais contêineres de extensão do fluxo de bits.

22. Método, de acordo com qualquer uma das reivindicações 9 a 21, CARACTERIZADO pelo fato de que os dados de sinal de áudio associados à renderização de áudio 6DoF são gerados por meio da transformação dos dados de sinal de áudio associados à renderização de áudio 3DoF usando a função de transformada inversa e os metadados associados à renderização de áudio 6DoF.

23. Método, de acordo com qualquer uma das reivindicações 9 a 22, CARACTERIZADO pelo fato de que realizar a renderização de áudio 3DoF nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits resulta no mesmo campo sonoro gerado que realizar a renderização de áudio 6DoF, em uma posição de ouvinte 3DoF padrão, baseado nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits e nos metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits.

24. Aparelho, mais especificamente um codificador, CARACTERIZADO por incluir um processador configurado para:

codificar ou incluir dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits; codificar ou incluir metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits; e emitir o fluxo de bits codificado, em que o processador é adicionalmente configurado para: receber sinais de áudio a partir de uma ou mais fontes de áudio; determinar características e parâmetros ambientais relacionados à atenuação de distância, oclusão e/ou reverberações; determinar uma parametrização de uma função de transformada A com base nas referidas características ambientais e nos referidos parâmetros e proporcionar uma função de transformada parametrizada A, em que A-1  1 e A-1 A  1; e gerar os dados de sinal de áudio associados à renderização de áudio 3DoF por meio da transformação dos sinais de áudio provenientes das uma ou mais fontes de áudio em sinais de áudio 3DoF usando a função de transformada A, em que a função de transformada A mapeia ou projeta os sinais de áudio das uma ou mais fontes de áudio sobre respectivos objetos de áudio posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

25. Aparelho, mais especificamente um decodificador ou renderizador de áudio, CARACTERIZADO por incluir um processador configurado para: receber um fluxo de bits que inclui dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits, e adicionalmente incluindo metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits, e realizar pelo menos uma dentre a renderização de áudio 3DoF e a renderização de áudio 6DoF com base no fluxo de bits recebido, em que o processador é adicionalmente configurado para realizar a renderização de áudio

6DoF, sendo baseada nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits e nos metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits, incluindo gerar dados de sinal de áudio associados à renderização de áudio 6DoF com base nos dados de sinal de áudio associados à renderização de áudio 3DoF e uma função de transformada inversa, em que a função de transformada inversa é uma função inversa de uma função de transformada que mapeia ou projeta sinais de áudio das uma ou mais fontes de áudio sobre respectivos objetos de áudio posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

26. Aparelho, de acordo com a reivindicação 25, CARACTERIZADO pelo fato de que quando se realiza a renderização de áudio 3DoF, o processador é configurado para realizar a renderização de áudio 3DoF com base nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits, ao mesmo tempo descartando os metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits.

27. Aparelho, de acordo com a reivindicação 25 ou 26, CARACTERIZADO pelo fato de que quando se realiza a renderização de áudio 6DoF, o processador é configurado para realizar a renderização de áudio 6DoF com base nos dados de sinal de áudio associados à renderização de áudio 3DoF nas uma ou mais primeiras partes de fluxo de bits do fluxo de bits e nos metadados associados à renderização de áudio 6DoF nas uma ou mais segundas partes de fluxo de bits do fluxo de bits.

28. Produto de programa de computador não-temporário incluindo instruções que, quando executadas por um processador, fazem o processador executar um método para codificar um sinal de áudio em um fluxo de bits, mais especificamente em um codificador, o método sendo CARACTERIZADO por compreender: codificar ou incluir dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do fluxo de bits; e codificar ou incluir metadados associados à renderização de áudio 6DoF em uma ou mais segundas partes de fluxo de bits do fluxo de bits, em que o método adicionalmente compreende: receber sinais de áudio a partir de uma ou mais fontes de áudio; determinar características e parâmetros ambientais relacionados à atenuação de distância, oclusão e/ou reverberações; determinar uma parametrização de uma função de transformada A com base nas referidas características ambientais e nos referidos parâmetros e proporcionar uma função de transformada parametrizada A, em que A A-1  1 e A-1 A  1; e gerar os dados de sinal de áudio associados à renderização de áudio 3DoF por meio da transformação dos sinais de áudio provenientes das uma ou mais fontes de áudio em sinais de áudio 3DoF usando a função de transformada A, em que a função de transformada A mapeia ou projeta os sinais de áudio das uma ou mais fontes de áudio sobre respectivos objetos de áudio posicionados em uma ou mais esferas circundando uma posição de ouvinte 3DoF padrão.

29. Produto de programa de computador não-temporário incluindo instruções que, quando executadas por um processador, fazem o processador executar um método para decodificação e/ou renderização de áudio, mais especificamente em um decodificador ou renderizador de áudio, o método sendo CARACTERIZADO por compreender: receber um fluxo de bits que inclui dados de sinal de áudio associados à renderização de áudio 3DoF em uma ou mais primeiras partes de fluxo de bits do