BR112020007486A2

BR112020007486A2 - aparelho, método e programa de computador para codificação, decodificação, processamento de cena e outros procedimentos relacionados com a codificação de áudio espacial baseada em dirac

Info

Publication number: BR112020007486A2
Application number: BR112020007486-1A
Authority: BR
Inventors: Guillaume Fuchs; Wolfgang Jaegers; Jürgen Herre; Fabian KÜCH; Stefan DÖHLA; Markus Multrus; Oliver Thiergart; Oliver Wübbolt; Florin GHIDO; Stefan Bayer
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority date: 2017-10-04
Filing date: 2018-10-01
Publication date: 2020-10-27
Also published as: US12058501B2; CA3219566A1; WO2019068638A1; KR20220133311A; KR102700687B1; AR125562A2; TW201923744A; ZA202001726B; JP7297740B2; KR20200053614A; CA3219540A1; CN111630592A; TWI834760B; TWI700687B; JP2023126225A; RU2020115048A3; AU2018344830A1; EP3692523B1; US20220150633A1; AU2021290361B2

Abstract

  Um aparelho para gerar uma descrição de uma cena de áudio combinada, compreende: uma interface de entrada (100) para receber uma primeira descrição de uma primeira cena em um primeiro formato e uma segunda descrição de uma segunda cena em um segundo formato, em que o segundo formato é diferente do primeiro; um conversor de formato (120) para converter a primeira descrição em um formato comum e para converter a segunda descrição em um formato comum, quando o segundo formato é diferente do formato comum; e um combinador de formato (140) para combinar a primeira e a segunda descrição no formato comum para obter a cena de áudio combinada.

Description

“APARELHO, MÉTODO E PROGRAMA DE COMPUTADOR PARA CODIFICAÇÃO, DECODIFICAÇÃO, PROCESSAMENTO DE CENA E

OUTROS PROCEDIMENTOS RELACIONADOS COM A CODIFICAÇÃO DE ÁUDIO ESPACIAL BASEADA EM DIRAC” Campo da Invenção

[0001] A presente invenção está relacionada com o processamento do sinal de áudio e particularmente com o processamento do sinal de áudio das descrições das cenas de áudio.

Introdução e tecnologia de ponta:

[0002] A transmissão de uma cena de áudio em três dimensões requer a manipulação de múltiplos canais que nor- malmente geram uma grande quantidade de dados para serem transmitidos. Além disso, o som 3D pode ser representado de diferentes formas: som tradicional baseado em canais onde cada canal de transmissão está associado com a uma posição do alto-falante; som transportado por meio de objetos de áudio, que podem ser posicionados em três dimensões inde- pendentemente das posições do alto-falante; e som baseado em cena (ou Ambisônico), onde a cena de áudio é representa- da por um conjunto de sinais de coeficiente que são os pe- sos lineares das funções de base espacial ortogonal, por exemplo, harmônicas esféricas. Em contraste com a represen- tação baseada em canais, a representação baseada em cená- rios é independente de uma configuração específica de alto- falantes, e pode ser reproduzida em qualquer configuração de alto-falantes à custa de um processo de renderização ex- tra no decodificador.

[0003] Para cada um destes formatos, foram desen- volvidos esquemas de codificação dedicados para armazenar ou transmitir de forma eficiente os sinais de áudio a bai- xas taxas de bits. Por exemplo, MPEG surround é um esquema de codificação paramétrica para o som surround baseado em canais, enquanto MPEG Spatial Audio Object Coding (SAOC) [Codificação do Objeto de Áudio Espacial] é um método de codificação paramétrica dedicado ao áudio baseado em obje- tos. Uma técnica de codificação paramétrica para uma ordem superior de Ambisônico também foi fornecida no padrão re- cente MPEG-H fase 2.

[0004] Neste contexto, onde todas as três repre- sentações da cena de áudio, áudio baseado em canais, áudio baseado em objetos e áudio baseado em cenários são utiliza- das e precisam ser suportadas, há a necessidade de projetar um esquema universal que permita uma codificação paramétri- ca eficiente de todas as três representações de áudio 3D.

Além disso, há a necessidade de ser capaz de codificar, transmitir e reproduzir cenas de áudio complexas compostas por uma mistura das diferentes representações de áudio.

[0005] A técnica de Codificação Direcional de Áu- dio (DirAC) [1] é uma abordagem eficiente para a análise e reprodução do som espacial. O DirAC utiliza uma representa- ção perceptualmente motivada do campo sonoro baseada na di- reção de chegada (DOA) e na difusividade medida por banda de frequência. Ela é construída com base no pressuposto de que, em um instante e em uma banda crítica, a resolução es- pacial do sistema auditivo é limitada à decodificação de uma pista de direção e outra de coerência interauricular. O som espacial é então representado no domínio da frequência por meio do desvanecimento cruzado de dois streams: um di- fuso não direcional e outro não difuso direcional.

[0006] O DirAC foi originalmente concebido para som gravado em formato B, mas também podia servir como um formato comum para misturar diferentes formatos de áudio. O DirAC já foi estendido para processar o formato de som sur- round convencional 5.1 em [3]. Também foi proposta a fusão de vários streams DirAC em [4]. Além disso, o DirAC foi es- tendido para suportar também entradas de microfone que não são do formato B [6].

[0007] Entretanto, falta um conceito universal pa- ra fazer do DirAC uma representação universal de cenas de áudio em 3D que também seja capaz de suportar a noção de objetos de áudio.

[0008] Poucas considerações foram feitas anterior- mente para o manuseio de objetos de áudio no DirAC. O DirAC foi empregado em [5] como uma frente acústica para o Spati- al Audio Coder [Codificador de Áudio Espacial], SAOC, como uma separação cega de fontes para extrair vários falantes de uma mistura de fontes. Contudo, não foi previsto usar o próprio DirAC como o esquema de codificação de áudio espa- cial e processar diretamente objetos de áudio junto com seus metadados e potencialmente combiná-los juntos e com outras representações de áudio.

[0009] É um objeto da presente invenção para for- necer um conceito melhorado de manipulação e processamento e descrições de cenas de áudio.

[0010] Este objeto é alcançado por um aparelho pa- ra gerar uma descrição de uma cena de áudio combinada da solicitação 1, um método para gerar uma descrição de uma cena de áudio combinada da solicitação 14 ou um programa de computador relacionado da solicitação 15.

[0011] Além disso, este objeto é alcançado por um aparelho para realizar uma síntese de uma pluralidade de cenas de áudio da solicitação 16, um método para realizar uma síntese de uma pluralidade de cenas de áudio da solici- tação 20 ou um programa de computador relacionado de acordo com a solicitação 21.

[0012] Este objeto é ainda obtido por um conversor de dados de áudio da solicitação 22, um método para reali- zar uma conversão de dados de áudio da solicitação 28 ou um programa de computador relacionado com a solicitação 29.

[0013] Além disso, este objeto é alcançado por um codificador de cena de áudio da solicitaçãoção 30, um méto- do de codificação de cena de áudio da solicitação 34 ou um programa de computador relacionado da solicitação 35.

[0014] Além disso, este objeto é alcançado por um aparelho para realizar uma síntese de dados de áudio da so- licitação 36, um método para realizar uma síntese de dados de áudio da solicitação 40 ou um programa de computador re- lacionado da solicitação 41.

[0015] As personificações da invenção referem-se a um esquema de codificação paramétrica universal para a cena de áudio 3D construído em torno do paradigma de Directional

Audio Coding [Codificação Direcional de Áudio] (DirAC), uma técnica perceptualmente motivada para o processamento de áudio espacial. Originalmente, o DirAC foi concebido para analisar uma gravação em formato B da cena de áudio. A pre- sente invenção visa ampliar sua capacidade de processar eficientemente qualquer formato de áudio espacial, como áu- dio baseado em canais, Ambisônico, objetos de áudio ou uma mistura dos mesmos.

[0016] A reprodução DirAC pode ser facilmente ge- rada para layouts arbitrários de alto-falantes e fones de ouvido. A presente invenção também estende esta capacidade de saída adicional Ambisônica, objetos de áudio ou uma mis- tura de um formato. Mais importante ainda, a invenção per- mite ao usuário manipular objetos de áudio e conseguir, por exemplo, o aprimoramento do diálogo no final do decodifica- dor.

[0017] Contexto: Visão geral do sistema de um Co- dificador de Áudio Espacial DirAC

[0018] A seguir, é apresentada uma visão geral de um novo sistema de codificação de áudio espacial baseado no DirAC concebido para Serviços de Voz e Áudio Imersivos (IVAS). O objetivo de tal sistema é ser capaz de lidar com diferentes formatos de áudio espacial representando a cena de áudio e codificá-los a baixas taxas de bits e reproduzir a cena de áudio original o mais fielmente possível após a transmissão.

[0019] O sistema pode aceitar como entrada dife- rentes representações de cenas de áudio. A cena de áudio de entrada pode ser capturada por sinais multicanal destinados a ser reproduzidos em diferentes posições de alto-falantes, objetos auditivos juntamente com metadados descrevendo as posições dos objetos ao longo do tempo ou um formato Ambi- sônico de primeira ordem ou de ordem superior representando o campo sonoro na posição do ouvinte ou de referência.

[0020] De preferência, o sistema é baseado no 3GPP Enhanced Voice Services (EVS) [Serviços de Voz Aprimorada], uma vez que se espera que a solução opere com baixa latên- cia para permitir serviços de conversação em redes móveis.

[0021] Fig. 9 é o lado codificador da codificação de áudio espacial baseada em DirAC que suporta diferentes formatos de áudio. Como mostrado na Fig. 9, o codificador (codificador IVAS) é capaz de suportar diferentes formatos de áudio apresentados ao sistema separadamente ou ao mesmo tempo. Os sinais de áudio podem ser acústicos por natureza, captados por microfones, ou elétricos por natureza, que de- vem ser transmitidos para os alto-falantes. Os formatos de áudio suportados podem ser sinais multi-canal, componentes Ambisônicos de primeira ordem e de ordem superior e objetos de áudio. Uma cena de áudio complexa também pode ser des- crita por meio da combinação de diferentes formatos de en- trada. Todos os formatos de áudio são então transmitidos para a análise DirAC 180, que extrai uma representação pa- ramétrica da cena de áudio completa. Uma direção de chegada e uma difusividade medida por unidade de tempo-frequência formam os parâmetros. A análise DirAC é seguida por um co- dificador de metadados espaciais 190, que quantifica e co-

difica os parâmetros DirAC para obter uma representação pa- ramétrica de baixa taxa de bits.

[0022] Juntamente com os parâmetros, um sinal down-mix derivado 160 das diferentes fontes ou sinais de entrada de áudio é codificado para transmissão por um codi- ficador-núcleo de áudio convencional 170. Neste caso, um codificador de áudio baseado em EVS é adotado para a codi- ficação do sinal de down-mix. O sinal down-mix consiste em diferentes canais, chamados canais de transporte: o sinal pode ser, por exemplo, os quatro sinais de coeficiente que compõem um sinal de formato B, um par estéreo ou um down- mix monofônico, dependendo da taxa de bits alvo. Os parâme- tros espaciais codificados e o bitstream de áudio codifica- do são multiplexados antes de serem transmitidos por meio do canal de comunicação.

[0023] Fig. 10 é um decodificador da codificação de áudio espacial baseada em DirAC que fornece diferentes formatos de áudio. No decodificador, mostrado na Fig. 10, os canais de transporte são decodificados pelo decodifica- dor central 1020, enquanto os metadados do DirAC são pri- meiro decodificados 1060 antes de serem transportados com os canais de transporte decodificados para a síntese do Di- rAC 220, 240. Nesta fase (1040), diferentes opções podem ser consideradas. Pode ser solicitado reproduzir a cena de áudio diretamente em qualquer configuração de alto-falante ou fone de ouvido, como geralmente é possível em um sistema DirAC convencional (MC na Fig. 10). Além disso, também pode ser solicitada a renderização da cena em formato Ambisônico para outras manipulações, como rotação, reflexão ou movi- mento da cena (FOA/HOA na Fig. 10). Finalmente, o decodifi- cador pode entregar os objetos individuais como foram apre- sentados no lado do codificador (Objetos na Fig. 10).

[0024] Objetos de áudio também podem ser restituí- dos, mas é mais interessante para o ouvinte ajustar a mixa- gem renderizada por meio da manipulação interativa dos ob- jetos. Manipulações típicas de objetos são ajustes de ní- vel, equalização ou localização espacial do objeto. O apri- moramento do diálogo baseado no objeto torna-se, por exem- plo, uma possibilidade dada por este recurso de interativi- dade. Por fim, é possível emitir os formatos originais tal como foram apresentados na entrada do codificador. Neste caso, pode ser uma mistura de canais e objetos de áudio ou Ambisônico e objetos. Para conseguir a transmissão separada de multicanais e componentes Ambisônicos, várias instâncias do sistema descrito poderiam ser utilizadas.

[0025] A presente invenção é vantajosa na medida em que, particularmente de acordo com o primeiro aspecto, é estabelecida uma estrutura para combinar diferentes descri- ções de cena em uma cena de áudio combinada por meio de um formato comum, que permite combinar as diferentes descri- ções de cena de áudio.

[0026] Este formato comum pode, por exemplo, ser o formato B ou pode ser o formato de representação do sinal de pressão/velocidade ou pode, de preferência, ser também o formato de representação do parâmetro DirAC.

[0027] Este formato é um formato compacto que,

adicionalmente, permite uma quantidade significativa de in- teração do usuário por um lado e que é, por outro lado, útil em relação a uma taxa de bits necessária para repre- sentar um sinal de áudio.

[0028] De acordo com um outro aspecto da presente invenção, uma síntese de uma pluralidade de cenas de áudio pode ser vantajosamente realizada vasculhando duas ou mais descrições DirAC diferentes. Ambas essas diferentes descri- ções DirAC podem ser processadas pela combinação das cenas no domínio dos parâmetros ou, alternativamente, pela rende- rização separada de cada cena de áudio e pela combinação das cenas de áudio que foram renderizadas a partir das des- crições DirAC individuais no domínio espectral ou, alterna- tivamente, já no domínio temporal.

[0029] Este procedimento permite um processamento muito eficiente e de alta qualidade de diferentes cenas de áudio que devem ser combinadas em uma única representação de cena e, particularmente, em um único sinal de áudio no domínio do tempo.

[0030] Um outro aspecto da invenção é vantajoso na medida em que um dado de áudio particularmente útil conver- tido para converter metadados de objetos em metadados DirAC é derivado onde este conversor de dados de áudio pode ser usado no quadro do primeiro, segundo ou terceiro aspecto ou também pode ser aplicado independentemente um do outro. O conversor de dados de áudio permite converter eficientemen- te dados de objetos de áudio, por exemplo, um sinal em for- ma de onda para um objeto de áudio, e dados de posição cor-

respondentes, tipicamente em relação ao tempo para repre- sentar uma determinada trajetória de um objeto de áudio dentro de uma configuração de reprodução em uma descrição de cena de áudio muito útil e compacta, e, particularmente, o formato de descrição de cena de áudio DirAC. Enquanto uma descrição típica de objeto de áudio com um sinal de forma de onda de objeto de áudio e metadados de posição de objeto de áudio está relacionada a uma configuração de reprodução específica ou, geralmente, está relacionada a um determina- do sistema de coordenadas de reprodução, a descrição DirAC é particularmente útil no sentido de estar relacionada a uma posição de ouvinte ou microfone e está completamente livre de quaisquer limitações com relação a uma configura- ção de alto-falante ou uma configuração de reprodução.

[0031] Assim, a descrição DirAC gerada a partir de sinais de metadados de objetos de áudio permite adicional- mente uma combinação muito útil e compacta de alta qualida- de de objetos de áudio diferente de outras tecnologias de combinação de objetos de áudio, como codificação de objetos de áudio espacial ou panning de amplitude de objetos em uma configuração de reprodução.

[0032] Um codificador de cena de áudio de acordo com um outro aspecto da presente invenção é particularmente útil para fornecer uma representação combinada de uma cena de áudio com metadados DirAC e, adicionalmente, um objeto de áudio com metadados de objetos de áudio.

[0033] Particularmente, nesta situação, é particu- larmente útil e vantajoso para uma alta interatividade, a fim de gerar uma descrição combinada de metadados que tenha metadados DirAC por um lado e, em paralelo, metadados de objetos por outro lado. Assim, neste aspecto, os metadados dos objetos não são combinados com os metadados DirAC, mas convertidos em metadados semelhantes aos DirAC, de modo a que os metadados dos objetos compreendam na direção ou, adicionalmente, uma distância e/ou uma difusibilidade do objecto individual juntamente com o sinal do objeto. Assim, o sinal do objeto é convertido em uma representação do tipo DirAC para que um tratamento muito flexível de uma repre- sentação DirAC para uma primeira cena de áudio e um objeto adicional dentro dessa primeira cena de áudio seja permiti- do e tornado possível. Assim, por exemplo, objetos especí- ficos podem ser processados de forma muito seletiva devido ao fato de que seu canal de transporte correspondente, por um lado, e parâmetros no estilo DirAC, por outro, ainda es- tão disponíveis.

[0034] De acordo com um outro aspecto da invenção, um aparelho ou método para realizar uma síntese de dados áudio é particularmente útil na medida em que é fornecido um manipulador para manipular uma descrição DirAC de um ou mais objetos áudio, uma descrição DirAC do sinal multicanal ou uma descrição DirAC de sinais Ambisônicos de primeira ordem ou sinais Ambisônicos superiores. E, a descrição Di- rAC manipulada é então sintetizada usando um sintetizador DirAC.

[0035] Este aspecto tem a particular vantagem de que qualquer manipulação específica em relação a qualquer sinal de áudio é realizada de forma muito útil e eficiente no domínio DirAC, ou seja, manipulando ou o canal de trans- porte da descrição DirAC ou manipulando alternativamente os dados paramétricos da descrição DirAC. Esta modificação é substancialmente mais eficiente e mais prática para reali- zar no domínio DirAC em comparação com a manipulação em ou- tros domínios. Particularmente, operações de ponderação de- pendentes da posição como operações de manipulação escolhi- das podem ser realizadas particularmente no domínio DirAC.

Assim, em uma incorporação específica, a conversão de uma representação de sinal correspondente no domínio DirAC e, então, a realização da manipulação dentro do domínio DirAC é um cenário de aplicação particularmente útil para o pro- cessamento e manipulação de cenas de áudio modernas.

[0036] As personificações escolhidas são posteri- ormente discutidas em relação aos desenhos que as acompa- nham, nos quais:

[0037] Fig. 1a é um diagrama de blocos de uma implementação escolhida de um aparelho ou método pa- ra gerar uma descrição de uma cena de áudio combinada, de acordo com um primeiro aspecto da invenção;

[0038] Fig. 1b é uma implementação da geração de uma cena de áudio combinada, onde o formato co- mum é a representação de pressão/velocidade;

[0039] Fig. 1c é uma implementação es- colhida da geração de uma cena de áudio combinada, onde os parâmetros DirAC e a descrição DirAC é o formato comum;

[0040] Fig. 1d é uma implementação esco-

lhida do combinador na Fig. 1c ilustrando duas alternativas diferentes para a implementação do combinador de parâmetros DirAC de diferentes cenas de áudio ou descrições de cenas de áudio;

[0041] Fig. 1e é uma implementação es- colhida da geração de uma cena de áudio combinada onde o formato comum é o formato B, como exemplo para uma repre- sentação Ambisônica;

[0042] Fig. 1f é uma ilustração de um objeto de áudio / conversor de DirAC útil no contexto de, por exemplo, Fig. 1c ou 1d ou útil no contexto do terceiro aspecto relativo a um conversor de metadados;

[0043] Fig. 1g é uma ilustração exemplar de um sinal multicanal 5.1 para uma descrição DirAC;

[0044] Fig. 1h é uma ilustração adicional da conversão de um formato multicanal para o formato DirAC no contexto de um codificador e de um lado decodificador;

[0045] Fig. 2a ilustra uma incorporação de um aparelho ou método para realizar uma síntese de uma pluralidade de cenas de áudio de acordo com um segundo as- pecto da presente invenção;

[0046] Fig. 2b ilustra uma implementação escolhida do sintetizador DirAC da Fig. 2a;

[0047] Fig. 2c ilustra uma implementação adicional do sintetizador DirAC com uma combinação de si- nais renderizados;

[0048] Fig. 2d ilustra uma implementação de um manipulador seletivo conectado antes do combinador de cena 221 da Fig. 2b ou antes do combinador 225 da Fig. 2c;

[0049] Fig. 3a é uma implementação esco- lhida de um aparelho ou método para realizar e converter dados áudio de acordo com um terceiro aspecto da presente invenção;

[0050] Fig. 3b é uma implementação es- colhida do conversor de metadados também ilustrada na Fig.

1f;

[0051] Fig. 3c é um fluxograma para re- alizar uma implementação adicional de uma conversão de da- dos de áudio por meio do domínio pressão/velocidade;

[0052] Fig. 3d ilustra um fluxograma para a realização de uma combinação dentro do domínio Di- rAC;

[0053] Fig. 3e ilustra uma implementação escolhida para a combinação de diferentes descrições DirAC, por exemplo, como ilustrado na Fig. 1d em relação ao pri- meiro aspecto da presente invenção;

[0054] Fig. 3f ilustra a conversão dos dados de posição de um objeto em uma representação pa- ramétrica DirAC;

[0055] Fig. 4a ilustra uma implementa- ção escolhida de um codificador de cena de áudio de acordo com um quarto aspecto da presente invenção para a geração de uma descrição combinada de metadados compreendendo os metadados DirAC e os metadados do objeto;

[0056] Fig. 4b ilustra uma incorpora- ção escolhida em relação ao quarto aspecto da presente in-

venção;

[0057] Fig. 5a ilustra uma implementação escolhida de um aparelho para realizar uma síntese de dados áudio ou um método correspondente, de acordo com um quinto aspecto da presente invenção;

[0058] Fig. 5b ilustra uma implementa- ção escolhida do sintetizador DirAC da Fig. 5a;

[0059] Fig. 5c ilustra uma outra alter- nativa do procedimento do manipulador da Fig. 5a;

[0060] Fig. 5d ilustra um procedimento adicional para a implementação do manipulador da Fig. 5a;

[0061] Fig. 6 ilustra um conversor de sinal de áudio para gerar a partir de um mono-sinal e de uma informação de direção de chegada, ou seja, a partir de uma descrição DirAC exemplar, onde a difusividade é, por exemplo, definida para zero, uma representação em formato B compreendendo um componente omnidireccional e componentes direccionais nas direcções X, Y e Z;

[0062] Fig. 7a ilustra uma implementação de uma análise DirAC de um sinal de microfone em formato B;

[0063] Fig. 7b ilustra uma implementação de uma síntese DirAC de acordo com um procedimento conheci- do;

[0064] Fig. 8 ilustra um fluxograma pa- ra ilustrar outras incoroporações, particularmente a incor- poração da Fig. 1a;

[0065] Fig. 9 é o lado codificador da codificação de áudio espacial baseada em DirAC, suportando diferentes formatos de áudio;

[0066] Fig. 10 é um decodificador da codificação de áudio espacial baseada em DirAC que fornece diferentes formatos de áudio;

[0067] Fig. 11 é uma visão geral do sistema do codificador/decodificador baseado em DirAC que combina diferentes formatos de entrada em um formato B com- binado;

[0068] Fig. 12 é uma visão geral do sistema do codificador/decodificador baseado em DirAC com- binando no domínio da pressão/velocidade;

[0069] Fig. 13 é uma visão geral do sistema do codificador/decodificador baseado em DirAC com- binando diferentes formatos de entrada no domínio DirAC com a possibilidade de manipulação de objetos no lado do deco- dificador;

[0070] Fig. 14 é uma visão geral do sistema do codificador/decodificador baseado em DirAC com- binando diferentes formatos de entrada no lado do decodifi- cador por meio de um combinador de metadados DirAC;

[0071] Fig. 15 é uma visão geral do sistema do codificador/decodificador baseado em DirAC com- binando diferentes formatos de entrada no lado do decodifi- cador na síntese do DirAC; e

[0072] Fig. 16a-f ilustra várias representa- ções de formatos de áudio úteis no contexto do primeiro ao quinto aspectos da presente invenção.

[0073] Fig. 1a ilustra uma incorporação escolhida de um aparelho para gerar uma descrição de uma cena de áu- dio combinada. O aparelho compreende uma interface de en- trada 100 para receber uma primeira descrição de uma pri- meira cena em um primeiro formato e uma segunda descrição de uma segunda cena em um segundo formato, em que o segundo formato é diferente do primeiro formato. O formato pode ser qualquer formato de cena de áudio, como qualquer um dos formatos ou descrições de cena ilustrados a partir das fi- guras. 16a a 16f.

[0074] Fig. 16a, por exemplo, ilustra uma descri- ção de objeto que consiste, tipicamente, de um sinal de forma de onda do objeto 1 (codificado), como um monocanal e metadados correspondentes relacionados à posição do objeto 1, onde esta informação é tipicamente dada para cada perío- do de tempo ou grupo de períodos de tempo, e que o sinal de forma de onda do objeto 1 é codificado. As representações correspondentes para um segundo ou outro objeto podem ser incluídas, como ilustrado na Fig. 16a.

[0075] Outra alternativa pode ser uma descrição de objeto que consiste em um downmix de objeto sendo um monos- sinal, um sinal estéreo com dois canais ou um sinal com três ou mais canais e metadados do objeto relacionados, tais como energias do objeto, informação de correlação por bin tempo/frequência e, opcionalmente, as posições do obje- to. Contudo, as posições dos objetos também podem ser dadas no lado decodificador como informação típica de renderiza- ção e, portanto, podem ser modificadas por um usuário. O formato na Fig. 16b pode, por exemplo, ser implementado co-

mo o conhecido formato SAOC (spatial audio object coding).

[0076] Outra descrição de uma cena é ilustrada na Fig. 16c como uma descrição multicanal tendo uma represen- tação codificada ou não codificada de um primeiro canal, um segundo canal, um terceiro canal, um quarto canal, ou um quinto canal, onde o primeiro canal pode ser o canal es- querdo L, o segundo canal pode ser o canal direito R, o terceiro canal pode ser o canal central C, o quarto canal pode ser o canal surround esquerdo LS e o quinto canal pode ser o canal surround direito RS. Naturalmente, o sinal mul- ticanal pode ter um número menor ou maior de canais, tais como apenas dois canais para um canal estéreo ou seis ca- nais para um formato 5.1 ou oito canais para um formato

7.1, etc.

[0077] Uma representação mais eficiente de um si- nal multicanal é ilustrada na Fig. 16d, onde o downmix do canal, tal como um downmix mono, ou um downmix estéreo ou um downmix com mais de dois canais está associado a infor- mação lateral paramétrica como metadados do canal para, ti- picamente, cada vez e/ou bin de frequência. Tal representa- ção paramétrica pode, por exemplo, ser implementada de acordo com o padrão MPEG surround.

[0078] Outra representação de uma cena de áudio pode, por exemplo, ser o formato B consistindo de um sinal omnidirecional W, e componentes direcionais X, Y, Z, como mostrado na Fig. 16e. Esta seria uma primeira ordem ou si- nal FoA. Um sinal Ambisônico de ordem superior, ou seja, um sinal HoA pode ter componentes adicionais, como é conhecido na arte.

[0079] A representação da Fig. 16e é, em contraste com a representação da Fig. 16c e Fig. 16d, uma representa- ção que não depende de um determinado alto-falante configu- rado, mas descreve um campo sonoro como experimentado em uma determinada posição (microfone ou ouvinte).

[0080] Outra descrição desse campo sonoro é o for- mato DirAC, como, por exemplo, ilustrado na Fig. 16f. O formato DirAC normalmente compreende um sinal DirAC downmix que é um sinal mono ou estéreo ou qualquer sinal downmix ou sinal de transporte e informação paramétrica lateral cor- respondente. Esta informação lateral paramétrica é, por exemplo, uma informação de direção de chegada por posição de tempo/frequência e, opcionalmente, informação de difusi- vidade por posição de tempo/frequência.

[0081] A entrada na interface de entrada 100 da Fig. 1a pode ser, por exemplo, em qualquer um desses forma- tos ilustrados nas Fig. 16a a Fig. 16f. A interface de en- trada 100 encaminha as descrições de formato corresponden- tes para um conversor de formato 120. O conversor de forma- to 120 é configurado para converter a primeira descrição em um formato comum e para converter a segunda descrição no mesmo formato comum, quando o segundo formato for diferente do formato comum. Quando, porém, o segundo formato já esti- ver no formato comum, então o conversor de formato só con- verte a primeira descrição para o formato comum, já que a primeira descrição está em um formato diferente do formato comum.

[0082] Assim, na saída do conversor de formato ou, geralmente, na entrada de um combinador de formatos, existe uma representação da primeira cena no formato comum e a re- presentação da segunda cena no mesmo formato comum. Devido ao fato de ambas as descrições estarem agora incluídas em um mesmo formato comum, o combinador de formatos pode agora combinar a primeira descrição e a segunda descrição para obter uma cena de áudio combinada.

[0083] De acordo com uma incorporação ilustrada na Fig. 1e, o conversor de formato 120 é configurado para con- verter a primeira descrição em um primeiro sinal de formato B como, por exemplo, ilustrado em 127 na Fig. 1e e para calcular a representação em formato B para a segunda des- crição como ilustrado na Fig. 1e em 128.

[0084] Em seguida, o combinador de formato 140 é implementado como um somador de sinal de componente ilus- trado em 146a para o somador de componente W, 146b para o somador de componente X, ilustrado em 146c para o somador de componente Y e ilustrado em 146d para o somador de com- ponente Z.

[0085] Assim, na incorporação da Fig. 1e, a cena de áudio combinada pode ser uma representação em formato B e os sinais em formato B podem então operar como canais de transporte e podem então ser codificados por meio de um co- dificador de canal de transporte 170 da Fig. 1a. Assim, a cena de áudio combinada em relação ao sinal de formato B pode ser diretamente introduzida no codificador 170 da Fig.

1a para gerar um sinal de formato B codificado que poderia então ser emitido por meio da interface de saída 200. Neste caso, quaisquer metadados espaciais não são necessários, mas, ao preço de uma representação codificada de quatro si- nais de áudio, ou seja, o componente omnidirecional W e os componentes direcionais X, Y, Z.

[0086] Alternativamente, o formato comum é o for- mato de pressão/velocidade, como ilustrado na Fig. 1b. Para este fim, o conversor de formato 120 compreende um analisa- dor de tempo/frequência 121 para a primeira cena de áudio e o analisador de tempo/frequência 122 para a segunda cena de áudio ou, geralmente, a cena de áudio com o número N, onde N é um número inteiro.

[0087] Então, para cada representação espectral gerada pelos conversores espectrais 121, 122, pressão e ve- locidade são computadas como ilustradas nos blocos 123 e 124, e, o combinador de formato então é configurado para calcular um sinal de pressão somado por um lado, somando os sinais de pressão correspondentes gerados pelos blocos 123,

124. E, adicionalmente, um sinal de velocidade individual também é calculado por cada um dos blocos 123, 124 e os si- nais de velocidade podem ser somados para obter um sinal combinado de pressão/velocidade.

[0088] Dependendo da implementação, os procedimen- tos nos blocos 142, 143 não têm necessariamente de ser exe- cutados. Em vez disso, o sinal de pressão combinado ou “so- mado” e o sinal de velocidade combinado ou “somado” podem ser codificados em uma analogia como ilustrado na Fig. 1e do sinal em formato B e esta representação de pres-

são/velocidade poderia ser codificada novamente por meio desse codificador 170 da Fig. 1a e poderia então ser trans- mitida para o decodificador sem qualquer informação lateral adicional com respeito aos parâmetros espaciais, uma vez que a representação de pressão/velocidade combinada já in- clui a informação espacial necessária para a obtenção de um campo sonoro finalmente renderizado de alta qualidade no lado do decodificador.

[0089] Em uma incorporação, contudo, é preferível realizar uma análise DirAC à representação de pres- são/velocidade gerada pelo bloco 141. Para isso, calcula-se o vetor de intensidade 142 e, no bloco 143, os parâmetros DirAC do vector de intensidade são calculados e, em segui- da, os parâmetros DirAC combinados são obtidos como uma re- presentação paramétrica da cena sonora combinada. Para is- so, o analisador DirAC 180 da Fig. 1a é implementado para realizar a funcionalidade do bloco 142 e 143 da Fig. 1b. E, de preferência, os dados DirAC são submetidos adicionalmen- te a uma operação de codificação de metadados no codifica- dor de metadados 190. O codificador de metadados 190 nor- malmente compreende um quantificador e um codificador de entropia a fim de reduzir a taxa de bits necessária para a transmissão dos parâmetros do DirAC.

[0090] Juntamente com os parâmetros codificados DirAC, também é transmitido um canal de transporte codifi- cado. O canal de transporte codificado é gerado pelo gera- dor de canal de transporte 160 da Fig. 1a que pode, por exemplo, ser implementado como ilustrado na Fig. 1b por um primeiro gerador downmix 161 para gerar um downmix da pri- meira cena de áudio e um gerador downmix N-th 162 para ge- rar um downmix da cena de áudio N-th.

[0091] Em seguida, os canais downmix são combina- dos no combinador 163 normalmente por uma adição direta e o sinal downmix combinado é então o canal de transporte que é codificado pelo codificador 170 da Fig. 1a. O downmix com- binado pode, por exemplo, ser um par estéreo, ou seja, um primeiro canal e um segundo canal de uma representação es- téreo ou pode ser um canal mono, ou seja, um sinal de um único canal.

[0092] De acordo com uma outra incorporação ilus- trada na Fig. 1c, uma conversão de formato no conversor de formato 120 é feita para converter diretamente cada um dos formatos de áudio de entrada para o formato DirAC como o formato comum. Para isso, o conversor de formato 120 forma mais uma vez uma conversão de tempo/frequência ou uma aná- lise de tempo/frequência nos blocos 121 correspondentes pa- ra a primeira cena e o bloco 122 para uma segunda ou outra cena. Então, os parâmetros DirAC são derivados das repre- sentações espectrais das cenas de áudio correspondentes ilustradas em 125 e 126. O resultado do procedimento nos blocos 125 e 126 são parâmetros DirAC que consistem em in- formação de energia por tile de tempo/frequência, uma in- formação de direção de chegada eDOA por tile tem- po/frequência e uma informação de difusividade ψ para cada tile tempo/frequência. Então, o combinador de formato 140 é configurado para realizar uma combinação diretamente no do-

mínio dos parâmetros DirAC, a fim de gerar parâmetros DirAC combinados ψ para a difusividade eDOA para a direção de che- gada. Particularmente, as informações de energia E1 e EN são requeridas pelo combinador 144 mas não fazem parte da representação paramétrica combinada final gerada pelo com- binador de formato 140.

[0093] Assim, a comparação da Fig. 1c com a Fig.

1e revela que, quando o combinador de formato 140 já reali- za uma combinação no domínio dos parâmetros DirAC, o anali- sador DirAC 180 não é necessário e não está implementado.

Ao invés disso, a saída do combinador de formatos 140 sendo a saída do bloco 144 da Fig. 1c é diretamente encaminhada para o codificador de metadados 190 da Fig. 1a e de lá para a interface de saída 200 de modo que os metadados espaciais codificados e, particularmente, os parâmetros DirAC combi- nados codificados sejam incluídos na saída do sinal de saí- da codificado pela interface de saída 200.

[0094] Além disso, o gerador de canais de trans- porte 160 da Fig. 1a pode receber, já a partir da interface de entrada 100, uma representação do sinal em forma de onda para a primeira cena e a representação do sinal em forma de onda para a segunda cena. Estas representações são entradas nos blocos 161, 162 do gerador downmix e os resultados são adicionados no bloco 163 para obter um downmix combinado, conforme ilustrado em relação à Fig. 1b.

[0095] Fig. 1d ilustra uma representação semelhan- te à Fig. 1c. Entretanto, na Fig. 1d, a forma de onda do objeto de áudio é entrada no conversor de representação de tempo/frequência 121 para o objeto de áudio 1 e 122 para o objeto de áudio N. Além disso, os metadados são introduzi- dos, juntamente com a representação espectral nas calcula- doras de parâmetros DirAC 125, 126 como ilustrado também na Fig. 1c.

[0096] Entretanto, a Fig. 1d fornece uma represen- tação mais detalhada com respeito à forma como as implemen- tações escolhidas do combinador 144 operam. Em uma primeira alternativa, o combinador executa uma adição ponderada de energia da difusividade individual para cada objeto ou cena e, um cálculo correspondente ponderado de energia de um DoA combinado para cada tempo/frequência é executado como ilus- trado na equação inferior da alternativa 1.

[0097] Contudo, outras implementações também podem ser realizadas. Particularmente, outro cálculo muito efici- ente é definir a difusividade para zero para os metadados DirAC combinados e selecionar, como a direção de chegada para cada tijoleira de tempo/frequência, a direção de che- gada calculada a partir de um determinado objeto de áudio que tenha a maior energia dentro da tijoleira de tem- po/frequência específica. De preferência, o procedimento na Fig. 1d é mais apropriado quando a entrada na interface de entrada são objetos de áudio individuais correspondentemen- te representados por uma forma de onda ou monossinal para cada objeto e metadados correspondentes, tais como informa- ções de posição ilustradas em relação à Fig. 16a ou 16b.

[0098] Contudo, na personalização da Fig. 1c, a cena de áudio pode ser qualquer outra das representações ilustradas nas Fig. 16c, 16d, 16e ou 16f. Então, pode haver metadados ou não, ou seja, os metadados da Fig. 1c são op- cionais. Então, entretanto, uma difusividade tipicamente útil é calculada para uma determinada descrição de cena, como uma descrição de cena Ambisônica na Fig. 16e e, então, a primeira alternativa da forma como os parâmetros são com- binados é preferida em vez da segunda alternativa da Fig.

1d. Portanto, de acordo com a invenção, o conversor de for- mato 120 é configurado para converter uma Ambisônica de or- dem superior ou uma Ambisônica de primeira ordem para o formato B, onde o formato Ambisônico de ordem superior é truncado antes de ser convertido para o formato B.

[0099] Em uma incorporação posterior, o conversor de formato é configurado para projetar um objeto ou um ca- nal em harmônicas esféricas na posição de referência para obter sinais projetados, e onde o combinador de formato é configurado para combinar os sinais de projeção para obter coeficientes de formato B, onde o objeto ou o canal está localizado no espaço em uma posição especificada e tem uma distância individual opcional de uma posição de referência.

Este procedimento funciona particularmente bem para a con- versão de sinais de objetos ou sinais multicanal em sinais de primeira ordem ou de ordem superior Ambisônica.

[0100] Em uma outra alternativa, o conversor de formato 120 é configurado para realizar uma análise DirAC compreendendo uma análise tempo-frequência dos componentes do formato B e uma determinação dos vetores de pressão e velocidade e onde o combinador de formato é então configu-

rado para combinar diferentes vetores de pressão/velocidade e onde o combinador de formato compreende ainda o analisa- dor DirAC 180 para derivar metadados DirAC a partir dos da- dos de pressão/velocidade combinados.

[0101] Em uma outra alternativa, o conversor de formato é configurado para extrair os parâmetros DirAC di- retamente dos metadados de um objeto de áudio como o pri- meiro ou segundo formato, onde o vetor de pressão para a representação DirAC é o sinal de forma de onda do objeto e a direção é derivada da posição do objeto no espaço ou a difusividade é dada diretamente nos metadados do objeto ou é definida para um valor padrão, como o valor zero.

[0102] Em uma incorporação adicional, o conversor de formato é configurado para converter os parâmetros DirAC derivados do formato de dados do objeto em dados de pres- são/velocidade e o combinador de formato é configurado para combinar os dados de pressão/velocidade com dados de pres- são/velocidade derivados de diferentes descrições de um ou mais objetos de áudio diferentes.

[0103] Entretanto, em uma implementação escolhida ilustrada em relação às Fig. 1c e 1d, o combinador de for- matos é configurado para combinar diretamente os parâmetros DirAC derivados pelo conversor de formatos 120 de forma que a cena de áudio combinada gerada pelo bloco 140 da Fig. 1a já seja o resultado final e um analisador DirAC 180 ilus- trado na Fig. 1a não seja necessário, uma vez que a saída de dados pelo combinador de formatos 140 já esteja no for- mato DirAC.

[0104] Em uma implementação posterior, o conversor de formato 120 já compreende um analisador DirAC para Ambi- sônico de primeira ordem ou um formato de entrada Ambisôni- ca de ordem superior ou um formato de sinal multicanal.

Além disso, o conversor de formato compreende um conversor de metadados para converter os metadados do objeto em meta- dados DirAC, e tal conversor de metadados é, por exemplo, ilustrado na Fig. 1f a 150 que mais uma vez opera na análi- se tempo/frequência no bloco 121 e calcula a energia por banda por período de tempo ilustrado a 147, a direção de chegada ilustrada no bloco 148 da Fig. 1f e a difusividade ilustrada no bloco 149 da Fig. 1f. E, os metadados são com- binados pelo combinador 144 para combinar os streams de me- tadados DirAC individuais, de preferência por uma adição ponderada como ilustrado exemplarmente por uma das duas al- ternativas da incorporação da Fig. 1d.

[0105] Os sinais multicanal podem ser convertidos diretamente para o formato B. O formato B obtido pode então ser processado por um DirAC convencional A figura 1g ilus- tra uma conversão 127 para o formato B e um subsequente processamento DirAC 180.

[0106] Referência [3] delineia formas de realizar a conversão do sinal multicanal para o formato B. Em prin- cípio, a conversão de sinais de áudio multicanal para o formato B é simples: alto-falantes virtuais são definidos para estarem em diferentes posições da disposição dos alto- falantes. Por exemplo, para a disposição 5.0, os altifalan- tes são posicionados no plano horizontal nos ângulos azimu-

tal +/-30 e +/-110 graus. Um microfone de formato B virtual é então definido para estar no centro dos alto-falantes, e uma gravação virtual é realizada. Assim, o canal W é criado pela soma de todos os canais dos alto-falantes do arquivo de áudio 5.0. O processo para obter os coeficientes de for- mato W e outros coeficientes de formato B pode então ser resumido:

[0107] 𝑊=∑ 𝑤𝑠

[0108] 𝑋=∑ 𝑤 𝑠 (cos(𝜃 ) cos(𝜑 ))

[0109] 𝑌=∑ 𝑤 𝑠 (sin(𝜃 ) cos(𝜑 ))

[0110] 𝑍=∑ 𝑤 𝑠 (sin(𝜑 ))

[0111] where 𝑠 onde estão os sinais multicanal lo- calizados no espaço nas posições dos altifalantes definidos pelo ângulo de azimute 𝜃 e ângulo de elevação 𝜑 de cada altifalante e 𝑤 são função dos pesos da distância. Se a distância não estiver disponível ou for simplesmente igno- rada, então 𝑤 = 1. Todavia, esta técnica simples é limita- da, uma vez que é um processo irreversível. Além disso, co- mo os alto-falantes são normalmente distribuídos de forma não uniforme, há também um enviesamento na estimativa feita por uma análise DirAC subsequente relacio- nada à direção com a maior densidade de alto-falantes. Por exemplo, no layout 5.1, haverá um viés para a frente uma vez que há mais alto-falantes na frente do que na parte de trás.

[0112] Para resolver este problema, uma outra téc- nica foi proposta em [3] para o processamento do sinal mul-

ticanal 5.1 com DirAC. O esquema de codificação final será então mostrado como ilustrado na Fig. 1h mostrando o con- versor de formato B 127, o analisador DirAC 180 como geral- mente descrito em relação ao elemento 180 na Fig. 1, e os outros elementos 190, 1000, 160, 170, 1020, e/ou 220, 240.

[0113] Em uma incorporação adicional, a interface de saída 200 é configurada para adicionar, ao formato com- binado, uma descrição de objeto separada para um objeto de áudio, onde a descrição do objeto compreende pelo menos uma de uma direção, uma distância, uma difusividade ou qualquer outro atributo de objeto, onde este objeto tem uma única direção em todas as bandas de frequência e é estático ou se move mais lentamente do que um limite de velocidade.

[0114] Além disso, esta característica é elaborada com mais detalhes em relação ao quarto aspecto da presente invenção discutido em relação às Fig. 4a e Fig. 4b.

[0115] 1ª Alternativa de Codificação: Combinar e processar diferentes representações de áudio por meio do formato B ou representação equivalente.

[0116] Uma primeira realização do codificador pre- visto pode ser alcançada convertendo todo o formato de en- trada em um formato B combinado, como é descrito na Fig.

11.

[0117] Fig. 11: Visão geral do sistema do codifi- cador/decodificador baseado em DirAC que combina diferentes formatos de entrada em um formato B combinado

[0118] Como o DirAC foi originalmente projetado para analisar um sinal de formato B, o sistema converte os diferentes formatos de áudio para um sinal combinado de formato B. Os formatos são primeiramente convertidos indi- vidualmente 120 em um sinal de formato B antes de serem combinados, somando seus componentes de formato B W,X,Y,Z.

Os componentes da Primeira Ordem Ambisônica (FOA) podem ser normalizados e reordenados para um formato B. Considerando que a FOA está no formato ACN/N3D, os quatro sinais da en- trada de formato B são obtidos por: 𝑊=𝑌 ⎧ ⎪𝑋= 𝑌 ⎪

[0119] ⎨𝑌 = 𝑌 ⎪ ⎪ 𝑍= 𝑌 ⎩

[0120] Onde 𝑌 denota o componente Ambisônico de ordem 𝑙 e índice 𝑚, −𝑙 ≤ 𝑚 ≤ +𝑙. Uma vez que os componentes FOA estão totalmente contidos no formato Ambisônico de or- dem superior, o formato HOA só precisa de ser truncado an- tes de ser convertido para o formato B.

[0121] Como os objetos e canais determinaram posi- ções no espaço, é possível projetar cada objeto e canal in- dividual em harmônicas esféricas (SH) na posição central, como gravação ou posição de referência. A soma das proje- ções permite combinar diferentes objetos e múltiplos canais em um único formato B e pode então ser processada pela aná- lise DirAC. Os coeficientes do formato B (W,X,Y,Z) são, en- tão, dados por:

[0122] 𝑊=∑ 𝑤𝑠

[0123] 𝑋=∑ 𝑤 𝑠 (cos(𝜃 ) cos(𝜑 ))

[0124] 𝑌=∑ 𝑤 𝑠 (sin(𝜃 ) cos(𝜑 ))

[0125] 𝑍=∑ 𝑤 𝑠 (sin(𝜑 ))

[0126] where 𝑠 onde são sinais independentes loca- lizados no espaço em posições definidas pelo ângulo de azi- mute 𝜃 e ângulo de elevação 𝜑 , and 𝑤 são função dos pe- sos da distância. Se a distância não estiver disponível ou for simplesmente ignorada, então 𝑤 = 1. Por exemplo, os si- nais independentes podem corresponder a objetos de áudio que estão localizados na posição dada ou o sinal associado a um canal de alto-falante na posição especificada.

[0127] Em aplicações onde uma representação Ambi- sônica de ordens superiores à primeira ordem é desejada, a geração de coeficientes Ambisônicos apresentados acima para a primeira ordem é estendida considerando adicionalmente componentes de ordem superior.

[0128] O gerador de canais de transporte 160 pode receber diretamente o sinal multicanal, os sinais em forma de onda dos objetos e os componentes Ambisônicos de ordem superior. O gerador de canais de transporte reduzirá o nú- mero de canais de entrada a transmitir por meio de downmi- xagem dos mesmos. Os canais podem ser misturados como em MPEG surround em uma downmixagem mono ou estéreo, enquanto os sinais em forma de onda dos objetos podem ser somados de forma passiva em uma downmixagem mono. Além disso, a partir da Ambisônica de ordem superior, é possível extrair uma re- presentação de ordem inferior ou criar por meio da formação de uma downmixagem estéreo ou qualquer outra seção do espa- ço. Se as downmixagens obtidas a partir dos diferentes for-

matos de entrada forem compatíveis entre si, podem ser com- binados entre si por meio de uma simples operação de adi- ção.

[0129] Alternativamente, o gerador de canais de transporte 160 pode receber o mesmo formato B combinado que o transmitido para a análise DirAC. Neste caso, um subcon- junto dos componentes ou o resultado de uma formação de feixe (ou outro processamento) formam os canais de trans- porte a serem codificados e transmitidos para o decodifica- dor. No sistema proposto, é necessária uma codificação de áudio convencional que pode ser baseada, mas não está limi- tada, ao codec padrão 3GPP EVS. O 3GPP EVS é a opção de co- dec escolhida devido à sua capacidade de codificar sinais de fala ou música a baixas taxas de bits com alta qualida- de, exigindo um atraso relativamente baixo, permitindo co- municações em tempo real.

[0130] Com uma taxa de bits muito baixa, o número de canais a transmitir precisa ser limitado a um e, portan- to, apenas o sinal de microfone omnidirecional W do formato B é transmitido. Se a taxa de bits permitir, o número de canais de transporte pode ser aumentado selecionando um subconjunto dos componentes do formato B. Alternativamente, os sinais do formato B podem ser combinados em um formador de feixe 160 direcionado para partições específicas do es- paço. Como exemplo, dois cardióides podem ser projetados para apontar em direções opostas, por exemplo, para a es- querda e para a direita da cena espacial:

𝐿 = √2𝑊 + 𝑌

[0131] 𝑅 = √2𝑊 − 𝑌

[0132] Estes dois canais estéreo L e R podem ser, então, eficientemente codificados 170 por uma codificação estéreo conjunta. Os dois sinais serão então explorados adequadamente pela Síntese DirAC no lado decodificador para renderizar a cena sonora. Outros tipos de formação de feixe podem ser previstos, por exemplo, um microfone cardióide virtual pode ser apontado para qualquer direção de determi- nado azimute 𝜃 e elevação 𝜑:

[0133] 𝐶 = √2W + cos(𝜃) cos(𝜑) 𝑋 + sin(𝜃) cos(𝜑) 𝑌 + sin (𝜑)𝑍

[0134] Outras formas de formação de canais de transmissão podem ser imaginadas, que transportam mais in- formação espacial do que um único canal monofônico de transmissão faria.

[0135] Alternativamente, os 4 coeficientes do for- mato B podem ser transmitidos diretamente. Nesse caso, os metadados DirAC podem ser extraídos diretamente do lado de- codificador, sem a necessidade de transmitir informações extras para os metadados espaciais.

[0136] A figura 12 mostra outro método alternativo para combinar os diferentes formatos de entrada. A figura 12 também é uma visão geral do sistema de combinação do co- dificador/decodificador baseado em DirAC no domínio pres- são/velocidade.

[0137] Tanto o sinal multicanal como os componen- tes Ambisônicos são introduzidos em uma análise DirAC 123,

124. Para cada formato de entrada é realizada uma análise

DirAC que consiste em uma análise tempo-frequência dos com- ponentes do formato B 𝑤 (𝑛), 𝑥 (𝑛), 𝑦 (𝑛), 𝑧 (𝑛) e a determinação dos vetores de pressão e velocidade:

[0138] 𝑃 (𝑛, 𝑘) = 𝑊 (𝑘, 𝑛)

[0139] 𝑈 (𝑛, 𝑘) = 𝑋 (𝑘, 𝑛)𝒆𝒙 + 𝑌 (𝑘, 𝑛)𝒆𝒚 + 𝑍 (𝑘, 𝑛)𝒆𝒛

[0140] onde 𝑖 está o índice de entrada e 𝑘 além de 𝑛 onde está o índice de entrada e, e índices de tempo e frequência do tile de tempo-frequência 𝒆𝒙 , 𝒆𝒚 , 𝒆𝒛 e represen- tam os vectores das unidades cartesianas.

[0141] 𝑃(𝑛, 𝑘) e 𝑈(𝑛, 𝑘) são necessários para calcular os parâmetros DirAC, nomeadamente DOA e difusividade. O combinador de metadados DirAC pode explorar essas fontes que 𝑁 atuam em conjunto resultam em uma combinação linear das suas pressões e velocidades de partículas que seriam medidas quando atuam sozinhas. As grandezas combinadas são, então, derivadas por:

[0142] 𝑃(𝑛, 𝑘) = ∑ 𝑃 (𝑛, 𝑘)

[0143] 𝑈(𝑛, 𝑘) = ∑ 𝑈 (𝑛, 𝑘)

[0144] Os parâmetros combinados do DirAC são com- putados 143 por meio do cálculo do vector de intensidade combinada:

[0145] 𝐼(𝑘, 𝑛) = ℜ 𝑃(𝑘, 𝑛). 𝑈(𝑘, 𝑛) ,

[0146] onde(. ) denota uma conjugação complexa. A difusividade do campo sonoro combinado é dada por: ‖ { ( , )}‖

[0147] 𝜓(𝑘, 𝑛) = 1 − { ( , )}

[0148] onde Ε{. } denota o operador de média tempo- ral, 𝑐 a velocidade do som e 𝐸(𝑘, 𝑛) a energia do campo sono- ro dada por:

[0149] 𝐸(𝑘, 𝑛) = ‖𝑈(𝑘, 𝑛)‖ + |𝑃(𝑘, 𝑛)|

[0150] A direção de chegada (DOA) é expressa por meio do vetor unitário 𝑒 (𝑘, 𝑛), definido como ( , )

[0151] 𝑒 (𝑘, 𝑛) = − ‖ ( , )‖

[0152] Se um objeto de áudio for introduzido, os parâmetros DirAC podem ser extraídos diretamente dos meta- dados do objeto enquanto o vetor de pressão 𝑃 (𝑘, 𝑛) é o sinal da essência do objeto (forma de onda).

Mais precisamente, a direção é diretamente derivada da po- sição do objeto no espaço, enquanto a difusividade é dire- tamente dada nos metadados do objeto ou - se não estiver disponível - pode ser definida por padrão como zero. A par- tir dos parâmetros DirAC, a pressão e os vetores de veloci- dade são dados diretamente por:

[0153] 𝑃 (𝑘, 𝑛) = 1 − 𝜓 (𝑘, 𝑛)𝑃 (𝑘, 𝑛)

[0154] 𝑈 (𝑘, 𝑛) = − 𝑃 (𝑘, 𝑛). 𝑒 (𝑘, 𝑛)

[0155] A combinação de objetos ou a combinação de um objeto com diferentes formatos de entrada é então obtida pela soma dos vetores de pressão e velocidade, como expli- cado anteriormente.

[0156] Em resumo, a combinação de diferentes con- tribuições de entrada (Ambisônica, canais, objetos) é rea- lizada no domínio pressão / velocidade e o resultado é en- tão convertido posteriormente em parâmetros DirAC de dire- ção / difusividade. A operação no domínio pres- são/velocidade é teoricamente equivalente a operar no for- mato B. O principal benefício desta alternativa em compara- ção com a anterior é a possibilidade de otimizar a análise

DirAC de acordo com cada formato de entrada como é proposto em [3] para o formato surround 5.1.

[0157] A principal desvantagem de tal fusão em um formato B combinado ou domínio de pressão/velocidade é que a conversão acontecendo no front-end da cadeia de processa- mento já é um gargalo para todo o sistema de codificação.

De fato, a conversão de representações áudio de Ambisônicos de ordem superior, objetos ou canais para um sinal de for- mato B (de primeira ordem) gera já uma grande perda de re- solução espacial que não pode ser recuperada posteriormen- te.

[0158] 2ª Alternativa de Codificação: combinação e processamento no domínio DirAC

[0159] Para contornar as limitações de conversão de todos os formatos de entrada em um sinal combinado no formato B, esta alternativa propõe derivar os parâmetros DirAC diretamente do formato original e depois combiná-los posteriormente no domínio dos parâmetros DirAC. A visão ge- ral de tal sistema é dada na Fig. 13. A Fig. 13 é uma visão geral do sistema do codificador/decodificador baseado em DirAC combinando diferentes formatos de entrada no domínio DirAC com a possibilidade de manipulação de objetos no lado do decodificador.

[0160] A seguir, também podemos considerar os ca- nais individuais de um sinal multicanal como uma entrada de objeto de áudio para o sistema de codificação. Os metadados dos objetos são, então, estáticos ao longo do tempo e re- presentam a posição do alto-falante e a distância relacio-

nada com a posição do ouvinte.

[0161] O objetivo desta solução alternativa é evi- tar a combinação sistemática dos diferentes formatos de en- trada para um formato B combinado ou uma representação equivalente. O objetivo é calcular os parâmetros DirAC an- tes de os combinar. O método evita, então, qualquer envie- samento na direção e estimativa da difusibilidade devido à combinação. Além disso, ele pode explorar de forma otimiza- da as características de cada representação de áudio duran- te a análise DirAC ou durante a determinação dos parâmetros DirAC.

[0162] A combinação dos metadados DirAC ocorre após determinar 125, 126, 126a para cada formato de entrada os parâmetros DirAC, difusividade, direção, assim como a pressão contida nos canais de transporte transmitidos. A análise DirAC pode estimar os parâmetros a partir de um formato intermediário B, obtido por meio da conversão do formato de entrada, conforme explicado anteriormente. Al- ternativamente, os parâmetros DirAC podem ser estimados de forma vantajosa sem passar pelo formato B, mas diretamente do formato de entrada, o que pode melhorar ainda mais a precisão da estimativa. Por exemplo, em [7], é proposto es- timar a difusividade diretamente a partir da Ambisônica de ordem superior. No caso de objetos de áudio, um simples conversor de metadados 150 na Fig. 15 pode extrair da dire- ção e difusividade dos metadados do objeto para cada obje- to.

[0163] A combinação 144 dos vários streams de me-

tadados Dirac em um único stream combinado de metadados Di- rAC pode ser alcançada como proposto em [4]. Para alguns conteúdos é muito melhor estimar diretamente os parâmetros DirAC a partir do formato original do que convertê-lo para um formato B combinado antes de realizar uma análise DirAC.

De fato, os parâmetros, direção e difusividade, podem ser tendenciosos quando se vai para um formato B [3] ou quando se combina as diferentes fontes. Além disso, esta alterna- tiva permite uma análise de

[0164] Outra alternativa mais simples pode fazer a média dos parâmetros das diferentes fontes, ponderando-os de acordo com as suas energias:

[0165] 𝜓(𝑘, 𝑛) = ∑ ( , ) ∑ 𝐸 (𝑘, 𝑛) 𝜓 (𝑘, 𝑛)

[0166] 𝑒 (𝑘, 𝑛) = ∑ ( ( , )) ( , ) ∑ (1 − 𝜓 (𝑘, 𝑛))𝐸 (𝑘, 𝑛)𝑒 (𝑘, 𝑛)

[0167] Para cada objeto há a possibilidade de ain- da enviar sua própria direção e opcionalmente distância, difusividade ou qualquer outro atributo relevante do objeto como parte do bitstream transmitido do codificador para o decodificador (ver, por exemplo, Figs. 4a, 4b). Essa infor- mação lateral extra irá enriquecer os metadados combinados do DirAC e permitirá ao decodificador restituir e ou mani- pular o objeto separadamente. Uma vez que um objeto tem uma única direção em todas as bandas de frequência e pode ser considerado estático ou em movimento lento, a informação extra exige ser atualizada com menos frequência do que ou- tros parâmetros DirAC e gerará apenas uma taxa de bits adi- cional muito baixa.

[0168] No lado do decodificador, a filtragem dire- cional pode ser realizada como informada em [5] para mani- pulação de objetos. A filtragem direcional é baseada em uma técnica de atenuação espectral de tempo curto. Ela é reali- zada no domínio espectral por uma função de ganho de fase zero, que depende da direção dos objetos. A direção pode ser contida no bitstream se as direções dos objetos forem transmitidas como informação lateral. Caso contrário, a di- reção também poderia ser dada de forma interativa pelo usu- ário.

[0169] 3a Alternativa: combinação no lado do deco- dificador

[0170] Alternativamente, a combinação pode ser feita no lado do decodificador. Fig. 14 é uma visão geral do sistema do codificador/decodificador baseado em DirAC que combina diferentes formatos de entrada no lado do deco- dificador por meio de um combinador de metadados DirAC. Na Fig. 14, o esquema de codificação baseado em DirAC funciona com taxas de bits mais altas do que anteriormente, mas per- mite a transmissão de metadados individuais DirAC. Os dife- rentes streams de metadados do DirAC são combinados 144 co- mo por exemplo proposto em [4] no decodificador antes da síntese do DirAC 220, 240. O combinador de metadados DirAC 144 também pode obter a posição de um objeto individual pa- ra posterior manipulação do objeto na análise DirAC.

[0171] Fig. 15 é uma visão geral do sistema do co- dificador/decodificador baseado em DirAC combinando dife- rentes formatos de entrada no lado do decodificador na sín-

tese DirAC. Se a taxa de bits permitir, o sistema pode ser melhorado conforme proposto na Fig. 15, enviando para cada componente de entrada (FOA/HOA, MC, Objeto) seu próprio si- nal de downmixagem juntamente com seus metadados DirAC as- sociados. Ainda assim, os diferentes streams DirAC compar- tilham uma síntese DirAC 220, 240 no decodificador para re- duzir a complexidade.

[0172] Fig. 2a ilustra um conceito para realizar uma síntese de uma pluralidade de cenas de áudio de acordo com um segundo aspecto da presente invenção. Um aparelho ilustrado na Fig. 2a compreende uma interface de entrada 100 para receber uma primeira descrição DirAC de uma pri- meira cena e para receber uma segunda descrição DirAC de uma segunda cena e um ou mais canais de transporte.

[0173] Além disso, um sintetizador DirAC 220 é fornecido para sintetizar a pluralidade de cenas de áudio em um domínio espectral para obter um sinal de áudio de do- mínio espectral representando a pluralidade de cenas de áu- dio. Além disso, um conversor de tempo espectral 214 é for- necido para converter o sinal de áudio do domínio espectral em um domínio de tempo, a fim de emitir um sinal de áudio do domínio de tempo que pode ser emitido por alto-falantes, por exemplo. Neste caso, o sintetizador DirAC é configurado para executar a renderização do sinal de saída dos alto- falantes. Alternativamente, o sinal de áudio pode ser um sinal estéreo que pode ser emitido para um fone de ouvido.

Novamente, alternativamente, a saída do sinal de áudio pelo conversor de espectro temporal 214 pode ser uma descrição do campo sonoro no formato B. Todos estes sinais, ou seja, sinais de alto-falantes para mais de dois canais, sinais de auscultadores ou descrições de campo sonoro são sinais de domínio temporal para processamento posterior, como a saída por altifalantes ou auscultadores ou para transmissão ou armazenamento no caso de descrições de campo sonoro, como sinais Ambisônicos de primeira ordem ou sinais Ambisônicos de ordem superior.

[0174] Além disso, o dispositivo Fig. 2a inclui adicionalmente uma interface de usuário 260 para controlar o sintetizador DirAC 220 no domínio espectral. Adicional- mente, um ou mais canais de transporte podem ser fornecidos à interface de entrada 100 que devem ser utilizados junta- mente com a primeira e segunda descrições DirAC que são, neste caso, descrições paramétricas fornecendo, para cada tile de tempo/frequência, uma informação de direção de che- gada e, opcionalmente, uma informação de difusibilidade.

[0175] Tipicamente, as duas descrições DirAC dife- rentes introduzidas na interface 100 na Fig. 2a descrevem duas cenas de áudio diferentes. Neste caso, o sintetizador DirAC 220 está configurado para realizar uma combinação destas cenas de áudio. Uma alternativa da combinação é ilustrada na Fig. 2b. Aqui, um combinador de cenas 221 é configurado para combinar as duas descrições DirAC no domí- nio paramétrico, ou seja, os parâmetros são combinados para obter parâmetros combinados de direção de chegada (DoA) e opcionalmente parâmetros de difusividade na saída do bloco

221. Estes dados são então introduzidos no renderizador Di-

rAC 222 que recebe, adicionalmente, um ou mais canais de transporte de forma a obter o sinal de áudio do domínio es- pectral 222. A combinação dos dados paramétricos DirAC é realizada preferencialmente como ilustrado na Fig. 1d e, como está descrito nesta figura e, particularmente, em re- lação à primeira alternativa.

[0176] Se pelo menos uma das duas descrições in- troduzidas no combinador de cenas 221 incluir valores de difusibilidade zero ou nenhum valor de difusibilidade, en- tão, adicionalmente, a segunda alternativa pode ser aplica- da, assim como discutida no contexto da Fig. 1d.

[0177] Outra alternativa é ilustrada na Fig. 2c.

Neste procedimento, as descrições DirAC individuais são renderizadas por meio de um primeiro renderizador DirAC 223 para a primeira descrição e um segundo renderizador DirAC 224 para a segunda descrição e na saída dos blocos 223 e 224, um primeiro e segundo sinal de áudio de domínio espec- tral estão disponíveis, e estes primeiros e segundos sinais de áudio de domínio espectral são combinados dentro do com- binador 225 para obter, na saída do combinador 225, um si- nal de combinação de domínio espectral.

[0178] Exemplificando, o primeiro renderizador Di- rAC 223 e o segundo renderizador DirAC 224 são configurados para gerar um sinal estéreo com um canal esquerdo L e um canal direito R. Então, o combinador 225 é configurado para combinar o canal esquerdo do bloco 223 e o canal esquerdo do bloco 224 para obter um canal esquerdo combinado. Adici- onalmente, o canal direito do bloco 223 é adicionado com o canal direito do bloco 224, e o resultado é um canal direi- to combinado na saída do bloco 225.

[0179] Para canais individuais de um sinal multi- canal, o procedimento análogo é realizado, ou seja, os ca- nais individuais são adicionados individualmente para que sempre o mesmo canal de um renderizador DirAC 223 seja adi- cionado ao mesmo canal correspondente do outro renderizador DirAC e assim por diante. O mesmo procedimento também é re- alizado, por exemplo, para sinais de formato B ou de ordem superior Ambisônicos. Quando, por exemplo, o primeiro ren- derizador DirAC 223 emite sinais W, X, Y, Z e o segundo renderizador DirAC 224 emite um formato similar, então o combinador combina os dois sinais omnidirecionais para ob- ter um sinal combinado omnidirecional W, e o mesmo procedi- mento é realizado também para os componentes corresponden- tes para finalmente obter um componente combinado X, Y e um componente Z.

[0180] Além disso, como já delineado na Fig. 2a, a interface de entrada é configurada para receber metadados extras de objetos de áudio para um objeto de áudio. Este objeto de áudio já pode ser incluído na primeira ou segunda descrição DirAC ou é separado da primeira e da segunda des- crição DirAC. Neste caso, o sintetizador DirAC 220 é confi- gurado para manipular seletivamente os metadados de objetos de áudio extras ou dados de objetos relacionados a esses metadados de objetos de áudio extras para, por exemplo, re- alizar uma filtragem direcional baseada nos metadados de objetos de áudio extras ou baseada em informações de dire-

ção dadas pelo usuário obtidas da interface do usuário 260.

Alternativa ou adicionalmente, e como ilustrado na Fig. 2d, o sintetizador DirAC 220 está configurado para executar, no domínio espectral, uma função de ganho de fase zero, a fun- ção de ganho de fase zero dependendo da direção de um obje- to de áudio, em que a direção está contida em bitstream se as direções dos objetos forem transmitidas como informação lateral ou em que a direção de é recebida da interface do usuário 260. A entrada adicional de metadados de objetos de áudio na interface 100 como uma característica opcional na Fig. 2a reflete a possibilidade de ainda enviar, para cada objeto individual, sua própria direção e, opcionalmente, distância, difusão e quaisquer outros atributos relevantes do objeto como parte do bitstream transmitido do codifica- dor para o decodificador. Assim, os metadados dos objetos de áudio extras podem estar relacionados a um objeto já in- cluído na primeira descrição DirAC ou na segunda descrição DirAC ou é um objeto adicional não incluído na primeira descrição DirAC, mas já está na segunda descrição DirAC.

[0181] Contudo, é preferível ter os metadados de objetos de áudio extras já no estilo DirAC, ou seja, uma informação de direção de chegada e, opcionalmente, uma in- formação de difusibilidade, embora os objetos de áudio tí- picos tenham uma difusão de zero, ou seja, concentrados em sua posição real, resultando em uma direção de chegada con- centrada e específica que é constante em todas as bandas de frequência e que está estática ou em movimento lento, no que diz respeito à taxa de quadros. Assim, como tal objeto tem uma única direção em todas as bandas de frequência e pode ser considerado estático ou em movimento lento, a in- formação extra requer ser atualizada com menos frequência do que outros parâmetros DirAC e, portanto, incorrerá ape- nas em uma taxa de bits adicional muito baixa. Exemplifi- cando, enquanto a primeira e a segunda descrição DirAC têm dados DoA e dados de difusibilidade para cada banda espec- tral e para cada frame, os metadados do objeto de áudio ex- tra só requerem um único dado DoA para todas as bandas de frequência e estes dados só para cada segundo frame ou, de preferência, cada terceiro, quarto, quinto ou até mesmo ca- da décimo frame na incorporação escolhida.

[0182] Além disso, em relação à filtragem direcio- nal realizada no sintetizador DirAC 220 que normalmente es- tá incluído em um decodificador no lado do decodificador de um sistema codificador/decodificador, o sintetizador DirAC pode realizar a filtragem direcional dentro do domínio de parâmetros antes da combinação de cenas ou novamente reali- zar a filtragem direcional subsequente à combinação de ce- nas, na alternativa da Fig. 2b. Contudo, neste caso, a fil- tragem direcional é aplicada à cena combinada e não às des- crições individuais.

[0183] Além disso, caso um objeto de áudio não es- teja incluído na primeira ou na segunda descrição, mas seja incluído pelos seus próprios metadados de objetos de áudio, a filtragem direcional, conforme ilustrado pelo manipulador seletivo, pode ser aplicada seletivamente apenas ao objeto de áudio extra, para o qual os metadados de objetos de áu-

dio extra existem sem afetar a primeira ou a segunda des- crição DirAC ou a descrição DirAC combinada. Para o próprio objeto de áudio, existe um canal de transporte separado que representa o sinal em forma de onda do objeto ou este sinal é incluído no canal de transporte downmixado.

[0184] Uma manipulação seletiva como ilustrada, por exemplo, na Fig. 2b pode proceder de tal forma que uma certa direção de chegada seja dada pela direção do objeto de áudio introduzido na Fig. 2d incluído no bitstream como informação lateral ou recebido de uma interface de usuário.

Então, baseado na direção dada pelo usuário ou informações de controle, o usuário pode, por exemplo, delinear que os dados de áudio devem ser aprimorados ou atenuados, a partir de uma determinada direção. Assim, o objeto (metadados) pa- ra o objeto em consideração é amplificado ou atenuado.

[0185] No caso de dados em forma de onda reais co- mo os dados do objeto introduzidos no manipulador seletivo 226 da esquerda na Fig. 2d, os dados de áudio seriam real- mente atenuados ou atenuados, dependendo da informação de controle. Contudo, no caso de dados do objeto tendo, além da direção de chegada e opcionalmente difusão ou distância, uma informação adicional de energia, então a informação de energia para o objeto seria reduzida no caso de uma atenua- ção necessária para o objeto ou a informação de energia se- ria aumentada no caso de uma amplificação necessária dos dados do objeto.

[0186] Assim, a filtragem direcional é baseada em uma técnica de atenuação espectral de tempo curto, e é rea-

lizada no domínio espectral por uma função de ganho de fase zero que depende da direção dos objetos. A direção pode ser contida no bitstream se as direções dos objetos forem transmitidas como informação lateral. Caso contrário, a di- reção também poderia ser dada de forma interativa pelo usu- ário. Naturalmente, o mesmo procedimento não pode ser apli- cado apenas ao objeto individual dado e refletido pelos me- tadados extras do objeto de áudio tipicamente fornecidos pelos dados DoA para todas as bandas de frequência e dados DoA com uma baixa taxa de atualização em relação à taxa de quadros e também dada pela informação de energia para o ob- jeto, mas a filtragem direcional também pode ser aplicada à primeira descrição DirAC independente da segunda descrição DirAC ou vice-versa ou também pode ser aplicada à descrição DirAC combinada, conforme o caso.

[0187] Além disso, deve-se notar que a caracterís- tica com respeito aos dados extras do objeto de áudio tam- bém pode ser aplicada no primeiro aspecto da presente in- venção ilustrada nas Figs. 1a a 1f. Em seguida, a interface de entrada 100 da Fig. 1a recebe adicionalmente os dados dos objetos de áudio extras conforme discutido na Fig. 2a, e o combinador de formatos pode ser implementado como o sintetizador DirAC no domínio espectral 220 controlado por uma interface de usuário 260.

[0188] Além disso, o segundo aspecto da presente invenção, como ilustrado na Fig. 2, é diferente do primeiro aspecto, pois a interface de entrada já recebe duas descri- ções DirAC, ou seja, descrições de um campo sonoro que es-

tão no mesmo formato e, portanto, para o segundo aspecto, o conversor de formato 120 do primeiro aspecto não é necessa- riamente necessário.

[0189] Por outro lado, quando a entrada no combi- nador de formato 140 da Fig. 1a consiste em duas descrições DirAC, então o combinador de formato 140 pode ser implemen- tado como discutido em relação ao segundo aspecto ilustrado na Fig. 2a, ou, alternativamente, os dispositivos Fig. 2a 220, 240, podem ser implementados como discutido em relação ao combinador de formato 140 da Fig. 1a do primeiro aspec- to.

[0190] Fig. 3a ilustra um conversor de dados de áudio compreendendo uma interface de entrada 100 para rece- ber uma descrição de um objeto de áudio com metadados de objetos de áudio. Além disso, a interface de entrada 100 é seguida por um conversor de metadados 150 também correspon- dente aos conversores de metadados 125, 126 discutidos em relação ao primeiro aspecto da presente invenção para con- verter os metadados dos objetos de áudio em metadados Di- rAC. A saída do conversor de áudio Fig. 3a é constituída por uma interface de saída 300 para transmitir ou armazenar os metadados do DirAC. Adicionalmente, a interface de en- trada 100 pode receber um sinal em forma de onda, conforme ilustrado pela segunda seta de entrada na interface 100.

Além disso, a interface de saída 300 pode ser implementada para introduzir, tipicamente uma representação codificada do sinal em forma de onda na saída do sinal de saída pelo bloco 300. Se o conversor de dados de áudio estiver confi-

gurado para converter apenas uma única descrição de objeto incluindo metadados, então a interface de saída 300 também fornece uma descrição DirAC desse único objeto de áudio junto com o sinal tipicamente codificado em forma de onda como canal de transporte DirAC.

[0191] Particularmente, os metadados dos objetos de áudio têm uma posição do objeto e os metadados do DirAC têm uma direção de chegada em relação a uma posição de re- ferência derivada da posição do objeto. Particularmente, o conversor de metadados 150, 125, 126 está configurado para converter parâmetros DirAC derivados do formato de dados do objeto em dados de pressão/velocidade, e o conversor de me- tadados está configurado para aplicar uma análise DirAC a esses dados de pressão/velocidade como, por exemplo, ilus- trado pelo fluxograma da Fig. 3c que consiste no bloco 302, 304, 306. Para este fim, os parâmetros DirAC de saída por bloco 306 têm uma qualidade melhor que os parâmetros DirAC derivados dos metadados dos objetos obtidos pelo bloco 302, ou seja, são parâmetros DirAC melhorados. A figura 3b ilus- tra a conversão de uma posição para um objeto na direção de chegada em relação a uma posição de referência para o obje- to específico.

[0192] Fig. 3f ilustra um diagrama esquemático pa- ra explicar a funcionalidade do conversor de metadados 150.

O conversor de metadados 150 recebe a posição do objeto in- dicada pelo vetor P em um sistema de coordenadas. Além dis- so, a posição de referência, à qual os metadados DirAC de- vem ser relacionados, é dada pelo vector R no mesmo sistema de coordenadas. Assim, a direção de chegada do vector DoA estende-se da ponta do vector R até à ponta do vector B.

Assim, o vector DoA real é obtido subtraindo a posição de referência do vector R do vector P da posição do objeto.

[0193] Para ter uma informação DoA normalizada in- dicada pelo vector DoA, a diferença do vector é dividida pela magnitude ou comprimento do vector DoA. Além disso, e caso seja necessário e pretendido, o comprimento do vetor DoA também pode ser incluído nos metadados gerados pelo conversor de metadados 150 para que, adicionalmente, a dis- tância do objeto ao ponto de referência também seja incluí- da nos metadados para que uma manipulação seletiva deste objeto também possa ser realizada com base na distância do objeto à posição de refe- rência. Particularmente, o bloco de direção de extração 148 da Fig. 1f pode também operar como discutido em relação à Fig. 3f, embora outras alternativas para o cálculo da in- formação DoA e, opcionalmente, a informação da distância também possam ser aplicadas. Além disso, como já discutido na Fig. 3a, os blocos 125 e 126 ilustrados na Fig. 1c ou 1d podem operar da mesma forma como discutido na Fig. 3f.

[0194] Além disso, o dispositivo da Fig. 3a pode ser configurado para receber uma pluralidade de descrições de objetos de áudio, e o conversor de metadados é configu- rado para converter cada descrição de metadados diretamente em uma descrição DirAC e, então, o conversor de metadados é configurado para combinar as descrições individuais de me- tadados DirAC para obter uma descrição DirAC combinada como os metadados DirAC ilustrados na Fig. 3a. Em uma incorpora- ção, a combinação é feita calculando 320 um fator de ponde- ração para uma primeira direção de chegada usando uma pri- meira energia e calculando 322 um fator de ponderação para uma segunda direção de chegada usando uma segunda energia, onde a direção de chegada é processada pelos blocos 320, 332 relacionados ao mesmo tempo/lixo de frequência. Em se- guida, no bloco 324, uma adição ponderada é realizada como também discutido em relação ao item 144 na Fig. 1d. Assim, o procedimento ilustrado na Fig. 3a representa uma incorpo- ração da primeira alternativa Fig. 1d.

[0195] No entanto, em relação à segunda alternati- va, o procedimento seria que toda a difusividade fosse de- finida para zero ou para um valor pequeno e, para uma posi- ção de tempo/frequência, todos os diferentes valores de di- reção de chegada que são dados para essa posição de tem- po/frequência são considerados e o maior valor de direção de chegada é selecionado para ser o valor combinado de di- reção de chegada para essa posição de tempo/frequência. Em outras incorporações, pode-se também selecionar o segundo maior valor desde que a informação de energia para esses dois valores de direção de chegada não seja tão diferente.

O valor da direção de chegada é selecionado cuja energia é a maior dentre as energias da diferente contribuição para esta posição de frequência de tempo ou a segunda ou tercei- ra maior energia.

[0196] Assim, o terceiro aspecto descrito nas Figs. 3a a 3f são diferentes do primeiro aspecto, pois o terceiro aspecto também é útil para a conversão de uma úni- ca descrição de objeto em um metadados DirAC. Alternativa- mente, a interface de entrada 100 pode receber várias des- crições de objetos que estão no mesmo formato obje- to/metadados. Assim, qualquer conversor de formato conforme discutido em relação ao primeiro aspecto na Fig. 1a não é necessário. Assim, a incorporação da Fig. 3a pode ser útil no contexto da recepção de duas descrições de objetos dife- rentes usando sinais de onda de objetos diferentes e meta- dados de objetos diferentes como a primeira descrição de cena e a segunda descrição como entrada no combinador de formatos 140; a saída do conversor de metadados 150, 125, 126 ou 148 pode ser uma representação DirAC com metadados DirAC e, portanto, o analisador DirAC 180 da Fig. 1 também não é necessário. No entanto, os outros elementos em rela- ção ao gerador de canais de transporte 160 correspondentes ao downmixer 163 da Fig. 3a podem ser utilizados no contex- to do terceiro aspecto, bem como o codificador de canais de transporte 170, o codificador de metadados 190 e, neste contexto, a interface de saída 300 da Fig. 3a corresponde à interface de saída 200 da Fig. 1a. Portanto, todas as des- crições correspondentes dadas em relação ao primeiro aspec- to também se aplicam ao terceiro aspecto.

[0197] Figs. 4a, 4b ilustram um quarto aspecto da presente invenção no contexto de um aparelho para a reali- zação de uma síntese de dados áudio. Particularmente, o aparelho tem uma interface de entrada 100 para receber uma descrição DirAC de uma cena de áudio com metadados DirAC e adicionalmente para receber um sinal de objeto com metada- dos de objeto. Este codificador de cena de áudio ilustrado na Fig. 4b compreende adicionalmente o gerador de metadados 400 para gerar uma descrição combinada dos metadados DirAC, por um lado, e os metadados dos objetos, por outro. Os me- tadados do DirAC compreendem a direção de chegada de cada peça de tempo/frequência e os metadados do objeto compreen- dem uma direção ou adicionalmente uma distância ou uma di- fusividade de um objeto individual.

[0198] Particularmente, a interface de entrada 100 é configurada para receber, adicionalmente, um sinal de transporte associado à descrição DirAC da cena de áudio, conforme ilustrado na Fig. 4b, e a interface de entrada é configurada adicionalmente para receber um sinal de forma de onda do objeto associado ao sinal do objeto. Portanto, o codificador de cena compreende ainda um codificador de si- nal de transporte para codificar o sinal de transporte e o sinal em forma de onda do objeto, e o codificador de trans- porte 170 pode corresponder ao codificador 170 da Fig. 1a.

[0199] Particularmente, o gerador de metadados 140 que gera os metadados combinados pode ser configurado con- forme discutido em relação ao primeiro aspecto, ao segundo aspecto ou ao terceiro aspecto. E, em uma incorporação es- colhida, o gerador de metadados 400 é configurado para ge- rar uma única direção de banda larga por tempo para os me- tadados do objeto, ou seja, para um determinado período de tempo, e o gerador de metadados é configurado para atuali- zar a única direção de banda larga por tempo com menos fre-

quência do que os metadados do DirAC.

[0200] O procedimento discutido em relação à Fig.

4b permite ter metadados combinados que tenham metadados para uma descrição DirAC completa e que tenham, além disso, metadados para um objeto de áudio adicional, mas no formato DirAC para que uma renderização DirAC muito útil possa ser realizada, ao mesmo tempo, por meio de uma filtragem dire- cional seletiva ou modificação como já discutido em relação ao segundo aspecto.

[0201] Assim, o quarto aspecto da presente inven- ção e, particularmente, o gerador de metadados 400 repre- senta um conversor de formato específico onde o formato co- mum é o formato DirAC, e a entrada é uma descrição DirAC para a primeira cena no primeiro formato discutido em rela- ção à Fig. 1a e a segunda cena é um sinal de objeto único ou combinado, como o SAOC. Assim, a saída do conversor de formato 120 representa a saída do gerador de metadados 400 mas, em contraste com uma combinação específica real dos metadados por uma das duas alternativas, por exemplo, como discutido na Fig. 1d, os metadados do objeto são incluídos no sinal de saída, ou seja, os “metadados combinados” sepa- rados dos metadados da descrição DirAC para permitir uma modificação seletiva dos dados do objeto.

[0202] Assim, os “metadados de dire- ção/distância/difusividade” indicados no item 2 no lado di- reito da Fig. 4a correspondem à entrada adicional de meta- dados do objeto de áudio na interface de entrada 100 da Fig. 2a, mas para uma única descrição DirAC na incorporação da Fig. 4a. Assim, em certo sentido, pode-se dizer que a Fig. 2a representa uma implementação do lado decodificador do codificador ilustrado na Fig. 4a, 4b com a provisão de que o lado decodificador do dispositivo Fig. 2a recebe ape- nas uma única descrição DirAC e os metadados dos objetos gerados pelo gerador de metadados 400 dentro do mesmo bitstream que os “metadados dos objetos de áudio extra”.

[0203] Assim, uma modificação completamente dife- rente dos dados do objeto extra pode ser realizada quando o sinal de transporte codificado tem uma representação sepa- rada do sinal de forma de onda do objeto separado do stream de transporte do DirAC. Contudo, o codificador de transpor- te 170 downmixa ambos os dados, ou seja, o canal de trans- porte para a descrição DirAC e o sinal de forma de onda do objeto, então a separação será menos perfeita, mas por meio de informações adicionais de energia do objeto, mesmo uma separação de um canal de downmixagem combinado e uma modi- ficação seletiva do objeto com relação à descrição DirAC está disponível.

[0204] Fig. 5a a 5d representam mais um quinto as- pecto da invenção, no contexto de um aparelho para realizar uma síntese de dados de áudio. Para este fim, uma interface de entrada 100 é fornecida para receber uma descrição DirAC de um ou mais objetos de áudio e/ou uma descrição DirAC de um sinal multicanal e/ou uma descrição DirAC de um sinal Ambisônico de primeira ordem e/ou um sinal Ambisônico de ordem superior, em que a descrição DirAC compreende infor- mação de posição de um ou mais objetos ou uma informação lateral para os sinais Ambisônico de primeira ordem ou os sinais Ambisônicos de ordem superior ou uma informação de posição para o sinal multicanal como informação lateral ou de uma interface de usuário.

[0205] Particularmente, um manipulador 500 é con- figurado para manipular a descrição DirAC de um ou mais ob- jetos de áudio, a descrição DirAC do sinal multicanal, a descrição DirAC dos sinais Ambisônicos de primeira ordem ou a descrição DirAC dos sinais Ambisônicos de ordem superior para obter uma descrição DirAC manipulada. A fim de sinte- tizar esta descrição DirAC manipulada, um sintetizador Di- rAC 220, 240 é configurado para sintetizar esta descrição DirAC manipulada para obter dados de áudio sintetizados.

[0206] Em uma incorporação escolhida, o sintetiza- dor DirAC 220, 240 compreende um renderizador DirAC 222 co- mo ilustrado na Fig. 5b e o conversor de tempo espectral 240 conectado subsequentemente que emite o sinal de domínio de tempo manipulado. Particularmente, o manipulador 500 é configurado para realizar uma operação de ponderação depen- dente da posição antes da renderização DirAC.

[0207] Particularmente, quando o sintetizador Di- rAC está configurado para emitir uma pluralidade de objetos de sinais Ambisônicos de primeira ordem ou um sinal Ambisô- nico de ordem superior ou um sinal multicanal, o sintetiza- dor DirAC está configurado para utilizar um conversor de tempo espectral separado para cada objeto ou cada componen- te dos sinais Ambisônicos de primeira ordem ou ordem supe- rior ou para cada canal do sinal multicanal como ilustrado na Fig. 5d nos blocos 506, 508. Como delineado no bloco 510, então a saída das conversões separadas correspondentes são somadas desde que todos os sinais estejam em um formato comum, ou seja, em formato compatível.

[0208] Portanto, no caso da interface de entrada 100 da Fig. 5a, recebendo mais de uma, ou seja, duas ou três representações, cada representação poderia ser manipu- lada separadamente, conforme ilustrado no bloco 502 no do- mínio dos parâmetros, conforme já discutido na Fig. 2b ou 2c, e, então, uma síntese poderia ser realizada conforme descrito no bloco 504 para cada descrição manipulada, e a síntese poderia então ser adicionada no domínio do tempo, conforme discutido em relação ao bloco 510 na Fig. 5d. Al- ternativamente, o resultado dos procedimentos individuais de síntese do DirAC no domínio espectral já poderia ser adicionado no domínio espectral e então uma única conversão de domínio temporal poderia ser usada também. Particular- mente, o manipulador 500 pode ser implementado como o mani- pulador discutido com respeito à Fig. 2d ou discutido com relação à qualquer outro aspecto anterior.

[0209] Assim, o quinto aspecto da presente inven- ção fornece uma característica significativa em relação ao fato, quando descrições individuais DirAC de sinais sonoros muito diferentes são introduzidas, e quando uma certa mani- pulação das descrições individuais é realizada como discu- tido em relação ao bloco 500 da Fig. 5a, quando uma entrada no manipulador 500 pode ser uma descrição DirAC de qualquer formato, incluindo apenas um formato, enquanto o segundo aspecto estava concentrado na recepção de pelo menos duas descrições DirAC diferentes ou quando o quarto aspecto, por exemplo, estava relacionado com a recepção de uma descrição DirAC, por um lado, e uma descrição de um sinal de objeto, por outro lado.

[0210] Posteriormente, é feita referência à Fig.

6. A Fig. 6 ilustra outra implementação para realizar uma síntese diferente daquela do sintetizador DirAC. Quando, por exemplo, um analisador de campo sonoro gera, para cada sinal de fonte, um sinal mono S separado e uma direção de chegada original e quando, dependendo da informação de tra- dução, é calculada uma nova direção de chegada, então o ge- rador de sinal Ambisônico 430 da Fig. 6, por exemplo, seria utilizado para gerar uma descrição do campo sonoro para o sinal de fonte sonora, ou seja, o sinal mono S mas para a nova direção de chegada (DoA) dados consistindo em um ângu- lo horizontal θ ou um ângulo de elevação θ e um ângulo azi- mutal φ. Então, um procedimento realizado pela calculadora de campo sonoro 420 da Fig. 6 seria gerar, por exemplo, uma representação Ambisônica de campo sonoro de primeira ordem para cada fonte sonora com a nova direção de chegada e, en- tão, uma modificação adicional por fonte sonora poderia ser realizada utilizando um fator de escala em função da dis- tância do campo sonoro ao novo local de referência e, en- tão, todos os campos sonoros das fontes individuais poderi- am sobrepor-se uns aos outros para finalmente obter o campo sonoro modificado, mais uma vez, por exemplo, em uma repre- sentação Ambisônica relacionada com um determinado novo lo-

cal de referência.

[0211] Quando se interpreta que cada bin de tem- po/frequência processado pelo analisador DirAC 422 repre- senta uma determinada fonte sonora (banda limitada), então, o gerador de sinal Ambisônico 430 poderia ser usado, em vez do sintetizador DirAC 425, para gerar para cada bin de tem- po/frequência, uma representação Ambisônica completa usando o sinal de downmixagem ou sinal de pressão ou componente omnidirecional para este bin de tempo/frequência como o “mono sinal S” da Fig. 6. Em seguida, uma conversão indivi- dual de tempo-frequência no conversor de tempo-frequência 426 para cada um dos componentes W, X, Y, Z resultaria em uma descrição do campo sonoro diferente da ilustrada na Fig. 6.

[0212] Posteriormente, explicações adicionais so- bre uma análise DirAC e uma síntese DirAC são dadas como conhecidas na arte. Fig. 7a ilustra um analisador DirAC conforme divulgado originalmente, por exemplo, na referên- cia “Directional Audio Coding” [Codificação de Áudio Dire- cional] do IWPASH de 2009. O analisador DirAC compreende um banco de filtros banda 1310, um analisador de energia 1320, um analisador de intensidade 1330, um bloco de média temporal 1340 e uma calculadora de difusividade 1350 e a calculadora de direção 1360. No DirAC, tanto a análise como a síntese são realizadas no domínio da frequência. Existem vários métodos para dividir o som em bandas de frequência, dentro de propriedades distintas cada uma. As transforma- ções de frequência mais comumente utilizadas incluem a transformação de Fourier (STFT) de curto tempo e o banco de filtros espelhados Quadrature (QMF). Além destes, há uma liberdade total para projetar um banco de filtros com fil- tros arbitrários que são otimizados para qualquer propósito específico. O objetivo da análise direcional é estimar em cada banda de frequência a direção de chegada do som, jun- tamente com uma estimativa se o som está chegando de uma ou várias direções ao mesmo tempo. Em princípio, isto pode ser realizado com várias técnicas, contudo, a análise energéti- ca do campo sonoro foi considerada adequada, o que é ilus- trado na Fig. 7a. A análise energética pode ser realizada quando o sinal de pressão e os sinais de velocidade em uma, duas ou três dimensões são captados a partir de uma única posição. Nos sinais de primeira ordem no formato B, o sinal omnidirecional é chamado de sinal W, que foi escalado para baixo pela raiz quadrada de dois. A pressão sonora pode ser estimada conforme 𝑆 = √2 ∗ 𝑊, expresso no domínio STFT.

[0213] Os canais X, Y e Z têm o padrão direcional de um dipolo dirigido ao longo do eixo cartesiano, que jun- tos formam um vetor U = [X, Y, Z]. O vetor estima o vetor velocidade do campo sonoro, e também é expresso no domínio STFT. A energia E do campo sonoro é computada. A captação de sinais no formato B pode ser obtida com posicionamento coincidente de microfones direcionais ou com um conjunto de microfones omnidirecionais em espaçamento fechado. Em algu- mas aplicações, os sinais dos microfones podem ser formados em um domínio computacional, ou seja, simulados. A direção do som é definida como a direção oposta do vetor de inten-

sidade I. A direção é denotada como azimute angular corres- pondente e valores de elevação nos metadados transmitidos.

A difusividade do campo sonoro é também calculada utilizan- do um operador de expectativa do vector de intensidade e da energia. O resultado desta equação é um número de valor re- al entre zero e um, caracterizando se a energia sonora está a chegar de uma única direção (a difusividade é igual a ze- ro) ou de todas as direções (a difusividade é igual a um).

Este procedimento é apropriado no caso em que a informação completa da velocidade 3D ou menos dimensional está dispo- nível.

[0214] A figura 7b ilustra uma síntese DirAC, mais uma vez com um banco de filtros de banda 1370, um bloco de microfone virtual 1400, um bloco de sintetizador dire- to/difuso 1450 e uma certa configuração de alto-falantes ou uma configuração virtual 1460. Além disso, é utilizado um transformador de ganho difusor 1380, um bloco de ganho de amplitude baseado em vetores (VBAP) 1390, um bloco de com- pensação de microfone 1420, um bloco de ganho médio de al- to-falantes 1430 e um distribuidor 1440 para outros canais.

Nesta síntese DirAC com alto-falantes, a versão de alta qualidade da síntese DirAC mostrada na Fig. 7b recebe todos os sinais no formato B, para os quais é computado um sinal de microfone virtual para cada direção de alto-falante da configuração de alto-falantes 1460. O padrão direcional utilizado é tipicamente um dipolo. Os sinais do microfone virtual são então modificados de forma não-linear, depen- dendo dos metadados. A versão de baixa taxa de bits do Di-

rAC não é mostrada na Fig. 7b, porém, nesta situação, ape- nas um canal de áudio é transmitido, conforme ilustrado na Fig. 6. A diferença no processamento é que todos os sinais de microfone virtual seriam substituídos pelo único canal de áudio recebido. Os sinais de microfone virtual são divi- didos em dois streams: difuso e não difuso, que são proces- sados separadamente.

[0215] O som não difuso é reproduzido como fontes pontuais por meio do uso de panorâmico de amplitude de base vetorial (VBAP). No panning, um sinal sonoro monofônico é aplicado a um subconjunto de alto-falantes após a multipli- cação com fatores de ganho específicos do alto-falante. Os fatores de ganho são calculados utilizando a informação de um conjunto de alto-falantes, e a direção de rotação espe- cificada. Na versão de baixa taxa de bits, o sinal de en- trada é simplesmente direcionado para as direções implíci- tas nos metadados. Na versão de alta qualidade, cada sinal de microfone virtual é multiplicado com o fator de ganho correspondente, o que produz o mesmo efeito com o panning, porém é menos propenso a quaisquer artefatos não lineares.

[0216] Em muitos casos, os metadados direcionais estão sujeitos a mudanças temporais abruptas. Para evitar artefatos, os fatores de ganho para alto-falantes computa- dos com VBAP são suavizados pela integração temporal com constantes de tempo dependentes de frequência iguais a cer- ca de 50 períodos de ciclo em cada banda. Isto remove efe- tivamente os artefatos, contudo, as mudanças de direção não são percebidas como sendo mais lentas do que sem uma média na maioria dos casos. O objetivo da síntese do som difuso é criar a percepção do som que rodeia o ouvinte. Na versão de baixa taxa de bits, o stream difuso é reproduzido decorando o sinal de entrada e reproduzindo-o a partir de cada alto- falante. Na versão de alta qualidade, os sinais do microfo- ne virtual do stream difuso já são incoerentes em algum grau, e precisam ser relacionados apenas suavemente à de- correlação. Esta abordagem proporciona melhor qualidade es- pacial para reverberação surround e som ambiente do que a versão de baixa taxa de bits. Para a síntese DirAC com fo- nes de ouvido, DirAC é formulado com uma certa quantidade de alto-falantes virtuais ao redor do ouvinte para o stream não difuso e um certo número de alto-falantes para o stream difuso. Os alto-falantes virtuais são implementados como uma convolução dos sinais de entrada com funções de trans- ferência relacionadas com a cabeça medida (HRTFs).

[0217] Posteriormente, é dada uma outra relação geral com respeito aos diferentes aspectos e, particular- mente, às implementações posteriores do primeiro aspecto, conforme discutido com respeito à Fig. 1a. Geralmente, esta invenção refere-se à combinação de diferentes cenas em di- ferentes formatos usando um formato comum, onde o formato comum pode ser, por exemplo, o domínio de formato B, o do- mínio de pressão/velocidade ou o domínio de metadados como discutido, por exemplo, nos itens 120, 140 da Fig. 1a.

[0218] Quando a combinação não é feita diretamente no formato comum DirAC, então uma análise DirAC 802 é rea- lizada em uma alternativa antes da transmissão no codifica-

dor, como discutido anteriormente em relação ao item 180 da Fig. 1a.

[0219] Em seguida, após a análise DirAC, o resul- tado é codificado conforme discutido anteriormente em rela- ção ao codificador 170 e ao codificador de metadados 190 e o resultado codificado é transmitido por meio do sinal de saída codificado gerado pela interface de saída 200. Entre- tanto, em uma outra alternativa, o resultado poderia ser diretamente renderizado por um dispositivo da Fig. 1a quan- do a saída do bloco 160 da Fig. 1a e a saída do bloco 180 da Fig. 1a é encaminhada para um renderizador DirAC. Assim, o dispositivo da Fig. 1a não seria um dispositivo codifica- dor específico, mas um analisador e um renderizador corres- pondente.

[0220] Uma outra alternativa é ilustrada no ramo direito da Fig. 8, onde é realizada uma transmissão do co- dificador para o decodificador e, como ilustrado no bloco 804, a análise DirAC e a síntese DirAC são realizadas após a transmissão, ou seja, ao lado de um decodificador. Este procedimento seria o caso, quando a alternativa da Fig. 1a é utilizada, ou seja, que o sinal de saída codificado é um sinal de formato B sem metadados espaciais. Após o bloco 808, o resultado poderia ser reproduzido ou, alternativa- mente, o resultado poderia até ser codificado e novamente transmitido. Assim, torna-se claro que os procedimentos in- ventivos definidos e descritos em relação aos diferentes aspectos são altamente flexíveis e podem ser muito bem adaptados a casos específicos de utilização.

[0221] 1o Aspecto da Invenção: Codifica- ção/renderização de áudio espacial universal baseada em Di- rAC

[0222] Um codificador de áudio espacial baseado em Dirac que pode codificar sinais multicanais, formatos Ambi- sônicos e objetos de áudio separadamente ou simultaneamen- te.

[0223] Benefícios e Vantagens sobre a Tecnologia de Ponta

[0224] Esquema de codificação de áudio espacial universal baseado em DirAC para os formatos de entrada de áudio imersivo mais relevantes

[0225] Renderização de áudio universal de diferen- tes formatos de entrada em diferentes formatos de saída

[0226] 2o Aspecto da Invenção: Combinando duas ou mais descrições DirAC em um deco- dificador

[0227] O segundo aspecto da invenção está relacio- nado com a combinação e renderização de duas ou mais des- crições DirAC no domínio espectral.

[0228] Benefícios e Vantagens sobre a Tecnologia de Ponta

[0229] Combinação eficiente e precisa do stream DirAC

[0230] Permite que o uso do DirAC represente uni- versalmente qualquer cena e combine eficientemente diferen- tes streams no domínio dos parâmetros ou no domínio espec- tral

[0231] Manipulação eficiente e intuitiva de cenas individuais de DirAC ou da cena combinada no domínio espec- tral e subsequente conversão para o domínio temporal da ce- na combinada manipulada.

[0232] 3o Aspecto da Invenção: Conversão de obje- tos áudio para o domínio DirAC

[0233] O terceiro aspecto da invenção está relaci- onado com a conversão de metadados de objetos e, opcional- mente, sinais de forma de onda de objetos diretamente no domínio DirAC e em uma incorporação a combinação de vários objetos em uma representação de objetos.

[0234] Benefícios e Vantagens sobre a Tecnologia de Ponta

[0235] Estimativa eficiente e precisa dos metada- dos do DirAC por meio de transcodificador simples de meta- dados dos objetos de áudio

[0236] Permite à DirAC codificar cenas de áudio complexas envolvendo um ou mais objetos de áudio

[0237] Método eficiente de codificação de objetos de áudio por meio do DirAC em uma única representação para- métrica da cena de áudio completa.

[0238] 4o Aspecto da Invenção: Combinação de meta- dados de objetos e metadados regulares do DirAC

[0239] O terceiro aspecto da invenção aborda a al- teração dos metadados DirAC com as direções e, idealmente, a distância ou difusividade dos objetos individuais que compõem a cena áudio combinada representada pelos parâme- tros DirAC. Esta informação extra é facilmente codificada,

uma vez que consiste principalmente em uma única direção de banda larga por unidade de tempo e pode ser atualizada com menos frequência do que os outros parâmetros DirAC, uma vez que se pode assumir que os objetos são estáticos ou se mo- vem a um ritmo lento.

[0240] Benefícios e Vantagens sobre a Tecnologia de Ponta

[0241] Permite ao DirAC codificar uma cena de áu- dio complexa envolvendo um ou mais objetos de áudio

[0242] Estimativa eficiente e precisa dos metada- dos do DirAC por meio de transcodificador simples dos meta- dados dos objetos de áudio.

[0243] Método mais eficiente para a codificação de objetos de áudio por meio de DirAC, combinando de forma eficiente seus metadados no domínio DirAC

[0244] Método eficiente de codificação de objetos de áudio e por meio de DirAC, combinando eficientemente su- as representações de áudio em uma única representação para- métrica da cena de áudio.

[0245] 5o Aspecto da Invenção: Manipulação de ce- nas de objetos MC e FOA/HOA C na síntese DirAC

[0246] O quarto aspecto está relacionado com o la- do decodificador e explora as posições conhecidas dos obje- tos de áudio. As posições podem ser dadas pelo usuário por meio de uma interface interativa e também podem ser incluí- das como informação lateral extra dentro do bitstream.

[0247] O objetivo é ser capaz de manipular uma ce- na de áudio de saída compreendendo um número de objetos,

alterando individualmente os atributos dos objetos, tais como níveis, equalização e/ou posições espaciais. Também pode ser previsto filtrar completamente o objeto ou resti- tuir objetos individuais do stream combinado.

[0248] A manipulação da cena de áudio de saída po- de ser obtida por meio do processamento conjunto dos parâ- metros espaciais dos metadados DirAC, dos metadados dos ob- jetos, da entrada interativa do usuário, se estiver presen- te, e dos sinais de áudio transportados nos canais de transporte.

[0249] Benefícios e Vantagens sobre a Tecnologia de Ponta

[0250] Permite a saída de DirAC para os objetos de áudio no lado do decodificador, conforme apresentado na en- trada do codificador.

[0251] Permite a reprodução de DirAC para manipu- lar objetos de áudio individuais, aplicando ganhos, rota- ção, ou...

[0252] A capacidade requer um esforço computacio- nal adicional mínimo, uma vez que requer apenas uma opera- ção de ponderação dependente da posição antes da renderiza- ção & banco de filtros de síntese no final da síntese DirAC (saídas de objetos adicionais exigirão apenas um banco de filtros de síntese adicional por saída de objeto).

[0253] Referências que são todas incorporadas na sua totalidade pelas referências:

[0254] [1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, “Directional audio cod-

ing - perception-based reproduction of spatial sound”, In- ternational Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.

[0255] [2] Ville Pulkki. “Virtual source position- ing using vector base amplitude panning”. J. Audio Eng.

Soc., 45(6):456{466, June 1997.

[0256] [3] M. V. Laitinen and V. Pulkki, "Convert- ing 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64.

[0257] [4] G. Del Galdo, F. Kuech, M. Kallinger and R. Schultz-Amling, "Efficient merging of multiple audio streams for spatial sound reproduction in Directional Audio Coding," 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, Taipei, 2009, pp. 265-268.

[0258] [5] Jürgen HERRE, CORNELIA FALCH, DIRK MAHNE, GIOVANNI DEL GALDO, MARKUS KALLINGER, AND OLIVER THIERGART, “Interactive Teleconferencing Combining Spatial Audio Object Coding and DirAC Technology”, J. Audio Eng.

Soc., Vol. 59, No. 12, 2011 December.

[0259] [6] R. Schultz-Amling, F. Kuech, M.

Kallinger, G. Del Galdo, J. Ahonen, V. Pulkki, “Planar Mi- crophone Array Processing for the Analysis and Reproduction of Spatial Audio using Directional Audio Coding,” Audio En- gineering Society Convention 124, Amsterdam, The Nether- lands, 2008.

[0260] [7] Daniel P. Jarrett and Oliver Thiergart and Emanuel A. P. Habets and Patrick A. Naylor, “Coherence- Based Diffuseness Estimation in the Spherical Harmonic Do- main”, IEEE 27th Convention of Electrical and Electronics Engineers in Israel (IEEEI), 2012.

[0261] [8] US Patent 9,015,051.

[0262] Em outras incoporações, esta invenção for- nece diferentes alternativas, particularmente em relação ao primeiro aspecto e também em relação aos outros aspectos.

Estas alternativas são as seguintes:

[0263] Primeiro, combinar diferentes formatos no domínio do formato B e fazer a análise DirAC no codificador ou transmitir os canais combinados para um decodificador e fazer a análise e síntese DirAC lá.

[0264] Em segundo lugar, combinar diferentes for- matos no domínio de pressão/velocidade e fazer a análise DirAC no codificador. Alternativamente, os dados de pres- são/velocidade são transmitidos para o decodificador e a análise DirAC é feita no decodificador e a síntese também é feita no decodificador.

[0265] Em terceiro lugar, combinar diferentes for- matos no domínio dos metadados e transmitir um único stream DirAC ou transmitir vários streams DirAC para um decodifi- cador antes de combiná-los e fazer a combinação no decodi- ficador.

[0266] Além disso, as encarnações ou aspectos da presente invenção estão relacionados com os seguintes as- pectos:

[0267] Primeiro, a combinação de diferentes forma-

tos de áudio, de acordo com as três alternativas acima.

[0268] Em segundo lugar, é realizada uma recepção, combinação e renderização de duas descrições DirAC já no mesmo formato.

[0269] Em terceiro lugar, é implementado um objeto específico para o conversor DirAC com uma “conversão dire- ta” dos dados do objeto em dados DirAC.

[0270] Em quarto lugar, metadados de objetos em adição aos metadados normais do DirAC e uma combinação de ambos os metadados; ambos os dados existem no bitstream la- do a lado, mas objetos de áudio também são descritos pelo estilo de metadados DirAC.

[0271] Em quinto lugar, os objetos e stream DirAC são transmitidos separadamente para um decodificador e os objetos são manipulados seletivamente dentro do decodifica- dor antes de converter os sinais de áudio de saída (alto- falantes) no domínio do tempo.

[0272] Deve ser mencionado aqui que todas as al- ternativas ou aspectos discutidos anteriormente e todos os aspectos definidos por afirmações independentes nas seguin- tes afirmações podem ser utilizados individualmente, ou se- ja, sem qualquer outra alternativa ou objeto para além da alternativa, objeto ou solicitação independente contempla- da. Entretanto, em outras incorporações, duas ou mais das alternativas ou dos aspectos ou reivindicações independen- tes podem ser combinadas entre si e, em outras incorpora- ções, todos os aspectos ou alternativas e todas as solici- tações independentes podem ser combinadas entre si.

[0273] Um sinal de áudio codificado inventivamente pode ser armazenado em um meio de armazenamento digital ou não transitório ou pode ser transmitido em um meio de transmissão como um meio sem fio ou com fio como a Inter- net.

[0274] Embora alguns aspectos tenham sido descri- tos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa de mé- todo ou a uma característica de uma etapa de método. Analo- gamente, os aspectos descritos no contexto de uma etapa de método também representam uma descrição de um bloco ou item correspondente ou uma característica de um aparelho corres- pondente.

[0275] Dependendo de certos requisitos de imple- mentação, as incorporações da invenção podem ser implemen- tadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, disquete, DVD, CD, ROM, PROM, EPROM, EEPROM ou me- mória FLASH, tendo sinais de controle eletronicamente legí- veis armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.

[0276] Algumas incorporações de acordo com a in- venção compreendem um portador de dados com sinais de con- trolo legíveis eletronicamente, que são capazes de cooperar com um sistema informático programável, de modo a que um dos métodos aqui descritos seja realizado.

[0277] Geralmente, as informações da presente in- venção podem ser implementadas como um produto de programa de computador com um código de programa, sendo o código de programa operativo para executar um dos métodos quando o produto de programa de computador for executado em um com- putador. O código de programa pode, por exemplo, ser arma- zenado em um portador legível na máquina.

[0278] Outras incorporações compreendem o programa de computador para executar um dos métodos aqui descritos, armazenado em uma portadora legível na máquina ou em um meio de armazenamento não transitório.

[0279] Em outras palavras, uma incorporação do mé- todo inventivo é, portanto, um programa de computador com um código de programa para executar um dos métodos aqui descritos, quando o programa de computador for executado em um computador.

[0280] Uma outra incorporação dos métodos inventi- vos é, portanto, um portador de dados (ou um meio de arma- zenamento digital, ou um meio legível por computador) com- preendendo, gravado nele, o programa de computador para executar um dos métodos aqui descritos.

[0281] Uma outra incorporação do método inventivo é, portanto, um stream de dados ou uma sequência de sinais representando o programa de computador para a execução de um dos métodos aqui descritos. O stream de dados ou a se- quência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.

[0282] Uma outra incorporação compreende um meio de processamento, por exemplo um computador, ou um disposi- tivo lógico programável, configurado ou adaptado para exe- cutar um dos métodos aqui descritos.

[0283] Uma outra incorporação compreende um compu- tador instalado no programa de computador para executar um dos métodos aqui descritos.

[0284] Em algumas incorporações, um dispositivo lógico programável (por exemplo, uma matriz de portas pro- gramáveis de campo) pode ser utilizado para executar algu- mas ou todas as funcionalidades dos métodos aqui descritos.

Em algumas incorporações, uma matriz de portas de campo programável pode cooperar com um microprocessador para exe- cutar um dos métodos descritos neste documento. Geralmente, os métodos são preferencialmente executados por qualquer aparelho de hardware.

[0285] As incorporações descritas acima são mera- mente ilustrativas dos princípios desta invenção. Entende- se que as modificações e variações dos arranjos e dos deta- lhes aqui descritos serão aparentes a outras pessoas quali- ficadas na arte. Portanto, o propósito é ser limitado ape- nas pelo escopo das solicitações de patentes iminentes e não pelos detalhes específicos apresentados por meio da descrição e explicação das incorporações aqui descritas.

Claims

REIVINDICAÇÕES

1. Aparelho para gerar uma descrição de uma cena de áudio combinada, caracterizado pelo fato de que compreende: uma interface de entrada (100) para receber uma primeira descrição de uma primeira cena em um primeiro formato e uma segunda descrição de uma segunda cena em um segundo formato, em que o segundo formato é diferente do primeiro formato; um conversor de formato (120) para converter a primeira descrição para um formato comum e, para converter a segunda descrição para o formato comum, quando o segundo formato for diferente do formato comum; e um combinador de formatos (140) para combinar a primeira descrição e a segunda descrição, ambas no formato comum, para obter a cena de áudio combinada.

2. Aparelho de acordo com a reivindicação 1, caracterizado pelo fato de o primeiro formato e o segundo formato são selecionados a partir de um grupo de formatos que compreende um formato Ambisônico de primeira ordem, um formato Ambisônico de ordem superior, o formato comum, um formato DirAC, um formato de objeto de áudio e um formato multicanal.

3. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de o conversor de formato (120) está configurado para converter a primeira descrição em uma primeira representação de sinal em formato B e para converter a segunda descrição em uma segunda representação de sinal em formato B, e em que o combinador de formato (140) é configurado para combinar a representação do primeiro e do segundo sinal de formato B, combinando individualmente os componentes individuais da representação do primeiro e do segundo sinal de formato B.

4. Aparelho de uma das reivindicações anteriores, caracterizado pelo fato de o conversor de formato (120) está configurado para converter a primeira descrição em uma primeira representação de sinal de pressão/velocidade e para converter a segunda descrição em uma segunda representação de sinal de pressão/velocidade, e em que o combinador de formato (140) é configurado para combinar a primeira e a segunda representação do sinal de pressão/velocidade, combinando individualmente os componentes individuais das representações do sinal de pressão/velocidade para obter uma representação do sinal combinado de pressão/velocidade.

5. Aparelho de uma das reivindicações anteriores, caracterizado pelo fato de o conversor de formato (120) está configurado para converter a primeira descrição em uma primeira representação de parâmetro DirAC e para converter a segunda descrição em uma segunda representação de parâmetro DirAC, quando a segunda descrição for diferente da representação de parâmetro DirAC, e em que o combinador de formatos (140) está configurado para combinar a primeira e a segunda representação de parâmetros DirAC combinando individualmente os componentes individuais da primeira e segunda representação de parâmetros DirAC para obter uma representação combinada de parâmetros DirAC para a cena de áudio combinada.

6. Aparelho de reivindicação 5, caracterizado por o combinador de formatos (140) é configurado para gerar valores de direção de chegada para os tiles de frequência de tempo ou valores de direção de chegada e valores de difusividade para os tiles de frequência de tempo representando a cena de áudio combinada.

7. Aparelho de uma das reivindicações ateriores, compreendendo ainda um analisador DirAC (180) para analisar a cena de áudio combinada para derivar os parâmetros DirAC para a cena de áudio combinada, caracterizado pelo fato de que os parâmetros DirAC compreendem os valores de direção de chegada para os tiles de tempo/frequência ou os valores de direção de chegada e os valores de difusividade para os tiles de tempo/frequência que representam a cena áudio combinada.

8. Aparelho de uma das reivindicações anteriores, compreendendo ainda um gerador de canais de transporte (160) para gerar um sinal de canal de transporte da cena de áudio combinada ou da primeira cena e da segunda cena, e um codificador de canal de transporte (170)

para codificar o sinal do canal de transporte ou caracterizado pelo fato de o gerador de canais de transporte (160) está configurado para gerar um sinal estéreo da primeira cena ou a segunda cena está em uma primeira ordem Ambisônica ou em uma ordem superior de Formato ambisônico usando um formador de feixe sendo direcionado para a posição esquerda ou direita, respectivamente ou em que o gerador de canais de transporte

(160) está configurado para gerar um sinal estéreo da primeira cena ou a segunda cena está em uma representação multicanal por meio da downmixagem de três ou mais canais da representação multicanal ou em que o gerador de canais de transporte

(160) está configurado para gerar um sinal estéreo a partir da primeira cena ou a segunda cena estando em uma representação de objeto de áudio por meio do panning de cada objeto usando uma posição do objeto ou da downmixagem de objetos em um downmix estéreo usando informação indicando,

qual objeto está localizado em qual canal estéreo ou em que o gerador de canal de transporte (160)

está configurado para adicionar apenas o canal esquerdo do sinal estéreo ao canal de transporte downmix esquerdo e para adicionar apenas o canal direito do sinal estéreo para obter um canal de transporte direito ou em que o formato comum é o formato B e em que o gerador do canal de transporte (160) está configurado para processar uma representação combinada no formato B para derivar o sinal do canal de transporte, em que o processamento inclui a realização de uma operação de formação de feixe ou a extração de um subconjunto de componentes do sinal no formato B, como o componente omnidirecional como o canal de transporte mono ou em que o processamento compreende a formação do feixe utilizando o sinal omnidirecional e o componente Y com sinais opostos do formato B para calcular os canais esquerdo e direito ou em que o processamento compreende uma operação de formação de feixe utilizando os componentes do formato B e o ângulo de azimute dado e o ângulo de elevação dado ou no qual o gerador de canais de transporte (160) é configurado para provar os sinais de formato B da cena de áudio combinada para o codificador do canal de transporte, onde nenhum metadados espaciais são incluídos na saída da cena de áudio combinada pelo combinador de formatos (140).

9. Aparelho de uma das reivindicações anteriores, caracterizado pelo fato de que compreende ainda: um codificador de metadados (190) para a codificação de metadados DirAC descritos na cena de áudio combinada para obter metadados DirAC codificados ou para codificar metadados DirAC derivados da primeira cena para obter metadados DirAC codificados pela primeira vez e para codificar metadados DirAC derivados da segunda cena para obter metadados DirAC codificados pela segunda vez.

10. Aparelho de uma das reivindicações anteriores, caracterizado pelo fato de que compreende ainda: uma interface de saída (200) para gerar um sinal de saída codificado representando a cena de áudio combinada, o sinal de saída compreendendo metadados DirAC codificados e um ou mais canais de transporte codificados.

11. Aparelho de uma das reivindicações anteriores, caracterizado pelo fato de que o conversor de formato (120) está configurado para converter um formato Ambisônico de ordem superior ou de primeira ordem para o formato B, em que o formato Ambisônico de ordem superior é truncado antes de ser convertido para o formato B ou em que o conversor de formato (120) está configurado para projetar um objeto ou um canal sobre harmônicas esféricas em uma posição de referência para obter sinais projetados, e em que o combinador de formato (140) está configurado para combinar os sinais de projeção para obter coeficientes de formato B, em que o objeto ou o canal está localizado no espaço em uma posição especificada e tem uma distância individual opcional de uma posição de referência ou em que o conversor de formato (120) está configurado para realizar uma análise DirAC compreendendo uma análise tempo-frequência dos componentes do formato B e uma determinação dos vectores de pressão e velocidade, e em que o combinador de formato (140) está configurado para combinar diferentes vetores de pressão/velocidade e em que o combinador de formato (140) compreende ainda um analisador DirAC para derivar metadados DirAC a partir dos dados combinados de pressão/velocidade, ou onde o conversor de formato (120) é configurado para extrair parâmetros DirAC dos metadados de um objeto de áudio como primeiro ou segundo formato, onde o vetor de pressão é o sinal de forma de onda do objeto e a direção é derivada da posição do objeto no espaço ou a difusividade é dada diretamente nos metadados do objeto ou é definida para um valor padrão, como 0 ou onde o conversor de formato (120) está configurado para converter os parâmetros DirAC derivados do formato de dados do objeto em dados de pressão/velocidade e o combinador de formato (140) está configurado para combinar os dados de pressão/velocidade com dados de pressão/velocidade derivados de uma descrição diferente de um ou mais objetos de áudio diferentes ou onde o conversor de formato (120) é configurado para derivar diretamente os parâmetros DirAC e onde o combinador de formato (140) é configurado para combinar os parâmetros DirAC para obter a cena de áudio combinada.

12. Aparelho de uma das reivindicações anteriores, caracterizado pelo fato de que o conversor de formato (120) compreende: um analisador DirAC (180) para um formato

Ambisônico de primeira ordem ou um formato de entrada

Ambisônica de ordem superior ou um formato de sinal multi-

canal;

um conversor de metadados (150, 125, 126,

148) para converter metadados de objetos em metadados DirAC ou para converter um sinal multicanal com uma posição temporal variável para os metadados DirAC; e um combinador de metadados (144) para combinar streams individuais de metadados DirAC ou combinar metadados da direção de chegada de vários stream por uma adição ponderada, sendo a ponderação desta adição feita de acordo com as energias das energias dos sinais de pressão associados, ou para combinar metadados da difusividade de vários stream por uma adição ponderada, sendo a ponderação desta adição feita de acordo com as energias das energias dos sinais de pressão associados ou no qual o combinador de metadados (144) está configurado para calcular, para uma caixa de tempo/frequência da primeira descrição da primeira cena, um valor de energia e um valor de direção de chegada, e para calcular, para a caixa de tempo/frequência da segunda descrição da segunda cena, um valor de energia e um valor de direção de chegada, e onde o combinador de formato (140) é configurado para multiplicar a primeira energia pelo valor da primeira direção de chegada e para adicionar um resultado de multiplicação do segundo valor da energia e do segundo valor da direção de chegada para obter o valor combinado da direção de chegada ou, alternativamente, para selecionar o valor da direção de chegada entre o primeiro valor da direção de chegada e o segundo valor da direção de chegada que está associado à energia mais alta como o valor combinado da direção de chegada.

13. Aparelho de uma das reivindicações anteriores, compreendendo ainda uma interface de saída (200, 300) para adicionar ao formato combinado, uma descrição de objeto separada para um objeto de áudio, a descrição do objeto compreendendo pelo menos uma de uma direção, uma distância, uma difusão ou qualquer outro atributo de objeto, caracterizado pelo fato de que o objeto tem uma única direção em todas as bandas de frequência e é estático ou se move mais lentamente que um limite de velocidade.

14. Método para gerar uma descrição de uma cena de áudio combinada, caracterizada pelo fato de que compreende: receber uma primeira descrição de uma primeira cena em um primeiro formato e receber uma segunda descrição de uma segunda cena em um segundo formato, em que o segundo formato é diferente do primeiro formato; converter a primeira descrição para um formato comum e converter a segunda descrição para o formato comum, quando o segundo formato for diferente do formato comum; e combinando a primeira descrição no formato comum e a segunda descrição no formato comum para obter a cena de áudio combinada.

15. Mídia de armazenamento não transitória tendo gravada instruções para execução em um computador, tendo um código de programa para realizar o método, de acordo com a reivindicação 14, caracterizado por compreender instruções que quando executadas realizam o método para processamento em um computador.

16. Aparelho para realizar uma síntese de uma pluralidade de cenas de áudio, caracterizado pelo fato de que compreende: uma interface de entrada (100) para receber uma primeira descrição DirAC de uma primeira cena e para receber uma segunda descrição DirAC de uma segunda cena e um ou mais canais de transporte; e um sintetizador DirAC (220) para sintetizar a pluralidade de cenas de áudio em um domínio espectral para obter um sinal de áudio de domínio espectral representando a pluralidade de cenas de áudio; e um conversor de espectro temporal (240) para converter o sinal de áudio do domínio espectral em um domínio temporal.

17. Aparelho, de acordo com a reivindicação 16, caracterizado pelo fato de que o sintetizador DirAC compreende; um combinador de cena (221) para combinar a primeira descrição DirAC e a segunda descrição DirAC em uma descrição DirAC combinada; e um renderizador DirAC (222) para renderizar a descrição DirAC combinada usando um ou mais canais de transporte para obter o sinal de áudio do domínio espectral ou em que o combinador de cena (221) está configurado para calcular, para uma caixa de tempo/frequência da primeira descrição da primeira cena, um valor de energia, e um valor de direção de chegada, e para calcular, para a caixa de tempo/frequência da segunda descrição da segunda cena, um valor de energia e um valor de direção de chegada, e onde o combinador de cena (221) está configurado para multiplicar a primeira energia pelo valor da primeira direção de chegada e para adicionar um resultado de multiplicação do segundo valor da energia e do segundo valor da direção de chegada para obter o valor combinado da direção de chegada ou, alternativamente, para selecionar o valor da direção de chegada entre o valor da primeira direção de chegada e o valor da segunda direção de chegada que está associado com a energia mais alta como o valor combinado da direção de chegada.

18. Aparelho de acordo com a reivindicação 16, em que a interface de entrada (100) é configurada para receber um canal de transporte separado e metadados DirAC separados para uma descrição DirAC, em que o sintetizador DirAC (220) é configurado para renderizar cada descrição usando o canal de transporte e os metadados da descrição DirAC correspondente para obter um sinal de áudio de domínio espectral para cada descrição e para combinar o sinal de áudio de domínio espectral para cada descrição para obter o sinal de áudio de domínio espectral.

19. Aparelho de acordo com uma das reivindicações 16 a 18, caracterizado pelo fato de que a interface de entrada (100) está configurada para receber metadados extras de objetos de áudio para um objeto de áudio, e em que o sintetizador DirAC (220) está configurado para manipular selectivamente os metadados de objetos de áudio extra ou os dados de objetos relacionados com os metadados para realizar uma filtragem direcional baseada nos dados de objetos incluídos nos metadados dos objetos ou baseada na informação de direção dada pelo utilizador, ou em que o sintetizador DirAC (220) está configurado para executar, no domínio espectral uma função de ganho fase-zero (226), a função de ganho fase-zero dependendo da direção de um objeto de áudio, onde a direção está contida em um bitstream se as direções dos objetos são transmitidas como informação lateral ou onde a direção é recebida de uma interface de usuário.

20. Método para realizar uma síntese de uma pluralidade de cenas de áudio, caracterizado pelo fato de que compreende: receber uma primeira descrição DirAC de uma primeira cena e receber uma segunda descrição DirAC de uma segunda cena e um ou mais canais de transporte; e sintetizando a pluralidade de cenas de áudio em um domínio espectral para obter um sinal de áudio de domínio espectral representando a pluralidade de cenas de áudio; e tempo espectral convertendo o sinal de áudio do domínio espectral em um domínio do tempo.

21. Mídia de armazenamento não transitória tendo gravada instruções para execução em um computador, tendo um código de programa para realizar o método, de acordo com a reivindicação 20, caracterizado por compreender instruções que quando executadas realizam o método para processamento em um computador.

22. Conversor de dados de áudio, caracterizado pelo fato de que compreende: uma interface de entrada (100) para receber uma descrição de um objeto de áudio com metadados de objeto de áudio; um conversor de metadados (150, 125, 126, 148) para converter os metadados dos objectos de áudio em metadados DirAC; e uma interface de saída (300) para transmitir ou armazenar os metadados do DirAC.

23. Conversor de dados de áudio de acordo com a reivindicação 22, caracterizado pelo fato de que os os metadados do objeto de áudio têm uma posição do objeto, e no qual os metadados do DirAC têm uma direção de chegada em relação a uma posição de referência.

24. Conversor de dados de áudio de acordo com uma das reivindicações 22 ou 23, caracterizado pelo fato de que o conversor de metadados (150, 125, 126, 148) está configurado para converter parâmetros DirAC derivados do formato de dados do objeto em dados de pressão/velocidade e no qual o conversor de metadados (150, 125, 126, 148) está configurado para aplicar uma análise DirAC aos dados de pressão/velocidade.

25. Conversor de dados de áudio de acordo com uma das reivindicações 22 a 24, em que a interface de entrada (100) é configurada para receber uma pluralidade de descrições de objetos de áudio, em que o conversor de metadados (150, 125, 126, 148) está configurado para converter cada descrição de metadados de objeto em uma descrição de dados DirAC individual, e em que o conversor de metadados (150, 125, 126, 148) é configurado para combinar as descrições individuais dos metadados DirAC para obter uma descrição DirAC combinada como os metadados DirAC.

26. Conversor de dados de áudio de acordo com a reivindicação 25, caracterizado pelo fato de que o conversor de metadados (150, 125, 126, 148) está configurado para combinar as descrições individuais dos metadados DirAC, cada descrição de metadados compreendendo a direção dos metadados de chegada ou direção de metadados e metadados de difusividade, combinando individualmente os metadados da direção de chegada de diferentes descrições de metadados por uma adição ponderada, onde a ponderação da adição ponderada está a ser feita de acordo com as energias das energias dos sinais de pressão associados ou pela combinação de metadados de difusividade das diferentes descrições de metadados DirAC por uma adição ponderada, sendo a ponderação desta adição feita de acordo com as energias dos sinais de pressão associados ou, alternativamente, para selecionar o valor da direção de chegada entre o primeiro valor e o segundo valor da direção de chegada que está associado à energia mais elevada como o valor combinado da direção de chegada.

27. O conversor de dados de áudio está de acordo com uma das reivindicações 22 a 26, Caracterizado pelo fato da a interface de entrada (100) é configurada para receber, para cada objeto de áudio, um sinal de forma de onda de objeto de áudio, além dos metadados desse objeto, em que o conversor de dados de áudio inclui ainda um downmixer (163) para downmixar os sinais de forma de onda do objeto de áudio em um ou mais canais de transporte, e em que a interface de saída (300) é configurada para transmitir ou armazenar um ou mais canais de transporte em associação com os metadados do DirAC.

28. Método para realizar uma conversão de dados de áudio, caracterizado pelo fato de que compreende: receber uma descrição de um objeto de áudio com metadados de objetos de áudio; converter os metadados dos objetos de áudio em metadados DirAC; e transmitir ou armazenando os metadados do DirAC.

29. Mídia de armazenamento não transitória tendo gravada instruções para execução em um computador, tendo um código de programa para realizar o método, de acordo com a reivindicação 28, caracterizado por compreender instruções que quando executadas realizam o método para processamento em um computador.

30. Codificador de cena de áudio, caracterizado pelo fato de que compreende: uma interface de entrada (100) para receber uma descrição DirAC de uma cena de áudio com metadados DirAC e para receber um sinal de objeto com metadados de objeto; um gerador de metadados (400) para gerar uma descrição combinada de metadados compreendendo os metadados DirAC e os metadados do objeto, em que os metadados DirAC compreendem uma direção de chegada para tiles individuais de frequência de tempo e os metadados do objeto compreendem uma direção ou adicionalmente uma distância ou uma difusividade de um objeto individual.

31. Codificador de cena de áudio de acordo com a reivindicação 30, caracterizado pelo fato de que a interface de entrada (100) é configurada para receber um sinal de transporte associado à descrição DirAC da cena de áudio e onde a interface de entrada (100) é configurada para receber um sinal de forma de onda de objeto associado ao sinal do objeto, e no qual o codificador de cena de áudio inclui ainda um codificador de sinal de transporte (170) para codificar o sinal de transporte e o sinal de forma de onda do objeto.

32. Codificador de cena de áudio de acordo com uma das reivindicações 30 e 31, caracterizado pelo fato de que o gerador de metadados (400) inclui um conversor de metadados (150, 125, 126, 148), conforme descrito em qualquer uma das solicitações 12 a 27.

33. Um codificador de cena de áudio de acordo com uma das reivindicações 30 a 32, caracterizado pelo fato de que o gerador de metadados (400) está configurado para gerar, para os metadados do objeto, uma única direção de banda larga por tempo e onde o gerador de metadados está configurado para atualizar a única direção de banda larga por tempo com menos freqüência do que os metadados do DirAC.

34. Método de codificação de uma cena de áudio, caracterizado pelo fato de que compreende: a recepção de uma descrição DirAC de uma cena de áudio com metadados DirAC e a recepção de um sinal de objeto com metadados de objeto de áudio; e gerando uma descrição combinada dos metadados do DirAC e dos metadados do objeto, em que os metadados do DirAC compreendem uma direção de chegada para os tiles de frequência de tempo individuais e em que os metadados do objeto compreendem uma direção ou,

adicionalmente, uma distância ou uma difusividade de um objeto individual.

35. Mídia de armazenamento não transitória tendo gravada instruções para execução em um computador, tendo um código de programa para realizar o método, de acordo com a reivindicação 34, caracterizado por compreender instruções que quando executadas realizam o método para processamento em um computador.

36. Aparelho para realizar uma síntese de dados de áudio, caracterizado pelo fato de que compreende: uma interface de entrada (100) para receber uma descrição DirAC de um ou mais objetos de áudio ou um sinal multicanal ou um sinal Ambisônico de primeira ordem ou um sinal Ambisônico de ordem superior, em que a descrição DirAC inclui informação de posição de um ou mais objetos ou informação lateral para o sinal Ambisônico de primeira ordem ou o sinal Ambisónico de ordem superior ou uma informação de posição para o sinal multicanal como informação lateral ou de uma interface de utilizador; um manipulador (500) para manipular a descrição DirAC de um ou mais objetos de áudio, o sinal multicanal, o sinal Ambisônico de primeira ordem ou o sinal Ambisônico de ordem superior para obter uma descrição DirAC manipulada; e um sintetizador DirAC (220, 240) para sintetizar a descrição manipulada do DirAC para obter dados de áudio sintetizados.

37. Aparelho de acordo com a reivindicação

36, caracterizado pelo fato de o sintetizador DirAC (220, 240) compreender um renderizador DirAC (222) para realizar uma renderização DirAC usando a descrição DirAC manipulada para obter um sinal de áudio de domínio espectral; e um conversor de tempo espectral (240) para converter o sinal de áudio do domínio espectral em um domínio de tempo.

38. Aparelho de acordo com as reivindicações 36 ou 37, caracterizado pelo fato de o manipulador (500) está configurado para realizar uma operação de ponderação dependente da posição antes da renderização DirAC.

39. Aparelho de acordo com uma das reivindicações 36 a 38, caracterizado pelo fato de o sintetizador DirAC (220, 240) está configurado para emitir uma pluralidade de objetos ou um sinal de primeira ordem Ambisônica ou um sinal de alta superior Ambisônica ou um sinal multicanal, e no qual o sintetizador DirAC (220, 240) está configurado para usar um conversor de tempo espectral (240) separado para cada objeto ou cada componente do sinal de primeira ordem Ambisônica ou do sinal de ordem superior Ambisônica ou para cada canal do sinal multicanal.

40. Método para realizar uma síntese de dados de áudio, caracterizado pelo fato de que compreende:

recepção de uma descrição DirAC de um ou mais objetos de áudio ou de um sinal multicanal ou um sinal Ambisônico de primeira ordem ou de ordem superior, em que a descrição DirAC inclui informação da posição de um ou mais objetos ou do sinal multicanal ou informação adicional para o sinal Ambisônico de primeira ordem ou para o sinal Ambisônico de ordem superior como informação lateral ou para uma interface de utilizador; manipulação da descrição DirAC para obter uma descrição DirAC manipulada; e sintetizando a descrição manipulada do DirAC para obter dados de áudio sintetizados.

41. Mídia de armazenamento não transitória tendo gravada instruções para execução em um computador, tendo um código de programa para realizar o método, de acordo com a reivindicação 40, caracterizado por compreender instruções que quando executadas realizam o método para processamento em um computador.