BR112016017278B1

BR112016017278B1 - Método de produção de um fluxo de bits de dados de áudio codificados por um dispositivo de codificação de áudio, dispositivo de codificação de áudio, método de decodificação de um fluxo de bits de dados de áudio codificado por um dispositivo de decodificação de áudio, dispositivo de decodificação de áudio, sistema e memória legível por computador

Info

Publication number: BR112016017278B1
Application number: BR112016017278-7A
Authority: BR
Inventors: Nils Günther Peters; Dipanjan Sen
Original assignee: Qualcomm Incorporated
Priority date: 2014-01-30
Filing date: 2015-01-28
Publication date: 2022-09-06
Also published as: CN105940447A; US9922656B2; ES2674819T3; EP3100263B1; WO2015116666A1; HUE037842T2; CA2933562C; CA2933562A1; JP2017507350A; US20150213803A1; JP6510541B2; EP3100263A1; KR101958529B1; CN105940447B; BR112016017278A2; KR20160114639A

Abstract

TRANSIÇÃO DE COEFICIENTES AMBISSÔNICOS DE ORDEM SUPERIOR DE AMBIENTE Em geral, as técnicas são descritas para a transição de um coeficiente ambissônico de ordem superior do ambiente. Um dispositivo que compreende uma memória e um processador pode ser configurado para realizas as técnicas. O processador pode obter, a partir de um quadro de um fluxo de bits de dados de áudio codificados, um indicativo de bit de um vetor reduzido. O vetor reduzido pode representar, pelo menos em parte, um componente espacial de um campo sonoro. O processador também pode obter, a partir do quadro, um indicativo de bit de uma transição de um coeficiente ambissônico de ordem superior de ambiente. O coeficiente ambissônico de ordem superior de ambiente pode representar, pelo menos em parte, um componente do ambiente do campo sonoro. O vetor reduzido pode incluir um elemento de vetor associado ao coeficiente ambissônico de ordem superior de ambiente em transição. A memória pode ser configurada para armazenar o quadro do fluxo de bits.

Description

[0001] Este pedido reivindica o benefício dos

Pedidos Provisórios US a seguir:

[0002] Pedido Provisório US n° 61/933.706, depositado em 30 de janeiro de 2014, intitulado “COMPRESSION OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”;

[0003] Pedido Provisório US n° 61/933.714, depositado em 30 de janeiro de 2014, intitulado “COMPRESSION OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”;

[0004] Pedido Provisório US n° 61/949.591, depositado em 07 de março de 2014, intitulado “IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS”;

[0005] Pedido Provisório US n° 61/949.583, depositado em 07 de março de 2014, intitulado “FADE- IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”;

[0006] Pedido Provisório US n° 62/004.067, depositado em 28 de maio de 2014, intitulado “IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS AND FADE-IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”; e

[0007] Pedido Provisório US n° 62/029.173, depositado em 25 de julho de 2014, intitulado “IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS AND FADE-IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”,

[0008] cada um dos Pedidos Provisórios US listados anteriormente é incorporado a título de referência como se fosse estabelecido em sua respectiva totalidade no presente documento.

CAMPO DA TÉCNICA

[0009] Esta revelação refere-se a dados de áudio e, mais especificamente, a compactação de dados de áudio ambissônicos de ordem superior.

ANTECEDENTES

[0010] Um sinal de ambissônica de ordem superior (HOA) (frequentemente representado por uma pluralidade de coeficientes harmônicos esféricos (SHC) ou outros elementos hierárquicos) é uma representação tridimensional de um campo sonoro. A representação de HOA ou SHC pode representar o campo sonoro de uma maneira que é independente da geometria de alto-falante local usado para reproduzir um sinal de áudio de multicanal renderizado a partir do sinal de SHC. O sinal de SHC também pode facilitar a compatibilidade com versões anteriores à medida que o sinal de SHC pode ser renderizado para formatos de multicanal bem conhecidos e altamente adotados, como um formato de canal de áudio 5.1 ou um formato de canal de áudio 7.1. A representação de SHC pode possibilitar, portanto, uma representação melhor de um campo sonoro que também acomoda a compatibilidade com versões anteriores.

SUMÁRIO

[0011] Em geral, as técnicas são descritas para a compactação de dados de áudio ambissônicos de ordem superior. Os dados de áudio ambissônicos de ordem superior podem compreender pelo menos um coeficiente harmônico esférico que corresponde a uma função de base harmônica esférica que tem uma ordem maior que um.

[0012] Em um aspecto, um método de produção de um fluxo de bits de dados de áudio codificados compreende determinar, em um codificador, quando um coeficiente ambissônico de ordem superior de ambiente está em transição durante um quadro, sendo que o coeficiente ambissônico de ordem superior de ambiente é representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro. O método compreende adicionalmente identificar, no codificador, um elemento de um vetor que está associado ao coeficiente ambissônico de ordem superior de ambiente em transição, sendo que o vetor é representativo, pelo menos em parte, de um componente espacial do campo sonoro; O método também compreende gerar, no codificador, e com base no vetor, um vetor reduzido para incluir o elemento identificado do vetor para o quadro, e especificar, no codificador, o vetor reduzido e uma indicação da transição do coeficiente ambissônico de ordem superior de ambiente durante o quadro, no fluxo de bits.

[0013] Em um outro aspecto, um dispositivo de codificação de áudio é configurado para produzir um fluxo de bits de dados de áudio codificados. O dispositivo de codificação de áudio compreende uma memória configurada para armazenar um fluxo de bits de dados de áudio codificados, e um ou mais processadores configurados para determinar quando um coeficiente ambissônico de ordem superior de ambiente está em transição durante um quadro. O coeficiente ambissônico de ordem superior de ambiente é representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro. Os um ou mais processadores são adicionalmente configurados para identificar um elemento de um vetor que é associado ao coeficiente ambissônico de ordem superior de ambiente em transição. O vetor é representativo, pelo menos em parte, de um componente espacial do campo sonoro. Os um ou mais processadores também configurados para gerar, com base no vetor, um vetor reduzido para incluir o elemento identificado do vetor para o quadro, e especificar o vetor reduzido e uma indicação da transição do coeficiente ambissônico de ordem superior de ambiente durante o quadro, no fluxo de bits.

[0014] Em um outro aspecto, um dispositivo de codificação de áudio é configurado para produzir um fluxo de bits de dados de áudio codificados. O dispositivo de codificação de áudio compreende meios para determinar quando um coeficiente ambissônico de ordem superior de ambiente está em transição durante um quadro de um fluxo de bits representativo dos dados de áudio codificados, sendo que o coeficiente ambissônico de ordem superior de ambiente é representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro. O dispositivo de codificação de áudio compreende adicionalmente meios para identificar um elemento de um vetor que está associado ao coeficiente ambissônico de ordem superior de ambiente em transição, sendo que o vetor é representativo, pelo menos em parte, de um componente espacial do campo sonoro. O dispositivo de codificação de áudio também compreende meios para gerar, com base no vetor, um vetor reduzido para incluir o elemento identificado do vetor para o quadro, e meios para especificar o vetor reduzido e uma indicação da transição do coeficiente ambissônico de ordem superior de ambiente durante o quadro, no fluxo de bits.

[0015] Em um outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo instruções que quando executadas fazem com que um ou mais processadores de um dispositivo de codificação de áudio determine quando um coeficiente ambissônico de ordem superior de ambiente está em transição durante um quadro, sendo que o coeficiente ambissônico de ordem superior de ambiente é representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro. A instrução pode adicionalmente fazer com que os um ou mais processadores identifiquem um elemento de um vetor que é associado ao coeficiente ambissônico de ordem superior de ambiente em transição, o vetor é representativo, pelo menos em parte, de um componente espacial do campo sonoro. A instrução também pode fazer com que os um ou mais processadores gerarem, com base no vetor, um vetor reduzido para incluir o elemento identificado do vetor para o quadro, e especificar o vetor reduzido e uma indicação da transição do coeficiente ambissônico de ordem superior de ambiente durante o quadro.

[0016] Em um outro aspecto, um método de decodificação de um fluxo de bits de dados de áudio codificados compreende obter, em um decodificador e a partir de um quadro do fluxo de bits, um vetor reduzido representativo, pelo menos em parte, de um componente espacial de um campo sonoro. O método também compreende obter, no decodificador e a partir do quadro, uma indicação de uma transição de um coeficiente ambissônico de ordem superior de ambiente representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro. O vetor reduzido inclui um elemento de vetor associado ao coeficiente ambissônico de ordem superior de ambiente em transição.

[0017] Em um outro aspecto, um dispositivo de decodificação de áudio é configurado para decodificar um fluxo de bits de dados de áudio codificados. O dispositivo de decodificação de áudio compreende uma memória configurada para armazenar um quadro de um fluxo de bits de dados de áudio codificados, e um ou mais processadores configurados para obter, a partir do quadro, um vetor reduzido representativo, pelo menos em parte, de um componente espacial de um campo sonoro. Os um ou mais processadores podem ser adicionalmente configurados para obter, no decodificador e a partir do quadro, uma indicação de uma transição de um coeficiente ambissônico de ordem superior de ambiente representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro. O vetor reduzido inclui um elemento de vetor associado ao coeficiente ambissônico de ordem superior de ambiente em transição.

[0018] Em um outro aspecto, um dispositivo de decodificação de áudio é configurado para decodificar um fluxo de bits de dados de áudio codificados. O dispositivo de decodificação de áudio compreende meios para armazenar um quadro de um fluxo de bits de dados de áudio codificados, e meios para obter, a partir do quadro, um vetor reduzido representativo, pelo menos em parte, de um componente espacial de um campo sonoro. O dispositivo de decodificação de áudio compreende adicionalmente meios para obter, a partir do quadro, uma indicação de uma transição de um coeficiente ambissônico de ordem superior de ambiente representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro. O vetor reduzido inclui um elemento de vetor associado ao coeficiente ambissônico de ordem superior de ambiente em transição.

[0019] Em um outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo instruções que quando executadas fazem com que um ou mais processadores de um dispositivo de decodificação de áudio para obter, a partir de um quadro de fluxo de bits de dados de áudio codificados, um vetor reduzido, representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro. As instruções que fazem adicionalmente com que os um ou mais processadores obtenham, a partir do quadro, uma indicação de uma transição de um coeficiente ambissônico de ordem superior de ambiente representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro. O vetor reduzido inclui um elemento de vetor associado ao coeficiente ambissônico de ordem superior de ambiente em transição.

[0020] Os detalhes da um ou mais aspectos das técnicas são estabelecidos nos desenhos anexos e na descrição abaixo. Outros recursos, objetos e vantagens dessas técnicas serão evidentes a partir da descrição e dos desenhos, e a partir das reivindicações.

[BREVE DESCRIÇÃO DOS DESENHOS

[0021] A Figura 1 é um diagrama que ilustram funções de base harmônica esférica de várias ordens e subordens.

[0022] A Figura 2 é um diagrama que ilustra um sistema que pode realizar vários aspectos das técnicas descritas nesta revelação.

[0023] A Figura 3 é um diagrama de blocos que ilustra, em mais detalhes, um exemplo do dispositivo de codificação de áudio mostrado no exemplo da Figura 2 que pode realizar vários aspectos das técnicas descritas nesta revelação.

[0024] A Figura 4 é um diagrama de blocos que ilustra o dispositivo de decodificação de áudio da Figura 2 em mais detalhes.

[0025] A Figura 5A é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio no desempenho de vários aspectos das técnicas de síntese baseada em vetor descritas nesta revelação.

[0026] A Figura 5B é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio no desempenho de vários aspectos das técnicas de transição descritas nesta revelação.

[0027] A Figura 6A é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio no desempenho de vários aspectos das técnicas descritas nesta revelação.

[0028] A Figura 6B é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio no desempenho de vários aspectos das técnicas de transição descritas nesta revelação.

[0029] A Figura 7A a 7J são diagramas que ilustram uma porção do fluxo de bits ou informações de canal auxiliar que podem especificar os componentes espaciais compactados em mais detalhes.

[0030] A Figura 8 é um diagrama que ilustra canais de áudio aos quais um dispositivo de decodificação de áudio pode aplicar as técnicas descritas nesta revelação.

[0031] A Figura 9 é um diagrama que ilustra a diminuição gradual de um coeficiente de HOA do ambiente adicional, o aumento gradual de uma contribuição reconstruída correspondente dos componentes distintos, e uma soma dos coeficientes de HOA e da contribuição reconstruída.

DESCRIÇÃO DETALHADA

[0032] A evolução do som surround disponibilizou muitos formatos de saída para o entretenimento hoje em dia. Os exemplos de tais formatos de som surround do consumidor são, principalmente, "canal" com base no fato de que os mesmos especificam implicitamente fluxos de alimentação para os alto-falantes em determinadas coordenadas geométricas. Os formatos de som surround do consumidor incluem o popular formato 5.1 (que inclui os seis canais a seguir: esquerda frontal (FL), direita frontal (FR), centro ou centro frontal, esquerda posterior ou esquerda surround, direita posterior ou direita surround, e efeitos de baixa frequência (LFE)), o formato 7.1 crescente, vários formatos que incluem alto-falantes de altura como o formato 7.1.4 e o formato 22.2 (por exemplo, para uso com o Padrão de Televisão de Definição Ultra Alta). Os formatos para não consumidor podem abranger qualquer quantidade de alto-falantes (em geometrias simétricas e não simétricas) frequentemente designados "arranjos surround". Um exemplo de tal arranjo inclui 32 alto-falantes posicionados em coordenadas dos cantos de um isosaedro truncado.

[0033] A entrada em um codificador de MPEG futuro é opcionalmente um dos três formatos possíveis: (i) áudio baseado em canal tradicional (conforme discutido acima), que é destinado a ser reproduzido através de alto- falantes em posições pré-especificadas; (ii) áudio baseado em objeto, que envolve dados de modulação de código e pulso discreto (PCM) para únicos objetos de áudio com metadados associados que contêm suas coordenadas de localização (dentre outras informações); e (iii) áudio baseado em cena, que envolve representar o campo sonoro com uso de coeficientes de funções de base de harmônica esférica (também chamados de “coeficientes harmônicos esféricos” ou SHC, “Ambissônica de Ordem Superior” ou HOA, e “coeficientes de HOA”). O codificador de MPEG futuro pode ser descrito em mais detalhes em um documento intitulado “Call for Proposals for 3D Audio”, pela Organização Internacional para Padronização/Comissão Internacional de Eletrotécnica (ISO)/(IEC) JTC1/SC29/WG11/N13411, liberado em janeiro de 2013 em Genebra, Suíça, e disponível em http://mpeg.chiariglione.org/sites/default/files/files/stan dards/parts/docs/w13411.zip.

[0034] Há vários formatos baseados em canal de "som surround" no mercado. Os mesmos variam, por exemplo, do sistema de home theatre 5.1 (que foi o mais bem-sucedido em termos de fazer avanços nas salas de estar além do stereo) para o sistema 22.2 desenvolvido por NHK (Nippon Hoso Kyokai ou Japan Broadcasting Corporation). Os criadores de conteúdo (por exemplo, estúdios Hollywood) gostariam de produzir a trilha sonora para um filme uma vez e sem gastar esforços para remixar a mesma para cada configuração de alto-falante. Recentemente, as Organizações de Desenvolvimento de Padrões têm considerado modos nos quais deve-se fornecer uma codificação para um fluxo de bits padronizado e uma decodificação subsequente que é adaptável e agnóstica à geometria do alto-falante (e número) e condições acústicas no local da reprodução (envolvendo um renderizador).

[0035] Para fornecer tal flexibilidade para os criadores de conteúdo, um conjunto hierárquico de elementos pode ser usado para representar um campo sonoro. O conjunto hierárquico de elementos pode se referir a um conjunto de elementos em que os elementos são ordenados de tal modo que um conjunto básico de elementos ordenados inferiores fornece uma representação completa do campo sonoro modelado. Conforme o conjunto é estendido para incluir elementos de ordem superior, a representação se torna mais detalhada, aumentando a resolução.

[0036] Um exemplo de um conjunto hierárquico de elementos é um conjunto de coeficientes harmônicos esféricos (SHC). A expressão a seguir demonstra uma descrição ou representação de um campo sonoro com o uso de SHC:

[0037] Essa expressão mostra que a pressão pi em qualquer ponto {rπ θr, Φr} do campo sonoro, no tempo t, pode ser representada unicamente pelo SHC, Amn(k). No A- =-. presente, c é a velocidade do som (~343 m/s), {rr, θr, Φr} é um ponto de referência (ou ponto de observação),jn (•) é a função de Bessel esférica da ordem n, e Ynm(θr, Φr) são as funções de base harmônica esférica de ordem n e subordem m. Pode-se reconhecer que o termo em colchetes é uma representação de domínio e frequência do sinal (isto é, S(w, rr, θr, Φr)) que pode ser aproximada por várias transformações de tempo e frequência, como a transformada de Fourier discreta (DFT), a transformada de cosseno discreto (DCT) ou uma transformada de ondeleta. Outros exemplos de conjuntos hierárquicos incluem conjuntos de coeficientes de transformada de ondeleta e outros conjuntos de coeficientes de funções com base de multirresolução.

[0038] A Figura 1 é um diagrama que ilustra funções de base harmônica esférica da ordem zero (n = 0) até a quarta ordem (n = 4). Conforme pode ser visto, para cada ordem, há uma expressão de subordens m que são mostradas, mas não explicitamente notadas no exemplo da Figura 1 para facilidade dos propósitos de ilustração.

[0039] O SHC Anm(k) pode ser fisicamente adquirido (por exemplo, gravado) através de várias configurações de arranjo de microfone ou, alternativamente, pode ser derivado de descrições baseadas em canal ou baseadas em objeto do campo sonoro. O SHC representa o áudio baseado em cena, em que o SHC pode ser inserido em um codificador de áudio para obter o SHC codificado que pode promover a transmissão ou o armazenamento mais eficaz. Por exemplo, uma representação de quarta ordem que envolve coeficientes de (1+4)2 (25, e, por isso, quarta ordem) pode ser usada. Conforme notado acima, o SHC pode ser derivado de uma gravação por microfone com o uso de um arranjo de microfone. Vários exemplos de como o SHC pode ser derivado dos arranjos de microfone são descritos em Poletti, M., “Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”, J. Audio Eng. Soc, Volume 53, n° 11, novembro de 2005, páginas 1.004 a 1.025.

[0040] Para ilustrar como os SHCs podem ser derivados de uma descrição baseada em objeto, considera-se a equação a seguir. Os coeficientes Anm(k) para o campo sonoro que corresponde a um objeto de áudio individual podem ser expressos como:

[0041] em que i é

é a função de Hankel esférica (do segundo tipo) da ordem n, e {rs, θs, Φs} é o local do objeto. Conhecer a energia de fonte do objeto g(w) em função da frequência (por exemplo, com o uso das técnicas de análise de tempo e frequência, como a realização de uma transformada rápida de Fourier no fluxo de PCM) permite converter cada objeto de PCM e o local correspondente para o SHC Anm(k). Ademais, pode ser mostrado (uma vez que o exposto acima é uma decomposição linear e ortogonal) que os coeficientes Anm(k) para cada objeto são aditivos. Dessa maneira, uma multiplicidade de objetos de PCM pode ser representada pelos coeficientes Anm(k) (por exemplo, como uma soma dos vetores de coeficiente para os objetos individual). Essencialmente, os coeficientes contêm informações sobre o campo sonoro (a pressão em função de coordenadas em 3D), e o exposto acima representa a transformação de objetos individuais para uma representação do campo sonoro geral, nas redondezas do ponto de observação {rr, θε, Φε}. As Figuras restantes são descritas abaixo no contexto da criptografia de áudio baseada em objeto e baseada em SHC.

[0042] A Figura 2 é um diagrama que ilustra um sistema 10 que pode realizar vários aspectos das técnicas descritas nesta revelação. Conforme mostrado no exemplo da Figura 2, o sistema 10 inclui um dispositivo de criador de conteúdo 12 e um dispositivo de consumidor de conteúdo 14. Muito embora seja descrito no contexto do dispositivo de criador de conteúdo 12 e do dispositivo de consumidor de conteúdo 14, as técnicas podem ser implantadas em qualquer contexto no qual os SHCs (que também podem ser referidos como coeficientes de HOA) ou qualquer outra representação hierárquica de um campo sonoro são codificados para formar um fluxo de bits representativo dos dados de áudio. Além do mais, o dispositivo de criador de conteúdo 12 pode representar qualquer forma de dispositivo de computação com capacidade de implantar as técnicas descritas nesta revelação, incluindo um fone (ou telefone celular), um computador do tipo tablet, um telefone inteligente, ou um computador do tipo desktop para fornecer alguns exemplos. Igualmente, o dispositivo de criador de conteúdo 14 pode representar qualquer forma de dispositivo de computação com capacidade de implantar as técnicas descritas nesta revelação, incluindo um fone (ou telefone celular), um computador do tipo tablet, um telefone inteligente, um decodificador de sinal ou um computador do tipo desktop para fornecer alguns exemplos.

[0043] O dispositivo de criador de conteúdo 12 pode ser operado por um estúdio de filmes ou outra entidade que pode gerar conteúdo de áudio de multicanais para o consumo por operadores de consumidores de um conteúdo, como o dispositivo de consumidor de conteúdo 14. Em alguns exemplos, o dispositivo de criador de conteúdo 12 pode ser operado por um usuário individual que poderia querer compactar os coeficientes de HOA 11. Frequentemente, o criador de conteúdo gera conteúdo de áudio em conjunto com o conteúdo de vídeo. O dispositivo de consumidor de conteúdo 14 pode ser operado por um indivíduo. O dispositivo de consumidor de conteúdo 14 pode incluir um sistema de reprodução de áudio 16, que pode se referir a qualquer forma de sistema de reprodução de áudio com capacidade de renderizar o SHC para a reprodução como conteúdo de áudio de multicanais.

[0044] O dispositivo de criador de conteúdo 12 inclui um sistema de edição de áudio 18. O dispositivo de criador de conteúdo 12 obtém gravações ao vivo 7 em vários formatos (incluindo diretamente como coeficientes de HOA) e objetos de áudio 9, cujo o dispositivo de criador de conteúdo 12 pode editar usando o sistema de edição de áudio 18. O criador de conteúdo pode, durante o processo de edição, renderizar os coeficientes de HOA 11 a partir dos objetos de áudio 9, ouvindo aos fluxos de alimentação de alto-falante em uma tentativa de identificar vários aspectos do campo sonoro que exigem mais edição. O dispositivo de criador de conteúdo 12 pode, então, editar os coeficientes de HOA 11 (de modo potencialmente indireto através da manipulação daqueles objetos diferentes dos objetos de áudio 9 dos quais os coeficientes de HOA fonte podem ser derivados da maneira acima descrita). O dispositivo de criador de conteúdo 12 pode empregar o sistema de edição de áudio 18 para gerar os coeficientes de HOA 11. O sistema de edição de áudio 18 representa qualquer sistema com capacidade de editar dados de áudio e emitir os dados de áudio como um ou mais coeficientes harmônicos esféricos fontes.

[0045] Quando o processo de edição é concluído, o dispositivo de criador de conteúdo 12 pode gerar um fluxo de bits 21 com base nos coeficientes de HOA 11. Ou seja, o dispositivo de criador de conteúdo 12 inclui um dispositivo de codificação de áudio 20 que representa um dispositivo configurado para codificar ou, de outro modo, compactar coeficientes de HOA 11 de acordo com vários aspectos das técnicas descritas nesta revelação para gerar o fluxo de bits 21. O dispositivo de codificação de áudio 20 pode gerar o fluxo de bits 21 para a transmissão, como um exemplo, através de um canal de transmissão, que pode ser um canal com fio ou sem fio, um dispositivo de armazenamento de dados, ou semelhante. O fluxo de bits 21 pode representar uma versão codificada dos coeficientes de HOA 11 e pode incluir um fluxo de bits primário e um outro fluxo de bits auxiliar, que pode ser referido como informações de canal auxiliar.

[0046] Muito embora seja descrito em mais detalhes abaixo, o dispositivo de codificação de áudio 20 pode ser configurado para codificar os coeficientes de HOA 11 com base em uma síntese baseada em vetor ou uma síntese baseada em direção. Para determinar a possibilidade de realizar a metodologia de decomposição baseada em vetor ou uma metodologia de decomposição baseada em direção, o dispositivo de codificação de áudio 20 pode determinar, com base pelo menos em parte nos coeficientes de HOA 11, se os coeficientes de HOA 11 foram gerados por meio de uma gravação natural de um campo sonoro (por exemplo, gravação ao vivo 7) ou artificialmente produzida (isto é, sinteticamente) a partir, como um exemplo, de objetos de áudio 9, como um objeto de PCM. Quando os coeficientes de HOA 11 forem gerados a partir dos objetos de áudio 9, o dispositivo de codificação de áudio 20 pode codificar os coeficientes de HOA 11 com o uso da metodologia de decomposição baseada em direção. Quando os coeficientes de HOA 11 forem capturados ao vivo com o uso de, por exemplo, um eigenmike, o dispositivo de codificação de áudio 20 pode codificar os coeficientes de HOA 11 com base na metodologia de decomposição baseada em vetor. A distinção acima representa um exemplo de onde a metodologia de decomposição baseada em vetor ou baseada em direção pode ser implantada. Pode haver outros casos em que qualquer uma ou ambas podem ser úteis para as gravações naturais, conteúdo artificialmente gerado ou uma mistura dos dois (conteúdo híbrido). Ademais, também é possível usar ambas as metodologias simultaneamente para criptografar um único quadro de tempo dos coeficientes de HOA.

[0047] Supondo-se, para fins de ilustração, que o dispositivo de codificação de áudio 20 determina que os coeficientes de HOA 11 foram capturados ao vivo ou representam, de outro modo, gravações ao vivo, como a gravação ao vivo 7, o dispositivo de codificação de áudio 20 pode ser configurado para codificar os coeficientes de HOA 11 com o uso de uma metodologia de decomposição baseada em vetor que envolve a aplicação de uma transformada inversível linear (LIT). Um exemplo da transformada inversível linear é referido como uma “decomposição de único valor” (ou “SVD”). Nesse exemplo, o dispositivo de codificação de áudio 20 pode aplicar a SVD aos coeficientes de HOA 11 para determinar uma versão decomposta dos coeficientes de HOA 11. O dispositivo de codificação de áudio 20 pode, então, analisar a versão decomposta dos coeficientes de HOA 11 para identificar vários parâmetros, o que pode facilitar o reordenamento da versão decomposta dos coeficientes de HOA 11. O dispositivo de codificação de áudio 20 pode, então, reordenar a versão decomposta dos coeficientes de HOA 11 com base nos parâmetros identificados, em que tal reordenamento, as conforme descrito em mais detalhes abaixo, pode aprimorar a eficiência de criptografia dado que a transformação pode reordenar os coeficientes de HOA através de quadros dos coeficientes de HOA (em que um quadro pode incluir amostras M dos coeficientes de HOA 11 e M é, em alguns exemplos, definido para 1024). Após o reordenamento da versão decomposta dos coeficientes de HOA 11, o dispositivo de codificação de áudio 20 pode selecionar a versão decomposta dos coeficientes de HOA 11 representativos dos componentes de primeiro plano (ou, em outras palavras, distintos, predominantes ou salientes) do campo sonoro. O dispositivo de codificação de áudio 20 pode especificar a versão decomposta dos coeficientes de HOA 11 representativos dos componentes de primeiro plano como um objeto de áudio e informações direcionais associadas.

[0048] O dispositivo de codificação de áudio 20 também pode realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11 a fim de, pelo menos em parte, identificar os coeficientes de HOA 11 representativos de um ou mais componentes de fundo (ou, em outras palavras, ambiente) do campo sonoro. O dispositivo de codificação de áudio 20 pode realizar a compensação de energia em relação aos componentes de plano de fundo dado que, em alguns exemplos, os componentes de plano de fundo podem incluir apenas um subconjunto de qualquer dada amostra dos coeficientes de HOA 11 (por exemplo, como os coeficientes de HOA 11 que correspondem a funções de base esféricas de ordem zero ou de primeira ordem e não os coeficientes de HOA 11 que correspondem às funções de base esféricas de segunda ordem ou de ordem superior). Quando a redução de ordem for realizada, em outras palavras, o dispositivo de codificação de áudio 20 pode aumentar (por exemplo, adicionar/subtrair a energia a/de) os coeficientes de HOA de plano de fundo restantes dos coeficientes de HOA 11 para compensar a alteração na energia geral que resulta da realização da outra redução.

[0049] O dispositivo de codificação de áudio 20 pode, em seguida, realizar uma forma de codificação psicoacústica (como surround de MPEG, MPEG-AAC, MPEG-USAC ou outras formas conhecidas de codificação psicoacústica) em relação a cada um dos coeficientes de HOA 11 representativos de componentes de plano de fundo e cada um dos objetos de áudio de primeiro plano. O dispositivo de codificação de áudio 20 pode realizar uma forma de interpolação em relação às informações direcionais de primeiro plano e, então, pode realizar uma redução de ordem em relação às informações direcionais de primeiro plano interpoladas para gerar informações direcionais de primeiro plano com ordem reduzida. O dispositivo de codificação de áudio 20 pode realizar adicionalmente, em alguns exemplos, uma quantização em relação às informações direcionais de primeiro plano com ordem reduzida, produzindo informações direcionais de primeiro plano criptografadas. Em algumas ocasiões, a quantização pode compreender uma quantização escalar/por entropia. O dispositivo de codificação de áudio 20 pode, então, formar o fluxo de bits 21 para incluir os componentes de plano de fundo codificados, os objetos de áudio de primeiro plano codificados e as informações direcionais quantizadas. O dispositivo de codificação de áudio 20 pode, então, transmitir ou, de outro modo, produzir o fluxo de bits 21 para o dispositivo de consumidor de conteúdo 14.

[0050] Embora mostrado na Figura 2 como sendo diretamente transmitido para o dispositivo de consumidor de conteúdo 14, o dispositivo de criador de conteúdo 12 pode emitir o fluxo de bits 21 para um dispositivo intermediário posicionado entre o dispositivo de criador de conteúdo 12 e o dispositivo de consumidor de conteúdo 14. O dispositivo intermediário pode armazenar o fluxo de bits 21 para a liberação posterior para o dispositivo de consumidor de conteúdo 14, que pode solicitar o fluxo de bits. O dispositivo intermediário pode compreender um servidor de arquivo, um servidor da web, um computador do tipo desktop, um computador do tipo laptop, um computador do tipo tablet, um telefone móvel, um telefone inteligente ou qualquer outro dispositivo com capacidade de armazenar o fluxo de bits 21 para a recuperação posterior por um decodificador de áudio. O dispositivo intermediário pode residir em uma rede de liberação de conteúdo com capacidade de transmitir por fluxo contínuo o fluxo de bits 21 (e possivelmente, em conjunto com a transmissão de um fluxo de bits de dados de vídeo correspondente) para assinantes, como o dispositivo de consumidor de conteúdo 14, que solicita o fluxo de bits 21.

[0051] Alternativamente, o dispositivo de criador de conteúdo 12 pode armazenar o fluxo de bits 21 para um meio de armazenamento, como um disco compacto, um disco de vídeo digital, um disco de vídeo de alta definição ou outra mídia de armazenamento, a maioria dos quais tem capacidade de ser lida por um computador e, portanto, pode ser referida como mídia de armazenamento legível por computador ou mídia de armazenamento legível por computador não transitória. Nesse contexto, o canal de transmissão pode se referir aos canais pelos quais o conteúdo armazenado nos meios são transmitidos (e podem incluir lojas de varejo e outro mecanismo de liberação baseado em loja). Em qualquer evento, as técnicas desta revelação não devem ser, portanto, limitada, nesse sentido, ao exemplo da Figura 2.

[0052] Conforme adicionalmente mostrado no exemplo da Figura 2, o dispositivo de consumidor de conteúdo 14 inclui o sistema de reprodução de áudio 16. O sistema de reprodução de áudio 16 pode representar qualquer sistema de reprodução de áudio com capacidade de reproduzir os dados de áudio de multicanais. O sistema de reprodução de áudio 16 pode incluir inúmeros Proponentes 22 diferentes. Os Proponentes 22 podem, cada um, fornecer uma forma diferente de renderização, em que as diferentes formas de renderização podem incluir um ou mais dos vários modos de realizar movimento panorâmico de amplitude baseado em vetor (VBAP), e/ou um ou mais dos vários modos de realizar a síntese de campo sonoro. Conforme usado no presente documento, “A e/ou B” significa “A ou B”, ou ambos dentre “A e B”.

[0053] O sistema de reprodução de áudio 16 pode adicionalmente incluir um dispositivo de decodificação de áudio 24. O dispositivo de decodificação de áudio 24 pode representar um dispositivo configurado para decodificar coeficientes de HOA 11’ a partir do fluxo de bits 21, em que os coeficientes de HOA 11’ podem ser semelhantes aos coeficientes de HOA 11, mas diferem devido às operações com perdas (por exemplo, quantização) e/ou transmissão por meio do canal de transmissão. Ou seja, o dispositivo de decodificação de áudio 24 pode desquantizar as informações direcionais de primeiro plano especificadas no fluxo de bits 21, enquanto também realiza a decodificação psicoacústica em relação aos objetos de áudio de primeiro plano especificados no fluxo de bits 21 e nos coeficientes de HOA codificados representativos de componentes de plano de fundo. O dispositivo de decodificação de áudio 24 pode realizar adicionalmente a interpolação em relação às informações direcionais de primeiro plano decodificadas e, então, pode determinar os coeficientes de HOA representativos dos componentes de primeiro plano com base nos objetos de áudio de primeiro plano decodificados e nas informações direcionais de primeiro plano interpoladas. O dispositivo de decodificação de áudio 24 pode, então, determinar os coeficientes de HOA 11’ com base nos coeficientes de HOA determinados representativos dos componentes de primeiro plano e nos coeficientes de HOA decodificados representativos dos componentes de plano de fundo.

[0054] O sistema de reprodução de áudio 16 pode, após a decodificação do fluxo de bits 21 obter os coeficientes de HOA 11’ e renderizar os coeficientes de HOA 11’ para emitir fluxos de alimentação de alto-falante 25. Os fluxos de alimentação de alto-falante 25 podem acionar um ou mais alto-falantes (que não são mostrados no exemplo da Figura 2 para facilidade dos propósitos de ilustração.

[0055] Para selecionar o renderizador adequado ou, em algumas ocasiões, para gerar um renderizador adequado, o sistema de reprodução de áudio 16 pode obter informações de alto-falante 13 indicativas de um número de alto-falantes e/ou de uma geometria espacial dos alto- falantes. Em algumas ocasiões, o sistema de reprodução de áudio 16 pode obter as informações de alto-falante 13 com o uso de um microfone de referência e ao acionar os alto- falantes de tal maneira a determinar dinamicamente as informações de alto-falante 13. Em outras ocasiões ou em conjunto com a determinação dinâmica das informações de alto-falante 13, o sistema de reprodução de áudio 16 pode solicitar que um usuário faça interface com o sistema de reprodução de áudio 16 e insira as informações de alto- falante 13.

[0056] O sistema de reprodução de áudio 16 pode, então, selecionar um dentre os renderizadores de áudio 22 com base nas informações de alto-falante 13. Em algumas ocasiões, o sistema de reprodução de áudio 16 pode, quando nenhum dos renderizadores de áudio 22 estiver dentro de alguma medida de similaridade limítrofe (no sentido de geometria de alto-falante) em relação àquela especificada nas informações de alto-falante 13, gerar o um dos renderizadores de áudio 22 com base nas informações de alto-falante 13. O sistema de reprodução de áudio 16 pode, em algumas ocasiões, gerar um dos renderizadores de áudio 22 com base nas informações de alto-falante 13 sem tentar primeiro selecionar um renderizador existente dos renderizadores de áudio 22.

[0057] A Figura 3 é um diagrama de blocos que ilustra, em mais detalhes, um exemplo do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 2 que pode realizar vários aspectos das técnicas descritas nesta revelação. O dispositivo de codificação de áudio 20 inclui uma unidade de análise de conteúdo 26, uma unidade de decomposição baseada em vetor 27 e uma unidade de decomposição baseada em direção 28. Embora descrito brevemente abaixo, mais informações em relação ao dispositivo de codificação de áudio 20 e aos vários aspectos de compactação ou, de outro modo, codificação de coeficientes de HOA estão disponíveis no Pedido de Patente Internacional n° WO 2014/194099, intitulado “INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”, depositado em 29 de maio de 2014.

[0058] A unidade de análise de conteúdo 26 representa uma unidade configurada para analisar o conteúdo dos coeficientes de HOA 11 para identificar se os coeficientes de HOA 11 representam o conteúdo gerado a partir de uma gravação ao vivo ou um objeto de áudio. A unidade de análise de conteúdo 26 pode determinar se os coeficientes de HOA 11 foram gerados a partir de uma gravação de um campo sonoro real ou a partir de um objeto de áudio artificial. Em algumas ocasiões, quando os coeficientes de HOA em quadro 11 forem gerados a partir de uma gravação, a unidade de análise de conteúdo 26 passa os coeficientes de HOA 11 para a unidade de decomposição baseada em vetor 27. Em algumas ocasiões, quando os coeficientes de HOA em quadro 11 forem gerados a partir de um objeto de áudio sintético, a unidade de análise de conteúdo 26 passa os coeficientes de HOA 11 para a unidade de síntese baseada em direção 28. A unidade de síntese baseada em direção 28 pode representar uma unidade configurada para realizar uma síntese baseada em direção dos coeficientes de HOA 11 para gerar um fluxo de bits baseado em direção 21.

[0059] Conforme mostrado no exemplo da Figura 3, a unidade de decomposição baseada em vetor 27 pode incluir uma unidade de transformada inversível linear (LIT) 30, uma unidade de cálculo de parâmetro 32, uma unidade de reordenamento 34, uma unidade de seleção de primeiro plano 36, uma unidade de compensação de energia 38, uma unidade de criptógrafo de áudio psicoacústico 40, uma unidade de geração de fluxo de bits 42, uma unidade de análise de campo sonoro 44, uma unidade de redução de coeficiente 46, uma unidade de seleção de plano de fundo (BG) 48, uma unidade de interpolação espaço-temporal 50, e uma unidade de quantização 52.

[0060] A unidade de transformada inversível linear (LIT) 30 recebe os coeficientes de HOA 11 na forma de canais de HOA, sendo que cada canal é representativo de um bloco ou quadro de um coeficiente associado a uma dada ordem, subordem das funções de base esférica (que podem ser denotadas como HOA[k], em que k pode denotar o quadro ou bloco atual de amostras). A matriz de coeficientes de HOA 11 pode ter dimensões D: M x (N+1)2.

[0061] Ou seja, a unidade de LIT 30 pode representar uma unidade configurada para realizar uma forma de análise referido como decomposição de valor único. Embora descrito em relação à SVD, as técnicas descritas nesta revelação podem ser realizadas em relação a qualquer transformação ou decomposição semelhante que forneça conjuntos de saídas compactadas de energia linearmente não corrigida. Também, a referência à “conjuntos” nesta revelação é destinada, em geral, a se referir a conjuntos diferentes de zero a menos que seja especificamente estabelecido o contrário e não é destinada a se referir à definição matemática clássica de conjuntos que incluem o denominado “conjunto vazio”.

[0062] Uma transformação alternativa pode compreender uma análise de componentes principais, que é frequentemente referida como “PCA”. A PCA se refere a um procedimento matemático que emprega uma transformação ortogonal para converter um conjunto de observações de variáveis possivelmente correlacionadas em um conjunto de variáveis linearmente não correlacionadas referido como principais componentes. As variáveis linearmente não correlacionadas representam variáveis que não tem uma relação estatística linear (ou dependência) entre si. Os componentes principais podem ser descritos como tendo um pequeno grau de correlação estatística entre si. Em qualquer evento, o número dos denominados componentes principais é menor ou igual ao número de variáveis originais. Em alguns exemplos, a transformação é definida de tal modo que o primeiro componente principal tenha a maior variância possível (ou, em outras palavras, justifica tanto da variabilidade nos dados quanto possível), e cada componente subsequente, por sua vez, tenha a mais elevada variância possível mediante a restrição de que o componente sucessivo seja ortogonal (que pode ser redefinido como não corrigido com) aos componentes precedentes. A PCA pode realizar uma forma de redução de ordem, que em termos dos coeficientes de HOA 11 pode resultar na compactação dos coeficientes de HOA 11. Dependendo do contexto, a PCA pode ser referida por inúmeros nomes diferentes, como transformada de Karhunen-Loeve discreta, a transformada de Hotelling, a decomposição ortogonal apropriada (POD), e decomposição de valor próprio (EVD) para citar alguns exemplos. As propriedades de tais operações que são propícias ao objetivo fundamental de compactar dados de áudio são “compactação de energia” e “descorrelação” dos dados de áudio de multicanais.

[0063] Em qualquer evento, supondo-se que a unidade de LIT 30 realiza uma decomposição de valor único (que, mais uma vez, pode ser referida como “SVD”) para fins exemplificativos, a unidade de LIT 30 pode transformar os coeficientes de HOA 11 em dois ou mais conjuntos de coeficiente de HOA transformados. Os “conjuntos” de coeficientes de HOA transformados podem incluir vetores de coeficientes de HOA transformados. No exemplo da Figura 3, a unidade de LIT 30 pode realizar a SVD em relação aos coeficientes de HOA 11 para gerar uma denominada matriz V, uma matriz S e uma matriz U. A SVD, em álgebra linear, pode representar uma fatorização de uma matriz real ou complexa de y por z X (em que X pode representar dados de áudio de multicanais, como os coeficientes de HOA 11) na forma a seguir: X = USV*

[0064] U pode representar uma matriz unitária real ou complexa de y por y, em que as colunas y de U são conhecidas como os vetores de única esquerda dos dados de áudio de multicanais. S pode representar uma matriz retangular diagonal de y por z com números reais não negativos na diagonal, em que os valores de diagonal de S são conhecidos como os valores únicos dos dados de áudio de multicanais. V* (que pode denotar uma transposição conjugada de V) pode representar uma matriz unitária real ou complexa de z por z, em que as colunas z de V* são conhecidas como os vetores de única direita dos dados de áudio de multicanais.

[0065] Embora descrito nesta revelação como sendo aplicadas aos dados de áudio de multicanais que compreendem coeficientes de HOA 11, as técnicas podem ser aplicadas a qualquer forma de dados de áudio de multicanais. Desse modo, o dispositivo de codificação de áudio 20 pode realizar uma decomposição de valor único em relação aos dados de áudio de multicanais representativos de pelo menos uma porção de campo sonoro para gerar uma matriz U representativa de vetores de única esquerda dos dados de áudio de multicanais, uma matriz S representativa de valores únicos dos dados de áudio de multicanais e uma matriz V representativa de vetores únicos dos dados de áudio de multicanais, e que representam os dados de áudio de multicanais em função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.

[0066] Em alguns exemplos, a matriz V* na expressão matemática de SVD referenciada acima é denotada como a transposição conjugada da matriz V para refletir que a SVD pode ser aplicada às matrizes que compreendem números complexos. Quando aplicado às matrizes que compreendem apenas números reais, o conjugado complexo da matriz V (ou, em outras palavras, da matriz V*) pode ser considerado para ser a transposição da matriz V. Abaixo supõe-se, por facilidade de fins ilustrativos, que os coeficientes de HOA 11 compreendem números reais com o resultado de que a matriz V é produzida através de SVD em vez da matriz V*. Além do mais, embora denotada como a matriz V nesta revelação, a referência à matriz V deve ser compreendida para se referir à transposição da matriz V quando adequado. Embora suponha-se que seja a matriz V, as técnicas podem ser aplicadas de uma maneira semelhante aos coeficientes de HOA 11 que têm coeficientes complexos, em que o produto da SVD é a matriz V*. Dessa maneira, as técnicas não devem se limitar, nesse sentido, a fornecer apenas a aplicação de SVD para gerar uma matriz V, mas pode incluir a aplicação de SVD aos coeficientes de HOA 11 que têm componentes complexos para gerar uma matriz V*.

[0067] Em qualquer ocasião, a unidade de LIT 30 pode realizar uma forma de SVD no sentido de bloco em relação a cada bloco (que pode se referir a um quadro) de dados de áudio ambissônicos de ordem superior (HOA) (em que os dados de áudio ambissônicos incluem blocos ou amostras dos coeficientes de HOA 11 ou qualquer outra forma de dados de áudio de multicanais). Conforme notado acima, uma variável M pode ser usada para denotar o comprimento de um quadro de áudio nas amostras. Por exemplo, quando um quadro de áudio incluir 1024 amostras de áudio, M é igual a 1.024. Embora sejam descritas em relação ao típico valor para M, as técnicas da revelação não devem ser limitadas ao típico valor para M. A unidade de LIT 30 pode, portanto, realizar uma SVD no sentido de bloco em relação a um bloco dos coeficientes de HOA 11 que têm coeficiente de HOA de M por (N+1)2, em que N, novamente, denota a ordem dos dados de áudio de HOA. A unidade de LIT 30 pode gerar, através do desempenho da SVD, uma matriz V, uma matriz S e uma matriz U, em que cada uma das matrizes pode representar as respectivas matrizes V, S e U descritas acima. Desse modo, a unidade de transformada inversível linear 30 pode realizar a SVD em relação aos coeficientes de HOA 11 para produzir vetores US[k] 33 (que podem representar uma versão combinada dos vetores S e dos vetores U) que têm dimensões D: M x (N+1)2, e vetores V[k] 35 que têm dimensões D: (N+1)2 x (N+1)2. Os elementos de vetor individuais na matriz US[k] também podem ser denominados XPS(k) enquanto os vetores individuais da matriz V[k] também podem ser denominados v(k).

[0068] Uma análise das matrizes U, S e V pode revelar que as matrizes transportam ou representam característica espaciais ou temporais do campo sonoro subjacente representado acima por X. Cada um dos vetores N em U (de comprimento de M amostras) pode representar sinais de áudio normalizados separados em função de tempo (para o período de tempo representado por M amostras), que são ortogonais entre si e que foram desacoplados da quaisquer características espaciais (que também podem ser referidas como informações direcionais). As características espaciais, que representam o formato e a posição espacial (r, theta, phi) a largura pode, em vez disso, ser representada por i-ésimos vetores individuais, v(i)(k), na matriz V (cada um do comprimento (N+1)2). Os elementos individuais de cada um dos vetores v(i)(k) podem representar um coeficiente de HOA que descreve o formato e a direção do campo sonoro para um objeto de áudio associado. Ambos os vetores na matriz U e na matriz V são normalizados de modo que suas energias de raiz quadrada média sejam iguais à unitária. A energia dos sinais de áudio em U é, então, representada pelos elementos diagonais em S. A multiplicação de U e S para formar US[k] (com elementos de vetor individuais XPS(k)), representam, então, o sinal de áudio com energias verdadeiras. A habilidade da decomposição SVD desacoplar os sinais de tempo de áudio (em U), suas energias (em S) e suas características espaciais (em V) pode suportar vários aspectos das técnicas descritas nesta revelação. Ademais, o modelo de sintetizar os coeficientes de HOA[k] subjacentes, X, por uma multiplicação de vetor de US[k] e V[k] dá origem ao termo “decomposição baseada em vetor”, que é usado ao longo deste documento.

[0069] Embora descrito como sendo realizado diretamente em relação aos coeficientes de HOA 11, a unidade de LIT 30 pode aplicar a transformada inversível linear aos derivados dos coeficientes de HOA 11. Por exemplo, a unidade de LIT 30 pode aplicar a SVD em relação a uma matriz de densidade espectral de potência derivada dos coeficientes de HOA 11. A matriz de densidade espectral de potência pode ser denotada como PSD e pode ser obtida através da multiplicação de matriz da transposição do hoaFrame para o hoaFrame, conforme esboçado no pseudocódigo que segue abaixo. A notação hoaFrame se refere a um quadro dos coeficientes de HOA 11.

[0070] A unidade de LIT 30 pode, após aplicar a SVD (svd) à PSD, pode obter uma matriz S[k]2 (S quadrada) e uma matriz V[k]. A matriz S[k]2 pode denotar uma matriz S[k] quadrada, na qual a unidade de LIT 30 pode aplicar uma operação de raiz quadrada à matriz S[k]2 para obter a matriz S[k]. A unidade de LIT 30 pode, em algumas ocasiões, realizar a quantização em relação à matriz V[k] para obter uma matriz V[k] quantizada (que pode ser denotada como matriz V[k]’). A unidade de LIT 30 pode obter a matriz U[k] primeiro ao multiplicar a matriz S[k] pela matriz V[k]’ quantizada para obter uma matriz SV[k]’. A unidade de LIT 30 pode, em seguida, obter a pseudoinversa (pinv) da matriz SV[k]’ e, então, multiplicar os coeficientes de HOA 11 pela pseudoinversa da SV[k]’ para obter a matriz U[k]. O anteriormente mencionado pode ser representado pelo pseudocódigo a seguir:

[0071] PSD = hoaFrame’*hoaFrame;

[0072] [V, S_squared] = svd(PSD,’econ’);

[0073] S = sqrt(S_squared);

[0074] U = hoaFrame * pinv(S*V’);

[0075] Ao realizar a SVD em relação à densidade espectral de potência (PSD) dos coeficientes de HOA em vez dos próprios coeficientes, a unidade de LIT 30 pode reduzir potencialmente a complexidade computacional da realização da SVD em termos de um ou mais dos ciclos de processador e espaço de armazenamento, enquanto alcança a mesma eficiência de codificação de áudio de fonte como se a SVD fosse aplicada diretamente aos coeficientes de HOA. Ou seja, a SVD do tipo PSD descrita acima pode ser potencialmente menos exigente em termos de computação devido ao fato de que a SVD é feita em uma matriz F*F (com F sendo o número dos coeficientes de HOA), em comparação a uma matriz M * F com M sendo o comprimento de quadro, isto é, 1.024 ou mais amostras. A complexidade de uma SVD pode, agora, através da aplicação à PSD em vez dos coeficientes de HOA 11, ser em torno de O(L3) em comparação a O(M*L2) quando aplicada aos coeficientes de HOA 11 (em que O(*) denota a notação de grande-0 de complexidade computacional comum às técnicas de ciência da computação).

[0076] A unidade de cálculo de parâmetro 32 representa uma unidade configurada para calcular vários parâmetros, como um parâmetro de correlação (R), parâmetro de propriedades direcionais (θ, Φ, r), e uma propriedade de energia (e). Cada um dos parâmetros para o quadro atual pode ser denotado como R[k], θ[k], Φ[k], r[k] e e[k-1]. A unidade de cálculo de parâmetro 32 pode realizar uma análise e/ou correlação de energia (ou denominada correlação cruzada) em relação aos vetores US[k] 33 para identificar os parâmetros. A unidade de cálculo de parâmetro 32 também pode determinar os parâmetros para o quadro anterior, em que os parâmetros de quadro anterior podem ser denotados R[k-1], θ[k-1], Φ[k-1], r[k-1] e e[k- 1], com base no quadro anterior do vetor US[k-1] e vetores V[k-1]. A unidade de cálculo de parâmetro 32 pode emitir os parâmetros atuais 37 e os parâmetros anteriores 39 para a unidade de reordenamento 34.

[0077] A decomposição SVD não garante que o sinal de áudio/objeto representado pelo p-ésimo vetor nos vetores US[k-1] 33, que pode ser denotado como o vetor US[k-1][p] (ou, alternativamente, como XPS(p)(k-1)), será o mesmo sinal de áudio/objeto (progredido no tempo) representado pelo p-ésimo vetor nos vetores US[k] 33, que também podem ser denotados como vetores US[k][p] 33 (ou, alternativamente como XPS(p)(K)). Os parâmetros calculados pela unidade de cálculo de parâmetro 32 podem ser usados pela unidade de reordenamento 34 para reordenar os objetos de áudio para representar sua avaliação natural ou continuidade ao longo do tempo.

[0078] Ou seja, a unidade de reordenamento 34 pode comparar cada um dos parâmetros 37 a partir dos primeiros vetores US[k] 33 por vez contra cada um dos parâmetros 39 para os segundos vetores US[k-1] 33. A unidade de reordenamento 34 pode reordenar (com o uso de, como um exemplo, um algoritmo húngaro) os vários vetores na matriz US[k] 33 e na matriz V[k] 35 com base nos parâmetros atuais 37 e nos parâmetros anteriores 39 para produzir uma matriz US[k] 33’ reordenada (que pode ser denotada matematicamente como L 1) e uma matriz V [k] 35’ reordenada (que pode ser denotada matematicamente como '-''-I ) para uma unidade de seleção de som em primeiro plano (ou som predominante - PS) 36 (“unidade de seleção de primeiro plano 36”) e uma unidade de compensação de energia 38.

[0079] A unidade de análise de campo sonoro 44 pode representar uma unidade configurada para realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11 para que se alcance potencialmente uma taxa de bits alvo 41. A unidade de análise de campo sonoro 44 pode, com base na análise e/ou em uma taxa de bits alvo recebida 41, determinar o número total de instanciações de criptógrafo psicoacústico (que pode ser uma função do número total de canais do ambiente ou de plano de fundo (BGTOT) e do número de canais de primeiro plano ou, em outras palavras, de canais predominantes. O número total de instanciações de criptógrafo psicoacústico pode ser denotado como numHOATransportChannels.

[0080] A unidade de análise de campo sonoro 44 também pode determinar, novamente que se alcance potencialmente a taxa de bits alvo 41, o número total de canais de primeiro plano (nFG) 45, a ordem mínima do campo sonoro de plano de fundo (ou, em outras palavras, ambiente) (NBG ou, alternativamente, MmAmbHOAorder), o número correspondente de canais reais representativos da ordem mínima de campo sonoro de plano de fundo (nBGa = (MmAmbHOAorder + 1)2), e índices (i) de canais de HOA de BG adicionais para enviar (que podem ser coletivamente denotados como informações de canal de plano de fundo 43 no exemplo da Figura 3. As informações de canal de plano de fundo 42 também podem ser referidas como informações de canal do ambiente 43. Cada um dos canais que permanece do numHOATransportChannels - nBGa, pode ser um “canal de plano de fundo/do ambiente adicional”, um “canal predominante baseado em vetor ativo”, um “sinal predominante baseado em direção ativo” ou “completamente inativo”. Em um aspecto, os tipos de canal podem ser indicados (como um “ChannelType”) elemento de sintaxe por dois bits (por exemplo 00: sinal baseado em direção; 01: sinal predominante baseado em vetor; 10: sinal do ambiente adicional; 11: sinal inativo). O número total de sinais de plano de fundo ou do ambiente, nBGa, pode ser dado por (MmAmbHOAorder +1)2 + o número de vezes que o índice 10 (no exemplo acima) aparece como um tipo de canal no fluxo de bits para esse quadro.

[0081] Em qualquer ocasião, a unidade de análise de campo sonoro 44 pode selecionar o número de canais de plano de fundo (ou, em outras palavras, do ambiente) e o número de canais de primeiro plano (ou, em outras palavras, predominantes) com base na taxa de bits alvo 41, selecionar mais canais de plano de fundo e/ou de primeiro plano quando a taxa de bits alvo 41 for relativamente maior (por exemplo, quando a taxa de bits alvo 41 for igual ou maior que 512 Kbps). Em um aspecto, o numHOATransportChannels pode ser definido para 8 enquanto o MmAmbHOAorder pode ser definido para 1 na seção de cabeçalho do fluxo de bits. Nesse cenário, em todo quadro, quatro canais podem ser dedicados para representar a porção de plano de fundo ou do ambiente do campo sonoro enquanto os outros 4 canais podem, em uma base de quadro por quadro variar no tipo de canal - por exemplo, ou usado como um canal de plano de fundo/do ambiente adicional ou um canal de primeiro plano/predominante. Os sinais de primeiro plano/predominantes podem ser um dentre os sinais baseados em vetor ou baseados em direção, conforme descrito acima.

[0082] Em algumas ocasiões, o número total de sinais predominantes baseados em vetor para um quadro, pode ser dado pelo número de vezes que o índice ChannelType é 01 no fluxo de bits desse quadro. No aspecto acima, para todo canal de plano de fundo/do ambiente adicional (por exemplo, que corresponde a um ChannelType de 10), as informações correspondentes das quais os coeficientes de HOA possíveis (além dos quatro primeiros) podem ser representadas nesse canal. As informações, para o conteúdo de HOA de quarta ordem, pode ser um índice para indicar os coeficientes de HOA 5 a 25. Os quatro primeiros coeficientes de HOA do ambiente 1 a 4 podem ser enviados o tempo todo quando minAmbHOAorder é definido para 1, por isso, o dispositivo de codificação de áudio pode precisar apenas indicar um dentre os coeficientes de HOA do ambiente adicionais que têm um índice de 5 a 25. As informações poderiam, então, ser enviadas com o uso de um elemento de sintaxe de 5 bits (para o conteúdo de 4 a ordem), que pode ser denotado como “CodedAmbCoeffIdx”.

[0083] Para ilustrar, supõe-se que o minAmbHOAorder seja definido para 1 e um coeficiente de HOA do ambiente adicional com um índice de seis seja enviado por meio do fluxo de bits 21 como um exemplo. Nesse exemplo, o minAmbHOAorder de 1 indica que os coeficientes de HOA do ambiente têm um índice de 1, 2, 3 e 4. O dispositivo de codificação de áudio 20 pode selecionar os coeficientes de HOA do ambiente devido ao fato de que os coeficientes de HOA do ambiente têm um índice menor ou igual a (minAmbHOAorder + 1)2 ou 4 nesse exemplo. O dispositivo de codificação de áudio 20 pode especificar os coeficientes de HOA do ambiente associados aos índices de 1, 2, 3 e 4 no fluxo de bits 21. O dispositivo de codificação de áudio 20 também pode especificar o coeficiente de HOA do ambiente adicional com um índice de 6 no fluxo de bits como um additionalAmbientHOAchannel com u m ChannelType de 10. O dispositivo de codificação de áudio 20 pode especificar o índice com o uso do elemento de sintaxe CodedAmbCoeffIdx. Como uma questão prática, o elemento de CodedAmbCoeffIdx pode especificar todos os índices de 1 a 25. No entanto, devido ao fato de que minAmbHOAorder é definido para um, o dispositivo de codificação de áudio 20 pode não especificar qualquer um dos quatro primeiros índices (como os quatro primeiros índices são conhecidos para serem especificados no fluxo de bits 21 por meio do elemento de sintaxe minAmbHOAorder). Em qualquer ocasião, devido ao fato de que o dispositivo de codificação de áudio 20 especifica os cinco coeficientes de HOA do ambiente por meio do minAmbHOAorder (para os quatro primeiros) e do CodedAmbCoeffIdx (para o coeficiente de HOA do ambiente adicional), o dispositivo de codificação de áudio 20 pode não especificar os elementos de vetor V correspondentes associados aos coeficientes de HOA do ambiente que têm um índice de 1, 2, 3, 4 e 6. Como resultado, o dispositivo de codificação de áudio 20 pode especificar o vetor V com elementos [5, 7:25].

[0084] Em um segundo aspecto, todos os sinais de primeiro plano/predominantes são sinais baseados em vetor. Nesse segundo aspecto, o número total de sinais de primeiro plano/predominantes pode ser dado por nFG = numHOATransportChannels - [(MinAmbHOAorder +1)2 + cada um dos additionalAmbientHOAchannel].

[0085] A unidade de análise de campo sonoro 44 emite as informações de canal de plano de fundo 43 e os coeficientes de HOA 11 para a unidade de seleção de plano de fundo (BG) 36, as informações de canal de plano de fundo 43 para a unidade de redução de coeficiente 46 e a unidade de geração de fluxo de bits 42, e a nFG 45 para uma unidade de seleção de primeiro plano 36.

[0086] A unidade de seleção de plano de fundo 48 pode representar a unidade configurada para determine plano de fundo ou coeficientes de HOA do ambiente 47 com base nas informações de canal de plano de fundo (por exemplo, o campo sonoro de plano de fundo (NBG) e o número (nBGa) e os índices (i) de canais de HOA de BG adicionais a enviar). Por exemplo, quando NBG for igual a um, a unidade de seleção de plano de fundo 48 pode selecionar os coeficientes de HOA 11 para cada amostra do quadro de áudio que tem uma ordem igual ou menor que um. A unidade de seleção de plano de fundo 48 pode, nesse exemplo, então, selecionar os coeficientes de HOA 11 que têm um índice identificado por um dos índices (i) como coeficientes de HOA de BG adicionais, em que o nBGa é fornecido para a unidade de geração de fluxo de bits 42 para ser especificado no fluxo de bits 21 para possibilitar que o dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado no exemplo das Figuras 2 e 4, analise os coeficientes de HOA de plano de fundo 47 do fluxo de bits 21. A unidade de seleção de plano de fundo 48 pode, então, emite os coeficientes de HOA do ambiente 47 para a unidade de compensação de energia 38. Os coeficientes de HOA do ambiente 47 podem ter dimensões D: M x [(NBG+1)2 + nBGa]. Os coeficientes de HOA do ambiente 47 também podem ser referidos como “coeficientes de HOA do ambiente 47”, em que cada um dos coeficientes de HOA do ambiente 47 corresponde a um canal de HOA do ambiente 47 separado para ser codificado pela unidade de criptógrafo de áudio psicoacústico 40.

[0087] A unidade de seleção de primeiro plano 36 pode representar uma unidade configurada para selecionar a matriz US[k] 33’ reordenada e a matriz V[k] 35’ reordenada que representa os componentes de primeiro plano ou distintos do campo sonoro com base no nFG 45 (que pode representar um ou mais índices que identificam os vetores de primeiro plano). A unidade de seleção de primeiro plano 36 pode emitir sinais de nFG 49 (que podem ser denotados como um US[k]1, nFG49, FG1,...nfG[k] 49, ou XPS(1..nFG)(k) reordenado 49) para a unidade de criptógrafo de áudio psicoacústico 40, em que os sinais de nFG 49 podem ter dimensões D: M x nFG e cada um representa objetos de monoáudio. A unidade de seleção de primeiro plano 36 também pode emitir a matriz V[k] 35’ reordenada (ou v(1..nFG)(k) 35’) que corresponde aos componentes de primeiro plano do campo sonoro para a unidade de interpolação espaço-temporal 50, em que um subconjunto da matriz V[k] 35’ reordenada que corresponde aos componentes de primeiro plano pode ser denotado como matriz de primeiro plano V[k] 51k (que pode ser matematicamente denotada como V1...nFG[k]) que tem dimensões D: (N+1)2 x nFG.

[0088] A unidade de compensação de energia 38 pode representar uma unidade configurada para realizar a compensação de energia em relação aos coeficientes de HOA do ambiente 47 para compensar a perda de energia devido à remoção de vários canais dos canais de HOA pela unidade de seleção de plano de fundo 48. A unidade de compensação de energia 38 pode realizar uma análise de energia em relação a uma ou mais dentre a matriz US[k] 33’ reordenada, a matriz V[k] 35’ reordenada, os sinais de nFG 49, os vetores de primeiro plano V[k] 51k e os coeficientes de HOA do ambiente 47 e, então, realiza a compensação de energia com base na análise de energia para gerar coeficientes de HOA do ambiente com energia compensada 47’. A unidade de compensação de energia 38 pode emitir os coeficientes de HOA do ambiente com energia compensada 47’ para a unidade de criptógrafo de áudio psicoacústico 40.

[0089] A unidade de interpolação espaço- temporal 50 pode representar uma unidade configurada para receber os vetores de primeiro plano V[k] 51k para o k- ésimo quadro e os vetores de primeiro plano V[k-1] 51k-1 para o quadro anterior (por isso, a notação k-1) e para realizar a interpolação espaço-temporal para gerar vetores de primeiro plano V[k] interpolados. A unidade de interpolação espaço-temporal 50 pode recombinar os sinais de nFG 49 com os vetores de primeiro plano V[k] 51k para recuperar os coeficientes de HOA de primeiro plano reordenados. A unidade de interpolação espaço-temporal 50 pode, então, dividir os coeficientes de HOA de primeiro plano reordenados pelos vetores V[k] interpolados para gerar sinais de nFG interpolados 49’. A unidade de interpolação espaço-temporal 50 também pode emitir os vetores de primeiro plano V[k] 51k que foram usados para gerar os vetores de primeiro plano V[k] interpolados para que um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24, possa pode gerar os vetores de primeiro plano V[k] interpolados e, desse modo, recuperar os vetores de primeiro plano V[k] 51k. Os vetores de primeiro plano V[k] 51k usados para gerar os vetores de primeiro plano V[k] interpolados são denotados como os vetores de primeiro plano V[k] restantes 53. A fim de garantir que os mesmos V[k] e V[k-1] sejam usados no codificador e decodificador (para criar os vetores V[k] interpolados) as versões quantizadas/desquantizadas dos vetores podem ser usadas no codificador e no decodificador.

[0090] Em operação, a unidade de interpolação espaço-temporal 50 pode interpolar um ou mais subquadros de um primeiro quadro de áudio a partir de uma primeira decomposição, por exemplo, vetores de primeiro plano V[k] 51k, de uma porção de uma primeira pluralidade dos coeficientes de HOA 11 incluídos no primeiro quadro e uma segunda decomposição, por exemplo, vetores de primeiro plano V[k] 51k-1, de uma porção de uma segunda pluralidade dos coeficientes de HOA 11 incluídos em um segundo quadro para gerar coeficientes harmônicos esféricos interpolados decompostos para os um ou mais subquadros.

[0091] Em alguns exemplos, a primeira decomposição compreende os primeiros vetores de primeiro plano V[k] 51k representativos de vetores únicos da porção dos coeficientes de HOA 11. Igualmente, em alguns exemplos, a segunda decomposição compreende os segundos vetores de primeiro plano V[k] 51k representativos de vetores únicos da porção dos coeficientes de HOA 11.

[0092] Em outras palavras, o áudio em 3D baseado em harmônica esférica pode ser uma representação paramétrica do campo de pressão de 3D em termos de funções de base ortogonais em uma esfera. Quanto maior a ordem N da representação, potencialmente maior a resolução espacial, e frequentemente maior o número de coeficientes de harmônica esférica (SH) (para um total de coeficientes (N+1)2). Para muitas aplicações, uma compactação de largura de banda dos coeficientes pode ser necessária para ter a capacidade de transmitir e armazenar os coeficientes de modo eficiente. As técnicas direcionadas nesta revelação podem fornecer um processo de redução de dimensionalidade baseado em quadro que usa a decomposição de valor único (SVD). A análise de SVD pode decompor cada quadro de coeficientes em três matrizes U, S e V. Em alguns exemplos, as técnicas podem lidar com alguns dos vetores na matriz US[k] como componentes de primeiro plano do campo sonoro subjacente. No entanto, quando lidados dessa maneira, os vetores (na matriz US[k]) são descontínuos de quadro a quadro - muito embora os mesmos representem o mesmo componente de áudio distinto. As descontinuidades podem levar aos artefatos significativos quando os componentes forem fornecidos através de criptógrafos de áudio de transformada.

[0093] Em alguns sentidos, a interpolação espaço-temporal pode contar com a observação de que a matriz V pode ser interpretada como eixos geométricos espaciais ortogonais no domínio de Harmônica Esférica. A matriz U[k] pode representar uma projeção dos dados de Harmônica Esférica (HOA) em termos das funções de base, em que a descontinuidade pode ser atribuída aos eixos geométricos espaciais ortogonais (V[k]) que mudam todo quadro - e são, portanto, descontínuos os próprios. Isso é ao contrário de algumas outras decomposições, como a Transformada de Fourier, em que as funções de base são, em alguns exemplos, constantes de quadro para quadro. Nesses termos, a SVD pode ser considerada como um algoritmo de seguimento de compatibilidade. A unidade de interpolação espaço-temporal 50 pode realizar a interpolação para manter potencialmente a continuidade entre as funções de base (V[k]) de quadro a quadro - através da interpolação entre os mesmos.

[0094] Conforme notado acima, a interpolação pode ser realizada em relação às amostras. O caso é generalizado na descrição acima quando os subquadros compreendem um conjunto único de amostras. Em ambos os casos de interpolação através de amostras e através de subquadros, a operação de interpolação pode assumir a forma da equação a seguir:

[0095] Na equação acima, a interpolação pode ser realizada em relação ao único vetor V v(k) a partir do único vetor V v(k— 1), que, em um aspecto, poderia representar os vetores V a partir de quadros adjacentes k e k-1. Na equação acima, l, representa a resolução sobre a qual a interpolação é realizada, em que l pode indicar uma amostra de número inteiro e l = 1, T (em que T é o comprimento de amostras através do qual a interpolação é realizada e através da qual os vetores interpolados de saída, são necessários e também indicam que a saída do processo produz l dos vetores). Alternativamente, l poderia indicar subquadros que consistem em múltiplas amostras. Quando, por exemplo, um quadro for dividido em quatro subquadros, l pode compreender valores de 1, 2, 3 e 4, para cada um dos subquadros. O valor de l pode ser sinalizado como um campo denominado “CodedSpatialInterpolationTime” através de um fluxo de bits - para que a operação de interpolação possa ser replicada no decodificador. O w(l) pode compreender valores dos pesos de interpolação. Quando a interpolação for linear, w(l) pode variar linear e monotonicamente entre 0 e 1, em função de l. Em outras ocasiões, w(l) pode variar entre 0 e 1 de uma maneira não linear, mas monotônica (como um quarto de ciclo de um cosseno produzido) em função de l. A função, w(l), pode ser indexada entre algumas possibilidades diferentes de funções e sinalizada no fluxo de bits como um campo denominado “SpatialInterpolationmMethod” de modo que a operação de interpolação idêntica possa ser replicada pelo decodificador. Quando w(l) tiver um valor próximo de 0, o produto, 1 ''J, pode ser altamente ponderado ou influenciado por v(k— 1). Enquanto w(l) tiver um valor próximo de 1, isso garante que o produto, 1 ■1 J , seja altamente ponderado ou influenciado por v(k— 1).

[0096] A unidade de redução de coeficiente 46 pode representar uma unidade configurada para realizar a redução de coeficiente em relação aos vetores de primeiro plano restantes V[k] 53 com base nas informações de canal de plano de fundo 43 para emitir os vetores de primeiro plano reduzidos V[k] 55 para a unidade de quantização 52. Os vetores de primeiro plano reduzidos V[k] 55 podem ter dimensões D: [(N+1)2 - (NBG+1)2-BGTOT] X nFG.

[0097] A unidade de redução de coeficiente 46 pode, nesse sentido, representar uma unidade configurada para reduzir o número de coeficientes nos vetores de primeiro plano restantes V[k] 53. Em outras palavras, a unidade de redução de coeficiente 46 pode representar uma unidade configurada para eliminar os coeficientes nos vetores de primeiro plano V[k] (que formam os vetores de primeiro plano restantes V[k] 53) dotados de poucas informações direcionais a nenhuma informação. Conforme descrito acima, em alguns exemplos, os coeficientes dos vetores distintos ou, em outras palavras, vetores de primeiro plano V[k] que correspondem a funções de base de primeira ordem ou de ordem zero (que podem ser denotadas como NBG) fornecem poucas informações direcionais e, portanto, podem ser removidos dos vetores V de primeiro plano (através de um processo que pode ser referido como “redução de coeficiente”). Nesse exemplo, a flexibilidade maior pode ser fornecida para não apenas identificar os coeficientes que correspondem NBG, como para identificar canais de HOA adicionais (que podem ser denotados pela variável TotalOfAddAmbHOAChan) a partir do conjunto de [(NBG +1)2+1, (N+1)2]. A unidade de análise de campo sonoro 44 pode analisar os coeficientes de HOA 11 para determinar BGTOT, que pode identificar não apenas o (NBG+1)2 como o TotalOfAddAmbHOAChan, que pode ser coletivamente referido como as informações de canal de plano de fundo 43. A unidade de redução de coeficiente 46 pode, então, remover os coeficientes que correspondem ao (NBG+1)2 e ao TotalOfAddAmbHOAChan dos vetores de primeiro plano restantes V[k] 53 para gerar uma matriz dimensional menor V[k] 55 de tamanho ((N+1)2 - (BGTOT) X nFG, que também pode ser referida como os vetores de primeiro plano reduzidos V[k] 55.

[0098] A unidade de quantização 52 pode representar uma unidade configurada para realizar qualquer forma de quantização para compactar os vetores de primeiro plano reduzidos V[k] 55 para gerar vetores de primeiro plano criptografados V[k] 57, emitindo os vetores de primeiro plano criptografados V[k] 57 para a unidade de geração de fluxo de bits 42. Em operação, a unidade de quantização 52 pode representar uma unidade configurada para compactar um componente espacial do campo sonoro, isto é, um ou mais dos vetores de primeiro plano reduzidos V[k] 55 nesse exemplo. Para fins do exemplo, os vetores de primeiro plano reduzidos V[k] 55 são supostos para incluir dois vetores de fileira que têm, como resultado da redução de coeficiente, menos de 25 elementos cada (que implica em uma representação de HOA de quarta ordem do campo sonoro). Embora descrito em relação aos dois vetores de fileira, qualquer número de vetores pode estar incluído nos vetores de primeiro plano reduzidos V[k] 55 até (n+1)2, em que n denota a ordem da representação de HOA do campo sonoro. Além do mais, embora descrito abaixo como realizando uma quantização escalar e/ou por entropia, a unidade de quantização 52 pode realizar qualquer forma de quantização que resulte na compactação dos vetores de primeiro plano reduzidos V[k] 55.

[0099] A unidade de quantização 52 pode receber os vetores de primeiro plano reduzidos V[k] 55 e realizar um esquema de compactação para gerar vetores de primeiro plano criptografados V[k] 57. O esquema de compactação pode envolver qualquer esquema de compactação concebível para compactar elementos de um vetor ou dados genericamente, e não deve se limitar ao exemplo descrito abaixo em mais detalhes.A unidade de quantização 52 pode realizar, como um exemplo, um esquema de compactação que inclui um ou mais dentre transformar representações de ponto de flutuação de cada elemento dos vetores de primeiro plano reduzidos V[k] 55 em representações de número inteiro de cada elemento dos vetores de primeiro plano reduzidos V[k] 55, a quantização uniforme das representações de número inteiro dos vetores de primeiro plano reduzidos V[k] 55 e categorização e criptografia das representações de número inteiro quantizadas dos vetores de primeiro plano restantes V[k] 55.

[0100] Em alguns exemplos, diversos dos um ou mais processos do esquema de compactação podem ser dinamicamente controlados pelos parâmetros para obter ou quase obter, como um exemplo, uma taxa de bits alvo 41 para o fluxo de bits resultante 21. Dado que cada um dos vetores de primeiro plano reduzidos V[k] 55 são ortonormais entre si, cada um dos vetores de primeiro plano reduzidos V[k] 55 pode ser criptografado independentemente. Em alguns exemplos, conforme descrito em mais detalhes abaixo, cada elemento de cada um dos vetores de primeiro plano reduzidos V[k] 55 pode ser criptografado com o uso do mesmo modo de criptografia (definido por vários submodos).

[0101] Conforme descrito na publicação n° WO 2014/194099, a unidade de quantização 52 pode realizar quantização escalar e/ou codificação de Huffman para compactar os vetores de primeiro plano reduzidos V[k] 55, emitindo os vetores de primeiro plano criptografados V[k] 57, que também podem ser referidos como informações de canal auxiliar 57. As informações de canal auxiliar 57 podem incluir elementos de sintaxe usados para criptografar os vetores de primeiro plano restantes V[k] 55.

[0102] Conforme notado na publicação n° WO 2014/194099, a unidade de quantização 52 pode gerar elementos de sintaxe para as informações de canal auxiliar 57. Por exemplo, a unidade de quantização 52 pode especificar um elemento de sintaxe em um cabeçalho de uma unidade de acesso (que pode incluir um ou mais quadros) que denota qual dentre a pluralidade de modos de configuração foi selecionado. Embora descrito como sendo especificado com base no fato de ser por unidade de acesso, a unidade de quantização 52 pode especificar o elemento de sintaxe com base no fato de ser por quadro ou qualquer outra base periódica ou base não periódica (como uma vez para todo o fluxo de bits). Em qualquer ocasião, o elemento de sintaxe pode compreender dois bits que indicam quais dos três modos de configuração foram selecionados para especificar o conjunto de coeficientes diferente de zero dos vetores de primeiro plano reduzidos V[k] 55 para representar os aspectos direcionais do componente distinto. O elemento de sintaxe pode ser denotado como “codedVVecLength”. Dessa maneira, a unidade de quantização 52 pode sinalizar ou de outro modo especificar no fluxo de bits quais dos três modos de configuração foram usados para especificar os vetores de primeiro plano criptografados V[k] 57 no fluxo de bits.

[0103] Por exemplo, três modos de configuração podem ser apresentados na tabela de sintaxe para VVecData (posteriormente referenciados neste documento). Nesse exemplo, os modos de configuração são conforme segue: (Modo 0), um comprimento de vetor V completo é transmitido no campo VVecData; (Modo 1), os elementos do vetor V associado ao número mínimo de coeficientes para os coeficientes de HOA do Ambiente e todos os elementos do vetor V que incluíram canais de HOA adicionais que não são transmitidos; e (Modo 2), os elementos do vetor V associados ao número mínimo de coeficientes para os coeficientes de HOA do Ambiente não são transmitidos. A tabela de sintaxe de VVecData ilustra os modos em conjunto com um comutador e declaração de caso. Embora descrito em relação aos três modos de configuração, as técnicas não devem se limitar aos três modos de configuração e pode incluir qualquer número de modos de configuração, incluindo um único modo de configuração ou uma pluralidade de modos. A publicação n ° WO 2014/194099 fornece um exemplo diferente com quatro modos. A unidade de quantização escalar/por entropia 53 também pode especificar o sinalizador 63 como um outro elemento de sintaxe nas informações de canal auxiliar 57.

[0104] Além do mais, embora descrito em relação a uma forma de quantização escalar, a unidade de quantização 52 pode realizar a quantização de vetor ou qualquer outra forma de quantização. Em algumas ocasiões, a unidade de quantização 52 pode comutar entre quantização de vetor e quantização escalar. Durante a quantização escalar descrita acima, a unidade de quantização 52 pode computar a diferença entre dois vetores V sucessivos (sucessivos como em quadro para quadro) e criptografar a diferença (ou, em outras palavras, residual). A quantização de vetor não envolve tal criptografia de diferença (que pode, em um sentido, ser uma forma preditiva de criptografia em que a quantização escalar prediz o vetor V atual com base em um vetor V anterior e uma diferença sinalizada).

[0105] A unidade de criptógrafo de áudio psicoacústico 40 incluída no dispositivo de codificação de áudio 20 pode representar múltiplas ocasiões de um criptógrafo de áudio psicoacústico, cada uma das quais é usada para codificar um objeto de áudio ou canal de HOA diferente de cada um dos coeficientes de HOA do ambiente com energia compensada 47’ e nos sinais de nFG interpolados 49’ para gerar coeficientes de HOA do ambiente codificados 59 e sinais de nFG codificados 61. A unidade de criptógrafo de áudio psicoacústico 40 pode emitir os coeficientes de HOA do ambiente codificados 59 e os sinais de nFG codificados 61 para a unidade de geração de fluxo de bits 42.

[0106] A unidade de geração de fluxo de bits 42 incluída no dispositivo de codificação de áudio 20 representa uma unidade que formata dados para se adequar a um formato conhecido (que pode se referir a um formato conhecido por um dispositivo de decodificação) gerando, desse modo, o fluxo de bits baseado em vetor 21. O fluxo de bits 21 pode, em outras palavras, representar dados de áudio codificados, que foram codificados da maneira descrita acima. A unidade de geração de fluxo de bits 42 pode representar um multiplexador em alguns exemplos, que pode receber os vetores de primeiro plano criptografados V[k] 57, os coeficientes de HOA do ambiente codificados 59, os sinais de nFG codificados 61 e as informações de canal de plano de fundo 43. A unidade de geração de fluxo de bits 42 pode, então, gerar um fluxo de bits 21 com base nos vetores de primeiro plano criptografados V[k] 57, os coeficientes de HOA do ambiente codificados 59, nos sinais de nFG codificados 61 e nas informações de canal de plano de fundo 43. O fluxo de bits 21 pode incluir um fluxo de bits primário ou principal e um ou mais fluxos de bits de canal auxiliar.

[0107] Embora não mostrado no exemplo da Figura 3, o dispositivo de codificação de áudio 20 também pode incluir uma unidade de saída de fluxo de bits que comuta a saída de fluxo de bits a partir do dispositivo de codificação de áudio 20 (por exemplo, entre o fluxo de bits baseado em direção 21 e o fluxo de bits baseado em vetor 21) com base na possibilidade de um quadro atual ter que ser codificado com o uso de síntese baseada em direção ou da síntese baseada em vetor. A unidade de saída de fluxo de bits pode realizar a comutação com base na saída do elemento de sintaxe pela unidade de análise de conteúdo 26 que indica se uma síntese baseada em direção foi realizada (como resultado da detecção de que os coeficientes de HOA 11 foram gerados de um objeto de áudio sintético) ou uma síntese baseada em vetor foi realizada (como resultado da detecção de que os coeficientes de HOA foram registrados). A unidade de saída de fluxo de bits pode especificar a sintaxe de cabeçalho correta para indicar a comutação ou a codificação atual usada para o quadro atual juntamente com um respectivo fluxo dos fluxos de bits 21.

[0108] Além do mais, conforme notado acima, a unidade de análise de campo sonoro 44 pode identificar coeficientes de HOA do ambiente de BGTOT 47, que podem mudar com base em quadro por quadro (embora, às vezes, BGTOT possa permanecer constante ou o mesmo através de dois ou mais quadros adjacentes (no tempo)). A mudança em BGTOT pode resultar em mudanças para os coeficientes expressos nos vetores de primeiro plano reduzidos V[k] 55. A mudança em BGTOT pode resultar em coeficientes de HOA de plano de fundo (que também podem ser referidos como “coeficientes de HOA do ambiente”) que mudam em uma base de quadro por quadro (embora, novamente, às vezes, BGTOT possa permanecer constante ou o mesmo através de dois ou mais quadros adjacentes (no tempo)). As mudanças frequentemente resultam em uma perda de energia para os aspectos do campo sonoro representado pela adição ou remoção dos coeficientes de HOA do ambiente adicionais e pela remoção correspondente de coeficientes dos vetores ou pela adição de coeficientes aos vetores de primeiro plano reduzidos V[k] 55.

[0109] Para ilustrar, supõe-se que para um quadro anterior (denotado como “FX-1”), o número total de coeficientes de HOA do ambiente (BGTOT) inclui coeficientes de HOA do ambiente associados aos índices de 1, 2, 3 e 4 e coeficiente de HOA do ambiente adicional 6. Para um quadro atual (denotado como “FX”), supõe-se que o número total de coeficientes de HOA do ambiente (BGTOT) inclui coeficientes de HOA do ambiente associados aos índices de 1, 2, 3 e 4 e coeficiente de HOA do ambiente adicional 5. O número total de coeficiente de HOA do ambiente (BGTOT) do quadro anterior (FX-1) difere, portanto, do número total de coeficientes de HOA do ambiente (BGTOT) do quadro atual (FX) substituindo-se o coeficiente de HOA do ambiente adicional associado ao índice 6 com o coeficiente de HOA do ambiente adicional associado ao índice 5. O vetor V do quadro anterior (Fx-1) inclui quaisquer elementos aos quais um dentre o número total de coeficientes de HOA do ambiente (BGTOT) do quadro anterior FX-1 não corresponde. Desse modo, o vetor V pode incluir elementos 5 e 7 a 25 para uma representação de quarta ordem do campo sonoro, que pode ser denotada como V[5, 7:25]. O vetor V do quadro atual (FX) inclui quaisquer elementos aos quais um dentre o número total de coeficiente de HOA do ambiente (BGTOT) do quadro atual (FX) não corresponde, que pode ser denotado como V[6:25] para uma representação de quarta ordem do campo sonoro.

[0110] Na publicação n° WO 2014/194099, o dispositivo de codificação de áudio sinaliza V[5, 7:25] para o quadro FX-1 e V[6:25] para o quadro Fx. O dispositivo de codificação de áudio também pode especificar que o coeficiente de HOA do ambiente adicional associado ao índice 6 deve ser diminuído gradualmente da reconstrução dos coeficientes de HOA 11’ para o quadro anterior (FX-1), enquanto o coeficiente de HOA do ambiente adicional associado ao índice 5 deve ser aumentado gradualmente para o quadro atual (FX) quando reconstruindo os coeficientes de HOA 11‘. A mudança dos coeficientes de HOA do ambiente adicionais associados ao índice 6 fora da reconstrução no dispositivo de decodificação de áudio durante o quadro anterior (FX-1) pode reduzir a energia total dado que o coeficiente de HOA do ambiente adicional associado ao índice 6 representa alguma porção da energia geral do campo sonoro. A redução de energia pode se manifestar como um artefato de áudio audível.

[0111] Igualmente, a introdução do coeficiente de HOA do ambiente adicional associado ao índice 5 pode, quando aumentado gradualmente durante o quadro atual (FX), resultar em alguma perda de energia quando se reconstrói os coeficientes de HOA 11’ no dispositivo de decodificação de áudio. A perda na energia ocorre devido ao fato de que o coeficiente de HOA do ambiente adicional associado ao índice 5 é aumentado gradualmente com o uso, como um exemplo, de uma operação de aumento gradual linear que atenua o coeficiente de HOA do ambiente adicional associado ao índice 5 e diminuindo, desse modo, da energia geral. Novamente, a redução na energia pode se manifestar como um artefato de áudio. De acordo com vários aspectos das técnicas descritas nesta revelação, a unidade de análise de campo sonoro 44 pode adicionalmente determina quando os coeficientes de HOA do ambiente mudam de quadro para quadro e geram um sinalizador ou outro elemento de sintaxe indicativo da mudança para o coeficiente de HOA do ambiente em termos de ser usado para representar o componente do ambientes do campo sonoro (em que a mudança também pode ser referida como uma “transição” do coeficiente de HOA do ambiente ou como uma “transição” do coeficiente de HOA do ambiente). Em particular, a unidade de redução de coeficiente 46 pode gerar o sinalizador (que pode ser denotado como um sinalizador de transição de AmbCoeff ou um sinalizador AmbCoeffIdxTrasnsition), que fornece o sinalizador para a unidade de geração de fluxo de bits 42 para que o sinalizador possa estar incluído no fluxo de bits 21 (possivelmente como parte das informações de canal auxiliar).

[0112] A unidade de redução de coeficiente 46 pode, além de especificar o sinalizador de transição de coeficiente do ambiente, modificar também como os vetores de primeiro plano reduzidos V[k] 55 são gerados. Em um exemplo, mediante a determinação de que um dos coeficientes de HOA do ambiente está em transição durante o quadro atual, a unidade de redução de coeficiente 46 pode especificar, um coeficiente de vetor (que também pode ser referido como um “elemento de vetor” ou “elemento”) para cada um dos vetores V dos vetores de primeiro plano reduzidos V[k] 55 que correspondem ao coeficiente de HOA do ambiente em transição. Novamente, o coeficiente de HOA do ambiente em transição pode adicionar ou remover do número total BGTOT de coeficientes de plano de fundo. Portanto, a mudança resultante no número total de coeficientes de plano de fundo afeta a possibilidade de o coeficiente de HOA do ambiente estar incluído ou não estar incluído no fluxo de bits, e a possibilidade de o elemento correspondente dos vetores V estar incluído para os vetores V especificados no fluxo de bits no segundo e no terceiro modos de configuração descrito acima.

[0113] Para ilustrar o anteriormente mencionado em relação ao exemplo dos quadros anterior e atual (FX-1 e Fx), a unidade de redução de coeficiente 46 pode ser modificada a partir daquela modificada na publicação n° WO 2014/194099 para sinalizar as informações redundante em termos dos elementos enviados para o vetor V durante os quadros anterior e atual (FX-1 e Fx). A unidade de redução de coeficiente 46 pode especificar os elementos de vetor (V[5:25]) para o quadro anterior FX-1 para que o dispositivo de decodificação de áudio 24 tenha capacidade de aumentar gradualmente o elemento 6 do vetor V enquanto também diminui o coeficiente de HOA do ambiente associado ao índice 6. A unidade de redução de coeficiente 46 pode não especificar quaisquer elementos de sintaxe que indicam que a transição dos elementos de vetor V que estão em transição conforme é implícito a partir do modo de criptografia dos vetores V e das informações de transição especificadas para os coeficientes de HOA do ambiente. Para o quadro atual (FX), a unidade de redução de coeficiente 46 pode, igualmente, especificar o vetor V como V[5:25] dado que o dispositivo de decodificação de áudio 24 pode usar o 5° elemento do vetor V em uma operação de diminuição gradual para deslocar o aumento gradual do coeficiente de HOA do ambiente associado ao índice 5. A operação de desvanecimento é, nos exemplos acima, complementar para o elemento de vetor V àquele do coeficiente de HOA do ambiente para manter um nível de energia uniforme e evitar a introdução dos artefatos de áudio. Embora descrito como complementar ou de outro modo que fornece uma energia uniforme através de transições, as técnicas podem permitir que quaisquer outras formas de operações de transição que são usadas para evitar ou reduzir a introdução de artefatos de áudio devido às alterações na energia.

[0114] Em um outro exemplo, a unidade de redução de coeficiente 46 pode não alterar como os vetores V dos vetores de primeiro plano reduzidos V[k] 55 são gerados. Desse modo, o sinalizador de transição é sinalizado nas informações de canal auxiliar. Nesse exemplo, o dispositivo de decodificação de áudio pode utilizar um vetor V do quadro anterior ou subsequente que inclui o coeficiente que corresponde ao coeficiente de HOA do ambiente que está em transição. Esse exemplo pode exigir funcionalidade adicional no decodificador (por exemplo, um mecanismo de antecipação que antecipa os quadros subsequentes para copiar o coeficiente dos vetores V a partir do quadro subsequente para uso no quadro atual quando um coeficiente de HOA do ambiente estiver sendo movido para o BGTOT).

[0115] Nesse sentido, as técnicas podem possibilitar que o dispositivo de codificação de áudio 20 determine quando um coeficiente ambissônico de ordem superior de ambiente 47’ que descreve um componente do ambiente de um campo sonoro está em transição em termos de ser usado para descrever o componente do ambiente do campo sonoro. Quando em referência ao componente do ambiente do campo sonoro que é usado ou não, deve-se compreender que o dispositivo de codificação de áudio 20 pode selecionar os coeficientes de HOA do ambiente 47 para serem usados na reconstruir o campo sonoro no dispositivo de decodificação de áudio 24. Embora o coeficiente de HOA do ambiente pode representar algum aspecto do componente de plano de fundo ou, em outras palavras, do ambiente do campo sonoro, o dispositivo de codificação de áudio 20 pode determinar que um ou mais dos coeficientes de HOA do ambiente 47 não forneça informações suficientes relevantes ao componente do ambiente do campo sonoro de modo que os bits não sejam usados na especificação dos um ou mais dos coeficientes de HOA do ambiente 47 no fluxo de bits 21. O dispositivo de codificação de áudio 20 pode identificar algum subconjunto de um conjunto de maior dos coeficientes de HOA do ambiente 47 que são usados para representar o componente do ambiente ou o aspecto do campo sonoro para cada quadro, como um exemplo, para obter uma taxa de bits alvo 41. Em qualquer ocasião, o dispositivo de codificação de áudio 20 também pode identificar, no fluxo de bits 21 que inclui o coeficiente ambissônico de ordem superior de ambiente 47, que o coeficiente ambissônico de ordem superior de ambiente 47 está em transição.

[0116] Nesse e em outros exemplos, o dispositivo de codificação de áudio 20 pode, quando se determina quando o coeficiente ambissônico de ordem superior de ambiente 47’ estiver em transição, determinar que o coeficiente ambissônico de ordem superior de ambiente 47’ não é usado para descrever o componente do ambiente do campo sonoro. Quando se identifica que o coeficiente ambissônico de ordem superior de ambiente 47’ está em transição, o dispositivo de codificação de áudio 20 pode especificar um sinalizador AmbCoeffTransition que indica que o coeficiente ambissônico de ordem superior está em transição.

[0117] Nesse e em outros exemplos, o dispositivo de codificação de áudio 20 pode, quando se determina quando o coeficiente ambissônico de ordem superior de ambiente 47’ estiver em transição, determinar que o coeficiente ambissônico de ordem superior de ambiente 47’ não é usado para descrever o componente do ambiente do campo sonoro.

[0118] Em resposta à determinação de que o coeficiente ambissônico de ordem superior de ambiente 47’ não deve ser usado, o dispositivo de codificação de áudio 20 pode gerar um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que inclui um elemento de um vetor (por exemplo, os vetores de primeiro plano reduzidos V[k] 55 ou, em outras palavras, os vetores de primeiro plano reduzidos 55k) que correspondem ao coeficiente ambissônico de ordem superior de ambiente 47’. O vetor 55k pode descrever aspectos espaciais de um componente distinto do campo sonoro. O vetor 55k também pode ter sido decomposto a partir de coeficientes ambissônicos de ordem superior 11 descritivos do campo sonoro da maneira descrita acima.

[0119] Nesse e em outros exemplos, o dispositivo de codificação de áudio 20 pode, quando se determina quando o coeficiente ambissônico de ordem superior de ambiente 47’ estiver em transição, determinar que os coeficientes ambissônicos de ordem superior de ambiente 47’ são usados para descrever o componente do ambiente do campo sonoro.

[0120] Nesse e em outros exemplos, o dispositivo de codificação de áudio 20 pode, quando se determina quando o coeficiente ambissônico de ordem superior de ambiente 47’ estiver em transição, determinar que o coeficiente ambissônico de ordem superior de ambiente 47’ é usado para descrever o componente do ambiente do campo sonoro. O dispositivo de codificação de áudio 20 pode, quando se identifica que o coeficiente ambissônico de ordem superior de ambiente 47’ está em transição, também especifica um elemento de sintaxe que indica que o coeficiente ambissônico de ordem superior 47’ está em transição.

[0121] Nesse e em outros exemplos, o dispositivo de codificação de áudio 20 pode, quando se determina quando o coeficiente ambissônico de ordem superior de ambiente 47’ estiver em transição, determinar que o coeficiente ambissônico de ordem superior de ambiente 47’ é usado para descrever o componente do ambiente do campo sonoro. O dispositivo de codificação de áudio 20 pode, em resposta à determinação de que o coeficiente ambissônico de ordem superior de ambiente 47’ deve ser usado, gerar um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que inclui um elemento de um vetor 55kque corresponde ao coeficiente ambissônico de ordem superior de ambiente 47’. O vetor 55k pode descrever aspectos espaciais de um componente distinto do campo sonoro e pode ter sido descompensado a partir de coeficientes ambissônicos de ordem superior descritivos do campo sonoro.

[0122] Em alguns exemplos, a unidade de geração de fluxo de bits 42 gera os fluxos de bits 21 para incluir Quadros de Reprodução Imediata (IPFs) para, por exemplo, compensar o atraso de partida de decodificador. Em alguns casos, o fluxo de bits 21 pode ser empregado em conjunto com os padrões de fluxo contínuo da Internet como Fluxo Contínuo Adaptativo Dinâmico através de HTTP (DASH) ou Entrega de Arquivo através de Transporte Unidirecional (FLUTE). DASH é descrito em ISO/IEC 23009-1, “Information Technology - Dynamic adaptive streaming over HTTP (DASH)”, abril de 2012. FLUTE é descrito em IETF RFC 6726, “FLUTE - File Delivery over Unidirectional Transport”, novembro de 2012. Os padrões de fluxo contínuo da Internet como o FLUTE e DASH mencionados anteriormente compensam a perda/degradação de quadro e se adaptam à largura de banda de enlace de transporte de rede possibilitando-se a reprodução instantânea em pontos de acesso de fluxo designados (SAPs) assim como a comutando-se a reprodução entre representação do fluxo que difere em taxa de bits e/ou ferramentas habilitadas em qualquer SAP do fluxo. Em outras palavras, o dispositivo de codificação de áudio 20 pode codificar quadros de tal maneira a comutar a partir de uma primeira representação de conteúdo (por exemplo, especificada em uma primeira taxa de bits) para uma segunda representação do conteúdo diferente (por exemplo, especificada em uma segunda taxa de bits maior ou menor). O dispositivo de decodificação de áudio 24 pode receber o quadro e independentemente decodificar o quadro para comutar da primeira representação do conteúdo para a segunda representação do conteúdo. O dispositivo de decodificação de áudio 24 pode continuar a decodificar o quadro subsequente para obter a segunda representação do conteúdo.

[0123] Na ocasião de reprodução instantânea/comutação, a pré-rolagem para um quadro de fluxo não foi decodificada a fim de estabelecer o requisito de estado interno para decodificar corretamente o quadro, a unidade de geração de fluxo de bits 42 pode codificar o fluxo de bits 21 para incluir Quadros de Reprodução Imediata (IPFs), conforme descrito abaixo em mais detalhes em relação à Figura 71.

[0124] A Figura 4 é um diagrama de blocos que ilustra o dispositivo de decodificação de áudio 24 da Figura 2 em mais detalhes. Conforme mostrado no exemplo da Figura 4, o dispositivo de decodificação de áudio 24 pode incluir uma unidade de extração 72, uma unidade de reconstrução baseada em direcionalidade 90 e um unidade de reconstrução baseada em vetor 92. Embora descrito abaixo, mais informações em relação ao dispositivo de decodificação de áudio 24 e aos vários aspectos de descompactação ou, de outro modo, decodificação de coeficientes de HOA estão disponíveis no Pedido de Patente Internacional n° WO 2014/194099, intitulado “INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”, depositado em 29 de maio de 2014.

[0125] A unidade de extração 72 pode representar uma unidade configurada para receber o fluxo de bits 21 e extrair as várias versões codificadas (por exemplo, uma versão codificada baseada em direção ou uma versão codificada baseada em vetor) dos coeficientes de HOA 11. A unidade de extração 72 pode determinar a partir do elemento de sintaxe notado acima (por exemplo, o elemento de sintaxe ChannelType 269 mostrado nos exemplos das Figuras 7D e 7E) se os coeficientes de HOA 11 foram codificados por meio das várias versões. Quando uma codificação baseada em direção foi realizada, a unidade de extração 72 pode extrair a versão baseada em direção dos coeficientes de HOA 11 e os elementos de sintaxe associados à versão codificada (que é denotada como informações baseadas em direção 91 no exemplo da Figura 4), que passa as informações baseadas em direção 91 para a unidade de reconstrução baseada em direção 90. A unidade de reconstrução baseada em direção 90 pode representar uma unidade configurada para reconstruir os coeficientes de HOA na forma de coeficientes de HOA 11’ com base nas informações baseadas em direção 91. O fluxo de bits e a disposição de elementos de sintaxe no fluxo de bits é descrito abaixo em mais detalhes em relação ao exemplo das Figuras 7A a 7J.

[0126] Quando o elemento de sintaxe indicar que os coeficientes de HOA 11 foram codificados com o uso de uma síntese baseada em vetor, a unidade de extração 72 pode extrair os vetores de primeiro plano criptografados V[k] 57, os coeficientes de HOA do ambiente codificados 59 e os sinais de nFG codificados 61. A unidade de extração 72 pode passar os vetores de primeiro plano criptografados V[k] 57 para a unidade de desquantização 74 e os coeficientes de HOA do ambiente codificados 59 juntamente com os sinais de nFG codificados 61 para a unidade de decodificação psicoacústica 80.

[0127] Para extrair os vetores de primeiro plano criptografados V[k] 57, os coeficientes de HOA do ambiente codificados 59 e os sinais de nFG codificados 61, a unidade de extração 72 pode obter os vetores de primeiro plano criptografados V[k] 57 (que também podem ser referidos como as informações de canal auxiliar 57). As informações de canal auxiliar 57 podem incluir o elemento de sintaxe denotado codedVVecLength. A unidade de extração 72 pode analisar o codedVVecLength a partir das informações de canal auxiliar 57. A unidade de extração 72 pode ser configurada para operar em qualquer um dos modos de configuração descritos acima com base no elemento de sintaxe codedVVecLength.

[0128] A unidade de extração 72 opera, então, de acordo com qualquer um dos modos de configuração para analisar uma forma compactada dos vetores de primeiro plano reduzidos V[k] 55k a partir das informações de canal auxiliar 57. Conforme notado acima em relação à unidade de geração de fluxo de bits 42 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4, um sinalizador ou outro elemento de sintaxe pode ser especificado no fluxo de bits indicativo de uma transição nos coeficientes de HOA do ambiente 47 com base em quadro ou possivelmente com base em multiquadros. A unidade de extração 72 pode analisar o elemento de sintaxe que indica se um coeficiente de HOA do ambiente está em transição. Conforme adicionalmente mostrado no exemplo da Figura 4, a unidade de extração 72 pode incluir uma unidade de descompactação de V 755 (que é mostrada como “unidade de descomp de V 755” no exemplo da Figura 4. A unidade de descompactação de V 755 recebe as informações de canal auxiliar do fluxo de bits 21 e do elemento de sintaxe denotado codedVVecLength. A unidade de extração 72 pode analisar o elemento de sintaxe codedVVecLength a partir do fluxo de bits 21 (e, por exemplo, do cabeçalho de unidade de acesso incluído no fluxo de bits 21). A unidade de descompactação de V 755 inclui uma unidade de configuração de modo 756 (“unidade de config de modo 756”) e uma unidade de análise 758 configurável para operar de acordo com qualquer um dos modos de configuração 760.

[0129] A unidade de extração 72 pode fornecer o elemento de sintaxe codedVVecLength para a unidade de configuração de modo 756. A unidade de extração 42 também pode extrair um valor para variáveis de estados utilizáveis pela unidade de análise 758.

[0130] A unidade de configuração de modo 756 pode selecionar um modo de análise 760 com base no elemento de sintaxe indicativo de uma transição de um coeficiente de HOA do ambiente. Os modos de análise 760 podem, nesse exemplo, especificar determinados valores para configurar a unidade de análise 758. Os valores adicionais podem se referir a valores para variáveis denotadas como “AmbCoeffTransitionMode” e “AmbCoeffWasFadedIn”. Os valores mantêm o estado em relação à situação de transição do AddAmbHoaInfoChannel, conforme especificado na tabela a seguir: SINTAXE DE AddAmbHoaInfoChannel(i)

[0131] Na Tabela de AddAmbHoaInfoChannel anterior, a unidade de configuração de modo 756 pode determinar se o valor de IndependencyFlag para um quadro de HOA é verdadeiro. Um IndependencyFlag com um valor verdadeiro indica que o quadro de HOA é um Quadro de Reprodução Imediata (IPF).

[0132] Se o valor de IndependencyFlag para o quadro de HOA for falso, a unidade de configuração de modo 756 determina se o sinalizador AmbCoeffTransition é definido para um. O sinalizador AmbCoeffTransition pode representar um bit indicativo de uma transição de um coeficiente ambissônico de ordem superior de ambiente. Embora descrito como um bit, o sinalizador AmbCoeffTransition pode, em alguns exemplos, incluir um ou mais bits. O termo “bit” conforme usado no presente documento deve ser compreendido para se referir a um ou mais bits e não deve se limitar a apenas um único bit a menos que seja explicitamente indicado ao contrário.

[0133] Quando o sinalizador AmbCoeffTransition for definido para um, a unidade de configuração de modo 756 então, determina se uma outra variável (ou, em outras palavras, elemento de sintaxe), AmbCoeffWasFadedIn[i], é igual a zero. A variável AmbCoeffWasFadedIn[i] é uma matriz de elementos z, um para cada um dos HOAAddAmbInfoChannels, que indica se o z-ésimo HOAAddAmbInfoChannel foi previamente aumentado gradualmente. Quando o z-ésimo HOAAddAmbInfoChannel não for previamente aumentado gradualmente (o que significa que o z-ésimo HOAAddAmbInfoChannel é igual a zero), a unidade de configuração de modo 756 pode definir o AmbCoeffTransitionMode para o z-ésimo HOAAddAmbInfoChannel para um enquanto também define o AmbCoeffWasFadedIn para o z-ésimo HOAAddAmbInfoChannel para um. Quando o z-ésimo HOAAddAmbInfoChannel foi previamente aumentado gradualmente (o que significa que o z-ésimo HOAAddAmbInfoChannel não é igual a zero), a unidade de configuração de modo 756 pode definir o AmbCoeffTransitionMode para o z-ésimo HOAAddAmbInfoChannel para dois e definir o AmbCoeffWasFadedIn para o z-ésimo HOAAddAmbInfoChannel para zero.

[0134] A combinação dos elementos de sintaxe AmbCoeffWasFadedIn e do AmbCoeffTransitionMode pode representar informações de estado de transição. As informações de estado de transição podem, dado que cada um dos elementos de sintaxe AmbCoeffWasFadedIn e o AmbCoeffTransitionMode é um único bit, definir até quatro estados. A tabela de tabela de sintaxe exemplificativa acima indica que as informações de estado de transição indicam um dos três estados. Os três estados podem incluir um estado sem transição, um estado de aumento gradual e um estado de diminuição gradual. Embora descrito nesta revelação como incluindo dois bits para indicar um dos três estados, as informações de estado de transição podem ser um único quando as informações de estado de transição indicarem menos de três estados. Além do mais, as informações de estado de transição podem incluir mais de dois bits nos exemplos em que as informações de estado de transição indicam um dos cinco ou mais estados.

[0135] Quando o sinalizador AmbCoeffTransition for igual a zero, a unidade de configuração de modo 756 pode definir o AmbCoeffTransitionMode para o z-ésimo HOAAddAmbInfoChannel para zero. Conforme notado na Tabela anteriormente mencionada, quando o AmbCoeffTransitionMode for igual aos valores a seguir, a ação correspondente indicada abaixo pode ser realizada:

[0136] 0: Nenhuma transição (Coeficiente de HOA do Ambiente Adicional contínuo);

[0137] 1: Aumento gradual de Coeficiente de HOA do Ambiente Adicional; e

[0138] 2: Diminuição gradual de Coeficiente de HOA do Ambiente Adicional.

[0139] Se o valor de IndependencyFlag para o quadro de HOA for verdadeiro, a unidade de extração 72 pode extrair informações de transição 757 para o Canal de HOA do Ambiente Adicional a partir de uma estrutura de sintaxe associada no fluxo de bits 21. Devido ao fato de que os IPFs são, por definição, independentemente decodificáveis, as informações de transição 757 para o IPF podem ser fornecidas em conjunto com o IPF no fluxo de bits, por exemplo, como as informações de estado 814 descritas acima. Assim, a unidade de extração 72 pode extrair o valor para a variável AmbCoeffWasFadedIn[i] para o z-ésimo HOAAddAmbInfoChannel para o qual a estrutura de sintaxe fornece as informações de transição 757. Desse modo, a unidade de configuração de modo 756 pode determinar os modos 760 para o i-ésimo HOAAddAmbInfoChannel a ser aplicado pelo dispositivo de decodificação de áudio 24 no z-ésimo HOAAddAmbInfoChannel.

[0140] A sintaxe anterior pode, no entanto, ser modificada ligeiramente para substituir os elementos de sintaxe separados de AmbCoeffWasFadedIn[i] e AmbCoeffTransition com um elemento de sintaxe AmbCoeffTransitionState[i] de dois bits e um elemento de sintaxe AmbCoeffIdxTrasnsition de um bit. A tabela de sintaxe mencionada anteriormente pode, portanto, ser substituída pela tabela de sintaxe a seguir: SINTAXE DE AddAmbHoaInfoChannel(i)

[0141] Na tabela de sintaxe exemplificativa a seguir, o dispositivo de codificação de áudio 20 sinaliza explicitamente o elemento de sintaxe AmbCoeffTransitionState quando o elemento de sintaxe HOAIndependencyFlag for definido para um valor de um. Quando o elemento de sintaxe AmbCoeffTransitionState for sinalizado, o dispositivo de codificação de áudio 20 sinaliza o estado atual do coeficiente de HOA do ambiente correspondente. De outro modo, quando o elemento de sintaxe HOAIndependencyFlag for definido para um valor de zero, o dispositivo de codificação de áudio 20 não sinaliza o AmbCoeffTransitionState, mas em vez disso, sinaliza o elemento de sintaxe AmbCoeffIdxTrasnsition indicativo da possibilidade de haver uma transição no coeficiente de HOA do ambiente correspondente.

[0142] Quando o elemento de sintaxe HOAIndependencyFlag for definido para um valor de zero, a unidade de extração 72 pode manter o AmbCoeffTransitionState para aquele correspondente dos coeficientes de HOA do ambiente. A unidade de extração 72 pode atualizar o elemento de sintaxe AmbCoeffTransitionState com base no AmbCoeffIdxTrasnsition. Por exemplo, quando o elemento de sintaxe AmbCoeffTransitionState for definido para 0 (significando, sem transição) e o elemento de sintaxe AmbCoeffIdxTrasnsition é definido para 0, a unidade de extração 72 pode determinar que nenhuma alteração tenha ocorrido e, portanto, que nenhuma alteração ao elemento de sintaxe AmbCoeffTransitionState seja necessária. Quando o elemento de sintaxe AmbCoeffTransitionState for definido para 0 (significando, sem transição) e o elemento de sintaxe AmbCoeffIdxTrasnsition é definido para 1, a unidade de extração 72 pode determinar que o coeficiente de HOA do ambiente correspondente deve ser diminuído gradualmente e define o elemento de sintaxe AmbCoeffTransitionState para um valor de 2. Quando o elemento de sintaxe AmbCoeffTransitionState for definido para 2 (significando, o coeficiente de HOA do ambiente correspondente foi diminuído gradualmente) e o elemento de sintaxe AmbCoeffIdxTrasnsition é definido para 1, a unidade de extração 72 pode determinar que o coeficiente de HOA do ambiente correspondente deve ser aumentado gradualmente e define o elemento de sintaxe AmbCoeffTransitionState para um valor de 1.

[0143] Semelhante ao sinalizador AmbCoeffTransition, o elemento de sintaxe AmbCoeffIdxTransition pode representar um bit indicativo de uma transição de um coeficiente ambissônico de ordem superior de ambiente. Embora descrito como um bit, o elemento de sintaxe AmbCoeffIdxTransition pode, em alguns exemplos, incluir um ou mais bits. Novamente, o termo “bit” conforme usado no presente documento deve ser compreendido para se referir a um ou mais bits e não deve se limitar a apenas um único bit a menos que seja explicitamente indicado ao contrário.

[0144] Além do mais, o elemento de sintaxe AmbCoeffTransitionState[i] pode representar informações de estado de transição. As informações de estado de transição podem, dado que o elemento de sintaxe AmbCoeffTransitionState[i] é dois bits, indicam um de quatro estados. A tabela de tabela de sintaxe exemplificativa anteriormente mencionada indica que as informações de estado de transição indicam um dos três estados. Os três estados podem incluir um estado sem transição, um estado de aumento gradual e um estado de diminuição gradual. Novamente, embora descrito nesta revelação como incluindo dois bits para indicar um dos três estados, as informações de estado de transição podem ser um único quando as informações de estado de transição indicarem menos de três estados. Além do mais, as informações de estado de transição podem incluir mais de dois bits nos exemplos em que as informações de estado de transição indicam um dos cinco ou mais estados.

[0145] A unidade de extração 72 também pode operar de acordo com a declaração de comutação apresentada no pseudocódigo a seguir com a sintaxe apresentada na tabela de sintaxe a seguir para VVectorData:

[0146] Caso 0 no pseudocódigo anteriormente mencionado representa o pseudocódigo para recuperar todos os elementos do vetor V quando o modo de criptografia for selecionado. Caso 1 representa o pseudocódigo para recuperar o vetor V após ter sido reduzido da maneira descrita acima. Caso 1 ocorre quando tanto os coeficientes de NBG quanto de HOA do ambiente adicionais são enviados, o que resulta nos elementos correspondentes dos vetores V que não são enviados. Caso 2 representa o pseudocódigo para recuperar os vetores V quando os elementos do vetor V que correspondem aos coeficientes de HOA do ambiente adicionais são enviados (redundantemente), mas não os elementos do vetor V que correspondem aos coeficientes de HOA do ambiente de NBG.

[0147] O dispositivo de codificação de áudio 20 pode especificar o fluxo de bits 21 quando o dispositivo de decodificação de áudio 24 for configurado para operar de acordo com Caso 2. O dispositivo de codificação de áudio 20 pode sinalizar o Caso 2 mediante a seleção para sinalizar explicitamente os elementos de vetor V no fluxo de bits 21 durante uma transição de um coeficiente de HOA do ambiente. O dispositivo de codificação de áudio 20 pode eleger explicitamente enviar o elemento de vetor V redundante para permitir o aumento gradual e a diminuição gradual do elemento de vetor V com base na transição do coeficiente de HOA do ambiente, conforme discutido em mais detalhes abaixo em relação à Figura 8.

[0148] O dispositivo de codificação de áudio 20 pode selecionar o Caso 1 quando elege configurar o decodificador 24 para realizar uma antecipação para recuperar os elementos de vetor V de um quadro subsequente a tempo (ou um atrasamento para recuperar os elementos de vetor V de um quadro anterior a tempo). Em outras palavras, a unidade de extração 72 do dispositivo de decodificação de áudio 24 pode ser configurada para realizar o Caso 1 quando o dispositivo de codificação de áudio 20 eleger não enviar o elemento de vetor V redundante e, ao invés disso, pode configurar a unidade de extração 72 do dispositivo de decodificação de áudio 24 para realizar as operações de antecipação ou atrasamento para reutilizar um elemento de vetor V de um quadro diferente. O dispositivo de decodificação de áudio 24 pode, então, realizar a operação de aumento gradual/diminuição gradual com o uso do elemento de vetor V implicitamente sinalizado (que pode se referir ao elemento de vetor V reutilizado de um quadro anterior ou subsequente).

[0149] A unidade de configuração de modo 756 pode selecionar um dentre os modos 760 que configura o modo adequado pelo qual se analisa o fluxo de bits 21 para recuperar os vetores de primeiro plano criptografados V[k] 57. A unidade de configuração de modo 756 pode configurar a unidade de análise 758 com aquele selecionado dos modos 760, que pode, então, analisar o fluxo de bits 21 para recuperar o vetor de primeiro plano criptografado V[k] 57. A unidade de análise 758 pode, então, emitir os vetores de primeiro plano criptografados V[k] 57. SINTAXE DE VVECTORDATA(I)

[0150] Após a declaração de comutação em CodedVVecLength, a decisão da possibilidade de realizar a desquantização uniforme pode ser controlada pelo elemento de sintaxe NbitsQ (ou, conforme denotado acima, o elemento de sintaxe nbits), que quando igual a 5, uma desquantização escalar de 8 bits uniforme é realizada. Em oposição, um valor de NbitsQ de 6 ou maior pode resultar na aplicação da decodificação de Huffman. O valor de cid referido acima pode ser igual a dois bits menos significativos do valor de NbitsQ. O modo de predição discutido acima é denotado como o PFlag na tabela de sintaxe acima, enquanto o HT info bit é denotado como o CbFlag na tabela de sintaxe acima. A sintaxe restante especifica como a decodificação ocorre de uma maneira substancialmente semelhante àquela descrita acima.

[0151] A unidade de reconstrução baseada em vetor 92 representa uma unidade configurada para realizar operações recíprocas àquelas descritas acima em relação à unidade de decomposição baseada em vetor 27 conforme retratado na Figura 3 de modo a reconstruir os coeficientes de HOA 11‘. A unidade de reconstrução baseada em vetor 92 pode incluir uma unidade de desquantização 74, uma unidade de interpolação espaço-temporal 76, uma unidade de formulação de primeiro plano 78, uma unidade de decodificação psicoacústica 80, uma unidade de desvanecimento 770 e uma unidade de formulação de coeficiente de HOA 82.

[0152] A unidade de desquantização 74 pode representar uma unidade configurada para operar de uma maneira recíproca à unidade de quantização 52 mostrada no exemplo da Figura 3, desquantizando os vetores de primeiro plano criptografados V[k] 57 para gerar vetores de primeiro plano reduzidos V[k] 55k. A unidade de desquantização 74 pode, em alguns exemplos, realizar uma forma de decodificação por entropia e desquantização escalar de uma maneira recíproca àquela descrita acima em relação à unidade de quantização 52. A unidade de desquantização 74 pode encaminhar os vetores de primeiro plano reduzidos V[k] 55k para a unidade de interpolação espaço-temporal 76.

[0153] A unidade de decodificação psicoacústica 80 pode operar de uma maneira recíproca à unidade de criptógrafo de áudio psicoacústico 40 mostrada no exemplo da Figura 3 para decodificar os coeficientes de HOA do ambiente codificados 59 e os sinais de nFG codificados 61 e, desse modo, gera coeficientes de HOA do ambiente com energia compensada 47’ e os sinais de nFG interpolados 49’ (que também podem ser referidos como objetos de áudio de nFG interpolados 49’). A unidade de decodificação psicoacústica 80 pode passar os coeficientes de HOA do ambiente com energia compensada 47’ para a unidade de desvanecimento 770 e os sinais de nFG 49’ para a unidade de formulação de primeiro plano 78.

[0154] A unidade de interpolação espaço- temporal 76 pode operar de uma maneira semelhante à descrita acima em relação à unidade de interpolação espaço- temporal 50. A unidade de interpolação espaço-temporal 76 pode receber os vetores de primeiro plano reduzidos V[k] 55k e realizar a interpolação espaço-temporal em relação aos vetores de primeiro plano V[k] 55k e aos vetores de primeiro plano reduzidos V[k-1] 55k-1 para gerar vetores de primeiro plano V[k] interpolados 55k. A unidade de interpolação espaço-temporal 76 pode encaminhar os vetores de primeiro plano V[k] interpolados 55k para a unidade de desvanecimento 770.

[0155] A unidade de extração 72 também pode emitir um sinal 757 indicativo de quando um dos coeficientes de HOA do ambiente está em transição para a unidade de desvanecimento 770, que pode, então, determinar qual do SHCBG 47’ (em que o SHCBG 47’ também pode ser denotado como “canais de HOA do ambiente 47”‘ ou “coeficientes de HOA do ambiente 47’’’) e os elementos dos vetores de primeiro plano V[k] interpolados 55k” devem ser aumentados ou diminuídos gradualmente. Em alguns exemplos, a unidade de desvanecimento 770 pode operar oposta em relação a cada um dos coeficientes de HOA do ambiente 47’ e dos elementos dos vetores de primeiro plano V[k] interpolados 55k”. Ou seja, a unidade de desvanecimento 770 pode realizar um aumento gradual ou uma diminuição gradual, ou tanto um aumento gradual quanto uma diminuição gradual em relação ao coeficiente correspondente dos coeficientes de HOA do ambiente 47’, enquanto realiza um aumento gradual ou uma diminuição gradual ou tanto um aumento gradual quanto uma diminuição gradual, em relação ao elemento correspondente dos elementos dos vetores de primeiro plano V[k] interpolados 55k”. A unidade de desvanecimento 770 pode emitir coeficientes de HOA do ambiente ajustados 47” para a unidade de formulação de coeficiente de HOA 82 e vetores de primeiro plano ajustados V[k] 55k’’’ para a unidade de formulação de primeiro plano 78. Nesse sentido, a unidade de desvanecimento 770 representa uma unidade configurada para realizar uma operação de desvanecimento em relação aos vários aspectos dos coeficientes de HOA ou derivados dos mesmos, por exemplo, na forma dos coeficientes de HOA do ambiente 47’ e dos elementos dos vetores de primeiro plano V[k] interpolados 55k”.

[0156] Em outras palavras, o elemento VVec associado a um coeficiente de HOA adicionalmente transmitido pode não ter que ser transmitido. Para os quadros em que um coeficiente de HOA adicional é transicional (o que significa aumentado ou diminuído gradualmente), o elemento VVec é transmitido para impedir furos de energia no campo sonoro de HOA reconstruído.

[0157] Nesses e em outros exemplos, o dispositivo de decodificação de áudio 24 pode, quando se determina quando um coeficiente ambissônico de ordem superior de ambiente (como coeficiente ambissônico de ordem superior de ambiente 47’) está em transição, obter um sinalizador AmbCoeffTransition a partir de um fluxo de bits (como o fluxo de bits 21 no exemplo da Figura 4) que também inclui o coeficiente ambissônico de ordem superior de ambiente 47’. O sinalizador AmbCoeffTransition indica que o coeficiente ambissônico de ordem superior está em transição.

[0158] Nesse e em outros exemplos, o dispositivo de decodificação de áudio 24 pode, quando se determina quando o coeficiente ambissônico de ordem superior de ambiente 47’ estiver em transição, determinar que o coeficiente ambissônico de ordem superior de ambiente 47’ não é usado para descrever o componente do ambiente do campo sonoro. Em resposta à determinação de que o coeficiente ambissônico de ordem superior de ambiente 47’ não é usado, o dispositivo de decodificação de áudio 24 pode obter um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que inclui um elemento de um vetor que corresponde ao coeficiente ambissônico de ordem superior de ambiente 47’. O vetor pode se referir a um dos vetores de primeiro plano reduzidos V[k] 55k”, e desse modo pode ser referido como o vetor 55k”. O vetor 55k” pode descrever aspectos espaciais de um componente distinto do campo sonoro e pode ter sido decomposto de coeficientes ambissônicos de ordem maior 11 descritivos do campo sonoro. O dispositivo de decodificação de áudio 24 pode realizar adicionalmente uma operação de aumento gradual em relação ao elemento do vetor 55k” que corresponde ao coeficiente ambissônico de ordem superior de ambiente 47’ para o aumento gradual do elemento do vetor. O dispositivo de decodificação de áudio 24 pode realizar a operação de aumento gradual para adicionar o elemento do vetor 55k” ao aumentar linearmente um ganho do elemento do vetor 55k” durante o quadro, conforme descrito em mais detalhes em relação ao exemplo da Figura 8.

[0159] Nesse e em outros exemplos, o dispositivo de decodificação de áudio 24 pode, quando se determina quando o coeficiente ambissônico de ordem superior de ambiente 47’ estiver em transição, determinar que o coeficiente ambissônico de ordem superior de ambiente 47’ não é usado para descrever o componente do ambiente do campo sonoro. Em resposta à determinação de que os coeficientes ambissônicos de ordem superior de ambiente não são usados, o dispositivo de decodificação de áudio 24 pode obter um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que inclui um elemento de um vetor 55k” que corresponde ao coeficiente ambissônico de ordem superior de ambiente 47’. O vetor 55k” pode, conforme verificado acima, descreve aspectos espaciais de um componente distinto do campo sonoro e que foi decomposto de coeficientes ambissônicos de ordem maior 11 descritivos do campo sonoro. O dispositivo de decodificação de áudio 24 também pode realizar uma operação de aumento gradual em relação ao elemento do vetor 55k” que corresponde ao coeficiente ambissônico de ordem superior de ambiente 47’ para o aumento gradual do elemento do vetor55k”. O dispositivo de decodificação de áudio 24 pode realizar adicionalmente uma operação de diminuição gradual em relação ao coeficiente ambissônico de ordem superior de ambiente 47’ para a diminuição gradual do coeficiente ambissônico de ordem superior de ambiente 47’.

[0160] Nesse e em outros exemplos, o dispositivo de decodificação de áudio 24 pode, quando se determina quando o coeficiente ambissônico de ordem superior de ambiente estiver em transição, determinar que o coeficiente ambissônico de ordem superior de ambiente 47’ é usado para descrever o componente do ambiente do campo sonoro. Em resposta à determinação de que o coeficiente ambissônico de ordem superior de ambiente deve ser usado, o dispositivo de decodificação de áudio 24 pode obter um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que inclui um elemento de um vetor 55k que corresponde ao coeficiente ambissônico de ordem superior de ambiente 47’. Novamente, o vetor 55k” pode descrever aspectos espaciais de um componente distinto do campo sonoro e que foi decomposto de coeficientes ambissônicos de ordem maior 11 descritivos do campo sonoro. O dispositivo de decodificação de áudio 24 pode realizar uma operação de diminuição gradual em relação ao elemento do vetor 55k” que corresponde ao coeficiente ambissônico de ordem superior de ambiente 47’ para a diminuição gradual do elemento do vetor.

[0161] Nesse e em outros exemplos, o dispositivo de codificação de áudio 24 pode, quando se determina quando o coeficiente ambissônico de ordem superior de ambiente 47’ estiver em transição, determinar que o coeficiente ambissônico de ordem superior de ambiente 47’ é usado para descrever o componente do ambiente do campo sonoro. Em resposta à determinação de que o coeficiente ambissônico de ordem superior de ambiente 47’ é usado, o dispositivo de decodificação de áudio 24 pode obter um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que inclui um elemento de um vetor 55k que corresponde ao coeficiente ambissônico de ordem superior de ambiente. O vetor 55k” pode, também, descrever aspectos espaciais de um componente distinto do campo sonoro e que foi decomposto de coeficientes ambissônicos de ordem maior descritivos do campo sonoro. O dispositivo de decodificação de áudio 24 também pode realizar uma operação de diminuição gradual em relação ao elemento do vetor 55k” que corresponde ao coeficiente ambissônico de ordem superior de ambiente 47’ para a diminuição gradual do elemento do vetor 55k. O dispositivo de decodificação de áudio 24 pode realizar adicionalmente uma operação de aumento gradual em relação ao canal ambissônico de ordem superior de ambiente 47’ para o aumento gradual do canal ambissônico de ordem superior de ambiente 47’.

[0162] Nesses e em outros exemplos, o dispositivo de decodificação de áudio 24 pode, quando se obtém o sinal baseado em vetor que inclui o elemento do vetor 55k” que corresponde ao coeficiente ambissônico de ordem superior de ambiente 47’, determinar o elemento do vetor 55k” a partir do quadro atual, um quadro subsequente ao quadro atual, ou um quadro anterior ao quadro atual em que a operação de desvanecimento em relação ao elemento do vetor 55k” é realizada.

[0163] Nesses e em outros exemplos, o dispositivo de decodificação de áudio 24 pode obter um objeto de áudio que corresponde ao vetor 55A”, e gerar um objeto de áudio espacialmente ajustado em função do objeto de áudio e do vetor 55k”. O objeto de áudio pode se referir a um dos objetos de áudio 49’, que também pode ser referido como os sinais de nFG interpolados 49’.

[0164] A unidade de formulação de primeiro plano 78 pode representar uma unidade configurada para realizar a multiplicação de matriz em relação aos vetores de primeiro plano ajustados Y[k] 55A”‘ e os sinais de nFG interpolados 49’ para gerar os coeficientes de HOA de primeiro plano 65. A unidade de formulação de primeiro plano 78 pode realizar uma multiplicação de matriz dos sinais de nFG interpolados 49’ pelos vetores de primeiro plano ajustados Y[k] 55k’’’.

[0165] A unidade de formulação de coeficiente de HOA 82 pode representar uma unidade configurada para combinar o coeficiente de HOA de primeiro plano 65 para os coeficientes de HOA do ambiente ajustados 47” para obter os coeficientes de HOA 11‘, em que a plica reflete que os coeficientes de HOA 11’ podem ser semelhantes, mas não os mesmos que os coeficientes de HOA 11. As diferenças entre os coeficientes de HOA 11 e 11’ podem resultar da perda devido à transmissão através de um meio de transmissão com perda, operação de quantização ou outras operações com perda.

[0166] A Figura 5A é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio, como o dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 3, na realização de vários aspectos das técnicas de síntese baseada em vetor descritas nesta revelação. Inicialmente, o dispositivo de codificação de áudio 20 recebe os coeficientes de HOA 11 (106). O dispositivo de codificação de áudio 20 pode invocar a unidade de LIT 30, que pode aplicar uma LIT em relação ao coeficiente de HOA para emitir coeficientes de HOA transformados (por exemplo, no caso de SVD, os coeficientes de HOA transformados pode compreender os vetores US[k] 33 e os vetores V[k] 35) (107).

[0167] O dispositivo de codificação de áudio 20 pode, em seguida, invocar a unidade de cálculo de parâmetro 32 para realizar a análise descrita acima em relação a qualquer combinação dos vetores US[k] 33, vetores US[k-1] 33, os vetores V[k] e/ou V[k-1] 35 para identificar vários parâmetros da maneira descrita acima. Ou seja, a unidade de cálculo de parâmetro 32 pode determinar pelo menos um parâmetro com base em uma análise dos coeficientes de HOA transformados 33/35 (108).

[0168] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de reordenamento 34, que pode reordenar os coeficientes de HOA transformados (que, novamente no contexto de SVD, pode se referir aos vetores US[k] 33 e aos vetores V[k] 35) com base no parâmetro para gerar coeficientes de HOA transformados reordenados 33/35’ (ou, em outras palavras, os vetores US[k] 33’ e os vetores V[k] 35’), conformem descrito acima (109). O dispositivo de codificação de áudio 20 pode, durante qualquer uma das operações anteriores ou operações subsequentes, também invocar a unidade de análise de campo sonoro 44. A unidade de análise de campo sonoro 44 pode, conforme descrito acima, realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11 e/ou aos coeficientes de HOA transformados 33/35 para determinar o número total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de plano de fundo (NBG) e o número (nBGa) e índices (i) de canais de HOA de BG adicionais para enviar (que podem coletivamente ser denotados como informações de canal de plano de fundo 43 no exemplo da Figura 3) (109).

[0169] O dispositivo de codificação de áudio 20 também pode invocar a unidade de seleção de plano de fundo 48. A unidade de seleção de plano de fundo 48 pode determinar coeficientes de HOA de plano de fundo ou do ambiente 47 com base nas informações de canal de plano de fundo 43 (110). O dispositivo de codificação de áudio 20 pode adicionalmente invocar a unidade de seleção de primeiro plano 36, que pode selecionar os vetores US[k] reordenados 33’ e os vetores V[k] reordenados 35’ que representam componentes de primeiro plano ou distintos do campo sonoro com base no nFG 45 (que pode representar um ou mais índices que identificam os vetores de primeiro plano) (112).

[0170] O dispositivo de codificação de áudio 20 pode invocar a unidade de compensação de energia 38. A unidade de compensação de energia 38 pode realizar a compensação de energia em relação aos coeficientes de HOA do ambiente 47 para compensar a perda de energia devido à remoção de vários coeficientes dos coeficientes de HOA pela unidade de seleção de plano de fundo 48 (114) e, desse modo, gerar coeficientes de HOA do ambiente com energia compensada 47’.

[0171] O dispositivo de codificação de áudio 20 também pode invocar a unidade de interpolação espaço- temporal 50. A unidade de interpolação espaço-temporal 50 pode realizar a interpolação espaço-temporal em relação aos coeficientes de HOA transformados reordenados 33735’ para obter os sinais de primeiro plano interpolados 49’ (que também podem ser referidos como os “sinais de nFG interpolados 49”‘) e as informações direcionais de primeiro plano restantes 53 (que também podem ser referidas como os “vetores Y[k] 53”) (116). O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de redução de coeficiente 46. A unidade de redução de coeficiente 46 pode realizar a redução de coeficiente em relação aos vetores de primeiro plano restantes V[k] 53 com base nas informações de canal de plano de fundo 43 para obter informações direcionais de primeiro plano reduzidas 55 (que também podem ser referidas como os vetores de primeiro plano reduzidos V[k] 55) (118).

[0172] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de quantização 52 para compactar, da maneira descrita acima, os vetores de primeiro plano reduzidos V[k] 55 e gerar vetores de primeiro plano criptografados V[k] 57 (120).

[0173] O dispositivo de codificação de áudio 20 também pode invocar a unidade de criptógrafo de áudio psicoacústico 40. A unidade de criptógrafo de áudio psicoacústico 40 pode criptografar de modo psicoacústico cada vetor dos coeficientes de HOA do ambiente com energia compensada 47’ e os sinais de nFG interpolados 49’ para gerar coeficientes de HOA do ambiente codificados 59 e sinais de nFG codificados 61. O dispositivo de codificação de áudio pode, então, invocar a unidade de geração de fluxo de bits 42. A unidade de geração de fluxo de bits 42 pode gerar o fluxo de bits 21 com base nas informações direcionais de primeiro plano criptografadas 57, os coeficientes de HOA do ambiente criptografados 59, os sinais de nFG criptografados 61 e as informações de canal de plano de fundo 43.

[0174] A Figura 5B é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio no desempenho das técnicas de transição descritas nesta revelação. O dispositivo de codificação de áudio 20 pode representar um exemplo de um dispositivo de codificação de áudio configurado para realizar as técnicas de transição descritas nesta revelação. Em particular, a unidade de geração de fluxo de bits 42 pode manter as informações de estado de transição (conforme descrito em mais detalhes abaixo em relação à Figura 8) para cada coeficiente de HOA do ambiente (que inclui os coeficientes de HOA do ambiente adicionais). As informações de estado de transição podem indicar se cada um dos coeficientes de HOA do ambiente estão atualmente em um dos três estados. Os três estados podem incluir um estado de aumento gradual, um estado sem mudança e um estado de diminuição gradual. A manutenção das informações de estado de transição pode possibilitar que a unidade de geração de fluxo de bits 42 reduza a sobrecarga nesses um ou mais elementos de sintaxe possa ser derivada com base nas informações de estado de transição mantidas no dispositivo de decodificação de áudio 24.

[0175] A unidade de geração de fluxo de bits 42 pode adicionalmente determinar quando um dos coeficientes de HOA do ambiente especificados em um dos canais de transporte (como aqueles discutidos abaixo em relação às Figuras 7D e 7E) estiver em transição (302). A unidade de geração de fluxo de bits 42 pode determinar quando o coeficiente de HOA estiver em transição com base no nFG 45 e nas informações de canal de plano de fundo 43. A unidade de geração de fluxo de bits 42 pode atualizar informações de estado de transição para um dos coeficientes de HOA determinado para estarem em transição (304). Com base nas informações de estado de transição atualizadas, a unidade de geração de fluxo de bits 42 pode obter um bit indicativo de quando o coeficiente de HOA do ambiente está em transição (306). A unidade de geração de fluxo de bits 42 pode produzir o fluxo de bits 21 para incluir o bit indicativo de quando um dos coeficientes de HOA estiver em transição (308).

[0176] Embora descrito como sendo realizado pela unidade de geração de fluxo de bits 42, as técnicas anteriormente mencionadas podem ser realizadas por qualquer combinação de unidades 44, 48, 46 e 42. Por exemplo, a unidade de análise de campo sonoro 44 pode manter as informações de estado de transição para cada um dos coeficientes de HOA do ambiente com base nas informações de canal de plano de fundo 43. A unidade de análise de campo sonoro 44 pode obter o bit indicativo da transição com base nas informações de estado de transição e fornecer esse bit para a unidade de geração de fluxo de bits 42. A unidade de geração de fluxo de bits 42 pode, então, produzir o fluxo de bits 21 para incluir o bit indicativo da transição.

[0177] Como um outro exemplo, a unidade de seleção de plano de fundo 48 pode manter as informações de estado de transição com base nas informações de canal de plano de fundo 43 e obter o bit indicativo da transição com base nas informações de estado de transição. A unidade de geração de fluxo de bits 42 pode obter o bit indicativo da transição da unidade de seleção de plano de fundo 48 e produzir o fluxo de bits 21 para incluir o bit indicativo da transição.

[0178] Como ainda um outro exemplo, a unidade de redução de coeficiente 46 pode manter as informações de estado de transição com base nas informações de canal de plano de fundo 43 e obter o bit indicativo da transição com base nas informações de estado de transição. A unidade de geração de fluxo de bits 42 pode obter o bit indicativo da transição da unidade de redução de coeficiente 46 e produzir o fluxo de bits 21 para incluir o bit indicativo da transição.

[0179] A Figura 6A é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado na Figura 4, na realização de vários aspectos das técnicas descritas nesta revelação. Inicialmente, o dispositivo de decodificação de áudio 24 pode receber o fluxo de bits 21 (130). No recebimento do fluxo de bits, o dispositivo de decodificação de áudio 24 pode invocar a unidade de extração 72. Supondo-se, para fins de discussão, que o fluxo de bits 21 indica que a reconstrução baseada em vetor deve ser realizada, a unidade de extração 72 pode analisar o fluxo de bits para recuperar as informações notadas acima, passando as informações para a unidade de reconstrução baseada em vetor 92.

[0180] Em outras palavras, a unidade de extração 72 pode extrair as informações direcionais de primeiro plano criptografadas 57 (que, novamente, também pode ser referida como os vetores de primeiro plano criptografados V[k] 57), os coeficientes de HOA do ambiente criptografados 59 e os sinais de primeiro plano criptografados (que também podem ser referidos como os sinais de nFG de primeiro plano criptografados 59 ou os objetos de áudio de primeiro plano criptografados 59) a partir do fluxo de bits 21 da maneira descrita acima (132).

[0181] O dispositivo de decodificação de áudio 24 pode adicionalmente invocar a unidade de desquantização 74. A unidade de desquantização 74 pode decodificar por entropia e desquantiza as informações direcionais de primeiro plano criptografadas 57 para obter informações direcionais de primeiro plano reduzidas 55k (136). O dispositivo de decodificação de áudio 24 também pode invocar a unidade de decodificação psicoacústico 80. A unidade de decodificação de áudio psicoacústico 80 pode decodificar os coeficientes de HOA do ambiente codificados 59 e os sinais de primeiro plano codificados 61 para obter coeficientes de HOA do ambiente com energia compensada 47’ e os sinais de primeiro plano interpolados 49’ (138). A unidade de decodificação psicoacústica 80 pode passar os coeficientes de HOA do ambiente com energia compensada 47’ para a unidade de desvanecimento 770 e os sinais de nFG 49’ para a unidade de formulação de primeiro plano 78.

[0182] O dispositivo de decodificação de áudio 24 pode, em seguida, invocar a unidade de interpolação espaço-temporal 76. A unidade de interpolação espaço- temporal 76 pode receber as informações direcionais de primeiro plano reordenadas 55k’ e pode realizar a interpolação espaço-temporal em relação às informações direcionais de primeiro plano reduzidas 55k/55k-1 para gerar as informações direcionais de primeiro plano interpoladas 55k” (140). A unidade de interpolação espaço-temporal 76 pode encaminhar os vetores de primeiro plano V[k] interpolados 55A” para a unidade de desvanecimento 770.

[0183] O dispositivo de decodificação de áudio 24 pode invocar a unidade de desvanecimento 770. A unidade de desvanecimento 770 pode receber ou, de outro modo, obter elementos de sintaxe (por exemplo, a partir da unidade de extração 72) indicativos de quando os coeficientes de HOA do ambiente com energia compensada 47’ estiverem em transição (por exemplo, o elemento de sintaxe AmbCoeffTransition). A unidade de desvanecimento 770 pode, com base nos elementos de sintaxe de transição e nas informações de estado de transição mantidas, aumentar ou diminuir gradualmente os coeficientes de HOA do ambiente com energia compensada 47’ emitindo coeficientes de HOA do ambiente ajustados 47” para a unidade de formulação de coeficiente de HOA 82. A unidade de desvanecimento 770 também pode, com base nos elementos de sintaxe e nas informações de estado de transição mantidas, e diminuir ou aumentar gradualmente um ou mais elementos dos vetores de primeiro plano interpolados V[k] 55k” correspondentes emitindo os vetores de primeiro plano ajustados V[k] 55k’’’ para a unidade de formulação de primeiro plano 78 (142).

[0184] O dispositivo de decodificação de áudio 24 pode invocar a unidade de formulação de primeiro plano 78. A unidade de formulação de primeiro plano 78 pode realizar a multiplicação de matriz dos sinais de nFG 49’ pelas informações direcionais de primeiro plano ajustadas 55k’“ para obter os coeficientes de HOA de primeiro plano 65 (144). O dispositivo de decodificação de áudio 24 também pode invocar a unidade de formulação de coeficiente de HOA 82. A unidade de formulação de coeficiente de HOA 82 pode adicionar os coeficientes de HOA de primeiro plano 65 aos coeficientes de HOA do ambiente ajustados 47” para obter os coeficientes de HOA 11’ (146).

[0185] A Figura 6B é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio no desempenho das técnicas de transição descritas nesta revelação. O dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 4 pode representar um exemplo de um dispositivo de decodificação de áudio configurado para realizar as técnicas de transição descritas nesta revelação.

[0186] Em particular, a unidade de desvanecimento 770 pode obter um bit (na forma de indicação 757, em que a indicação 757 pode representar um elemento de sintaxe AmbCoeffTransition) indicativo de quando um dos coeficientes de HOA do ambiente 47’ está em transição (352). A unidade de desvanecimento 770 pode manter as informações de estado de transição descritas abaixo em mais detalhes em relação ao exemplo da Figura 8 com base no bit indicativo da transição (354). As informações de estado de transição podem indicar se cada um dos coeficientes de HOA do ambiente está atualmente em um dos três estados. Os três estados podem incluir um estado de aumento gradual, um estado sem mudança e um estado de diminuição gradual.

[0187] A unidade de desvanecimento 770 pode manter as informações de estado de transição através, pelo menos em parte, da atualização das informações de estado de transição com base na indicação 757 de que um dos coeficientes de HOA do ambiente 47’ está em transição. Por exemplo, a unidade de desvanecimento 770 pode manter as informações de estado de transição para um dos coeficientes de HOA do ambiente 47’ que indica que o um dos coeficientes de HOA do ambiente 47 está em um estado de transição sem mudança. Mediante a obtenção de uma indicação de que o um dos coeficientes de HOA do ambiente 47’ está em transição, a unidade de desvanecimento 770 pode atualizar as informações de estado de transição para o um dos coeficientes de HOA do ambiente 47’ para indicar que o um dos coeficientes de HOA do ambiente 47’ deve ser diminuído gradualmente. Como um outro exemplo, a unidade de desvanecimento 770 pode manter as informações de estado de transição para um dos coeficientes de HOA do ambiente 47 que indica que o um dos coeficientes de HOA do ambiente 47’ foi diminuído gradualmente. Mediante a obtenção de uma indicação de que o um dos coeficientes de HOA do ambiente 47’ está em transição, a unidade de desvanecimento 770 pode atualizar as informações de estado de transição para o um dos coeficientes de HOA do ambiente 47’ para indicar que o um dos coeficientes de HOA do ambiente 47’ deve ser aumentado gradualmente. A unidade de desvanecimento 770 pode, então, realizar a transição com base nas informações de estado de transição atualizadas da maneira descrita acima em relação à Figura 4 e abaixo em mais detalhes em relação à Figura 8 (356).

[0188] As Figuras 7A a 7J são diagramas que ilustram porções do fluxo de bits ou informações de canal auxiliar que podem especificar os componentes espaciais compactados em mais detalhes. No exemplo da Figura 7A, uma porção 250 inclui um campo de identificador de renderizador (“ID de renderizador”) 251 e um campo de HOADecoderConfig 252 (que também pode ser referido como um campo de HOAConfig 252). O campo de ID de renderizador 251 pode representar um campo que armazena um ID do renderizador que foi usado para a mixagem do conteúdo de HOA. O campo de HOADecoderConfig 252 pode representar um campo configurado para armazenar informações para inicializar o decodificador espacial de HOA, como o dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 4.

[0189] O campo de HOADecoderConfig 252 inclui adicionalmente um campo de informações direcionais (“info direcionais”) 253, um campo de CodedSpatialInterpolationTime 254, um campo de SpatialInterpolationmMethod 255, um campo de CodedVVecLength 256 e um campo de informações de ganho 257. O campo de informações direcionais 253 pode representar um campo que armazena informações para configurar um decodificador de síntese baseada em direção. O campo de CodedSpatialInterpolationTime 254 pode representar um campo que armazena um tempo da interpolação espaço-temporal dos sinais baseados em vetor. O campo de SpatialInterpolationmMethod 255 pode representar um campo que armazena uma indicação do tipo de interpolação aplicado durante a interpolação espaço-temporal dos sinais baseados em vetor. O campo de CodedVVecLength 256 pode representar um campo que armazena um comprimento do vetor de dados transmitidos usado para sintetizar os sinais baseados em vetor. O campo de informações de ganho 257 representa um campo que armazena informações indicativas de uma correção de ganho aplicada aos sinais.

[0190] No exemplo da Figura 7B, a porção 258A representa uma porção do canal de informações auxiliar, em que a porção 258A inclui um cabeçalho de quadro 259 que inclui o campo de número de bytes 260 e um campo de nbits 261. O campo de número de bytes 260 pode representar um campo para expressar o número de bytes incluído no quadro para especificar os componentes espaciais v1 a vn que incluem os zeros para o campo de alinhamento de byte 264. O campo de nbits 261 representa um campo que pode especificar o valor de nbits identificado para uso na descompactação dos componentes espaciais v1 a vn.

[0191] Conforme adicionalmente mostrado no exemplo da Figura 7B, a porção 258A pode incluir subfluxos de bits para v1 a vn, cada um dos quais inclui um campo de modo de predição 262, um campo de informações de Tabela de Huffman 263 e um componente correspondente dos componentes espaciais compactados v1 a vn. O campo de modo de predição 262 pode representar um campo para armazenar uma indicação da possibilidade de a predição ser realizada em relação ao componente correspondente dos componentes espaciais compactados v1 a vn. O campo de informações de Tabela de Huffman 263 representa um campo para indicar, pelo menos em parte, qual tabela de Huffman deve ser usada para decodificar vários aspectos do componente correspondente dos componentes espaciais compactados v1 a vn.

[0192] Nesse sentido, as técnicas podem possibilitar que o dispositivo de codificação de áudio 20 obtenha um fluxo de bits que compreende uma versão compactada de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado desempenhando-se uma síntese baseada em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.

[0193] A Figura 7C é um diagrama que ilustra uma porção 250 do fluxo de bits 21. A porção 250 mostrada no exemplo da Figura 7C, inclui um campo de HOAOrder (que não foi mostrado no exemplo da Figura 7A por questão de facilidade de fins ilustrativos), um campo de MinAmbHOAOrder (que novamente não foi mostrado no exemplo da Figura 7A por questão de facilidade de fins ilustrativos), o campo de informações direcionais 253, o campo de CodedSpatialInterpolationTime 254, o campo de SpatialInterpolationmMethod 255, o campo de CodedVVecLength 256 e o campo de informações de ganho 257. Conforme mostrado no exemplo da Figura 7C, o campo de CodedSpatialInterpolationTime 254 pode compreender um campo de três bits, o campo de SpatialInterpolationmMethod 255 pode compreender um campo de um bit e o campo de CodedVVecLength 256 pode compreender um campo de dois bits. A Figura 7D é um diagrama que ilustra quadros 249Q e 249R exemplificativos especificados de acordo com vários aspectos das técnicas descritas nesta revelação. Conforme mostrado no exemplo da Figura 7D, o quadro 249Q inclui campos de ChannelSideInfoData (CSID) 154A a 154D, campos de HOAGainCorrectionData (HOAGCD), campos de VVectorData 156A e 156B e campos de HOAPredictionInfo. O campo de CSID 154A inclui um elemento de sintaxe unitC (“unitC”) 267, um elemento de sintaxe bb (“bb”) 266 e um elemento de sintaxe ba (“ba”) 265 juntamente com um elemento de sintaxe ChannelType (“ChannelType”) 269, cada um dos quais é definido para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 7D. O campo de CSID 154B inclui a unitC 267, bb 266 e ba 265 juntamente com o ChannelType 269, em que cada um dos quais é ajustado para os valores correspondente 01, 1, 0 e 01 mostrados no exemplo da Figura 7D. Cada um dos campos de CSID 154C e 154D inclui o campo ChannelType 269 que tem um valor de 3 (112). Cada um dos campos de CSID 154A a 154D corresponde ao respectivo canal dos canais de transporte 1, 2, 3 e 4. Em efeito, cada campo de CSID 154A a 154D indica se uma carga útil correspondente são os sinais baseados em direção (quando o ChannelType correspondente for igual a zero), sinais baseados em vetor (quando o ChannelType correspondente for igual a um), um coeficiente de HOA do Ambiente adicional (quando o ChannelType correspondente for igual a dois), ou vazio (quando o ChannelType for igual a três).

[0194] No exemplo da Figura 7D, o quadro 249Q inclui dois sinais baseados em vetor (devido ao ChannelType 269 igual a 1 nos campos de CSID 154A e 154B) e dois vazios (devido ao ChannelType 269 igual a 3 nos campos de CSID 154C e 154D). Dada a porção de HOAconfig 250 anteriormente mencionada, o dispositivo de decodificação de áudio 24 pode determinar que todos os 16 elementos de vetor V são codificados. Consequentemente, o VVectorData 156A e 156B inclui, cada um, todos os 16 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. O número e os índices de elementos VVectorData criptografados são especificados pelo parâmetro CodedVVecLength=0. Além disso, o esquema de criptografia é sinalizado por NbitsQ = 5 no campo de CSID para o canal de transporte correspondente.

[0195] Os quadros 249Q e 249R também incluem um sinalizador de independência de HOA (“hoaIndependencyFlag”) 860. O sinalizador de independência de HOA 860 representa um campo que especifica se o quadro é um quadro de reprodução imediata. Quando o valor do campo 860 for definido para um, os quadros 249Q e/ou 249R podem ser independentemente decodificáveis sem referência aos outros quadros (significando, nenhuma predição pode ser necessária para decodificar o quadro). Quando o valor do campo 860 for definido para zero, os quadros 249Q e/ou 249R podem não ser independentemente decodificável (significando, que a predição de vários valores descritos acima pode ser predita a partir de outros quadros). Além do mais, conforme mostrado no exemplo da Figura 7D, o quadro 249Q não inclui um campo de HOAPredictionInfo. Dessa maneira, o campo de HOAPredictionInfo pode representar um campo adicional no fluxo de bits.

[0196] A Figura 7E é um diagrama que ilustra quadros 249S e 249T exemplificativos especificados de acordo com vários aspectos das técnicas descritas nesta revelação. O quadro 249S pode ser semelhante ao quadro 249Q, exceto que o quadro 249S pode representar um exemplo em que o sinalizador de independência de HOA 860 é definido para zero e a predição ocorre em relação à porção de unitC do elemento de sintaxe Nbits para o número de transporte 2 que é reutilizado do quadro anterior (supondo-se que seja 5 no exemplo da Figura 7E. O quadro 249T também pode ser semelhante ao quadro 249Q, exceto que o quadro 249T tem um valor de um para o sinalizador de independência de HOA 860. Nesse exemplo, supõe-se que a porção de unitC do valor Nbits Q possa ter sido reutilizado do quadro anterior como no exemplo do quadro 249S. No entanto, devido ao fato de que o sinalizador de independência de HOA (que também pode ser denotado como um elemento de sintaxe) é definido para um, o dispositivo de codificação de áudio 20 especifica todo o elemento de sintaxe Nbits 261 para o segundo canal de transporte para que o quadro 249S possa ser independentemente decodificado sem referência aos valores anteriores (por exemplo, a porção de unitC do campo de Nbits 261 do quadro anterior).

[0197] Também, devido ao sinalizador de independência de HOA ser definido para um (significando que o quadro 249T deve ser independentemente decodificável sem referência aos quadros anteriores), o dispositivo de codificação de áudio 20 pode não sinaliza o sinalizador de predição usado para a quantização escalar à medida que nenhuma predição é permitida para os quadros independentemente decodificáveis (que podem representar um outro modo de se referir aos “quadros de reprodução imediata” discutidos nesta revelação). Quando o elemento de sintaxe de sinalizador de independência de HOA 860 for definido para um, em outras palavras, o dispositivo de codificação de áudio 20 não precisa sinalizar o sinalizador de predição à medida que o dispositivo de decodificação de áudio 24 pode determinar, com base no valor do elemento de sintaxe de sinalizador de independência de HOA 860, que a predição para fins de quantização escalar foi desabilitada.

[0198] A Figura 7F é um diagrama que ilustra um segundo fluxo de bits exemplificativo 248K e porção de HOAconfig 250K anexa que foi gerada para corresponder ao caso 1 no pseudocódigo acima. No exemplo da Figura 7F, as porções de HOAconfig 250k incluem um elemento de sintaxe CodedVVecLength 256 definido para indicar que todos os elementos de um vetor V são criptografados, exceto os elementos 1 a um elemento de sintaxe de MinNumOfCoeffsForAmbHOA e os elementos especificados em um elemento de sintaxe ContAddAmbHoaChan (suposto como um nesse exemplo). A porção de HOAconfig 250K também inclui um elemento de sintaxe SpatialInterpolationmMethod 255 definido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno produzido. A porção de HOAconfig 250K inclui, além do mais, um CodedSpatialInterpolationTime 254 definido para indicar uma duração de amostra interpolada de 256.

[0199] A porção de HOAconfig 250k inclui adicionalmente um elemento de sintaxe MinAmbHOAorder 150 definido para indicar que a ordem de MinimumHOA do conteúdo de HOA do ambiente é um, em que o dispositivo de decodificação de áudio 24 pode derivar um elemento de sintaxe MinNumofCoeffsForAmbHOA para ser igual a (1+1)2 ou quatro. O dispositivo de decodificação de áudio 24 também pode derivar um elemento de sintaxe MaxNoOfAddActiveAmbCoeffs conforme definido para uma diferença entre o elemento de sintaxe NumOfHoaCoeff e o MmNumOfCoeffsForAmbHOA, que é suposto, nesse exemplo, como igual a 16-4 ou 12. O dispositivo de decodificação de áudio 24 também pode derivar um elemento de sintaxe AmbAsignmBits como definido para ceil(log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. A porção de HOAconfig 250K inclui um elemento de sintaxe HoaOrder 152 definido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.

[0200] Conforme adicionalmente mostrado no exemplo da Figura 7F, a porção 248K inclui um quadro de áudio USAC-3D no qual dois quadros de HOA 249G e 249H são armazenados em uma carga útil de extensão USAC dado que dois quadros de áudio são armazenados em um quadro USAC-3D quando a replicação de banda espectral (SBR) foi habilitada. O dispositivo de decodificação de áudio 24 pode derivar inúmeros canais de transporte flexíveis em função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MmNumOfCoeffsForAmbHOA. Nos exemplos a seguir, supõe-se que o elemento de sintaxe numHOATransportChannels seja igual a 7 e o elemento de sintaxe MmNumOfCoeffsForAmbHOA seja igual a quatro, em que os inúmeros canais de transporte flexíveis sejam iguais ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MmNumOfCoeffsForAmbHOA (ou três).

[0201] A Figura 7G é um diagrama que ilustra os quadros 249G e 249H em mais detalhes. Conforme mostrado no exemplo da Figura 7G, o quadro 249G inclui campos de CSID 154A a 154C e os campos de VVectorData 156. O campo de CSID 154 inclui o CodedAmbCoeffIdx 246, o AmbCoeffIdxTrasnsition 247 (em que o asterisco duplo (**) indica que, para o canal de transporte flexível n° 1, o estado interno do decodificador é, no presente documento, suposto como AmbCoeffIdxTrasnsitionState = 2, que resulta no campo de bits de CodedAmbCoeffIdx que é sinalizado ou, de outro modo, especificado no fluxo de bits), e o ChannelType 269 (que é igual a dois, sinalizando que a carga útil correspondente é um coeficiente de HOA do ambiente adicional). O dispositivo de decodificação de áudio 24 pode derivar o AmbCoeffIdx como igual ao CodedAmbCoeffIdx+1+MinNumOfCoeffsForAmbHOA ou 5 nesse exemplo. O campo de CSID 154B inclui unitC 267, bb 266 e ba265 juntamente com o ChannelType 269, em que cada um dos quais é ajustado para os valores correspondente 01, 1, 0 e 01 mostrados no exemplo da Figura 10K(ii). O campo de CSID 154C inclui o campo ChannelType 269 que tem um valor de 3.

[0202] No exemplo da Figura 7G, o quadro 249G inclui um único sinal baseado em vetor (devido ao ChannelType 269 igual a 1 no campo de CSID 154B) e um vazio (devido ao ChannelType 269 igual a 3 no campo de CSID 154C). Devido à porção de HOAconfig anterior 250k, o dispositivo de decodificação de áudio 24 pode determinar que os 11 elementos de vetor V são codificados (em que 12 é derivado como (HOAOrder + 1)2 -(MinNumOfCoeffsForAmbHOA) - (ContAddAmbHoaChan) = 16-4-1 = 11). Consequentemente, o VVectorData 156 inclui todos os 11 elementos de vetor, em que cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e os índices de elementos VVectorData criptografados são especificados pelo parâmetro codedVVecLength=0. Além disso, conforme verificado pela nota de rodapé 2, o esquema de criptografia é sinalizado por NbitsQ = 5 no campo de CSID para o canal de transporte correspondente.

[0203] No quadro 249H, o campo de CSID 154 inclui um AmbCoeffIdxTrasnsition 247 que indica que nenhuma transição ocorreu e, portanto, o CodedAmbCoeffIdx 246 pode ser implícito do quadro anterior e não precisa ser sinalizado ou especificado de outro modo novamente. Os campos de CSID 154B e 154C do quadro 249H são os mesmos que aqueles para o quadro 249G e, então, semelhante ao quadro 249G, o quadro 249H inclui um único campo VVectorData 156, que inclui 10 elementos de vetor, em que cada um dos mesmos é quantizado de modo uniforme com 8 bits. O dispositivo de codificação de áudio 20 apenas especifica 10 elementos de vetor devido ao fato de que o coeficiente de HOA do ambiente especificado no canal de transporte número um não está mais em transição e, como resultado, o número de ContAddAmbHoaChan é igual a dois. Dessa maneira, o dispositivo de codificação de áudio 20 determina que o número de elementos de vetor V para especificação s~~ao (HOAOrder + 1)2 - (MinNumOfCoeffsForAmbHOA) - (ContAddAmbHoaChan) = 16-4-2 = 10.

[0204] Embora o exemplo das Figuras 7F e 7G representem o fluxo de bits 21 construído de acordo com um dos modos criptografados par ao vetor V, vários outros exemplos do fluxo de bits 21 podem ser construídos de acordo com os outros modos de criptografia para o vetor V. Os exemplos adicionais são discutidos em maiores detalhes em relação à publicação verificada acima n° WO 2014/194099.

[0205] A Figura 7H é um diagrama que ilustra exemplo alternativo do quadro 249H em que o hoaIndependencyFlag é definido para um de acordo com vários aspectos das técnicas descritas nesta revelação. O quadro alternativo de 249H é denotada como o quadro 249H’. Quando o elemento de sintaxe 860 HOAIndependencyFlag é definido para um, o quadro 249H’ pode representar um quadro de reprodução imediata (IPF) conforme discutido em maiores detalhes abaixo. Como resultado, o dispositivo de codificação de áudio 20 pode especificar elementos de sintaxe adicionais em FIELD de CSID 154A e 154C. Os elementos de sintaxe adicionais podem fornecer informações de estado mantidas pelo dispositivo de decodificação de áudio 24 com base em elementos de sintaxe passados. No entanto, no contexto do IPF 249H’, o dispositivo de decodificação de áudio 24 pode não ter as informações de estado. Como resultado, o dispositivo de codificação de áudio 20 especifica o elemento de sintaxe AmbCoeffTransitionState 400 no FIELD de CSID 154A e 154C permite que o dispositivo de decodificação de áudio 24 entenda a que a transição atual é sinalizada por elemento de sintaxe AmbCoeffIdxTrasnsition 247 de cada de FIELD de CSID 154A e 154C.

[0206] A Figura 71 é um diagrama que ilustra quadros exemplificativos para um ou mais canais de pelo menos um fluxo de bits de acordo com as técnicas descritas no presente documento. O fluxo de bits 808 inclui quadros 810A a 810E que podem, cada um, incluir um ou mais canais e o fluxo de bits 808 pode representar qualquer combinação de fluxos de bits 21 modificados de acordo com técnicas descritas no presente documento a fim de incluir IPFs. Os quadros 810A a 810E podem ser incluídos dentro das respectivas unidades de acesso e pode, de modo alternativo, ser referidos como “unidades de acesso 810A a 810E”.

[0207] No exemplo ilustrado, um Quadro de Reprodução Imediata (IPF) 816 inclui quadro independente 810E, bem como informações de estado de quadros anteriores 810B, 810C, e 810D representadas no IPF 816 como informações de estado 812. Ou seja, as informações de estado 812 podem incluir estado mantido por uma máquina de estado 402 de processar quadros anteriores 810B, 810C e 810D representadas no IPF 816. As informações de estado 812 podem ser codificadas dentro do IPF 816 com o uso de uma extensão de carga útil dentro do fluxo de bits 808. As informações de estado 812 podem compensar o atraso de iniciação de decodificador para configurar de modo interno o estado de decodificador para possibilitar decodificação correta do quadro independente 810E. As informações de estado 812 podem, por essa razão, ser alternativa e coletivamente referidas como “pré-rolagem” para quadro independente 810E. Em vários exemplos, mais ou menos quadros podem ser usados pelo decodificador para compensar o atraso de iniciação de decodificador, que determina a quantidade das informações de estado 812 para um quadro. O quadro independente 810E é independente uma vez que os quadros 810E são decodificáveis de modo independente. Como resultado, o quadro 810E pode ser referido como “quadro decodificável de modo independente 810”. O quadro independente 810E pode, como resultado, constituir um ponto de acesso de fluxo para o fluxo de bits 808.

[0208] As informações de estado 812 podem incluir adicionalmente os elementos de sintaxe HOAconfig que podem ser enviados no início do fluxo de bits 808. As informações de estado 812 podem, por exemplo, descrever o fluxo de bits 808 taxa de bits ou outras informações usáveis para comutação de fluxo de bits ou adaptação de taxa de bits. Outro exemplo do que uma porção das informações de estado 814 pode incluir são os elementos de sintaxe HOAConfig mostrados no exemplo da Figura 7C. Nesse aspecto, o IPF 816 pode representar um quadro sem estado, que pode não de uma maneira de alto-falante ter qualquer memória do passado. O quadro independente 810E pode, em outras palavras, representar um quadro sem estado, que pode ser decodificado independentemente de qualquer estado anterior (como o estado é fornecido em termos das informações de estado 812).

[0209] O dispositivo de codificação de áudio 20 pode, mediante a seleção do quadro 810E para ser um quadro independente, realizar um processo de transição do quadro 810E de um quadro decodificável de modo dependente para um quadro decodificável de modo independente. O processo pode envolver especificar informações de estado 812 que incluem as informações de estado de transição no quadro, as informações de estado que possibilitam o fluxo de bits dos dados de áudio codificados do quadro a ser decodificado e reproduzido sem referência aos quadros anteriores do fluxo de bits.

[0210] Um decodificador, como o decodificador 24, pode acessar de modo aleatório o fluxo de bits 808 em IPF 816 e, mediante a decodificação das informações de estado 812 para inicializar os estados de decodificador e armazenamentos temporários (por exemplo, da máquina de estado de lado de decodificador 402), decodificar quadro independente 810E para emitir versão compactada dos coeficientes de HOA. Exemplos das informações de estado 812 podem incluir os elementos de sintaxe especificados na tabela a seguir: Elemento de sintaxe afetado pelohoaIndependency Flag Sintaxe descrita em Padrão Propósito NbitsQ Sintaxe de ChannelofInfoData Quantização de vetor V PFlag Sintaxe de ChannelofInfoData Criptografia de Huffman de vetor V AmbCoeffTransitionS tate Sintaxe de AddAmbHoalnfoChanne l Sinalização de HOA adicional GainCorrPrevAmpExp Sintaxe de HOAGainCorreetionDa ta Módulo de Compensação de Ganho Automático

[0211] O decodificador 24 pode analisar os elementos de sintaxe anteriores das informações de estado 812 para obter uma ou mais de informações de estado de quantização na forma de elemento de sintaxe NbitsQ, informações de estado de predição na forma do elemento de sintaxe PFlag e informações de estado de transição na forma do elemento de sintaxe AmbCoeffTransitionState. O decodificador 24 pode configurar a máquina de estado 402 com as informações de estado analisadas 812 para possibilitar que o quadro 810E seja decodificado de modo independente. O decodificador 24 pode continuar a decodificação regular de quadros, após a decodificação do quadro independente 810E.

[0212] De acordo com as técnicas descritas no presente documento, o dispositivo de codificação de áudio 20, pode ser configurado para gerar o quadro independente 810E de IPF 816 de modo diferente dos outros quadros 810 para permitir reprodução imediata em quadro independente 810E e/ou comutar entre representações de áudio do mesmo conteúdo que difere em taxa de bits e/ou possibilita ferramentas em quadro independente 810E. Mais especificamente, a unidade de geração de fluxo de bits 42 pode manter as informações de estado 812 com o uso da máquina de estado 402. A unidade de geração de fluxo de bits 42 pode gerar o quadro independente 810E para incluir informações de estado 812 usadas para configurar a máquina de estado 402 para um ou mais coeficientes de HOA de ambiente. A unidade de geração de fluxo de bits 42 pode adicional ou alternativamente gerar o quadro independente 810E para codificar de modo diferente as informações de quantização e/ou de predição a fim de, por exemplo, reduzir um tamanho de quadro relativo ao outro, quadros de não IPF do fluxo de bits 808. Novamente, a unidade de geração de fluxo de bits 42 pode manter o estado de quantização na forma da máquina de estado 402. Além disso, a unidade de geração de fluxo de bits 42 pode codificar cada quadro dos quadros 810A a 810E para incluir um sinalizador ou outro elemento de sintaxe que indica se o quadro é um IPF. O elemento de sintaxe pode ser referido em outro lugar nesta revelação como um IndependencyFlag ou um HOAIndependencyFlag.

[0213] Nesse aspecto, vários aspectos das técnicas podem possibilitar, como um exemplo, a unidade de geração de fluxo de bits 42 do dispositivo de codificação de áudio 20 para especificar, em um fluxo de bits (como o fluxo de bits 21) que inclui um coeficiente ambissônico de ordem maior (como um dos coeficientes ambissônicos de ordem superior de ambiente 47’, informações de transição 757 (como parte das informações de estado 812, por exemplo) para um quadro independente (como o quadro independente 810E no exemplo da Figura 71) para o coeficiente ambissônico de ordem maior 47’. O quadro independente 810E pode incluir informações de referência adicionais (que podem se referir às informações de estado 812) para possibilitar que o quadro independente seja decodificado e imediatamente reproduzido sem referência aos quadros anteriores (por exemplo, dos quadros 810A a 810D) do coeficiente ambissônico de ordem maior 47’. Embora descrito como sendo imediata ou instantaneamente reproduzido, o termo imediata ou instantaneamente se refere um quase imediatamente, de modo subsequente ou quase instantaneamente reproduzido e não se destina a se referir a definições literais de “imediatamente” ou “instantaneamente”. Além disso, o uso dos termos é para fins de adotar a linguagem usada durante todos os vários padrões, tanto atuais quanto emergentes.

[0214] Nesse e em outros exemplos, as informações de transição 757 especificam se o coeficiente ambissônico de ordem maior 47’ está diminuindo gradualmente. Conforme verificado acima, as informações de transição 757 podem identificar se o coeficiente ambissônico de ordem maior 47’ está diminuindo gradualmente ou aumentados gradualmente e como tal, se o coeficiente ambissônico de ordem maior 47’ for usado para representar vários aspectos do campo sonoro. Em algumas ocasiões, a unidade de geração de fluxo de bits 42 especifica as informações de transição 757 como vários elementos de sintaxe. Nesse e em outros exemplos, as informações de transição 757 compreendem um sinalizador AmbCoeffWasFadedIn ou um elemento de sintaxe AmbCoeffTransitionState para o coeficiente ambissônico de ordem maior 47’ para especificar se o coeficiente ambissônico de ordem maior 47’ deve ser diminuído gradualmente para uma transição. Nesse e em outros exemplos, as informações de transição especificam que o coeficiente ambissônico de ordem maior 47’ está em transição.

[0215] Nesse e em outros exemplos, as informações de transição 757 compreendem um sinalizador AmbCoeffIdxTransition para especificar que o coeficiente ambissônico de ordem maior 47’ está em transição.

[0216] Nesse e em outros exemplos, a unidade de geração de fluxo de bits 42 pode ser adicionalmente configurada para gerar um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que incluem um elemento de um vetor (como um dos vetores de primeiro plano reduzidos V[k] 55) que corresponde ao coeficiente ambissônico de ordem maior 47’. O vetor 55 pode descrever aspectos espaciais de um componente distinto do campo sonoro e pode ter sido decomposto de coeficientes ambissônicos de ordem maior 11 descritivos do campo sonoro, em que o quadro compreende o sinal baseado em vetor.

[0217] Nesse e em outros exemplos, a unidade de geração de fluxo de bits 42 pode ser adicionalmente configurada para emitir o quadro por meio de um protocolo de fluxo contínuo.

[0218] Vários aspectos das técnicas também podem, em alguns exemplos, possibilitar que a unidade de geração de fluxo de bits 42 especifique, em um fluxo de bits 21 que inclui um coeficiente ambissônico de ordem maior 47’, se um quadro para o coeficiente ambissônico de ordem maior 47’ for um quadro independente (por exemplo, mediante a especificação do elemento de sintaxe HOAIndependencyFlag) que inclui informações de referência adicionais (por exemplo, as informações de estado 812) para possibilitar que o quadro seja decodificado e imediatamente reproduzido sem referência aos quadros anteriores 810A a 810D do coeficiente ambissônico de ordem maior 47’. A unidade de geração de fluxo de bits 42 também pode especificar, no fluxo de bits 21 e apenas quando quadro não for um quadro independente, as informações predição (por exemplo, elemento de sintaxe PFlag) para o quadro para decodificar o quadro com referência a um quadro anterior do coeficiente ambissônico de ordem maior 47’.

[0219] Nesses e em outros exemplos, a unidade de geração de fluxo de bits 42 é adicionalmente configurada para especificar, no fluxo de bits 21 e quando o quadro é um quadro independente, as informações de quantização (por exemplo, o elemento de sintaxe NbitsQ) para o quadro suficiente para possibilitar que o quadro seja decodificado e imediatamente reproduzido sem referência às informações de quantização para quadros anteriores do coeficiente ambissônico de ordem maior 47’. A unidade de geração de fluxo de bits 42 também pode especificar, no fluxo de bits 21 e se o quadro não for um quadro independente, as informações de quantização para o quadro que não são suficientes para possibilitar que o quadro seja decodificado e imediatamente reproduzido sem referência às informações de quantização para quadros anteriores do coeficiente ambissônico de ordem maior 47’.

[0220] Nesse e em outros exemplos, as informações de quantização para o quadro incluem um elemento de sintaxe Nbits para o quadro suficiente para possibilitar que o quadro seja decodificado e imediatamente reproduzido sem referência às informações de quantização para quadros anteriores do canal ambissônico de ordem maior.

[0221] Nesse e em outros exemplos, a unidade de geração de fluxo de bits 42 é adicionalmente configurada para gerar um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que incluem um elemento de um vetor (como o vetor 55) que corresponde ao coeficiente ambissônico de ordem maior 47’, o vetor que descreve aspectos espaciais de um componente distinto do campo sonoro e que tem sido decomposto de coeficientes ambissônicos de ordem maior 11 descritivos do campo sonoro. O quadro, nesse exemplo, compreende o sinal baseado em vetor.

[0222] Nesse e em outros exemplos, a unidade de geração de fluxo de bits 42 é adicionalmente configurada para emitir o quadro por meio de um protocolo de fluxo contínuo.

[0223] Vários aspectos das técnicas também podem, em alguns exemplos, possibilitar que a unidade de geração de fluxo de bits 42 especifique, em um fluxo de bits 21 que inclui um coeficiente ambissônico de ordem maior 47’, que um quadro para o coeficiente ambissônico de ordem maior 47’ é um quadro independente que inclui informações de referência adicionais para possibilitar que o quadro seja decodificado e imediatamente reproduzido sem referência aos quadros anteriores do coeficiente ambissônico de ordem maior 47’.

[0224] Nesse e em outros exemplos, a unidade de geração de fluxo de bits 42 é configurada para, quando especifica-se que o quadro para o coeficiente ambissônico de ordem maior 47’ seja um quadro independente 810E, sinal, no fluxo de bits 21, um elemento de sintaxe IndependencyFlag que indica que o quadro é um quadro independente 810E.

[0225] Além disso, vários aspectos das técnicas podem possibilitar que o dispositivo de decodificação de áudio 24 seja configurado para obter, com o uso de um fluxo de bits 21 que inclui um coeficiente ambissônico de ordem maior 47, informações de transição (como as informações de transição 757 mostradas no exemplo da Figura 4) para um quadro independente para o coeficiente ambissônico de ordem maior 47’. O quadro independente pode incluir informações de estado 812 para possibilitar que o quadro independente seja decodificado e reproduzido sem referência aos quadros anteriores do coeficiente ambissônico de ordem maior 47’.

[0226] Nesse e em outros exemplos, as informações de transição 757 especificam se o coeficiente ambissônico de ordem maior 47’ deve estar diminuindo gradualmente para uma transição.

[0227] Nesse e em outros exemplos, as informações de transição 757 compreendem um sinalizador AmbCoeffWasFadedIn para o canal ultrassônico de ordem maior para especificar se o coeficiente ambissônico de ordem maior 47’ devem ser diminuídos gradualmente para uma transição.

[0228] Nesse e em outros exemplos, o dispositivo de decodificação de áudio 24 pode ser configurado para determinar as informações de transição 757 que especificam o coeficiente ambissônico de ordem maior 47’ que está sendo diminuído gradualmente para uma transição. O dispositivo de decodificação de áudio 24 também pode ser configurado para, em resposta à determinação de que as informações de transição 757 especificam que o coeficiente ambissônico de ordem maior 47’ está sendo diminuído gradualmente para uma transição, realiza uma operação de diminuição gradual em relação ao coeficiente ambissônico de ordem maior 47’.

[0229] Nesse e em outros exemplos, as informações de transição 757 especificam que o coeficiente ambissônico de ordem maior 47’ está em transição.

[0230] Nesse e em outros exemplos, as informações de transição 757 compreendem um sinalizador AmbCoeffTransition para especificar que o coeficiente ambissônico de ordem maior 47’ está em transição.

[0231] Nesse e em outros exemplos, o dispositivo de decodificação de áudio 24 pode ser configurado para obter um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que incluem um elemento de um vetor 55k” que corresponde ao coeficiente ambissônico de ordem maior 47’. O vetor 55k” pode, conforme verificado acima, descreve aspectos espaciais de um componente distinto do campo sonoro e pode ter sido decomposto de coeficientes ambissônicos de ordem maior 11 descritivos do campo sonoro. O dispositivo de decodificação de áudio 24 também pode ser configurado para determinar que as informações de transição 757 especificam que o coeficiente ambissônico de ordem maior 47’ está sendo diminuído gradualmente. O dispositivo de decodificação de áudio 24 também pode ser configurado para, em resposta à determinação de que as informações de transição 757 especificam que o coeficiente ambissônico de ordem maior 47 esteja diminuindo gradualmente para uma transição, realizar uma operação de diminuição gradual em relação ao elemento do vetor 55k” que corresponde ao canal ambissônico de ordem maior 47 para diminuição gradual do elemento do vetor 55i”;usmg do quadro ou um quadro subsequente para o coeficiente ambissônico de ordem maior 47’.

[0232] Nesse e em outros exemplos, o dispositivo de decodificação de áudio 24 pode ser configurado para emitir o quadro por meio de um protocolo de fluxo contínuo.

[0233] Vários aspectos das técnicas também podem possibilitar que o dispositivo de decodificação de áudio 24 seja configurado para determinar, com o uso de um fluxo de bits 21 que inclui um coeficiente ambissônico de ordem maior 47’, se um quadro para o coeficiente ambissônico de ordem maior 47’ está em um quadro independente que inclui informações de referência adicionais (por exemplo, as informações de estado 812) para possibilitar que o quadro seja decodificado e reproduzido em referência aos quadros anteriores 810A a 810D do coeficiente ambissônico de ordem maior 47’. O dispositivo de decodificação de áudio 24 também pode ser configurado para obter, a partir do fluxo de bits 21 e apenas em resposta à determinação do quadro não estar em um quadro independente, informações de predição (por exemplo, das informações de estado 812) para o quadro para decodificar o quadro com referência a um quadro anterior para o coeficiente ambissônico de ordem maior 47’.

[0234] Nesse e em outros exemplos, o dispositivo de decodificação de áudio 24 pode ser configurado para obter um sinal baseado em vetor representativo de um ou mais componentes distintos do campo sonoro que incluem um elemento de um vetor 55k” que corresponde ao coeficiente ambissônico de ordem maior 47’. O vetor 55k” pode descrever aspectos espaciais de um componente distinto do campo sonoro e pode ter sido decomposto de coeficientes ambissônicos de ordem maior 11 descritivos do campo sonoro. O dispositivo de decodificação de áudio 24 também pode ser configurado para decodificar o sinal baseado em vetor com o uso das informações de predição.

[0235] Nesse e em outros exemplos, o dispositivo de decodificação de áudio 24 pode ser configurado para obter, com o uso do fluxo de bits 21 e se o quadro for um quadro independente, informações de quantização (por exemplo, das informações de estado 812) para o quadro suficiente para possibilitar que o quadro seja decodificado e reproduzido sem referência às informações de quantização para quadros anteriores. O dispositivo de decodificação de áudio 24 também pode ser configurado para obter, com o uso do fluxo de bits 21 e se o quadro não for um quadro independente, as informações de quantização para o quadro que é insuficiente para possibilitar que o quadro seja decodificado e reproduzido sem referência às informações de quantização para quadros anteriores. O dispositivo de decodificação de áudio 24 também pode ser configurado para decodificar o quadro com o uso das informações de quantização.

[0236] Nesse e em outros exemplos, as informações de quantização para o quadro incluem um elemento de sintaxe Nbits para o quadro suficiente para possibilitar que o quadro seja decodificado e reproduzido sem referência às informações de quantização para quadros anteriores.

[0237] Nesse e em outros exemplos, o dispositivo de decodificação de áudio 24 pode ser configurado para emitir o quadro por meio de um protocolo de fluxo contínuo.

[0238] Vários aspectos das técnicas podem adicionalmente possibilitar que o dispositivo de decodificação de áudio 24 seja configurado para determinar, com o uso de um fluxo de bits 21 que inclui um coeficiente ambissônico de ordem maior 47’, que um quadro para o coeficiente ambissônico de ordem maior 47’ é um quadro independente que inclui informações de referência adicionais (por exemplo, as informações de estado 812) para possibilitar que o quadro seja decodificado e reproduzido sem referência aos quadros anteriores.

[0239] Nesse e em outros exemplos, quando determina que o quadro para o canal ambissônico de maior ordem é um quadro independente, o dispositivo de decodificação de áudio 24 pode obter, usando o fluxo de bits 21, um elemento de sintaxe IndependencyFlag que indica que p quadro é um quadro independente.

[0240] A Figura 7J é um diagrama que ilustra quadros exemplificativos para um ou mais canais de pelo menos um fluxo de bits de acordo com as técnicas descritas no presente documento. O fluxo de bits 450 inclui os quadros 810A a 810H que podem, cada um, incluir um ou mais canais. O fluxo de bits 450 pode representar qualquer combinação de fluxos de bits 21 mostrada nos exemplos das Figuras 7A a 7H. O fluxo de bits 450 pode ser substancialmente semelhante ao fluxo de bits 808 exceto pelo fato de que o fluxo de bits 450 não inclui IPFs. Como resultado, o dispositivo de decodificação de áudio 24 mantém as informações de estado, atualiza as informações de estado para determinar como decodificar o quadro atual k. O dispositivo de decodificação de áudio 24 pode utilizar as informações de estado da config 814 e dos quadros 810B a 810D. A diferença entre o quadro 810E e o IPF 816 é que o quadro 810E não inclui as informações de estado anteriormente citadas enquanto que o IFP 816 inclui as informações de estado anteriormente citadas.

[0241] Em outras palavras, o dispositivo de codificação de áudio 20 pode incluir, dentro da unidade de geração de fluxo de bits 42, por exemplo, a máquina de estado 402 que mantém as informações de estado para codificar cada um dos quadros 810A a 810E em que a unidade de geração de fluxo de bits 42 pode especificar elementos de sintaxe para cada um dos quadros 810A a 810E com base na máquina de estado 402.

[0242] O dispositivo de decodificação de áudio 24 pode, do mesmo modo, incluir, dentro da unidade de extração de fluxo de bits 72, por exemplo, uma máquina de estado 402 semelhante que emitem elementos de sintaxe (alguns dos quais não são explicitamente especificados no fluxo de bits 21) com base na máquina de estado 402. A máquina de estado 402 do dispositivo de decodificação de áudio 24 pode operar de uma maneira semelhante àquela da máquina de estado 402 do dispositivo de codificação de áudio 20. Como tal, a máquina de estado 402 do dispositivo de decodificação de áudio 24 pode manter informações de estado, atualizar as informações de estado com base na config 814 e, no exemplo da Figura 7J, a decodificação dos quadros 810B a 810D. Com base nas informações de estado, a unidade de extração de fluxo de bits 72 pode extrair o quadro 810E com base nas informações de estado mantidas pela máquina de estado 402. As informações de estado podem fornecer um número de elementos de sintaxe implícitos que o dispositivo de codificação de áudio 20 pode utilizar quando decodifica os vários canais de transporte do quadro 810E.

[0243] A Figura 8 é um diagrama que ilustra canais de áudio 800A a 800E para os quais um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 4, pode aplicar as técnicas descritas nesta revelação. Conforme mostrado no exemplo da Figura 8, o canal de plano de fundo 800A representa coeficientes de HOA do ambiente que são os quartos dos coeficientes de HOA possíveis (n + 1)2. Os canais de primeiro plano 800B e 800D representam um primeiro vetor V e um segundo vetor V, respectivamente. O canal de plano de fundo 800C representa coeficientes de HOA do ambiente que são os segundos dos coeficientes de HOA possíveis (n + 1)2. O canal de plano de fundo 800E representa coeficientes de HOA do ambiente que são os quintos dos coeficientes de HOA possíveis (n + 1)2.

[0244] Conforme adicionalmente mostrado no exemplo da Figura 8, o coeficiente de HOA do ambiente 4 no canal de plano de fundo 800A se submete a um período de transição (diminuição gradual) durante o quadro 13 enquanto os elementos de um vetor no canal de primeiro plano 800D aumentam gradualmente durante o quadro 14 para substituir o coeficiente de HOA do ambiente 4 no canal de plano de fundo 800A durante a decodificação do fluxo de bits. A referência ao termo “substituir” no contexto de um dos canais 800A a 800E que substitui outro um dos canais 800A a 800E se refere ao exemplo em que o dispositivo de codificação de áudio 20 gera o fluxo de bits 21 para ter canais de transporte flexíveis.

[0245] Para ilustrar, cada uma das três fileiras na Figura 8 pode representar um canal de transporte. Cada um dos canais de transporte pode ser referido como um canal de plano de fundo ou um primeiro canal de plano dependendo do tipo de dados de áudio codificados, o canal de transporte está sendo especificado atualmente. Por exemplo, quando o canal de transporte está especificando um dentre o coeficiente de HOA do ambiente mínimo ou um coeficiente de HOA do ambiente adicional, o canal de transporte pode ser referido como um canal de plano de fundo. Quando o canal de transporte está especificando um vetor V, o canal de transporte pode ser referido como um primeiro canal de plano. O canal de transporte pode, portanto, se referir tanto ao canal de plano de fundo quanto ao canal de primeiro plano. O primeiro plano canal 800D pode, em relação a isso, ser descrito como substituindo o canal de plano de fundo 800A no quadro 14 do primeiro canal de transporte. O canal de plano de fundo 800E também pode ser descrito como substituindo o canal de plano de fundo 800C no quadro 13 no terceiro canal de transporte. Embora descrito em relação aos três canais de transporte, o fluxo de bits 21 pode incluir qualquer número de canais de transporte, incluindo zero canais de transporte para dois, três ou mesmo mais canais de transporte. As técnicas, portanto, não devem ser limitadas nesse aspecto.

[0246] Em qualquer ocasião, o exemplo de Figura 8 também, em geral, mostra os elementos do vetor da alteração de canal de primeiro plano 800B nos quadros 12, 13 e 14 conforme descrito em mais detalhes abaixo e as alterações de comprimento de vetor durante os quadros. O coeficiente de HOA do ambiente 2 no canal de plano de fundo 800C se submete a uma transição durante quadro 12. O canal de plano de fundo de coeficiente de HOA do ambiente 5 800E que se submete a uma transição (aumento gradual) durante o quadro 13 para substituir o coeficiente de HOA do ambiente 2 em canal de plano de fundo 800C durante decodificação do fluxo de bits.

[0247] Durante os períodos descritos acima de transição, o dispositivo de codificação de áudio 20 pode especificar o sinalizador AmbCoeffTransition 757 no fluxo de bits com um valor de um para cada um dos canais 800A, 800C, 800D e 800E para indicar que cada um dos respectivos canais de ambiente 800A, 800C e 800E estão realizando transição para dentro nos respectivos quadros 13, 12 e 13. Devido ao estado anterior do AmbCoeffTransitionMode, o dispositivo de codificação de áudio 20 pode, portanto, fornecer o sinalizador AmbCoeffTransition 757 para o dispositivo de decodificação de áudio 24 para que indique que o respectivo coeficiente está ou realizando transição para fora (ou, em outras palavras, diminuindo gradualmente) do fluxo de bits ou realizando transição para dentro (ou, em outras palavras, aumentando gradualmente) o fluxo de bits.

[0248] O dispositivo de decodificação de áudio 24 pode, então, opera conforme discutido acima para identificar os canais 800 no fluxo de bits e realizar ou a operação de aumento gradual ou a operação de diminuição gradual conforme discutido abaixo em maiores detalhes.

[0249] Além disso, como resultado do aumento gradual e diminuição gradual dos vários canais de ambiente 800A, 800C e 800E, em determinada quantização de vetor, o dispositivo codificador de áudio 20 pode especificar o vetor V nos canais de primeiro plano 800B e 800D com o uso de um número reduzido de elementos conforme descrito acima em relação ao dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 3. O dispositivo de decodificação de áudio 24 pode operar em relação a quatro modos de reconstrução diferentes, em que um dos quais pode envolver a redução dos elementos de vetor V quando a energia daquele elemento foi incorporada ao coeficiente de HOA do ambiente sobrejacente. O anteriormente mencionado pode ser representado pelo pseudocódigo a seguir:

[0250] O pseudocódigo anterior tem quatro seções ou modos de reconstrução diferentes de operação, denotado por comentários (que começam com sinal de porcentagem (“%”)) seguidos pelos números 1 a 4. A primeira seção para o primeiro modo de reconstrução fornece pseudocódigo para reconstruir componentes distintos recém- introduzidos quando presentes. A segunda seção para o segundo modo de reconstrução fornece pseudocódigo para reconstruir componentes distintos contínuos quando presentes e aplicar interpolação espaço-temporal. Na seção dois do pseudocódigo, há graduais de operações de aumento gradual cruzado e de diminuição gradual cruzada realizadas no armazenamento temporário de interpolação de vetor de primeiro plano V (fgVecInterpBuf) para novos coeficientes de HOA de aumento gradual e coeficiente de HOA antigos de diminuição gradual consistentes com vários aspectos das técnicas descritas nesta revelação. A terceira seção para o terceiro modo de reconstrução fornece pseudocódigo parra adicionar coeficiente de HOA de padrão do ambiente. A quarta seção para o quarto modo de reconstrução fornece pseudocódigo para adicionar coeficientes de HOA dependente de quadro consistentes com vários aspectos das técnicas descritas nesta revelação.

[0251] Em outras palavras, para reduzir o número de elementos de vetor V transmitidos, apenas os elementos do campo sonoro de HOA que não são codificados como coeficiente de HOA do ambiente podem ser transmitidos. Em algumas ocasiões, o número geral ou os coeficientes de HOA reais dos componentes do ambiente podem ser dinâmicos para representar alterações no campo sonoro codificado. No entanto, para os momentos em que um canal de plano de fundo inclui o coeficiente de HOA do ambiente está aumentado de modo gradual ou diminuindo de modo gradual, pode haver um artefato notável devido à alteração na energia.

[0252] Por exemplo, em referência à Figura 8, nos quadros 10 e 11 há dois canais de plano de fundo 800A e 800C e um primeiro canal de plano 800B. Nos quadros 10 e 11, o vetor V especificado no primeiro canal de plano 800B pode não incluir os coeficientes de upmixing para os coeficientes de HOA do ambiente 47’ especificados nos canais de plano de fundo 800A e 800C devido ao fato de que os coeficientes de HOA do ambiente 47’ especificados nos canais de plano de fundo 800A e 800C podem ser diretamente codificados. No quadro 12, os coeficientes de HOA do ambiente 47’ especificados no canal de plano de fundo 800C estão sendo, nesse exemplo, diminuídos de modo gradual. Em outras palavras, o dispositivo de decodificação de áudio 24 pode diminuir de modo gradual os coeficientes de HOA do ambiente 47’ especificados no canal de plano de fundo 800C com o uso de qualquer tipo de esmaecimento, como o aumento gradual linear mostrado na Figura 8. Ou seja, embora mostrado como um aumento gradual linear, o dispositivo de decodificação de áudio 24 pode realizar qualquer forma de operações de aumento gradual, incluindo operações de aumento gradual não lineares (por exemplo, uma operação de aumento gradual exponencial). No quadro 13, os coeficientes de HOA do ambiente 47’ especificados no canal de plano de fundo 800A estão sendo, nesse exemplo, diminuídos de modo gradual e os coeficientes de HOA do ambiente 47’ especificados no canal de plano de fundo 800E estão sendo, nesse exemplo, aumentados de modo gradual. O fluxo de bits 21 pode sinalizar os eventos quando um coeficiente de HOA do ambiente 47’ especificado em um canal de plano de fundo é diminuído de modo gradual ou aumentado de modo gradual, conforme descrito acima. O dispositivo de decodificação de áudio 24 pode realizar, de modo semelhante, qualquer forma de operação de diminuição gradual que inclui a operação de aumento gradual linear mostrada no exemplo da Figura 8 e as operações de diminuição gradual não lineares.

[0253] No exemplo da Figura 8, o dispositivo de codificação de áudio 20 pode manter informações de estado que indicam um estado de transição para cada coeficiente de HOA do ambiente especificado em um dos três canais de transporte mostrados na Figura 8 e descritos acima. Para o canal de plano de fundo 800A, o dispositivo de codificação de áudio 20 pode manter o elemento de sintaxe AmbCoeffWasFadedIn[i] (“WasFadedIn[i]”) (que também pode ser denotado como um elemento de estado), o elemento de estado AmbCoeffTransitionMode[i] (“TransitionMode[i]”) (que também pode ser denotado como um elemento de estado) e um elemento de sintaxe AmbCoeffTransition (“Transition”). O elemento de estado WasFadedIn[i] e o elemento de estado TransitionMode[i] podem indicar um determinado estado do coeficiente de HOA ambiente especificado no canal 800A. Há três estados de transição, conforme ressaltado acima na tabela de sintaxe HOAAddAmbInfoChannel(i). O primeiro estado de transição é de nenhuma transição, que é representado pelo elemento de estado AmbCoeffTransitionMode[i] que é definido como zero (0). O segundo estado de transição é o aumento gradual de um coeficiente de HOA do ambiente adicional, que é representado pelo elemento de estado AmbCoeffTransitionMode[i] que é definido como um (1). O terceiro estado de transição é a diminuição gradual do coeficiente de HOA do ambiente adicional, que é representado pelo elemento de estado AmbCoeffTransitionMode[i] que é definido como dois (2). O dispositivo de codificação de áudio 20 usa o elemento de estado WasFadedIn[i] para atualizar o elemento de estado TransitionMode[i] novamente conforme ressaltado acima na tabela de sintaxe HOAAddAmbInfoChannel(i).

[0254] O dispositivo de decodificação de áudio 24 pode, do mesmo modo, manter o elemento de sintaxe AmbCoeffWasFadedIn[i] (“WasFadedIn[i]”) (que também pode ser denotado como um elemento de estado), o elemento de estado AmbCoeffTransitionMode[i] (“TransitionMode[i]”) (que também pode ser denotado como um elemento de estado) e um elemento de sintaxe AmbCoeffTransition (“Transition”). Novamente, o WasFadedIn[i] e os elementos de estado TransitionMode[i] podem indicar um determinado estado do coeficiente de HOA ambiente especificado no canal 800A. A máquina de estado 402 (conforme retratado na Figura 7J) no dispositivo de decodificação de áudio 24 pode, do mesmo modo, ser configurada para um dos três estados de transição, conforme ressaltado acima nas tabelas de sintaxe HOAAddAmbInfoChannel(i) exemplificativas. Novamente, o primeiro estado de transição é de nenhuma transição, que é representado pelo elemento de estado AmbCoeffTransitionMode[i] que é definido como zero (0). O segundo estado de transição é o aumento gradual de um coeficiente de HOA do ambiente adicional, que é representado pelo elemento de estado AmbCoeffTransitionMode[i] que é definido como um (1). O terceiro estado de transição é a diminuição gradual do coeficiente de HOA do ambiente adicional, que é representado pelo elemento de estado AmbCoeffTransitionMode[i] que é definido como dois (2). O dispositivo de decodificação de áudio 24 usa o elemento de estado WasFadedIn[i] para atualizar o elemento de estado TransitionMode[i] novamente conforme ressaltado acima na tabela de sintaxe HOAAddAmbInfoChannel(i).

[0255] Novamente em referência ao canal de plano de fundo 800A, o dispositivo de codificação de áudio 20 pode manter informações de estado (por exemplo, as informações de estado 812 mostradas no exemplo da Figura 7J), no quadro 10, que indica que o elemento de estado WasFadedIn[i] é definido como um e o elemento de estado TransitionMode[i] é definido como zero, em que i denota o índice designado para o coeficiente de HOA do ambiente. O dispositivo de codificação de áudio 20 pode manter as informações de estado 812 com o propósito de determinar os elementos de sintaxe (AmbCoeffTransition e, para quadros de reprodução imediata, WasFadedIn[i] ou o AmbCoeffIdxTrasnsition alternativo e, para quadros de reprodução imediata, AmbCoeffTransitionState[i]) que são enviados a fim de permitir que o dispositivo de decodificação de áudio 24 realize o aumento gradual ou operação de graduais de diminuição em relação ao coeficiente de HOA do ambiente e os elementos do vetor V dos canais de primeiro plano. Embora descrito como mantendo as informações de estado 812 com o propósito de gerar e especificar os elementos de sintaxe apropriados, as técnicas também podem ser realizadas pelo dispositivo de codificação de áudio 20 para de fato, realizar a transição dos elementos removendo potencialmente, desse modo, uma operação adicional de ser realizada no dispositivo de decodificação de áudio 24 e facilitar decodificação mais eficaz (em termos de eficácia de potência, ciclos de processador, etc.).

[0256] O dispositivo de codificação de áudio 20 pode, então, determina se o mesmo coeff de HOA 4 for especificado no quadro anterior 9 (não mostrado no exemplo da Figura 8. Quando especificado, o dispositivo de codificação de áudio 20 pode especificar o elemento de sintaxe de transição no fluxo de bits 21 com um valor zero. O dispositivo de codificação de áudio 20 também pode manter informações de estado 812 para o canal 800C que é o mesmo que aquele especificado para o canal 800A. Como resultado de especificar dois coeficientes de HOA do ambiente 47’ que tem um índice 2 e 4 por meio de canais 800C e 800A, o dispositivo de codificação de áudio 20 pode especificar a vetor V (“Vvec”) que tem um total de 23 elementos (para ordem N=4, que é (4+1)2-2 ou 25-2 para determinar os 23 elementos). O dispositivo de codificação de áudio 20 pode especificar elementos [1, 3, 5:25], omitindo os elementos que correspondem aos coeficientes de HOA do ambiente 47’ que têm um índice de 2 e 4. Tendo em vista que nenhuma transição ocorre até o quadro 12, o dispositivo de codificação de áudio 20 mantém as mesmas informações de estado para os canais 800A e 800C durante o quadro 11.

[0257] O dispositivo de decodificação de áudio 24 pode manter semelhantemente as informações de estado (por exemplo, as informações de estado 812 mostradas no exemplo da Figura 7J), no quadro 10, indicando que o elemento de estado WasFadedIn[i] é definido para um e o elemento de estado TransitionMode[i] é definido para zero. O dispositivo de decodificação de áudio 24 pode manter as informações de estado 812 para os propósitos de compreensão da transição adequada com base nos elementos de sintaxe(AmbCoeffTransition) que são enviados no fluxo de bits 21. Em outras palavras, o dispositivo de decodificação de áudio 24 pode fazer com que a máquina de estado 402 atualize as informações de estado 812 com base nos elementos de sintaxe especificados no fluxo de bits 21. A máquina de estado 812 pode mudar de um dentre os três estados de transição observados acima para outro dentre os três estados com base nos elementos de sintaxe conforme descrito em mais detalhes acima em relação às tabelas de sintaxe de HOAAddAmblnfoChannel(i) exemplificativas. Em outras palavras, dependendo do valor do elemento de sintaxe AmbCoeffTransition sinalizado no fluxo de bits e das informações de estado 812, a máquina de estado 402 do dispositivo de decodificação de áudio 24 pode comutar entre os estados de nenhuma transição, diminuição gradual e aumento gradual, conforme descrito acima em relação aos quadros 12, 13 e 14 exemplificativos.

[0258] O dispositivo de decodificação de áudio 24 pode obter, portanto, os coeficientes de HOA do ambiente 47’ que têm um índice de 4 por meio do canal de plano de fundo 800A nos quadros 10 e 11. O dispositivo de decodificação de áudio 24 também pode obter os coeficientes de HOA do ambiente 47’ que tem um índice de 2 por meio do canal de plano de fundo 800C nos quadros 10 e 11. O dispositivo de decodificação de áudio 24 pode obter, durante o quadro 10 e para cada um dos coeficientes de HOA do ambiente 47’ que têm um índice de 2 e 4, uma indicação representativa da possibilidade dos coeficientes de HOA do ambiente 47’ que têm um índice de 2 e 4 estarem em transição durante o quadro 10. A máquina de estado 402 do dispositivo de decodificação de áudio 24 pode manter adicionalmente as informações de estado 812 para os coeficientes de HOA do ambiente 47’ que têm um índice de 2 na forma dos elementos de estado WasFadedIn[2] e TransitionMode[2]. A máquina de estado 402 do dispositivo de decodificação de áudio 24 pode manter adicionalmente as informações de estado 812 para os coeficientes de HOA do ambiente 47’ que têm um índice de 4 na forma dos elementos de estado WasFadedIn[4] e TransitionMode[4]. Tendo em vista que informações de estado para os coeficientes de HOA do ambiente 47’ que têm o índice de 2 e 4 indicam que os coeficientes 47’ estão em um estado de nenhuma transição e com base na indicação de transição que indica que os coeficientes de HOA do ambiente 47’ que têm um índice de 2 e 4 não estão em transição durante nenhum dos quadros 10 ou 11, p dispositivo de decodificação de áudio 24 pode determinar que o vetor reduzido 55A” especificado no canal de primeiro plano 800B inclui elementos de vetor [1, 3, 5:23] e omite os elementos que correspondem a coeficientes de HOA do ambiente 47’ que tem um índice de 2 e 4 para ambos os quadros 10 e 11. O dispositivo de decodificação de áudio 24 pode, então, obter o vetor reduzido 55k” a partir do fluxo de bits 21 para os quadros 10 e 11 através, como um exemplo, da análise correta dos 23 elementos do vetor reduzido 55k”.

[0259] No quadro 12, o dispositivo de codificação de áudio 20 determina que o coeficiente de HOA do ambiente que tem um índice de 2 transportado pelo canal 800C deve ser diminuído gradualmente. Como tal, o dispositivo de codificação de áudio 20 pode especificar um elemento de sintaxe de transição no fluxo de bits 21 para o canal 800C com um valor de um (indicando a transição). O dispositivo de codificação de áudio 20 pode atualizar os elementos de estado interno WasFadedIn[2] e TransitionMode[2] para o canal 800C como zero e dois, respectivamente. Como resultado da mudança de estado de nenhuma transição para diminuição gradual, o dispositivo de codificação de áudio 20 pode adicionar um elemento de vetor V ao vetor V especificado no canal de primeiro plano 800B correspondente aos coeficientes de HOA do ambiente 47’ que têm um índice de 2.

[0260] O dispositivo de decodificação de áudio 24 pode fazer com que a máquina de estado 402 atualize as informações de estado 812 para o canal 800C. A máquina de estado 402 pode atualizar os elementos de estado interno WasFadedIn[2] e TransitionMode[2] para o canal 800C como zero e dois, respectivamente. Com base nas informações de estado 812 atualizadas, o dispositivo de decodificação de áudio 24 pode determinar que os coeficientes de HOA do ambiente 47’ que têm um índice de 2 são diminuídos gradualmente durante o quadro 12. O dispositivo de decodificação de áudio 24 pode determinar adicionalmente que o vetor reduzido 55k” para o quadro 12 inclui um elemento adicional correspondente aos coeficientes de HOA do ambiente 47’ que têm um índice de 2. O dispositivo de decodificação de áudio 24 pode, então, aumentar o número de elementos de vetor para o vetor reduzido 55A^” especificado no canal de primeiro plano 800B para refletir o elemento de vetor adicional (que é denotado no exemplo da Figura 8 como elementos Vvec iguais a 24 no quadro 12). O dispositivo de decodificação de áudio 24 pode, então, obter o vetor reduzido 55 A” especificado por meio do canal de primeiro plano 800B com base no número atualizado de elementos de vetor. O dispositivo de decodificação de áudio 24, após obter o vetor reduzido 55A-”, pode aumentar gradualmente o elemento V-vec 2 adicional (denotado “V-vec[2]”) durante o quadro 12. No quadro 13, o dispositivo de codificação de áudio 20 indica duas transições, uma para sinalizar que o coeficiente de HOA 4 está sendo mudado ou diminuído gradualmente e outra para indicar que o coeficiente de HOA 5 está sendo movido ou aumentado gradualmente para o canal 800C. Embora o canal não se mova de fato, para fins de referência à mudança que o canal especifica, o canal pode ser denotado como canal 800E após a transição.

[0261] Em outras palavras, o dispositivo de codificação de áudio 20 e o dispositivo de decodificação de áudio 24 podem manter as informações de estado em uma base por canal de transporte. Como tal, o canal de plano de fundo 800A e o canal de primeiro plano 800D são transportados pelo mesmo canal de transporte entre os três canais de transporte, enquanto os canais de plano de fundo 800C e 800E também são transportados pelo mesmo canal de transporte entre os três canais de transporte. Em qualquer ocasião, o dispositivo de codificação de áudio 20 pode manter informações de estado de transição para o canal de plano de fundo 800E, indicando que os coeficientes de HOA do ambiente 47’ que têm um índice de 5 e são especificados por meio do canal de plano de fundo 800E são aumentados gradualmente (por exemplo, WasFadedIn[5] = 1) e que o modo de transição é o aumento gradual (por exemplo, TransitionMode[5] = 1). O dispositivo de codificação de áudio 20 também pode manter informações de estado de transição para o canal 800A, indicando que o coeficiente de HOA do ambiente que tem um índice de 4 não é mais aumentado gradualmente (por exemplo, WasFadedIn[4] = 0) e que o modo de transição é a diminuição gradual (por exemplo, TransitionMode[4] = 2).

[0262] O dispositivo de decodificação de áudio 24 pode manter novamente informações de estado 812 semelhantes àquelas descritas acima em relação ao dispositivo de codificação de áudio 20 e, com base nas informações de estado atualizadas, diminuir gradualmente os coeficientes de HOA do ambiente 47’ que têm um índice de 4, enquanto aumenta gradualmente os coeficientes de HOA do ambiente 47’ que têm um índice de 5. Em outras palavras, o dispositivo de decodificação de áudio 24 pode obter o elemento de sintaxe de transição para o canal 800A durante o quadro 13, indicando que os coeficientes de HOA do ambiente 47’ que têm um índice 4 estão em transição. O dispositivo de decodificação de áudio 24 pode fazer com que a máquina de estado 402 processe o elemento de sintaxe de transição atualize os elementos de sintaxe WasFadedIn[4] e TransitionMode[4] para indicar que os coeficientes de HOA do ambiente 47’ que têm um índice de 4 não é mais aumentado gradualmente (por exemplo, WasFadedIn[4] = 0) e que o modo de transição é a diminuição gradual (por exemplo, TransitionMode[4] = 2).

[0263] O dispositivo de decodificação de áudio 24 também pode obter o elemento de sintaxe de transição para o canal 800C durante o quadro 13, indicando que os coeficientes de HOA do ambiente 47’ que têm um índice 5 estão em transição. O dispositivo de decodificação de áudio 24 pode fazer com que a máquina de estado 402 processe o elemento de sintaxe de transição para atualizar os elementos de sintaxe WasFadedIn[5] e TransitionMode[5] para indicar que os coeficientes de HOA do ambiente 47’ que têm um índice de 4 são aumentados gradualmente durante o quadro 13 (por exemplo, WasFadedIn[5] = 1) e que o modo de transição é o aumento gradual (por exemplo, TransitionMode[5] = 1). O dispositivo de decodificação de áudio 24 pode realizar uma operação de diminuição gradual em relação aos coeficientes de HOA do ambiente 47’ que têm um índice de 4 e uma operação de aumento gradual em relação aos coeficientes de HOA do ambiente 47’ que têm um índice de 5.

[0264] O dispositivo de decodificação de áudio 24 pode utilizar, no entanto, um vetor total V (supondo novamente uma quarta representação de ordem) que tem 25 elementos para que o Vvec[4] possa ser aumentado gradualmente e o Vvec[5] possa ser diminuído gradualmente. O dispositivo de codificação de áudio 20 pode fornecer, portanto, um V-vec no canal de primeiro plano 800B que tem 25 elementos.

[0265] Tendo em vista que há três canais de transporte, sendo que dois desses são submetidos a uma transição com canal de transporte restante entre os três canais de transporte que é o canal de primeiro plano 800B, o dispositivo de decodificação de áudio 24 pode determinar que o vetor reduzido 55A “ pode incluir, na situação exemplificativa, todos os 24 elementos de vetor. Como resultado, o dispositivo de decodificação de áudio 24 pode obter o vetor reduzido 55k” a partir do fluxo de bits 21 que tem todos os 25 elementos de vetor. O dispositivo de decodificação de áudio 24 pode, então, aumentar gradualmente, durante o quadro 13, o elemento de vetor do vetor reduzido 55k” associado aos coeficientes de HOA do ambiente 47’ que têm um índice de 4 para compensar a perda de energia. O dispositivo de decodificação de áudio 24 pode, então, diminuir gradualmente, durante o quadro 13, o elemento de vetor do vetor reduzido 55A” associado aos coeficientes de HOA do ambiente 47’ que têm um índice de 5 para compensar a perda de energia.

[0266] No quadro 14, o dispositivo de codificação de áudio 20 pode fornecer outro vetor V que substitui o canal de plano de fundo 800A no canal de transporte, que pode ser especificado no canal de primeiro plano 800D. Tendo em vista que não há nenhuma transição de coeficiente de HOA do ambiente, o dispositivo de codificação de áudio 20 pode especificar os vetores V no canal de primeiro plano 800D e 800B com 24 elementos, o elemento correspondente aos coeficientes de HOA do ambiente 47’ que têm um índice de 5 não precisa ser enviado (Como resultado do envio dos coeficientes de HOA do ambiente 47’ que têm um índice de 5 no canal de plano de fundo 800E). O quadro 14 pode ser denotado, nesse sentido, como um quadro subsequente ao quadro 13. No quadro 14, o coeficiente de HOA do ambiente 47’ é especificado no canal de plano de fundo 800E e não está em transição. Como resultado, o dispositivo de codificação de áudio 20 pode remover o elemento de vetor V correspondente aos coeficientes de HOA do ambiente 47’ especificados no canal de plano de fundo 800E do vetor reduzido 55A” especificado no canal de primeiro plano 800B, gerando, assim, um vetor V reduzido atualizado (que tem 24 elementos em vez dos 25 elementos no quadro anterior).

[0267] O dispositivo de decodificação de áudio 24 pode fazer com que, durante o quadro 14, a máquina de estado 402 atualize as informações de estado 812 para indicar que os coeficientes de HOA do ambiente 47’ que têm um índice de 5 e são especificados por meio do canal de plano de fundo 800E não estão em transição (“TransitionMode[5] = 0”) e foram anteriormente aumentados gradualmente (“WasFadedIn[5] = 1”). Como resultado, o dispositivo de decodificação de áudio 24 pode determinar que os vetores 55A“ reduzidos especificados no canal de primeiro plano 800D e 800B têm 24 elementos de vetor (já que o elemento de vetor associado aos coeficientes de HOA do ambiente 47’ que têm um índice de 5 não é especificado). O dispositivo de decodificação de áudio 24 pode aumentar gradualmente, no entanto, todos os elementos de vetor do vetor reduzido 55A” especificado no canal de primeiro plano 800D durante o quadro 14, já que os elementos não foram anteriormente especificados no fluxo de bits no quadro precedente.

[0268] No quadro 15, o dispositivo de codificação de áudio 20 e o dispositivo de decodificação de áudio 24 mantêm o mesmo estado que o quadro 14 desde que, novamente, nenhuma transição tenha ocorrido.

[0269] Nesse sentido, as técnicas podem permitir que o dispositivo de codificação de áudio 20 seja configurado para determinar quando um coeficiente ambissônico de ordem superior de ambiente 47’ (como especificado, por exemplo, no canal de plano de fundo 800C) está em transição durante um quadro de um fluxo de bits 21 (como primeiramente mostrado nas Figuras 3 e 4 e elaborado posteriormente na Figura 8) representativo dos dados de áudio codificados (os quais podem se referir a qualquer combinação dos coeficientes de HOA de ambiente, os objetos de áudio de primeiro plano e os vetores V correspondentes), o coeficiente ambissônico de ordem superior de ambiente representativo 47’, pelo menos em parte, de um componente do ambiente de um campo sonoro. O dispositivo de codificação de áudio 20 também pode ser configurado para identificar um elemento de um vetor (como um dos vetores de primeiro plano restantes V[k] 53) que é associado ao coeficiente ambissônico de ordem superior de ambiente 47’ em transição. O vetor 53 pode ser representativo, pelo menos em parte, de um componente espacial do campo sonoro. O dispositivo de codificação de áudio 20 pode ser adicionalmente configurado para gerar, com base no vetor 53, um vetor reduzido 55 para incluir o elemento identificado do vetor para o quadro. Para ilustrar, deve-se considerar o canal de primeiro plano 800B no quadro 12, em que o dispositivo de codificação de áudio 20 gera o vetor reduzido 55 para incluir o elemento de vetor V correspondente ao coeficiente de HOA do ambiente 2 especificado no canal de plano de fundo 800C no quadro 12, o qual é denotado como Vvec[2] no exemplo da Figura 8. O dispositivo de codificação de áudio 20 também pode ser configurado para produzir o fluxo de bits 21 para incluir um bit indicativo do vetor reduzido e um bit (por exemplo, uma indicação 757 como retratado na Figura 4) indicativo da transição do coeficiente ambissônico de ordem superior de ambiente 47’ durante o quadro.

[0270] Nessas e outras ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para manter informações de estado de transição com base no coeficiente ambissônico de ordem superior de ambiente em transição. Por exemplo, o dispositivo de codificação de áudio 20 pode incluir a máquina de estado 402 mostrada no exemplo da Figura 71 que mantém as informações de estado de transição e quaisquer outras informações de estado 812. O dispositivo de codificação de áudio 20 pode ser adicionalmente configurado para obter a indicação 757 da transição com base nas informações de estado de transição.

[0271] Nessas e outras ocorrências, as informações de estado de transição indicam um dentre um estado sem transição, um estado de aumento gradual e um estado de diminuição gradual.

[0272] Nessas e outras ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para produzir o fluxo de bits 21 para incluir adicionalmente um bit indicativo das informações de estado 812 que incluem as informações de estado de transição no quadro. O bit indicativo das informações de estado 812 podem permitir que o quadro seja decodificado sem referência aos quadros anteriores do fluxo de bits 21.

[0273] Nessas e outras ocorrências, as informações de estado 812 incluem informações de quantização.

[0274] Nessas e outras ocorrências, o quadro é emitido por meio de um protocolo de fluxo contínuo.

[0275] Nessas e outras ocorrências, o bit 757 indicativo da transição especifica se o coeficiente ambissônico de ordem superior deve ser diminuído gradualmente por um decodificador, como o dispositivo de decodificação de áudio 24, durante o quadro.

[0276] Nessas e outras ocorrências, o bit indicativo da transição especifica se o coeficiente ambissônico de ordem superior deve ser aumentado gradualmente por um decodificador, como o dispositivo de decodificação de áudio 24, durante o quadro.

[0277] Nessas e outras ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para atualizar o vetor reduzido 55 removendo-se um segundo elemento do vetor 53 associado ao coeficiente ambissônico de ordem superior de ambiente 47’ que não está em transição durante um quadro subsequente. Para ilustrar, deve-se considerar o quadro 14, em que o dispositivo de codificação de áudio 20 atualiza o vetor reduzido 55 do quadro 13 para remover o elemento do vetor reduzido 55 do quadro 13 associado ao coeficiente HOA do ambiente que tem um índice de cinco (em que o elemento é denotado como “Vvec[5]”). O dispositivo de codificação de áudio 20 pode ser adicionalmente configurado para produzir o fluxo de bits 21 para incluir, durante o quadro subsequente 14, um bit indicativo do vetor reduzido atualizado e um bit indicando que o coeficiente ambissônico de ordem superior de ambiente 47’ que tem um índice de 5 não está em transição.

[0278] Nessas e outras ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para realizar os aspectos independentes das técnicas descritas em mais detalhes acima em conjunto com os aspectos de transição das técnicas descritas acima.

[0279] Além disso, os aspectos de transição das técnicas podem permitir que o dispositivo de decodificação de áudio 24 seja configurado para obter, de um quadro (por exemplo, quadros 10 a 15 na Figura 8) de um fluxo de bits 21 representativo dos dados de áudio codificados, um bit indicativo de um vetor reduzido. Os dados de áudio codificados podem incluir uma versão codificada dos coeficientes de HOA 11 ou uma derivação dos mesmos, significando, como um exemplo, o coeficiente de HOA do ambiente codificado 59, os sinais de nFG codificados 61, os vetores de primeiro plano criptografados V[k] 57 e quaisquer elementos de sintaxe anexos ou bits indicativos de cada um dos mencionados acima. O vetor reduzido pode representar, pelo menos em parte, um componente espacial de um campo sonoro. O vetor reduzido pode se referir a um dos vetores de primeiro plano reduzidos V[k] 55k” descritos acima em relação ao exemplo da Figura 4. O dispositivo de decodificação de áudio 24 pode ser adicionalmente configurado para obter, a partir do quadro, um bit 757 (mostrado na Figura 4 e representado no exemplo da Figura 8 como sinalizador de “transição”) indicativo de uma transição de um coeficiente ambissônico de ordem superior de ambiente 47’ (como especificado, por exemplo, no canal 800C). O coeficiente ambissônico de ordem superior de ambiente 47’ pode representar, pelo menos em parte, um componente do ambiente de um campo sonoro. O vetor reduzido pode incluir um elemento de vetor associado ao coeficiente ambissônico de ordem superior de ambiente em transição, como no exemplo do quadro 13 em que o canal de primeiro plano 800B inclui o elemento de vetor V 5 associado ao canal de plano de fundo 800E. O vetor reduzido pode se referir a um dos vetores de primeiro plano reduzidos V[k] 55k” e, como tal, pode ser denotado como vetor reduzido 55k”.

[0280] Nessas e outras ocorrências, o dispositivo de decodificação de áudio 24 pode ser adicionalmente configurado para obter o bit indicativo do vetor reduzido 55k” de acordo com o Modo 2 descrito acima de uma pluralidade de modos (por exemplo, Modo 0, Modo 1 e Modo 2). O Modo 2 pode indicar que o vetor reduzido inclui o elemento de vetor associado ao coeficiente ambissônico de ordem superior de ambiente em transição.

[0281] Nessas e outras ocorrências, a pluralidade de modos inclui, ainda, o Modo 1 descrito acima. O Modo 1 pode indicar, como descrito acima, que o elemento de vetor associado ao coeficiente ambissônico de ordem superior de ambiente não está incluído no vetor reduzido.

[0282] Nessas e outras ocorrências, o dispositivo de decodificação de áudio 24 pode ser adicionalmente configurado para manter informações de estado de transição com base no bit 757 indicativo da transição do coeficiente ambissônico de ordem superior de ambiente. A unidade de extração de fluxo de bits 72 do dispositivo de decodificação de áudio 24 pode incluir a máquina de estado 402 para manter informações de estado 812 que incluem as informações de estado de transição. O dispositivo de decodificação de áudio 24 também pode ser configurado para determinar a possibilidade de realizar uma operação de aumento gradual ou uma operação de diminuição gradual em relação ao coeficiente ambissônico de ordem superior de ambiente 47’ do canal 800C com base nas informações de estado de transição. O dispositivo de decodificação de áudio 24 pode ser configurado para fazer com que unidade de desvanecimento 770 realize a operação de aumento gradual ou a operação de diminuição gradual, em relação ao coeficiente ambissônico de ordem superior de ambiente 47’, com base na determinação da possibilidade de aumentar gradualmente ou diminuir gradualmente o coeficiente ambissônico de ordem superior de ambiente.

[0283] Nessas e outras ocorrências, as informações de estado de transição indicam um dentre um estado sem transição, um estado de aumento gradual e um estado de diminuição gradual.

[0284] Nessas e outras ocorrências, o dispositivo de decodificação de áudio 24 pode ser adicionalmente configurado para obter as informações de estado de transição de um bit indicativo de informações de estado 812. As informações de estado 812 podem permitir que o quadro seja decodificado sem referência a quadros anteriores do fluxo de bits.

[0285] Nessas e outras ocorrências, o dispositivo de decodificação de áudio 24 pode ser adicionalmente configurado para desquantizar o vetor reduzido 55k” com base nas informações de quantização incluídas no bit indicativo das informações de estado 812.

[0286] Nessas e outras ocorrências, o quadro é emitido por meio de um protocolo de fluxo contínuo.

[0287] Nessas e outras ocorrências, a indicação 757 da transição especifica se o coeficiente ambissônico de ordem superior 47’ é diminuído gradualmente durante o quadro.

[0288] Nessas e outras ocorrências, a indicação 757 da transição especifica se o coeficiente ambissônico de ordem superior é aumentado gradualmente durante o quadro.

[0289] Nessas e outras ocorrências, o dispositivo de decodificação de áudio 24 pode ser adicionalmente configurado para obter, durante um quadro subsequente (por exemplo, quadro 14) do fluxo de bits 21, um bit indicativo de um segundo vetor reduzido (que pode se referir ao mesmo vetor daquele especificado para o quadro 13 no canal de primeiro plano 800C apenas atualizado para refletir a mudança nos elementos a partir do quadro 13 para o quadro 14 e, desse modo, pode ser referido como um vetor reduzido atualizado), um bit indicativo do coeficiente ambissônico de ordem superior de ambiente 47’ especificado no canal de plano de fundo 800E no quadro 14 e um bit 757 que indica 757 que o coeficiente ambissônico de ordem superior de ambiente 47’ não está em transição. Nessa ocorrência, o segundo vetor reduzido para o quadro subsequente 14 não inclui um elemento associado ao coeficiente ambissônico de ordem superior de ambiente 47’ pelos motivos observados acima.

[0290] Nessas e outras ocorrências, a indicação 757 da transição indica que o coeficiente ambissônico de ordem superior de ambiente 47’ deve ser diminuído gradualmente (como coeficiente de HOA do ambiente 2 do canal de plano de fundo 800C no quadro 12). Nessa ocorrência, o dispositivo de decodificação de áudio 24 pode ser configurado para realizar uma operação de diminuição gradual em relação ao coeficiente ambissônico de ordem superior de ambiente 47’ durante o quadro 12. O dispositivo de decodificação de áudio 24 pode ser configurado para realizar a operação complementar em relação ao elemento do vetor reduzido correspondente 55k” especificado no canal de primeiro plano 800B no quadro 12. Em outras palavras, o dispositivo de decodificação de áudio 24 pode ser configurado para realizar uma operação de aumento gradual em relação ao elemento de vetor durante o quadro 12 para compensar a mudança de energia que ocorre como resultado da diminuição gradual do coeficiente ambissônico de ordem superior de ambiente 47’.

[0291] Nessas e outras ocorrências, a indicação 757 da transição indica que o coeficiente ambissônico de ordem superior de ambiente 47’ deve ser diminuída gradualmente (como coeficiente de HOA do ambiente 4 do canal de plano de fundo 800A no quadro 13). Nessa ocorrência, o dispositivo de decodificação de áudio 24 pode ser configurado para realizar uma operação de diminuição gradual em relação ao coeficiente ambissônico de ordem superior de ambiente 47’ durante o quadro 12. O dispositivo de decodificação de áudio 24 pode ser configurado para realizar a operação complementar em relação ao elemento do vetor reduzido correspondente 55k” especificado no canal de primeiro plano 800B no quadro 13. Em outras palavras, o dispositivo de decodificação de áudio 24 pode ser configurado para realizar uma operação de aumento gradual em relação ao elemento de vetor (Vvec[4]) durante o quadro 13 para compensar a mudança de energia que ocorre como resultado da diminuição gradual do coeficiente ambissônico de ordem superior de ambiente 47’.

[0292] Nessas e outras ocorrências, a indicação 757 da transição indica que o coeficiente ambissônico de ordem superior de ambiente 47’ deve ser aumentado gradualmente (como coeficiente de HOA do ambiente 5 especificado no canal de plano de fundo 800E no quadro 13). Nessa ocorrência, o dispositivo de decodificação de áudio 24 pode ser configurado para realizar uma operação de aumento gradual em relação ao coeficiente ambissônico de ordem superior de ambiente 47’ durante o quadro 13. O dispositivo de decodificação de áudio 24 pode ser configurado para realizar a operação complementar em relação ao elemento do vetor reduzido correspondente 55k” especificado no canal de primeiro plano 800B no quadro 13. Em outras palavras, o dispositivo de decodificação de áudio 24 pode ser configurado para realizar uma operação de diminuição gradual em relação ao elemento de vetor durante o quadro 13 para compensar a mudança de energia que ocorre como resultado do aumento gradual do coeficiente ambissônico de ordem superior de ambiente 47’.

[0293] Nessas e outras ocorrências, o dispositivo de decodificação de áudio 24 pode ser, semelhantemente ao dispositivo de codificação de áudio 20, configurado para realizar os aspectos independentes das técnicas descritas em mais detalhes acima em conjunto com os aspectos de transição das técnicas descritas acima.

[0294] A Figura 9 é um diagrama que ilustra a diminuição gradual de um coeficiente de HOA do ambiente adicional, o aumento gradual de uma contribuição reconstruída correspondente dos componentes distintos, e uma soma dos coeficientes de HOA e da contribuição reconstruída. Esses gráficos 850, 852 e 854 são mostrados no exemplo da Figura 9. O gráfico 850 ilustra um coeficiente de HOA do ambiente adicional sendo diminuído gradualmente nas 512 amostras. O gráfico 852 mostra o objeto de áudio reconstruído (que foram reconstruídos com o uso de coeficientes aumentados gradualmente para o vetor V como descrito acima). O gráfico 854 mostra a soma do coeficiente de HOA e da contribuição reconstruída, em que nenhum artefato é introduzido nesse exemplo (em que os artefatos podem ser referir a “buracos” no campo sonoro devido a uma perda de energia).

[0295] As técnicas mencionadas acima podem ser realizadas em relação a qualquer número de diferentes contextos e ecossistemas de áudio. Diversos contextos exemplificativos são descritos abaixo, embora as técnicas devam ser limitadas aos contextos exemplificativos. Um ecossistema de áudio exemplificativo pode incluir conteúdo de áudio, estúdios de filmes, estúdios de música, estúdios de áudio de jogos, conteúdo de áudio baseado em canal, mecanismos de criptografia, stems de áudio de jogos, criptografia de áudio de jogos / mecanismos de renderização, e sistemas de entrega.

[0296] Os estúdios de filmes, os estúdios de música e os estúdios de áudio de jogos podem receber conteúdo de áudio. Em alguns exemplos, o conteúdo de áudio pode representar a saída de uma aquisição. Os estúdios de filmes podem emitir conteúdo de áudio baseado em canal (por exemplo, em 2.0, 5.1 e 7.1), como com o uso de uma estação de trabalho de áudio digital (DAW). Os estúdios de música podem emitir conteúdo de áudio baseado em canal (por exemplo, em 2.0 e 5.1), como com o uso de uma DAW. Seja qual for o caso, os mecanismos de criptografia podem receber e codificar o conteúdo de áudio baseado em canal com base em um ou mais codecs (por exemplo, AAC, AC3, Dolby True HD, Dolby Digital Plus e DTS Master Audio) para saída através de sistemas de entrega. Os estúdios de áudio de jogos podem emitir um ou mais stems de áudio de jogos, como com o uso de uma DAW. Os mecanismos de renderização / criptografia de áudio de jogos pode codificar e ou renderizar os stems de áudio em conteúdo de áudio baseado em canal para saída pelos sistemas de entrega. Outro contexto exemplificativo em que as técnicas podem ser realizadas compreende um ecossistema de áudio que pode incluir objetos de áudio de gravação de difusão, sistemas de áudio profissionais, captura em dispositivo destinada a consumidor, formato de áudio HOA, renderização em dispositivo, áudio destinado a consumidor, TV e acessórios, e sistemas de áudio automotivo.

[0297] Os objetos de áudio de gravação de difusão, os sistemas de áudio profissionais e a captura em dispositivo destinada a consumidor podem, todos, criptografar sua saída com o uso de formato de áudio HOA. Desse modo, o conteúdo de áudio pode ser criptografado com o uso do formato de áudio HOA em uma única representação que pode ser reproduzida com o uso da renderização em dispositivo, áudio destinado a consumidor, TV e acessórios, e os sistemas de áudio automotivo. Em outras palavras, a representação única do conteúdo de áudio pode ser reproduzida em um sistema de reprodução de áudio genérico (isto é, em oposição a exigir uma configuração particular, como 5.1, 7.1, etc.), como sistema de reprodução de áudio 16.

[0298] Outros exemplos de contexto em que as técnicas podem ser realizadas incluem um ecossistema de áudio que pode incluir elementos de aquisição e elementos de reprodução. Os elementos de aquisição podem incluir dispositivos de aquisição com fio e/ou sem fio (por exemplo, microfones Eigen), captura de som surround em dispositivo e dispositivos móveis (por exemplo, telefones inteligentes e computadores do tipo tablet). Em alguns exemplos, os dispositivos de aquisição com fio e/ou sem fio podem ser acoplados a um dispositivo móvel por meio de canal(is) de comunicação com fio e/ou sem fio.

[0299] De acordo com uma ou mais técnicas desta revelação, o dispositivo móvel pode ser usado para adquirir um campo sonoro. Por exemplo, o dispositivo móvel pode adquirir um campo sonoro por meio dos dispositivos de aquisição com fio e/ou sem fio e/ou a captura de som surround em dispositivo (por exemplo, uma pluralidade de microfones integrados no dispositivo móvel). O dispositivo móvel pode, então, criptografar o campo sonoro adquirido no coeficiente de HOA para reprodução por um ou mais dos elementos de reprodução. Por exemplo, um usuário do dispositivo móvel pode gravar (adquirir um campo sonoro de) um evento ao vivo (por exemplo, uma reunião, uma conferência, uma peça de teatro, um show, etc.), e criptografar a gravação em coeficiente de HOA.

[0300] O dispositivo móvel também pode utilizar um ou mais dos elementos de reprodução para reproduzir o campo sonoro criptografado em HOA. Por exemplo, o dispositivo móvel pode decodificar o campo sonoro criptografado em HOA e emitir um sinal para um ou mais dos elementos de reprodução que faz com que os um ou mais dos elementos de reprodução recriem o campo sonoro. Como um exemplo, o dispositivo móvel pode utilizar os canais de comunicação com fio e/ou sem fio para emitir o sinal para um ou mais alto-falantes (por exemplo, colunas de alto-falantes, barras de som, etc.). Como outro exemplo, o dispositivo móvel pode utilizar soluções de encaixe para emitir o sinal para um ou mais bases de encaixe e/ou um ou mais alto-falantes encaixados (por exemplo, sistemas de som em carros inteligentes e/ou ambientes domésticos). Como outro exemplo, o dispositivo móvel pode utilizar renderização de fone de ouvido para emitir o sinal para um conjunto de fones de ouvido, por exemplo, para criar um som binaural realístico.

[0301] Em alguns exemplos, um dispositivo móvel particular pode adquirir um campo sonoro 3D e reproduzir o mesmo campo sonoro 3D posteriormente. Em alguns exemplos, o dispositivo móvel pode adquirir um campo sonoro 3D, codificar o campo sonoro 3D em HOA e transmitir o campo sonoro 3D codificado para um ou mais outros dispositivos (por exemplo, outros dispositivos móveis e/ou outros dispositivos não móveis) para reprodução.

[0302] Ainda outro contexto em que as técnicas podem ser realizadas inclui um ecossistema de áudio que pode incluir conteúdo de áudio, estúdios de jogos, conteúdo de áudio criptografado, mecanismos de renderização e sistemas de entrega. Em alguns exemplos, os estúdios de jogos podem incluir uma ou mais DAWs que podem suportar a edição de sinais de HOA. Por exemplo, as uma ou mais DAWs podem incluir plugins e/ou ferramentas de HOA que podem ser configurados para operar com (por exemplo, trabalhar com) um ou mais sistemas de áudio de jogos. Em alguns exemplos, os estúdios de jogos podem emitir novos formatos stem que suportam HOA. Em qualquer ocorrência, os estúdios de jogos podem emitir conteúdo de áudio criptografado para os mecanismos de renderização que podem renderizar um campo sonoro para reprodução pelos sistemas de entrega.

[0303] As técnicas também podem ser realizadas em relação a dispositivos de aquisição de áudio exemplificativos. Por exemplo, as técnicas podem ser realizadas em relação a um microfone Eigen que pode incluir uma pluralidade de microfones que são configurados coletivamente para gravar um campo sonoro 3D. Em alguns exemplos, a pluralidade de microfones de microfone Eigen pode ser posicionada na superfície de uma bola substancialmente esférica com um raio de aproximadamente 4 cm. Em alguns exemplos, o dispositivo de codificação de áudio 20 pode ser integrado no microfone Eigen para emitir um fluxo de bits 21 diretamente do microfone.

[0304] Outro contexto de aquisição de áudio exemplificativo pode incluir um veículo de produção que pode ser configurado para receber um sinal de um ou mais microfones, como um ou mais microfones Eigen. O veículo de produção também pode incluir um codificador de áudio, como codificador de áudio 20 da Figura 3.

[0305] O dispositivo móvel também pode incluir, em algumas ocasiões, uma pluralidade de microfones que são configurados coletivamente para gravar um campo sonoro 3D. Em outras palavras, a pluralidade de microfone pode ter diversidade X, Y, Z. Em alguns exemplos, o dispositivo móvel pode incluir um microfone que pode ser girado para fornecer diversidade X, Y, Z em relação a um ou mais outros microfones do dispositivo móvel. O dispositivo móvel também pode incluir um codificador de áudio, como codificador de áudio 20 da Figura 3.

[0306] Um dispositivo de captura de vídeo robustecido pode ser adicionalmente configurado para gravar um campo sonoro 3D. Em alguns exemplos, o dispositivo de captura de vídeo robustecido pode ser fixado a um capacete de um usuário envolvido em uma atividade. Por exemplo, o dispositivo de captura de vídeo robustecido pode ser fixado a um capacete de um usuário fazendo rafting. Desse modo, o dispositivo de captura de vídeo robustecido pode capturar um campo sonoro 3D que representa toda a ação que ocorre ao redor do usuário (por exemplo, água batendo atrás do usuário, outro praticante de rafting falando na frente do usuário, etc.).

[0307] As técnicas também podem ser realizadas em relação a um dispositivo móvel melhorado por acessório, o qual pode ser configurado para gravar um campo sonoro 3D. Em alguns exemplos, o dispositivo móvel pode ser semelhante aos dispositivos móveis discutidos acima, com a adição de um ou mais acessórios. Por exemplo, um microfone Eigen pode ser fixado ao dispositivo móvel mencionado acima para formar um dispositivo móvel melhorado por acessório. Desse modo, o dispositivo móvel melhorado por acessório pode capturar uma versão de melhor qualidade do campo sonoro 3D em vez de usar apenas componentes de captura de som integrantes do dispositivo móvel melhorado por acessório.

[0308] Os dispositivos de reprodução de áudio exemplificativos que podem realizar vários aspectos das técnicas descritas nesta revelação são adicionalmente discutidos abaixo. De acordo com uma ou mais técnicas desta revelação, alto-falantes e/ou barras de som podem ser dispostos em qualquer configuração arbitrária enquanto ainda reproduzem um campo sonoro 3D. Além disso, em alguns exemplos, dispositivos de reprodução em fone de ouvido podem ser acoplados a um decodificador 24 por meio de uma conexão com fio ou sem fio. De acordo com uma ou mais técnicas desta revelação, uma representação genérica única de um campo sonoro pode ser utilizada para renderizar o campo sonoro em qualquer combinação dos alto-falantes, das barras de som e dos dispositivos de reprodução em fone de ouvido.

[0309] Diversos diferentes ambientes de reprodução de áudio exemplificativos também podem ser adequados para realizar vários aspectos das técnicas descritas nesta revelação. Por exemplo, um ambiente de reprodução de alto-falante 5.1, um ambiente de reprodução de alto-falante 2.0 (por exemplo, estéreo), um ambiente de reprodução de alto-falante 9.1 com alto-falantes frontais de altura total, um ambiente de reprodução de alto-falante 22.2, um ambiente de reprodução de alto-falante 16.0, um ambiente de reprodução de alto-falante automotivo e um dispositivo móvel com ambiente de reprodução de auricular podem ser ambientes adequados para realizar vários aspectos das técnicas descritas nesta revelação.

[0310] De acordo com uma ou mais técnicas desta revelação, uma representação genérica única de um campo sonoro pode ser utilizada para renderizar o campo sonoro em qualquer um dos ambientes de reprodução anteriores. Além disso, as técnicas desta revelação permitem uma renderização para renderizar um campo sonoro de uma representação genérica para reprodução nos ambientes de reprodução diferentes daqueles descritos acima. Por exemplo, se as considerações de design proíbem o posicionamento adequado de alto-falantes de acordo com um ambiente de reprodução de alto-falante 7.1 (por exemplo, se não for possível posicionar um alto-falante surround direito), as técnicas desta revelação permitem uma renderização para compensar os outros 6 alto-falantes de modo que a reprodução possa ser alcançada em um ambiente de reprodução de alto-falante 6.1.

[0311] Ademais, um usuário pode assistir a um jogo esportivo enquanto usa fones de ouvido. De acordo com uma ou mais técnicas desta revelação, o campo sonoro 3D dos jogos esportivos podem ser adquiridos (por exemplo, uma ou mais microfones Eigen podem ser posicionados em e/ou ao redor do estádio de baseball), o coeficiente de HOA correspondente ao campo sonoro 3D pode ser obtido e transmitido a um decodificador, o decodificador pode reconstruir o campo sonoro 3D com base no coeficiente de HOA e emitir o campo sonoro 3D reconstruído para um renderizador, o renderizador pode obter uma indicação quanto ao tipo de ambiente de reprodução (por exemplo, fones de ouvido), e renderizar o campo sonoro 3D renderizado em sinais que fazem com que os fones de ouvido emitam uma representação do campo sonoro 3D dos jogos esportivos.

[0312] Em cada uma das várias ocorrências descritas acima, deve-se compreender que o dispositivo de codificação de áudio 20 pode realizar um método ou pode compreender, de outro modo, meios para realizar cada etapa do método para o qual o dispositivo de codificação de áudio 20 é configurado para realizar. Em algumas ocasiões, os meios podem compreender um ou mais processadores. Em algumas ocasiões, os um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas em um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos das técnicas em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que tem armazenadas no mesmo instruções que, quando executadas, fazem com que os um ou mais processadores realizem o método para o qual o dispositivo de codificação de áudio 20 foi configurado para realizar.

[0313] Em um ou mais exemplos, as funções descritas podem ser implantadas em hardware, software, firmware ou qualquer combinação dos mesmos. Se implantadas em software, as funções podem ser armazenadas em ou transmitidas como uma ou mais instruções ou código e, um meio legível por computador e executado por uma unidade de processamento baseada em hardware. As mídias legíveis por computador podem incluir mídia de armazenamento legível por computador, a qual corresponde a um meio tangível, como mídia de armazenamento de dados. A mídia de armazenamento de dados pode ser qualquer mídia disponível que possa ser acessada por um ou mais computadores ou um ou mais processadores para recuperar instruções, código e/ou estruturas de dados para implantação das técnicas descritas nesta revelação. Um produto de programa de computador pode incluir um meio legível por computador.

[0314] Do mesmo modo, em cada uma das várias ocorrências descritas acima, deve-se compreender que o dispositivo de decodificação de áudio 24 pode realizar um método ou compreende, de outro modo, meios para realizar cada etapa do método para o qual o dispositivo de decodificação de áudio 24 é configurado para realizar. Em algumas ocasiões, os meios podem compreender um ou mais processadores. Em algumas ocasiões, os um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas em um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos das técnicas em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que tem armazenadas no mesmo instruções que, quando executadas, fazem com que os um ou mais processadores realizem o método para o qual o dispositivo de decodificação de áudio 24 foi configurado para realizar.

[0315] Por meio de exemplo, e sem limitação, tal mídia legível por computador pode compreender uma RAM, ROM, EEPROM, CD-ROM ou outro armazenamento de disco óptico, armazenamento de disco magnético ou outros dispositivos de armazenamento magnético ou qualquer outro meio que possa ser usado para armazenar o código de programa desejado na forma de instruções ou estruturas de dados e que pode ser acessado por um computador. Deve-se compreender, no entanto, que a mídia de armazenamento legível por computador e a mídia de armazenamento de dados não incluem conexões, ondas portadoras, sinais ou outra mídia transitória, porém, são direcionadas, em vez disso, para mídia de armazenamento tangível não transitória. O disco magnético e o disco óptico, conforme usados no presente documento, incluem disco compacto (CD), disco a laser, disco óptico, disco versátil digital (DVD), disco flexível e disco Blu-ray, em que os discos magnéticos normalmente reproduzem dados magneticamente, enquanto os discos ópticos reproduzem dados opticamente com lasers. As combinações dos supracitados também devem ser abrangidas pelo escopo de mídias legíveis por computador.

[0316] As instruções podem ser executadas por um ou mais processadores, como um ou mais processadores de sinal digital (DSPs), microprocessadores para fins gerais, circuitos integrados de aplicação específica (ASICs), matrizes lógicas programáveis em campo (FPGAs), ou outros conjuntos de circuitos lógicos discretos ou integrados equivalentes. Dessa maneira, o termo “processador”, como usado no presente documento, pode se referir a qualquer uma das estruturas anteriores ou qualquer outra estrutura adequada para implantação das técnicas descritas no presente documento. Além disso, em alguns aspectos, a funcionalidade descrita no presente documento pode ser fornecida em módulos de hardware e/ou software dedicados configurados para codificação e decodificação, ou incorporada em um codec combinado. Também, as técnicas poderiam ser totalmente implantadas em um ou mais circuitos ou elementos lógicos.

[0317] As técnicas desta revelação podem ser implantadas em uma ampla variedade de dispositivos ou aparelhos, incluindo um fone sem fio, um circuito integrado (IC) ou um conjunto de ICs (por exemplo, um chipset). Vários componentes, módulos ou unidades são descritos nesta revelação para enfatizar aspectos funcionais de dispositivos configurados para realizar as técnicas reveladas, mas não exigem necessariamente a realização através de diferentes unidades de hardware. Em vez disso, conforme descrito acima, várias unidades podem ser combinadas em uma unidade de hardware de codec ou fornecidas por um conjunto de unidades de hardware interoperativas, que incluem um ou mais processadores conforme descrito acima, em conjunto com o software e/ou o firmware adequado.

[0318] Vários aspectos das técnicas foram descritos. Esses e outros aspectos das técnicas são abrangidos pelo escopo das reivindicações a seguir.

Claims

1. Método de produção de um fluxo de bits (21) de dados de áudio codificados por um dispositivo de codificação de áudio, caracterizado pelo fato de que compreende: determinar (302) quando um coeficiente ambissônico de ordem superior de ambiente (47’) está em transição durante um quadro, o coeficiente ambissônico de ordem superior de ambiente (47’) sendo representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro; manter (304) informação de estado de transição com base no coeficiente ambissônico de ordem superior de ambiente (47’), a informação de estado de transição indicando, para o coeficiente ambissônico de ordem superior de ambiente (47’), um dentre: um estado de não transição, um estado de surgimento e um estado de ocultação; obter (306), com base na informação de estado de transição mantido, um bit (757) indicativo da transição do ambiente de coeficiente ambissônico de ordem superior de ambiente durante o quadro; identificar um elemento de um vetor (53) que está associado ao coeficiente ambissônico de ordem superior de ambiente (47’) em transição, sendo que o vetor é representativo, pelo menos em parte, de um componente espacial do campo sonoro; gerar, com base no vetor (53), um vetor reduzido (55) para incluir o elemento identificado do vetor para o quadro; e produzir (308) o fluxo de bits (21) para incluir um bit indicativo do vetor reduzido e o bit (757) indicativo da transição do coeficiente ambissônico de ordem superior de ambiente (47’) durante o quadro e um bit indicativo da informação de estado (812) que inclui a informação de estado de transição no quadro, o bit indicativo da informação de estado (812) possibilitando que o fluxo de bits dos dados de áudio codificado do quadro seja decodificado sem referência a quadros anteriores do fluxo de bits (21).

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a informação de estado (812) inclui informação de quantização.

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o quadro é emitido através de um protocolo de fluxo.

4. Dispositivo de codificação de áudio configurado para produzir um fluxo de bits (21) de dados de áudio codificados, o dispositivo de codificação de áudio sendo caracterizado pelo fato de que compreende uma memória configurada para armazenar o fluxo de bits (21) e um ou mais processadores sendo configurados para: determinar (302) quando um coeficiente ambissônico de ordem superior de ambiente (47’) está em transição durante um quadro, o coeficiente ambissônico de ordem superior de ambiente (47’) sendo representativo, pelo menos em parte, de um componente do ambiente de um campo sonoro; manter (304) informação de estado de transição com base no coeficiente ambissônico de ordem superior de ambiente (47’), a informação de estado de transição indicando, para o coeficiente ambissônico de ordem superior de ambiente (47’), um dentre: um estado de não transição, um estado de surgimento e um estado de ocultação; obter (306), com base na informação de estado de transição mantido, um bit (757) indicativo da transição do ambiente de coeficiente ambissônico de ordem superior de ambiente durante o quadro; identificar um elemento de um vetor (53) que está associado ao coeficiente ambissônico de ordem superior de ambiente (47’) em transição, sendo que o vetor é representativo, pelo menos em parte, de um componente espacial do campo sonoro; gerar, com base no vetor (53), um vetor reduzido (55) para incluir o elemento identificado do vetor para o quadro; e produzir (308) o fluxo de bits (21) para incluir um bit indicativo do vetor reduzido e o bit (757) indicativo da transição do coeficiente ambissônico de ordem superior de ambiente (47’) durante o quadro e um bit indicativo da informação de estado (812) que inclui a informação de estado de transição no quadro, o bit indicativo da informação de estado (812) possibilitando que o fluxo de bits dos dados de áudio codificado do quadro seja decodificado sem referência a quadros anteriores do fluxo de bits (21).

5. Dispositivo de codificação de áudio, de acordo com a reivindicação 4, caracterizado pelo fato de que o bit indicativo da informação de estado (812) inclui informação de quantização.

6. Dispositivo de codificação de áudio, de acordo com a reivindicação 4, caracterizado pelo fato de que o quadro é emitido através de um protocolo de fluxo.

7. Sistema caracterizado pelo fato de que compreende o dispositivo de codificação de áudio conforme definido em qualquer uma das reivindicações 4 a 6 e uma pluralidade de microfones para gravação de um campo sonoro tridimensional.

8. Método de decodificação de um fluxo de bits (21) de dados de áudio codificado, por um dispositivo de decodificação de áudio, o método caracterizado pelo fato de que compreende: obter, em um decodificador e a partir de um quadro do fluxo de bits (21), informação de estado de transição a partir de um bit indicativo de informação de estado (812), a informação de estado de transição indicando para um coeficiente ambissônico de ordem superior de ambiente (47’) representativo, pelo menos em parte, de um componente de ambiente de um campo sonoro, um dentre: um estado de não transição, um estado de surgimento e um estado de ocultação, o indicativo de bit da informação de estado (812) possibilitando que o fluxo de bits dos dados de áudio codificado do quadro seja decodificado sem referência aos quadros antecedentes do fluxo de bits; obter (352), a partir do quadro de fluxo de bits (21), um bit (757) indicativo de uma transição do coeficiente ambissônico de ordem superior de ambiente (47’) durante o quadro; manter (354) a informação de estado de transição com base no bit (757) indicativo de uma transição do coeficiente ambissônico de ordem superior de ambiente (47‘); obter, a partir do quadro, um bit indicativo de um vetor reduzido representativo, pelo menos em parte, de um componente espacial do campo sonoro com base na possibilidade do coeficiente ambissônico de ordem superior de ambiente (47’) estar em transição, em que o vetor reduzido inclui um elemento de vetor associado com o coeficiente ambissônico de ordem superior de ambiente (47’) em transição; determinar a necessidade de realizar uma operação de surgimento ou uma operação de ocultação com relação ao coeficiente ambissônico de ordem superior de ambiente (47’) com base na informação de estado de transição; e executar (356) a operação de surgimento ou a operação de ocultação, com relação ao coeficiente ambissônico de ordem superior de ambiente (47’), com base na determinação da necessidade para surgimento ou ocultação do coeficiente ambissônico de ordem superior de ambiente (47’ ) .

9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que obter o bit indicativo do vetor reduzido compreende obter um bit indicativo do vetor reduzido de acordo com um primeiro modo de uma pluralidade de modos, o primeiro modo indicando que o vetor reduzido inclui o elemento de vetor associado com o coeficiente ambissônico de ordem superior de ambiente (47’) em transição, em que a pluralidade de modos adicionalmente inclui um segundo modo indicando que o elemento de vetor associado com o coeficiente ambissônico de ordem superior de ambiente (47’) não está incluído no vetor reduzido.

10. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que compreende adicionalmente a dequantização do vetor reduzido com base na informação de quantização incluída no bit indicativo da informação de estado (812).

11. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que compreende adicionalmente decodificar o quadro para mudança de uma primeira representação de conteúdo para uma segunda representação de conteúdo, em que a segunda representação é diferente da primeira representação.

12. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que compreende adicionalmente: obter, durante um quadro subsequente, um bit indicativo de um segundo vetor reduzido, um bit indicativo do coeficiente ambissônico de ordem superior de ambiente, e um bit indicando que o coeficiente ambissônico de ordem superior de ambiente não está em transição; em que o segundo vetor reduzido para o quadro subsequente não inclui um elemento associado com o coeficiente ambissônico de ordem superior de ambiente para o quadro subsequente.

13. Dispositivo de decodificação de áudio configurado para decodificar um fluxo de bits (21) de dados de áudio codificado, o dispositivo de decodificação de áudio caracterizado pelo fato de que compreende: uma memória configurada para armazenar um quadro do fluxo de bits dos dados de áudio codificado; e um ou mais processadores configurados para: obter, em um decodificador e a partir de um quadro do fluxo de bits (21), informação de estado de transição a partir de um bit indicativo de informação de estado (812), a informação de estado de transição indicando para um coeficiente ambissônico de ordem superior de ambiente (47’) representativo, pelo menos em parte, de um componente de ambiente de um campo sonoro, um dentre: um estado de não transição, um estado de surgimento e um estado de ocultação, o indicativo de bit da informação de estado (812) possibilitando que o fluxo de bits dos dados de áudio codificado do quadro seja decodificado sem referência aos quadros antecedentes do fluxo de bits; obter (352), a partir do quadro de fluxo de bits (21), um bit (757) indicativo de uma transição do coeficiente ambissônico de ordem superior de ambiente (47’) durante o quadro; manter (354) a informação de estado de transição com base no bit (757) indicativo de uma transição do coeficiente ambissônico de ordem superior de ambiente (47’); obter, a partir do quadro, um bit indicativo de um vetor reduzido representativo, pelo menos em parte, de um componente espacial do campo sonoro com base na possibilidade do coeficiente ambissônico de ordem superior de ambiente (47’) estar em transição, em que o vetor reduzido inclui um elemento de vetor associado com o coeficiente ambissônico de ordem superior de ambiente (47’) em transição; determinar a necessidade de realizar uma operação de surgimento ou uma operação de ocultação com relação ao coeficiente ambissônico de ordem superior de ambiente (47’) com base na informação de estado de transição; e executar (356) a operação de surgimento ou a operação de ocultação, com relação ao coeficiente ambissônico de ordem superior de ambiente (47’), com base na determinação da necessidade para surgimento ou ocultação do coeficiente ambissônico de ordem superior de ambiente (47’ ) .

14. Dispositivo de decodificação de áudio, de acordo com a reivindicação 13, caracterizado pelo fato de que um ou mais processadores são configurados para obter o bit indicativo do vetor reduzido de acordo com um primeiro modo de uma pluralidade de modos, o primeiro modo indicando que o vetor reduzido inclui o elemento de vetor associado com o coeficiente ambissônico de ordem superior de ambiente em transição.

15. Dispositivo de decodificação de áudio, de acordo com a reivindicação 14, caracterizado pelo fato de que a pluralidade de modos adicionalmente inclui um segundo modo indicando que o elemento de vetor associado com o coeficiente ambissônico de ordem superior de ambiente não está incluído no vetor reduzido.

16. Dispositivo de decodificação de áudio, de acordo com a reivindicação 13, caracterizado pelo fato de que um ou mais processadores são configurados adicionalmente para dequantizar o vetor reduzido com base na informação de quantização incluída no bit indicativo da informação de estado (812).

17. Dispositivo de decodificação de áudio, de acordo com a reivindicação 13, caracterizado pelo fato de que um ou mais processadores são configurados adicionalmente para decodificar o quadro para mudança de uma primeira representação de conteúdo para uma segunda representação de conteúdo, em que a segunda representação de conteúdo é diferente da primeira representação.

18. Dispositivo de decodificação de áudio, de acordo com a reivindicação 13, caracterizado pelo fato de que o bit (757) indicativo da transição indica se o coeficiente ambissônico de ordem superior de ambiente está oculto durante o quadro.

19. Dispositivo de decodificação de áudio, de acordo com a reivindicação 13, caracterizado pelo fato de que o bit (757) indicativo da transição indica se o coeficiente ambissônico de ordem superior de ambiente está aparente durante o quadro.

20. Dispositivo de decodificação de áudio, de acordo com a reivindicação 13, caracterizado pelo fato de que um ou mais processadores são configurados adicionalmente para obter, durante um quadro subsequente, um bit indicativo de um segundo vetor reduzido, um bit indicativo do coeficiente ambissônico de ordem superior de ambiente, e um bit indicando que o coeficiente ambissônico de ordem superior de ambiente não se encontra em transição, em que o segundo vetor reduzido para o quadro subsequente não inclui um elemento associado ao coeficiente ambissônico de ordem superior de ambiente para o quadro subsequente.

21. Dispositivo de decodificação de áudio, de acordo com a reivindicação 13, caracterizado pelo fato de que um ou mais processadores são configurados adicionalmente para executar uma operação de ocultação com relação ao coeficiente ambissônico de ordem superior de ambiente durante o quadro, e executar uma operação de surgimento com relação ao elemento de vetor durante o quadro para compensar a mudança de energia que ocorre como resultado da ocultação do coeficiente ambissônico de ordem superior de ambiente.

22. Dispositivo de decodificação de áudio, de acordo com a reivindicação 13, caracterizado pelo fato de que um ou mais processadores são configurados adicionalmente para executar uma operação de surgimento com relação ao coeficiente ambissônico de ordem superior de ambiente durante o quadro, e executar uma operação de ocultação com relação ao elemento de vetor durante o quadro para compensar a mudança de energia que ocorre como resultado do surgimento do coeficiente ambissônico de ordem superior de ambiente.

23. Sistema caracterizado pelo fato de que compreende o dispositivo de decodificação de áudio conforme definido em qualquer uma das reivindicações 13 a 22, e uma pluralidade de amplificadores para emissão de uma representação de um campo sonoro em 3D.

24. Memória legível por computador não transitória caracterizada pelo fato de que compreende instruções armazenadas na mesma que, quando executadas, fazem com que um ou mais processadores de um dispositivo execute um método conforme definido em qualquer uma das reivindicações 8 a 12.