BR112017007287B1 - SIGNALING LAYERS FOR SCALABLE ENCODING OF HIGH-ORDER AMBISONIC AUDIO DATA - Google Patents

SIGNALING LAYERS FOR SCALABLE ENCODING OF HIGH-ORDER AMBISONIC AUDIO DATA Download PDF

Info

Publication number
BR112017007287B1
BR112017007287B1 BR112017007287-4A BR112017007287A BR112017007287B1 BR 112017007287 B1 BR112017007287 B1 BR 112017007287B1 BR 112017007287 A BR112017007287 A BR 112017007287A BR 112017007287 B1 BR112017007287 B1 BR 112017007287B1
Authority
BR
Brazil
Prior art keywords
layers
bitstream
channels
audio
unit
Prior art date
Application number
BR112017007287-4A
Other languages
Portuguese (pt)
Other versions
BR112017007287A2 (en
Inventor
Moo Young Kim
Nils Günther Peters
Dipanjan Sen
Original Assignee
Qualcomm Incorporated
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/878,691 external-priority patent/US10140996B2/en
Application filed by Qualcomm Incorporated filed Critical Qualcomm Incorporated
Publication of BR112017007287A2 publication Critical patent/BR112017007287A2/en
Publication of BR112017007287B1 publication Critical patent/BR112017007287B1/en

Links

Abstract

CAMADAS DE SINALIZAÇÃO PARA CODIFICAÇÃO ESCALONÁVEL DE DADOS DE ÁUDIO AMBISONIC DE ORDEM SUPERIOR. Em geral, técnicas são descritas para camadas de sinalização para codificação escalonável de dados de áudio ambisonic de ordem superior. Um dispositivo compreendendo uma memória e um processador pode ser configurado para executar as técnicas. A memória pode ser configurada para armazenar o fluxo de bits. O processador pode ser configurado para obter, a partir do fluxo de bits, uma indicação de um número de camadas especificadas no fluxo de bits, e obter as camadas especificadas do fluxo de bits com base na indicação do número de camadas.SIGNALING LAYERS FOR SCALABLE ENCODING OF HIGHER ORDER AMBISONIC AUDIO DATA. In general, techniques are described for signaling layers for scalable encoding of higher order ambisonic audio data. A device comprising a memory and a processor can be configured to perform the techniques. The memory can be configured to store the bit stream. The processor may be configured to obtain, from the bitstream, an indication of a specified number of layers in the bitstream, and obtain the specified layers of the bitstream based on the indication of the number of layers.

Description

[0001] O presente pedido reivindica o benefício do seguinte: Pedido provisional US número 62/062.584, intitulado “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA, ” depositado em 10 de outubro de 2014; Pedido provisional US número 62/084.461, intitulado “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA, ” depositado em 25 de novembro de 2014; Pedido provisional US número 62/087.209, intitulado “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA, ” depositado em de dezembro de 2014; Pedido provisional US número 62/088.445, intitulado “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA, ” depositado em 5 de dezembro de 2014; Pedido provisional US número 62/145.960, intitulado “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA, ” depositado em 10 de abril de 2015; Pedido provisional US número 62/175.185, intitulado “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA, ” depositado em 12 de junho de 2015; Pedido provisional US número 62/187.799, intitulado “REDUCING CORRELATION BETWEEN HIGHER ORDER AMBISONIC (HOA) BACKGROUND CHANNELS, ” depositado em 1 de julho de 2015; e Pedido provisional US número 62/209.764, intitulado “TRANSPORTING CODED SCALABLE AUDIO DATA, ” depositado em 25 de agosto de 2015; O teor na íntegra de cada é incorporado aqui por referência.[0001] This application claims the benefit of the following: Provisional application US number 62/062,584, entitled “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA,” filed on October 10, 2014; Provisional application US number 62/084,461 entitled “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA,” filed November 25, 2014; Provisional application US number 62/087,209, entitled “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA,” filed on December 2014; Provisional application US number 62/088,445, entitled “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA,” filed on December 5, 2014; US provisional application number 62/145,960 entitled “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA,” filed April 10, 2015; US provisional application number 62/175,185, entitled “SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA,” filed on June 12, 2015; US Provisional Application Number 62/187,799, entitled “REDUCING CORRELATION BETWEEN HIGHER ORDER AMBISONIC (HOA) BACKGROUND CHANNELS,” filed July 1, 2015; and US Provisional Application No. 62/209,764 entitled “TRANSPORTING CODED SCALABLE AUDIO DATA,” filed on August 25, 2015; The full contents of each are incorporated herein by reference.

CAMPO TÉCNICOTECHNICAL FIELD

[0002] A presente revelação refere-se a dados de áudio e, mais especificamente, codificação escalonável de dados de áudio ambisonic de ordem superior.[0002] The present disclosure relates to audio data, and more specifically, scalable encoding of higher order ambisonic audio data.

ANTECEDENTESBACKGROUND

[0003] Um sinal ambisonics de ordem superior (HOA) (frequentemente representado por uma pluralidade de coeficientes harmônicos esféricos (SHC) ou outros elementos hierárquicos) é uma representação tridimensional de um campo de som. A representação HOA ou SHC pode representar o campo de som em um modo que é independente da geometria de alto-falante local usado para reprodução de um sinal de áudio de multicanais fornecido a partir do sinal SHC. O sinal SHC pode facilitar também compatibilidade regressiva visto que o sinal SHC pode ser fornecido para formatos de multicanal bem conhecidos e altamente adotados, como um formato de canal de áudio 5.1 ou um formato de canal de áudio 7.1. A representação SHC pode, portanto, permitir que uma representação melhor de um campo de som que também acomoda compatibilidade regressiva.[0003] A higher-order ambisonics (HOA) signal (often represented by a plurality of spherical harmonic coefficients (SHC) or other hierarchical elements) is a three-dimensional representation of a sound field. The HOA or SHC representation can represent the sound field in a way that is independent of the local speaker geometry used for reproduction of a multi-channel audio signal supplied from the SHC signal. The SHC signal can also facilitate backward compatibility as the SHC signal can be provided for well-known and highly adopted multi-channel formats such as a 5.1 channel audio format or a 7.1 channel audio format. The SHC representation can therefore allow a better representation of a sound field that also accommodates backward compatibility.

SUMÁRIOSUMMARY

[0004] Em geral, técnicas são descritas para codificação escalonável de dados de áudio ambisonics de ordem superior. Dados de áudio ambisonics de ordem superior podem compreender pelo menos um coeficiente ambisonic de ordem superior (HOA) correspondendo a uma função de base harmônica esférica tendo uma ordem maior que um. As técnicas podem fornecer codificação escalonável dos coeficientes HOA por codificar os coeficientes HOA ilustrando múltiplas camadas, como uma camada base e uma ou mais camadas de aperfeiçoamento. A camada base pode permitir reprodução de um campo de som representado pelos coeficientes HOA que podem ser aperfeiçoados por uma ou mais camadas de aperfeiçoamento. Em outras palavras, as camadas de aperfeiçoamento (em combinação com a camada base) podem fornecer resolução adicional que permite uma reprodução mais completa (ou mais precisa) do campo de som em comparação com a camada base sozinha.[0004] In general, techniques are described for scalable encoding of higher order ambisonic audio data. Higher order ambisonic audio data may comprise at least one higher order ambisonic coefficient (HOA) corresponding to a spherical harmonic basis function having an order greater than one. The techniques can provide scalable encoding of the HOA coefficients by encoding the HOA coefficients illustrating multiple layers, such as a base layer and one or more enhancement layers. The base layer may allow reproduction of a sound field represented by HOA coefficients which may be enhanced by one or more enhancement layers. In other words, the enhancement layers (in combination with the base layer) can provide additional resolution that allows for a fuller (or more accurate) reproduction of the sound field compared to the base layer alone.

[0005] Em um aspecto, um dispositivo é configurado para decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior. O dispositivo compreende uma memória configurada para armazenar o fluxo de bits, e um ou mais processadores configurados para obter, a partir do fluxo de bits, uma indicação de um número de camadas especificadas no fluxo de bits, e obter as camadas do fluxo de bits com base na indicação do número de camadas.[0005] In one aspect, a device is configured to decode a bit stream representative of a higher order ambisonic audio signal. The device comprises a memory configured to store the bitstream, and one or more processors configured to obtain, from the bitstream, an indication of a specified number of layers in the bitstream, and obtain the layers of the bitstream based on the indication of the number of layers.

[0006] Em outro aspecto, um método de decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior, o método compreendendo obter, a partir do fluxo de bits, uma indicação de um número de camadas especificadas no fluxo de bits, e obter as camadas do fluxo de bits com base na indicação do número de camadas.[0006] In another aspect, a method of decoding a bitstream representative of a higher-order ambisonic audio signal, the method comprising obtaining, from the bitstream, an indication of a specified number of layers in the bitstream, and obtaining the layers of the bitstream based on the indication of the number of layers.

[0007] Em outro aspecto, um aparelho é configurado para decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior. O aparelho compreende meio para armazenar o fluxo de bits, meio para obter, a partir do fluxo de bits, uma indicação de um número de camadas especificado no fluxo de bits, e meio para obter as camadas do fluxo de bits com base na indicação do número de camadas.[0007] In another aspect, an apparatus is configured to decode a bit stream representative of a higher order ambisonic audio signal. The apparatus comprises means for storing the bit stream, means for obtaining from the bit stream an indication of a specified number of layers in the bit stream, and means for obtaining the layers of the bit stream based on the indication of the number of layers.

[0008] Em outro aspecto, uma mídia de armazenagem legível em computador não transitória tendo armazenado na mesma instruções que, quando executadas, fazem com que um ou mais processadores obtenha, a partir do fluxo de bits, uma indicação de um número de camadas especificado no fluxo de bits, e obtenha as camadas do fluxo de bits com base na indicação do número de camadas.[0008] In another aspect, a non-transient computer-readable storage medium having stored thereon instructions which, when executed, cause one or more processors to obtain, from the bitstream, an indication of a specified number of layers in the bitstream, and obtain the layers of the bitstream based on the indication of the number of layers.

[0009] Em outro aspecto, um dispositivo é configurado para codificar um sinal de áudio ambisonic de ordem superior para gerar um fluxo de bits. O dispositivo compreende uma memória configurada para armazenar o fluxo de bits, e um ou mais processadores configurados para especificar uma indicação de um número de camadas no fluxo de bits, e transmitir o fluxo de bits que inclui o número indicado das camadas.[0009] In another aspect, a device is configured to encode a higher order ambisonic audio signal to generate a bit stream. The device comprises memory configured to store the bit stream, and one or more processors configured to specify an indication of a number of layers in the bit stream, and transmit the bit stream including the indicated number of layers.

[00010] Em outro aspecto, um método de gerar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior, o método compreende especificar uma indicação de um número de camadas no fluxo de bits, e transmitir o fluxo de bits que inclui o número indicado das camadas.[00010] In another aspect, a method of generating a bitstream representative of a higher order ambisonic audio signal, the method comprises specifying an indication of a number of layers in the bitstream, and transmitting the bitstream that includes the indicated number of layers.

[00011] Em outro aspecto, um dispositivo é configurado para decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior. O dispositivo compreende uma memória configurada para armazenar o fluxo de bits, e um ou mais processadores configurados para obter, a partir do fluxo de bits, uma indicação de um número de canais especificados em uma ou mais camadas no fluxo de bits, e obter os canais especificados em uma ou maios camadas no fluxo de bits com base na indicação do número de canais.[00011] In another aspect, a device is configured to decode a bit stream representative of a higher order ambisonic audio signal. The device comprises a memory configured to store the bit stream, and one or more processors configured to obtain, from the bit stream, an indication of a specified number of channels in one or more layers in the bit stream, and obtain the specified channels in one or more layers in the bit stream based on the indication of the number of channels.

[00012] Em outro aspecto, um método de decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior, o método compreendendo obter, a partir do fluxo de bits, uma indicação de um número de canais especificado em uma ou mais camadas no fluxo de bits, e obter os canais especificados em uma ou mais camadas no fluxo de bits com base na indicação do número de canais.[00012] In another aspect, a method of decoding a bitstream representative of a higher-order ambisonic audio signal, the method comprising obtaining, from the bitstream, an indication of a specified number of channels in one or more layers in the bitstream, and obtaining the specified channels in one or more layers in the bitstream based on the indication of the number of channels.

[00013] Em outro aspecto, um dispositivo é configurado para decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior. O dispositivo compreende meio para obter, a partir do fluxo de bits, uma indicação de um número de canais especificado em uma ou mais camadas do fluxo de bits, e meio para obter os canais especificados em uma ou mais camadas no fluxo de bits com base na indicação do número de canais.[00013] In another aspect, a device is configured to decode a bit stream representative of a higher order ambisonic audio signal. The device comprises means for obtaining, from the bit stream, an indication of a number of channels specified in one or more layers of the bit stream, and means for obtaining the channels specified in one or more layers in the bit stream based on the indication of the number of channels.

[00014] Em outro aspecto, uma mídia de armazenagem legível em computador não transitória tendo armazenada na mesma instruções que, quando executadas, fazem com que um ou mais processadores obtenham, de um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior, uma indicação de um número de canais especificado em uma ou mais camadas do fluxo de bits, e obtenham os canais especificados em uma ou mais camadas do fluxo de bits com base na indicação do número de canais.[00014] In another aspect, a non-transient computer-readable storage medium having stored therein instructions which, when executed, cause one or more processors to obtain, from a bitstream representative of a higher-order ambisonic audio signal, an indication of a specified number of channels in one or more layers of the bitstream, and obtain the specified channels in one or more layers of the bitstream based on the indication of the number of channels.

[00015] Em outro aspecto, um dispositivo é configurado para codificar um sinal de áudio ambisonic de ordem superior para gerar um fluxo de bits. O dispositivo compreende um ou mais processadores configurados para especificar, no fluxo de bits, uma indicação de um número de canais especificados em uma ou mais camadas do fluxo de bits, e especificar o número indicado dos canais em uma ou mais camadas do fluxo de bits, e uma memória configurada para armazenar o fluxo de bits.[00015] In another aspect, a device is configured to encode a higher order ambisonic audio signal to generate a bit stream. The device comprises one or more processors configured to specify, in the bitstream, an indication of a specified number of channels in one or more layers of the bitstream, and to specify the indicated number of channels in one or more layers of the bitstream, and a memory configured to store the bitstream.

[00016] Em outro aspecto, um método de codificar um sinal de áudio ambisonic de ordem superior para gerar um fluxo de bits, o método compreende especificar, no fluxo de bits, uma indicação de um número de canais especificado em uma ou mais camadas do fluxo de bits, e especificar o número indicado dos canais em uma ou mais camadas do fluxo de bits.[00016] In another aspect, a method of encoding a higher order ambisonic audio signal to generate a bitstream, the method comprises specifying, in the bitstream, an indication of a specified number of channels in one or more layers of the bitstream, and specifying the indicated number of channels in one or more layers of the bitstream.

[00017] Os detalhes de um ou mais aspectos das técnicas são expostos nos desenhos em anexo e descrição abaixo. Outras características, objetivos e vantagens das técnicas serão evidentes a partir da descrição e desenhos, e das reivindicações.[00017] Details of one or more aspects of the techniques are set out in the attached drawings and description below. Other features, objectives, and advantages of the techniques will be apparent from the description and drawings, and from the claims.

BREVE DESCRIÇÃO DOS DESENHOSBRIEF DESCRIPTION OF THE DRAWINGS

[00018] A figura 1 é um diagrama ilustrando funções básicas harmônicas esféricas de várias ordens e subordens.[00018] Figure 1 is a diagram illustrating basic spherical harmonic functions of various orders and suborders.

[00019] A figura 2 é um diagrama ilustrando um sistema que pode executar vários aspectos das técnicas descritas nessa revelação.[00019] Figure 2 is a diagram illustrating a system that can perform various aspects of the techniques described in this disclosure.

[00020] A figura 3 é um diagrama de blocos ilustrando, em mais detalhe, um exemplo do dispositivo de codificação de áudio mostrado no exemplo da figura 2 que pode executar vários aspectos das técnicas descritas nessa revelação.[00020] Figure 3 is a block diagram illustrating, in more detail, an example of the audio encoding device shown in the example of Figure 2 that can perform various aspects of the techniques described in this disclosure.

[00021] A figura 4 é um diagrama de blocos ilustrando o dispositivo de decodificação de áudio da figura 2 em mais detalhe.[00021] Figure 4 is a block diagram illustrating the audio decoding device of Figure 2 in more detail.

[00022] A figura 5 é um diagrama ilustrando, em mais detalhe, a unidade de geração de fluxo de bits da figura 3 quando configurada para executar uma primeira das versões em potencial das técnicas de codificação de áudio escalonável descritas nessa revelação.[00022] Figure 5 is a diagram illustrating, in more detail, the bitstream generation unit of Figure 3 when configured to perform a first of the potential versions of the scalable audio coding techniques described in that disclosure.

[00023] A figura 6 é um diagrama ilustrando, em mais detalhe, a unidade de extração da figura 4 quando configurada para executar a primeira das versões em potencial das técnicas de decodificação de áudio escalonável descritas nessa revelação.[00023] Figure 6 is a diagram illustrating, in more detail, the extraction unit of Figure 4 when configured to perform the first of the potential versions of the scalable audio decoding techniques described in this disclosure.

[00024] As figuras 7A-7D são fluxogramas ilustrando operação de exemplo do dispositivo de codificação de áudio na geração de uma representação de duas camadas codificada dos coeficientes ambisonic de ordem superior (HOA).[00024] Figures 7A-7D are flowcharts illustrating example operation of the audio encoding device in generating an encoded two-layer representation of higher order ambisonic coefficients (HOA).

[00025] As figuras 8A e 8B são fluxogramas ilustrando operação de exemplo do dispositivo de codificação de áudio na geração de uma representação de três camadas codificada dos coeficientes HOA.[00025] Figures 8A and 8B are flowcharts illustrating example operation of the audio coding device in generating a coded three-layer representation of the HOA coefficients.

[00026] As figuras 9A e 9B são fluxogramas ilustrando operação de exemplo do dispositivo de codificação de áudio na geração de uma representação de quatro camadas codificada dos coeficientes HOA.[00026] Figures 9A and 9B are flowcharts illustrating example operation of the audio coding device in generating a coded four-layer representation of the HOA coefficients.

[00027] A figura 10 é um diagrama ilustrando um exemplo de um objeto de configuração de HOA especificado no fluxo de bits de acordo com vários aspectos das técnicas.[00027] Figure 10 is a diagram illustrating an example of an HOA configuration object specified in the bitstream in accordance with various aspects of the techniques.

[00028] A figura 11 é um diagrama ilustrando informação de banda lateral gerada pela unidade de geração de fluxo de bits para a primeira e a segunda camadas.[00028] Figure 11 is a diagram illustrating sideband information generated by the bitstream generation unit for the first and second layers.

[00029] As figuras 12A e 12B são diagramas ilustrando informações de banda lateral geradas de acordo com os aspectos de codificação de áudio das técnicas descritas nessa revelação.[00029] Figures 12A and 12B are diagrams illustrating sideband information generated in accordance with the audio encoding aspects of the techniques described in this disclosure.

[00030] As figuras 13A e 13B são diagramas ilustrando informações de banda lateral geradas de acordo com os aspectos de codificação escalonável das técnicas descritas nessa revelação.[00030] Figures 13A and 13B are diagrams illustrating sideband information generated in accordance with the scalable encoding aspects of the techniques described in this disclosure.

[00031] As figuras 14A e 14B são fluxogramas ilustrando operações de exemplo de dispositivo de codificação de áudio na execução de vários aspectos das técnicas descritas nessa revelação.[00031] Figures 14A and 14B are flowcharts illustrating exemplary audio encoding device operations in performing various aspects of the techniques described in this disclosure.

[00032] As figuras 15A e 15B são fluxogramas ilustrando operações de exemplo de dispositivo de decodificação de áudio na execução de vários aspectos das técnicas descritas nessa revelação.[00032] Figures 15A and 15B are flowcharts illustrating exemplary audio decoding device operations in performing various aspects of the techniques described in this disclosure.

[00033] A figura 16 é um diagrama ilustrando codificação de áudio escalonável como executada pela unidade de geração de fluxo de bits mostrada no exemplo da figura 16 de acordo com vários aspectos das técnicas descritas nessa revelação.[00033] Figure 16 is a diagram illustrating scalable audio encoding as performed by the bitstream generation unit shown in the example of Figure 16 in accordance with various aspects of the techniques described in this disclosure.

[00034] A figura 17 é um diagrama conceptual de um exemplo onde os elementos de sintaxe indicam que há duas camadas com quatro coeficientes HOA de ambiente codificado especificados em uma camada de base e dois sinais de primeiro plano codificados são especificados na camada de aperfeiçoamento.[00034] Figure 17 is a conceptual diagram of an example where the syntax elements indicate that there are two layers with four coded environment HOA coefficients specified in a base layer and two coded foreground signals are specified in the enhancement layer.

[00035] A figura 18 é um diagrama ilustrando, em mais detalhe, a unidade de geração de fluxo de bits da figura 3 quando configurada para executar uma segunda das versões em potencial das técnicas de codificação de áudio escalonável descritas nessa revelação.[00035] Figure 18 is a diagram illustrating, in more detail, the bitstream generation unit of Figure 3 when configured to perform a second of the potential versions of the scalable audio coding techniques described in that disclosure.

[00036] A figura 19 é um diagrama ilustrando, em mais detalhe, a unidade de extração da figura 3 quando configurada para executar a segunda das versões em potencial das técnicas de decodificação de áudio escalonável descritas nessa revelação.[00036] Figure 19 is a diagram illustrating, in more detail, the extraction unit of Figure 3 when configured to perform the second of the potential versions of the scalable audio decoding techniques described in this disclosure.

[00037] A figura 20 é um diagrama ilustrando um segundo caso de uso pelo qual a unidade de geração de fluxo de bits da figura 18 e a unidade de extração da figura 19 podem executar a segunda da versão em potencial das técnicas descritas nessa revelação.[00037] Fig. 20 is a diagram illustrating a second use case by which the bitstream generation unit of Fig. 18 and the extraction unit of Fig. 19 can perform the second of the potential version of the techniques described in this disclosure.

[00038] A figura 21 é um diagrama conceptual de um exemplo onde os elementos de sintaxe indicam que há três camadas com dois coeficientes HOA de ambiente codificado especificados em uma camada base, dois sinais de primeiro plano codificados são especificados em uma primeira camada de aperfeiçoamento e dois sinais de primeiro plano codificados são especificados em uma segunda camada de aperfeiçoamento.[00038] Figure 21 is a conceptual diagram of an example where the syntax elements indicate that there are three layers with two encoded environment HOA coefficients specified in a base layer, two encoded foreground signals are specified in a first enhancement layer, and two encoded foreground signals are specified in a second enhancement layer.

[00039] A figura 22 é um diagrama ilustrando, em mais detalhe, a unidade de geração de fluxo de bits da figura 3 quando configurada para executar uma terceira das versões em potencial das técnicas de codificação de áudio escalonável descritas nessa revelação.[00039] Figure 22 is a diagram illustrating, in more detail, the bitstream generation unit of Figure 3 when configured to perform a third of the potential versions of the scalable audio coding techniques described in that disclosure.

[00040] A figura 23 é um diagrama ilustrando, em mais detalhe, a unidade de extração da figura 4 quando configurada para executar a terceira das versões em potencial das técnicas de decodificação de áudio escalonável descritas nessa revelação.[00040] Figure 23 is a diagram illustrating, in more detail, the extraction unit of Figure 4 when configured to perform the third of the potential versions of the scalable audio decoding techniques described in this disclosure.

[00041] A figura 24 é um diagrama ilustrando um terceiro caso de uso pelo qual um dispositivo de codificação de áudio pode especificar múltiplas camadas em um fluxo de bits de multicamadas de acordo com as técnicas descritas nessa revelação.[00041] Fig. 24 is a diagram illustrating a third use case whereby an audio encoding device can specify multiple layers in a multilayer bit stream in accordance with the techniques described in this disclosure.

[00042] A figura 25 é um diagrama conceptual de um exemplo onde os elementos de sintaxe indicam que há três camadas com dois sinais de primeiro plano codificados especificados em uma camada ase, dois sinais de primeiro plano codificados são especificados em uma primeira camada de aperfeiçoamento e dois sinais de primeiro plano codificados são especificados em uma segunda camada de aperfeiçoamento.[00042] Figure 25 is a conceptual diagram of an example where the syntax elements indicate that there are three layers with two encoded foreground signals specified in an ase layer, two encoded foreground signals are specified in a first enhancement layer, and two encoded foreground signals are specified in a second enhancement layer.

[00043] A figura 26 é um diagrama ilustrando um terceiro caso de uso pelo qual um dispositivo de codificação de áudio pode especificar múltiplas camadas em um fluxo de bits de multicamadas de acordo com as técnicas descritas nessa revelação.[00043] Fig. 26 is a diagram illustrating a third use case whereby an audio encoding device can specify multiple layers in a multilayer bit stream in accordance with the techniques described in this disclosure.

[00044] As figuras 27 e 28 são diagramas de bloco ilustrando uma unidade de geração de fluxo de bits escalonável e uma unidade de extração de fluxo de bits escalonável que pode ser configurada para executar vários aspectos das técnicas descritas nessa revelação.[00044] Figures 27 and 28 are block diagrams illustrating a scalable bitstream generation unit and a scalable bitstream extraction unit that can be configured to perform various aspects of the techniques described in this disclosure.

[00045] A figura 29 representa um diagrama conceptual representando um codificador que pode ser configurado para operar de acordo com vários aspectos das técnicas descritas nessa revelação.[00045] Figure 29 is a conceptual diagram representing an encoder that can be configured to operate in accordance with various aspects of the techniques described in this disclosure.

[00046] A figura 30 é um diagrama ilustrando o codificador mostrado no exemplo da figura 27 em mais detalhe.[00046] Figure 30 is a diagram illustrating the encoder shown in the example of figure 27 in more detail.

[00047] A figura 31 é um diagrama de bloco ilustrando um decodificador de áudio que pode ser configurado para operar de acordo com vários aspectos das técnicas descritas nessa revelação.[00047] Figure 31 is a block diagram illustrating an audio decoder that can be configured to operate in accordance with various aspects of the techniques described in this disclosure.

DESCRIÇÃO DETALHADADETAILED DESCRIPTION

[00048] A evolução de som surround tornou disponível muitos formatos de saída para entretenimento hoje em dia. Os exemplos de tais formatos de som surround de consumidor são na maioria baseados em ‘canal’ em que os mesmos implicitamente especificam feeds para alto-falantes em certas coordenadas geométricas. Os formatos de som surround de consumidor incluem o popular formato 5.1 (que inclui os seis canais a seguir: frontal esquerda (FL), frontal direita (FR), centro ou frontal centro, posterior esquerdo ou surround esquerdo, posterior direito ou surround direito, e efeitos de baixa frequência (LFE)), o formato 7.1 aumentando, vários formatos que incluem alto- falantes de altura como o formato 7.1.4 e o formato 22.2 (por exemplo, para usar com o padrão de Televisão de definição ultraelevada). Formatos não de consumidor podem cobrir qualquer número de alto-falantes (em geometrias simétricas e não simétricas) frequentemente denominadas ‘conjuntos de surround’. Um exemplo de tal conjunto inclui 32 alto-falantes posicionados em coordenadas nos cantos de um icosaedro truncado.[00048] The evolution of surround sound has made many output formats available for entertainment today. Examples of such consumer surround sound formats are mostly 'channel' based in that they implicitly specify feeds to speakers at certain geometric coordinates. Consumer surround sound formats include the popular 5.1 format (which includes the following six channels: front left (FL), front right (FR), center or front center, rear left or surround left, rear right or surround right, and low frequency effects (LFE)), the 7.1 format boosting, various formats that include tall speakers such as the 7.1.4 format, and the 22.2 format (for example, for use with the UHD television standard). Non-consumer formats can cover any number of speakers (in symmetrical and non-symmetrical geometries) often referred to as 'surround arrays'. An example of such an array includes 32 speakers positioned at coordinates at the corners of a truncated icosahedron.

[00049] A entrada em um codificador MPEG futuro é opcionalmente um de três formatos possíveis: (i) áudio baseado em canal tradicional (como discutido acima), que é para ser tocado através de alto-falantes em posições especificadas previamente; (ii) áudio baseado em objeto, que envolve dados de modulação-código-pulso (PCM) discretos para objetos de áudio únicos com metadados associados contendo suas coordenadas de local (entre outras informações); e (iii) áudio baseado em cena, que envolve representar o campo de som usando coeficientes de funções de base harmônica esférica (também chamados “coeficientes harmônicos esféricos” ou SHC, “Ambisonics de ordem superior” ou HOA e “coeficientes de HOA”). O codificador MPEG futuro pode ser descrito em mais detalhe em um documento intitulado “Call for proposals for 3D áudio,” pela Organização Internacional para Padronização/Comissão eletrotécnica internacional (ISO)/(IEC) JTC1/SC19/WG11/N13411, lançado em janeiro de 2013 em Genebra, Suíça, e disponível em http://mpeg.chiariglione.org/sites/default/files/files/stan dards/aprtes/docs/w134.11.zip.[00049] Input to a future MPEG encoder is optionally one of three possible formats: (i) traditional channel-based audio (as discussed above), which is to be played through speakers at pre-specified positions; (ii) object-based audio, which involves discrete pulse-code-modulation (PCM) data for single audio objects with associated metadata containing their location coordinates (among other information); and (iii) scene-based audio, which involves representing the sound field using spherical harmonic base function coefficients (also called “spherical harmonic coefficients” or SHC, “higher order Ambisonics” or HOA, and “HOA coefficients”). The future MPEG encoder can be described in more detail in a document entitled “Call for proposals for 3D audio,” by the International Organization for Standardization/International Electrotechnical Commission (ISO)/(IEC) JTC1/SC19/WG11/N13411, released in January 2013 in Geneva, Switzerland, and available at http://mpeg.chiariglione.org/sites/default/files/files/stan dards/aprtes/doc s/w134.11.zip.

[00050] Há vários formatos baseados em canal ‘som-surround’ no mercado. Variam, por exemplo, do sistema de home theatre 5.1 (que tem sido o mais bem-sucedido em termos de fazer incursões em salas-de-estar além de estéreo) até o sistema 22.2 desenvolvido por NHK (Nippon Hoso Kyokai ou Japan Broadcasting Corporation). Criadores de conteúdo (por exemplo, estudos de Hollywood) gostariam de produzir a trilha sonora para um filme uma vez, e não gastar esforço em remixar a mesma para a configuração de cada alto-falante. Recentemente, Organizações de desenvolvimento de padrão estão considerando modos nos quais fornecer uma codificação para um fluxo de bits padronizado e uma decodificação subsequente que é adaptável e agnóstica à geometria do alto0falante (e número) e condições acústicas no local da reprodução (envolvendo um renderizador).[00050] There are several surround-sound channel-based formats on the market. They range, for example, from the 5.1 home theater system (which has been the most successful in terms of making inroads into living rooms beyond stereo) to the 22.2 system developed by NHK (Nippon Hoso Kyokai or Japan Broadcasting Corporation). Content creators (eg Hollywood studies) would like to produce the soundtrack for a movie once, not spend effort remixing it for each speaker setup. Recently, standards development organizations are considering ways in which to provide encoding for a standardized bitstream and subsequent decoding that is adaptive and agnostic to speaker geometry (and number) and acoustic conditions at the playback location (involving a renderer).

[00051] Para fornecer tal flexibilidade para criadores de conteúdo, um conjunto hierárquico de elementos pode ser usado para representar um campo de som. O conjunto hierárquico de elementos pode se referir a um conjunto de elementos no qual os elementos são ordenados de modo que um conjunto básico de elementos de ordem inferior fornece uma representação completa do campo de som modelado. Como o conjunto é estendido para incluir elementos de ordem superior, a representação se torna mais detalhada, aumentando a resolução.[00051] To provide such flexibility for content creators, a hierarchical set of elements can be used to represent a sound field. The hierarchical set of elements can refer to a set of elements in which the elements are ordered such that a basic set of lower-order elements provides a complete representation of the modeled sound field. As the set is extended to include higher-order elements, the representation becomes more detailed, increasing resolution.

[00052] Um exemplo de um conjunto hierárquico de elementos é um conjunto de coeficientes harmônicos esféricos (SHC). A seguinte expressão demonstra uma descrição ou representação de um campo de som usando SHC: [00052] An example of a hierarchical set of elements is a set of spherical harmonic coefficients (SHC). The following expression demonstrates a description or representation of a sound field using SHC:

[00053] A expressão mostra que a pressão pi em qualquer ponto {rr, θr, ϕr} do campo de som, no tempo t, pode ser representada exclusivamente pelo SCH, . Aqui, é a velocidade de som (~343 m/s), {rr, θr, ϕr} é um ponto de referência (ou ponto de observação), jn(.) é a função Bessel esférica da ordem n, e são as funções de base harmônica esférica de ordem n e subordem m. Pode ser reconhecido que o termo em colchetes é uma representação de domínio de frequência do sinal (isto é, s (ω,rr, θr, ϕr)) que pode ser aproximada por várias transformações de frequência de tempo, como a transformada Fourier discreta (DFT), a transformada de cosseno discreta (DCT), ou uma transformada de wavelet. Outros exemplos de conjuntos hierárquicos incluem conjuntos de coeficientes de transformada de wavelet e outros conjuntos de coeficientes de funções de base de multiresolução.[00053] The expression shows that the pressure pi at any point {rr, θr, ϕr} of the sound field, at time t, can be represented exclusively by the SCH, . Here, is the speed of sound (~343 m/s), {rr, θr, ϕr} is a reference point (or observation point), jn(.) is the spherical Bessel function of order n, and are the spherical harmonic base functions of order n and suborder m. It can be recognized that the term in square brackets is a frequency-domain representation of the signal (i.e., s(ω,rr, θr, ϕr)) that can be approximated by various time-frequency transforms, such as the discrete Fourier transform (DFT), the discrete cosine transform (DCT), or a wavelet transform. Other examples of hierarchical sets include wavelet transform coefficient sets and other multiresolution basis function coefficient sets.

[00054] A figura 1 é um diagrama ilustrando funções de base harmônica esférica a partir da ordem zero (n = 0) até a quarta rodem (n = 4). Como pode ser visto, para cada ordem, há uma expansão de subordens m que são mostradas, porém não explicitamente mencionadas no exemplo da figura 1 para fins de facilidade de ilustração.[00054] Figure 1 is a diagram illustrating spherical harmonic base functions from zero order (n = 0) to fourth order (n = 4). As can be seen, for each order there is an expansion of suborders m which are shown but not explicitly mentioned in the example in figure 1 for the sake of ease of illustration.

[00055] O SHC pode ser fisicamente adquirido (por exemplo, gravado por várias configurações de conjunto de microfones ou, alternativamente, pode ser derivado de descrições baseadas em objeto ou baseadas em canal do campo de som. O SHC representa áudio baseado em cena, onde o SCH pode ser entrado em um codificador de áudio para obter SHC codificado que pode promover transmissões ou armazenagem mais eficiente. Por exemplo, uma representação de quarta ordem envolvendo coeficientes (1+4)2 (25, e consequentemente quarta ordem) pode ser usada.[00055] The SHC can be physically acquired (e.g., recorded by various microphone array configurations, or alternatively, can be derived from object-based or channel-based descriptions of the sound field. The SHC represents scene-based audio, where the SCH can be input into an audio encoder to obtain encoded SHC that can promote more efficient transmissions or storage. For example, a fourth-order representation involving coefficients (1+4)2 (25, and hence fourth-order) can be used.

[00056] Como observado acima, o SHC pode ser derivado de uma gravação de microfone usando um conjunto de microfones. Vários exemplos de como SHC pode ser derivado de conjuntos de microfone são descritos em Poletti, M., “Three-dimensional surround sound systems based on spherical harmonics, ” J. Audio Eng. Soc., Vol. 53, no. 11, novembro de 200, páginas 1004-1025.[00056] As noted above, the SHC can be derived from a microphone recording using a microphone array. Several examples of how SHC can be derived from microphone arrays are described in Poletti, M., “Three-dimensional surround sound systems based on spherical harmonics,” J. Audio Eng. Soc., Vol. 53, no. 11, November 200, pages 1004-1025.

[00057] Para ilustrar como os SHCs podem ser derivados de uma descrição baseada em objeto, considere a A$W seguinte equação. Os coeficientes para o campo de som correspondendo a um objeto de áudio individual podem ser expressos como: Onde i é a função Hankel esférica (do segundo tipo) de ordem n, e {rs, θs, Φs} é a localização do objeto. Conhecendo a energia de fonte de objeto g(®) como uma função de frequência (por exemplo, usando técnicas de análise de frequência de tempo, como executar uma transformada Fourier rápida no fluxo PCM) permite que convertemos cada objeto de PCM e a localização correspondente em SHC Além disso, pode ser mostrado (uma vez que o acima é uma decomposição linear e < (k) ortogonal) que os coeficientes para cada objeto são aditivos. Desse modo, uma variedade de objetos PCM pode ser representada pelos coeficientes (por exemplo, como uma soma dos vetores de coeficiente para os objetos individuais). Essencialmente, os coeficientes contêm informações sobre o campo de som (a pressão como uma função de coordenadas 3D) e o acima representa a transformação a partir de objetos individuais em uma representação do campo de som geral, nas proximidades do ponto de observação {rr, θr, Φr}. As figuras restantes são descritas abaixo no contexto de codificação de áudio baseado em objeto e baseado em SHC.[00057] To illustrate how SHCs can be derived from an object-based description, consider the following A$W equation. The coefficients for the sound field corresponding to an individual audio object can be expressed as: Where i is the spherical Hankel function (of the second type) of order n, and {rs, θs, Φs} is the location of the object. Knowing the g(®) object source energy as a function of frequency (e.g. using time frequency analysis techniques such as performing a fast Fourier transform on the PCM stream) allows us to convert each object from PCM and corresponding location to SHC Furthermore, it can be shown (since the above is a linear decomposition and <(k) orthogonal) that the coefficients for each object are additive. In this way, a variety of PCM objects can be represented by the coefficients (for example, as a sum of the coefficient vectors for the individual objects). Essentially, the coefficients contain information about the sound field (the pressure as a function of 3D coordinates) and the above represents the transformation from individual objects into a representation of the overall sound field in the vicinity of the observation point {rr, θr, Φr}. The remaining figures are described below in the context of object-based and SHC-based audio coding.

[00058] A figura 2 é um diagrama ilustrando um sistema 10 que pode executar vários aspectos das técnicas descritas nessa revelação. Como mostrado no exemplo da figura 2, o sistema 10 inclui um dispositivo criador de conteúdo 12 e um dispositivo consumidor de conteúdo 14. Embora descritos no contexto do dispositivo criador de conteúdo 12 e dispositivo consumidor de conteúdo 14, as técnicas podem ser implementadas em qualquer controle no qual SHCs (que podem ser também mencionados como coeficientes HOA) ou qualquer outra representação hierárquica de um campo de som são codificados para formar um fluxo de bits representativo dos dados de áudio. Além disso, o dispositivo criador de conteúdo 12 pode representar qualquer forma de dispositivo de computação capaz de implementar as técnicas descritas nessa revelação, incluindo um aparelho telefônico (ou telefone celular), um computador tablet, um smart phone, ou um computador de mesa para fornecer alguns exemplos. De modo semelhante, o dispositivo consumidor de conteúdo 14 pode representar qualquer forma de dispositivo de computação capaz de implementar as técnicas descritas nessa revelação, incluindo um aparelho telefônico (ou telefone celular), um computador tablet, um smart phone, um conversor de sinais de frequência, ou um computador de mesa para fornecer alguns exemplos.[00058] Figure 2 is a diagram illustrating a system 10 that can perform various aspects of the techniques described in this disclosure. As shown in the example of Figure 2, the system 10 includes a content creation device 12 and a content consumer device 14. While described in the context of content creation device 12 and content consumer device 14, the techniques may be implemented in any control in which SHCs (which may also be referred to as HOA coefficients) or any other hierarchical representation of a sound field are encoded to form a bitstream representative of the audio data. Furthermore, content creation device 12 may represent any form of computing device capable of implementing the techniques described in this disclosure, including a handset (or cell phone), a tablet computer, a smart phone, or a desktop computer to provide a few examples. Similarly, content consuming device 14 can represent any form of computing device capable of implementing the techniques described in this disclosure, including a handset (or cell phone), a tablet computer, a smart phone, a frequency converter, or a desktop computer to provide a few examples.

[00059] O dispositivo criador de conteúdo 12 pode ser operado por um estúdio de filme ou outra entidade que pode gerar conteúdo de áudio de multicanais para consumo por operadores de dispositivos de consumidor de conteúdo, como o dispositivo de consumidor de conteúdo 14. Em alguns exemplos, o dispositivo criador de conteúdo 12 pode ser operado por um usuário individual que gostaria de comprimir coeficientes de HOA 11. Frequentemente, o criador de conteúdo gera conteúdo de áudio em combinação com conteúdo de vídeo. O dispositivo de consumidor de conteúdo 14 pode ser operado por um indivíduo. O dispositivo de consumidor de conteúdo 14 pode incluir um sistema de reprodução de áudio 16, que pode se referir a qualquer forma de sistema de reprodução de áudio capaz de fornecer SHC para reprodução como conteúdo de áudio de multicanais.[00059] Content creator device 12 may be operated by a movie studio or other entity that may generate multi-channel audio content for consumption by operators of content consumer devices, such as content consumer device 14. In some examples, content creator device 12 may be operated by an individual user who would like to compress HOA coefficients 11. Often, the content creator generates audio content in combination with video content. The content consumer device 14 is operable by an individual. Content consumer device 14 may include an audio playback system 16, which may refer to any form of audio playback system capable of providing SHC for playback as multi-channel audio content.

[00060] O dispositivo de criador de conteúdo 12 inclui um sistema de edição de áudio 18. O dispositivo de criador de conteúdo 12 obtém gravações ao vivo 7 em vários formatos (incluindo diretamente como coeficientes HOA) e objetos de áudio 9, que o dispositivo de criador de conteúdo 12 pode editar usando sistema de edição de áudio 18. Um microfone 5 pode capturar as gravações ao vivo 7. O criador de conteúdo pode, durante o processo de edição, fornecer coeficientes de HOA 11 a partir de objetos de áudio 9, ouvindo os feeds de alto-falante fornecidos em uma tentativa para identificar vários aspectos do campo de som que exigem edição adicional. O dispositivo de criador de conteúdo 12 pode então editar coeficientes de HOA 11 (potencialmente indiretamente através de manipulação de objetos diferentes dos objetos de áudio 9 dos quais os coeficientes de HOA de fonte podem ser derivados no modo descrito acima). O dispositivo de criador de conteúdo 12 pode empregar o sistema de edição de áudio 18 para gerar os coeficientes de HOA 11. O sistema de edição de áudio 18 representa qualquer sistema capaz de editar dados de áudio e transmitir os dados de áudio como um ou mais coeficientes harmônicos esféricos de fonte.[00060] The content creator device 12 includes an audio editing system 18. The content creator device 12 obtains live recordings 7 in various formats (including directly as HOA coefficients) and audio objects 9, which the content creator device 12 can edit using audio editing system 18. A microphone 5 can capture the live recordings 7. The content creator can, during the editing process, provide HOA coefficients 11 from audio objects audio 9 by listening to the supplied speaker feeds in an attempt to identify various aspects of the sound field that require further editing. Content creator device 12 can then edit HOA coefficients 11 (potentially indirectly through manipulation of objects other than audio objects 9 from which source HOA coefficients can be derived in the manner described above). The content creator device 12 may employ the audio editing system 18 to generate the HOA coefficients 11. The audio editing system 18 represents any system capable of editing audio data and transmitting the audio data as one or more source spherical harmonic coefficients.

[00061] Quando o processo de edição é concluído, o dispositivo de criador de conteúdo 12 pode gerar um fluxo de bits 21 com base nos coeficientes de HOA 11. Isto é, o dispositivo de criador de conteúdo 12 inclui um dispositivo de codificação de áudio 20 que representa um dispositivo configurado para codificar ou de outro modo comprimir coeficientes de HOA 11 de acordo com vários aspectos das técnicas descritas nessa revelação para gerar o fluxo de bits 21. O dispositivo de codificação de áudio 20 pode gerar o fluxo de bits 21 para transmissão, como um exemplo, através de um canal de transmissão, que pode ser um canal cabeado ou sem fio, um dispositivo de armazenagem de dados ou similar. O fluxo de bits 21 pode representar uma versão codificada dos coeficientes de HOA 11 e pode incluir um fluxo de bits primário e outro fluxo de bits secundário, que pode ser mencionado como informação de canal secundário.[00061] When the editing process is complete, the content creator device 12 can generate a bitstream 21 based on the HOA coefficients 11. That is, the content creator device 12 includes an audio encoding device 20 representing a device configured to encode or otherwise compress HOA coefficients 11 in accordance with various aspects of the techniques described in this disclosure for generating the bitstream 21. The audio encoding device 20 can generate the stream of bits 21 for transmission, as an example, over a transmission channel, which may be a wired or wireless channel, a data storage device or the like. The bitstream 21 may represent an encoded version of the HOA coefficients 11 and may include a primary bitstream and another secondary bitstream, which may be referred to as secondary channel information.

[00062] Embora mostrado na figura 2 como sendo diretamente transmitido para o dispositivo de consumidor de conteúdo 14, o dispositivo de criador de conteúdo 12 pode transmitir o fluxo de bits 21 para um dispositivo intermediário posicionado entre o dispositivo de criador de conteúdo 12 e o dispositivo de consumidor de conteúdo 14. O dispositivo intermediário pode armazenar o fluxo de bits 21 para fornecimento posterior ao dispositivo de consumidor de conteúdo 14, que pode solicitar o fluxo de bits. O dispositivo intermediário pode compreender um servidor de arquivo, um servidor de rede, um computador de mesa, um computador de laptop, um computador de tablet, um telefone móvel, um smart phone, ou qualquer outro dispositivo capaz de armazenar o fluxo de bits 21 para recuperação posterior por um decodificador de áudio. O dispositivo intermediário pode residir em uma rede de fornecimento de conteúdo capaz de streaming o fluxo de bits 21 (e possivelmente em combinação com a transmissão de um fluxo de bits de dados de vídeo correspondente) para assinantes, como o dispositivo de consumidor de conteúdo 14, solicitando o fluxo de bits.[00062] Although shown in Figure 2 as being directly transmitted to the content consumer device 14, the content creator device 12 can transmit the bitstream 21 to an intermediary device positioned between the content creator device 12 and the content consumer device 14. The intermediary device can store the bitstream 21 for later delivery to the content consumer device 14, which can request the bitstream. The intermediary device may comprise a file server, a network server, a desktop computer, a laptop computer, a tablet computer, a mobile phone, a smart phone, or any other device capable of storing the bit stream 21 for later retrieval by an audio decoder. The intermediary device may reside in a content delivery network capable of streaming the bitstream 21 (and possibly in combination with transmitting a corresponding video data bitstream) to subscribers, such as the content consumer device 14, requesting the bitstream.

[00063] Alternativamente, o dispositivo de criador de conteúdo 12 pode armazenar o fluxo de bits 21 para uma mídia de armazenagem, como um compact disc, um digital vídeo disc, um disco de vídeo de alta definição ou outra mídia de armazenagem, a maioria dos quais é capaz de ser lida por um computador e, portanto, pode ser mencionada como mídia de armazenagem legível em computador ou mídia de armazenagem legível em computador não transitória. Nesse contexto, o canal de transmissão pode se referir aos canais pelos quais conteúdo armazenado para as mídias é transmitido (e pode incluir lojas a varejo e outro mecanismo de fornecimento baseado em loja). Em qualquer evento, as técnicas dessa revelação não devem, portanto, ser limitadas nesse aspecto ao exemplo da figura 2.[00063] Alternatively, the content creator device 12 can store the bit stream 21 to a storage medium, such as a compact disc, a digital video disc, a high definition video disc or other storage media, most of which are capable of being read by a computer and therefore can be referred to as computer readable storage media or non-transient computer readable storage media. In this context, delivery channel can refer to the channels through which content stored for the media is transmitted (and can include retail stores and other store-based delivery mechanism). In any event, the techniques of this disclosure must therefore not be limited in this respect to the example of Figure 2.

[00064] Como adicionalmente mostrado no exemplo da figura 2, o dispositivo de consumidor de conteúdo 14 inclui o sistema de reprodução de áudio 16. O sistema de reprodução de áudio 16 pode representar qualquer sistema de reprodução de áudio capaz de reproduzir dados de áudio de multicanais. O sistema de reprodução de áudio 16 pode incluir diversos renderizadores diferentes 22. Os renderizadores 22 podem individualmente fornecer uma forma diferente de renderização, onde as formas diferentes de renderização podem incluir um ou mais dos vários modos de executar giro de amplitude de base-vetor (VBAP), e/ou um ou mais dos vários modos de executar síntese de campo de som. Como usado aqui, “A e/ou B” significa “A ou B”, ou ambos “A e B”.[00064] As further shown in the example of Figure 2, the content consumer device 14 includes the audio playback system 16. The audio playback system 16 can represent any audio playback system capable of playing multi-channel audio data. The audio playback system 16 may include a number of different renderers 22. The renderers 22 may individually provide a different form of rendering, where the different forms of rendering may include one or more of several ways of performing base-vector amplitude gyro (VBAP), and/or one or more of several ways of performing sound field synthesis. As used herein, "A and/or B" means "A or B", or both "A and B".

[00065] O sistema de reprodução de áudio 16 pode incluir ainda um dispositivo de decodificação de áudio 24. O dispositivo de decodificação de áudio 24 pode representar um dispositivo configurado para decodificar coeficientes HOA 11’ a partir do fluxo de bits 21, onde os coeficientes HOA 11’ podem ser similares aos coeficientes HOA 11, porém diferentes devido a operações de perda (por exemplo, quantização) e/ou transmissão através do canal de transmissão. O sistema de reprodução de áudio 16 pode, após decodificar o fluxo de bits 21 obter os coeficientes HOA q11’ e fornecer os coeficientes HOA 11’ para transmitir feeds de alto-falantes 25. Os feeds de alto-falante 25 podem acionar um ou mais alto-falantes (que não são mostrados no exemplo da figura 2 para fins de facilidade de ilustração).[00065] The audio reproduction system 16 may further include an audio decoding device 24. The audio decoding device 24 may represent a device configured to decode HOA coefficients 11' from the bit stream 21, where the HOA coefficients 11' may be similar to the HOA coefficients 11, but different due to loss operations (for example, quantization) and/or transmission through the transmission channel. The audio reproduction system 16 can, after decoding the bit stream 21 obtain the HOA coefficients q11' and supply the HOA coefficients 11' to transmit feeds from loudspeakers 25. The loudspeaker feeds 25 can drive one or more loudspeakers (which are not shown in the example of figure 2 for the sake of ease of illustration).

[00066] Para selecionar o renderizador apropriado ou, em alguns casos, gerar um renderizador apropriado, o sistema de reprodução de áudio 16 pode obter informações de alto-falante 13 indicativa de um número de alto-falantes e/ou geometria espacial dos alto-falantes. Em algumas instâncias, o sistema de reprodução de áudio 16 pode obter as informações de alto-falante 13 usando um microfone de referência e acionando os alto-falantes de tal modo a determinar dinamicamente as informações de alto- falante 13. Em outras instâncias ou em combinação com a determinação dinâmica das informações de alto-falante 13, o sistema de reprodução de áudio 16 pode induzir um usuário a fazer interface com o sistema de reprodução de áudio 16 e entrar as informações de alto-falante 13.[00066] To select the appropriate renderer or, in some cases, generate an appropriate renderer, the audio reproduction system 16 may obtain speaker information 13 indicative of a number of speakers and/or spatial geometry of the speakers. In some instances, audio playback system 16 may obtain speaker information 13 by using a reference microphone and driving the speakers in such a way as to dynamically determine speaker information 13. In other instances or in combination with dynamically determining speaker information 13, audio playback system 16 may induce a user to interface with audio playback system 16 and enter speaker information 13.

[00067] O sistema de reprodução de áudio 16 pode selecionar então um dos renderizadores de áudio 22 com base nas informações de alto-falante 13. Em algumas instâncias, o sistema de reprodução de áudio 16 pode, quando nenhum dos renderizadores de áudio 22 está compreendido em alguma medição de similaridade de limiar (em termos da geometria de alto-falante) para a geometria de alto-falante especificada nas informações de alto- falante 13, gerar um de renderizadores de áudio 22 com base nas informações de alto-falante 13. O sistema de reprodução de áudio 16 pode, em algumas instâncias, gerar um dos renderizadores de áudio 22 com base nas informações de alto-falante 13 sem primeiramente tentar selecionar um renderizador existente dos renderizadores de áudio 22. Um ou mais alto-falantes 3 pode então reproduzir os feeds de alto-falante renderizados 25. Em outras palavras, os alto- falantes 3 podem ser configurados para reproduzir um campo de som baseado em dados de áudio ambisonic de ordem superior.[00067] The audio playback system 16 may then select one of the audio renderers 22 based on the speaker information 13. In some instances, the audio playback system 16 may, when none of the audio renderers 22 fall within some threshold similarity measurement (in terms of the speaker geometry) for the speaker geometry specified in the speaker information 13, generate one of the audio renderers 22 based on the information from speaker 13. The audio playback system 16 may, in some instances, generate one of the audio renderers 22 based on information from speaker 13 without first attempting to select an existing renderer from the audio renderers 22. One or more speakers 3 may then play back the rendered speaker feeds 25. In other words, the speakers 3 may be configured to reproduce a sound field based on higher order ambisonic audio data.

[00068] A figura 3 é um diagrama de blocos ilustrando em mais detalhe, um exemplo do dispositivo de codificação de áudio 20 mostrado no exemplo da figura 2 que pode executar vários aspectos das técnicas descritas nessa revelação. O dispositivo de codificação de áudio 20 inclui uma unidade de análise de conteúdo 26, uma unidade de decomposição baseada em vetor 27 e uma unidade de decomposição baseada em direcional 28.[00068] Figure 3 is a block diagram illustrating in more detail, an example of the audio encoding device 20 shown in the example of Figure 2 that can perform various aspects of the techniques described in this disclosure. The audio encoding device 20 includes a content analysis unit 26, a vector based decomposition unit 27 and a directional based decomposition unit 28.

[00069] Embora descrito brevemente abaixo, mais informações referentes à unidade de decomposição baseada em vetor 27 e os vários aspectos de comprimir coeficientes HOA são disponíveis na Publicação do pedido de patente internacional no. WO 2014/194099, intitulada “INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD, ” depositada em 29 de maio de 2014. Além disso, mais detalhes de vários aspectos da compressão dos coeficientes HOA de acordo com o padrão de áudio MPEG-H, incluindo uma discussão da decomposição baseada em vetor resumida abaixo, podem ser encontrados em: Documento ISO/IEC DIS 23008-3, intitulado “Information technology - High efficiency coding and media delivery in heterogeneous environments - part 3: 3D áudio,” por ISO/IEC JTC 1/SC 29/WG 11, datado de 25-07-2014 (disponível em: http://mpeg.chiariglione.org/standards/mpeg-h/3d- audio/dis-mpeg-h-3d-audio, a seguir mencionado como “fase 1 do padrão de áudio MPEG-H 3D”); Documento ISO/IEC DIS 23008-3:2015/PDAM 3, intitulado “Information technology - high efficiency coding and media delivery in heterogeneous environments - part 3: 3D áudio, AMENDMENT 3: MPEG-H 3D áudio phase 2”, por ISO/IEC JTC 1/SC 29/WG 11, datado de 25-07-2014 (disponível em: http://mpeg.chiariglione.org/standards/mpeg-h/3d- audio/text-isoiec-23008-3201xpdam-3-mpeg-h-3d- audio-phase-2, e a seguir mencionado como “fase II do padrão de áudio MPEG-H 3D”); e Jurgen Herre, e outros, intitulado “MPEG-H 3D Audio - The New standard for Coding of immersive spatial áudio,” datado de agosto de 2015 e publicado no vol. 9, no. 5 do IEEE Journal of Selected topics in Signal Processing.[00069] Although described briefly below, more information pertaining to the vector-based decomposition unit 27 and the various aspects of compressing HOA coefficients is available in International Patent Application Publication no. WO 2014/194099, entitled “INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD,” filed May 29, 2014. In addition, more details on various aspects of compressing HOA coefficients according to the MPEG-H audio standard, including a discussion of vector-based decomposition summarized below, can be found in: ISO/IEC document DIS 23008-3, entitled “Information technology - High efficiency coding and media delivery in heterogeneous environments - part 3: 3D audio,” per ISO/IEC JTC 1/SC 29/WG 11, dated 2014-07-25 (available at: http://mpeg.chiariglione.org/standards/mpeg-h/3d-audio/dis-mpeg-h-3d-audio, hereinafter referred to as “Phase 1 of the MPEG-H 3D Audio Standard”); Document ISO/IEC DIS 23008-3:2015/PDAM 3, entitled “Information technology - high efficiency coding and media delivery in heterogeneous environments - part 3: 3D audio, AMENDMENT 3: MPEG-H 3D audio phase 2”, by ISO/IEC JTC 1/SC 29/WG 11, dated 2014-07-25 (available at: http://mpeg.chiariglione.org/ standards/mpeg-h/3d-audio/text-isoiec-23008-3201xpdam-3-mpeg-h-3d-audio-phase-2, hereinafter referred to as “Phase II of the MPEG-H 3D Audio Standard”); and Jurgen Herre, et al., entitled “MPEG-H 3D Audio - The New standard for Coding of immersive spatial audio,” dated August 2015 and published in vol. 9, no. 5 of the IEEE Journal of Selected topics in Signal Processing.

[00070] A unidade de análise de conteúdo 26 representa uma unidade configurada para analisar o conteúdo dos coeficientes HOA 11 para identificar se os coeficientes HOA 11 representam conteúdo gerado de uma gravação ao vivo ou um objeto de áudio. A unidade de análise de conteúdo 26 pode determinar se os coeficientes HOA 11 foram geradas de uma gravação de um campo de som efetivo ou de um objeto de áudio artificial. Em algumas instâncias, quando os coeficientes HOA enquadrados 11 foram gerados de uma gravação, a unidade de análise de conteúdo 26 passa os coeficientes HOA 11 para a unidade de decomposição baseada em vetor 27. Em algumas instâncias, quando os coeficientes HOA enquadrados 11 foram gerados de um objeto de áudio sintético, a unidade de análise de conteúdo 26 passa os coeficientes HOA 11 para a unidade de síntese baseada em direcional 28. A unidade de síntese baseada em direcional 28 pode representar uma unidade configurada para executar uma síntese baseada em direcional dos coeficientes HOA 11 para gerar um fluxo de bits baseado em direcional 21.[00070] The content analysis unit 26 represents a unit configured to analyze the content of the HOA coefficients 11 to identify whether the HOA coefficients 11 represent content generated from a live recording or an audio object. The content analysis unit 26 can determine whether the HOA coefficients 11 were generated from a recording of an actual sound field or an artificial audio object. In some instances, when the framed HOA coefficients 11 were generated from a recording, the content analysis unit 26 passes the HOA coefficients 11 to the vector-based decomposition unit 27. In some instances, when the framed HOA coefficients 11 were generated from a synthetic audio object, the content analysis unit 26 passes the HOA coefficients 11 to the directional-based synthesis unit 28. represent a unit configured to perform a directional based synthesis of the HOA 11 coefficients to generate a directional 21 based bit stream.

[00071] Como mostrado no exemplo da figura 3, a unidade de decomposição baseada em vetor 27 pode incluir uma unidade de transformada invertível linear (LIT) 30, uma unidade de cálculo de parâmetro 32, uma unidade de reordenar 34, uma unidade de seleção de primeiro plano 36, uma unidade de compensação de energia 38, uma unidade de decorrelação 60 (mostrada como “unidade decorr 60”), uma unidade de controle de ganho 62, uma unidade de codificador de áudio psicoacústico 40, uma unidade de geração de fluxo de bits 42, uma unidade de análise de campo de som 44, uma unidade de redução de coeficiente 46, uma unidade de seleção de segundo plano (BG) 48, uma unidade de interpolação espaço-temporal 50, e uma unidade de quantização 52.[00071] As shown in the example of figure 3, the vector-based decomposition unit 27 may include a linear invertible transform (LIT) unit 30, a parameter calculation unit 32, a reordering unit 34, a foreground selection unit 36, an energy compensation unit 38, a decorrelation unit 60 (shown as "decoration unit 60"), a gain control unit 62, an encoder unit 60 40, a bitstream generation unit 42, a sound field analysis unit 44, a coefficient reduction unit 46, a background selection (BG) unit 48, a spatiotemporal interpolation unit 50, and a quantization unit 52.

[00072] A unidade de transformada invertível linear (LIT) 30 recebe os coeficientes HOA 11 na forma de canais HOA, cada canal representativo de um bloco ou quadro de um coeficiente associado a uma ordem dada, subordem das funções de base esférica (que podem ser indicadas como HOA[k], onde k pode indicar o quadro ou bloco atual de amostras). A matriz de coeficientes HOA 11 pode ter dimensões D: M x (N+1)2.[00072] The linear invertible transform (LIT) unit 30 receives the HOA coefficients 11 in the form of HOA channels, each channel representing a block or frame of a coefficient associated with a given order, suborder of the spherical base functions (which can be indicated as HOA[k], where k can indicate the current frame or block of samples). The matrix of HOA 11 coefficients can have dimensions D: M x (N+1)2.

[00073] A unidade LIT 30 pode representar uma unidade configurada para executar uma forma de análise mencionada como decomposição de valor singular. Embora descrito com relação a SVD, as técnicas descritas nessa revelação podem ser executadas com relação a qualquer transformação ou decomposição similar que forneça conjuntos de saída compactada em energia, linearmente não correlacionada. Também, referência a “conjuntos” nessa revelação são genericamente destinadas a se referir a conjuntos não zero a menos que especificamente mencionado ao contrário e não se pretende referir à definição matemática clássica de conjuntos que inclui o chamado “conjunto vazio”. Uma transformação alternativa pode compreender uma análise de componente principal, que é frequentemente mencionada como “PCA. ” Dependendo do contexto, PCA pode ser mencionado como um número de nomes diferentes, como transformada Karhunen-Loeve discreta, transformada Hotelling, decomposição ortogonal apropriada (POD) e decomposição eigenvalor (EVC) citando alguns exemplos. Propriedades de tais operações que são úteis a um dos objetivos subjacentes em potencial de compressão de dados de áudio podem incluir uma ou mais de ‘compactação de energia’ e ‘decorrelação’ dos dados de áudio de multicanais.[00073] The LIT unit 30 may represent a unit configured to perform a form of analysis referred to as singular value decomposition. Although described with respect to SVD, the techniques described in this disclosure can be performed with respect to any similar transformation or decomposition that provides linearly uncorrelated, energy-packed output sets. Also, references to "sets" in this disclosure are generally intended to refer to non-zero sets unless specifically mentioned to the contrary and are not intended to refer to the classical mathematical definition of sets which includes the so-called "empty set". An alternative transformation might comprise a principal component analysis, which is often referred to as “PCA. ” Depending on the context, PCA may be referred to by a number of different names, such as discrete Karhunen-Loeve transform, Hotelling transform, proper orthogonal decomposition (POD) and eigenvalue decomposition (EVC) to name a few examples. Properties of such operations that are useful to one of the potential underlying purposes of compressing audio data may include one or more of 'energy compression' and 'decorrelation' of multichannel audio data.

[00074] Em qualquer evento, assumindo que a unidade LIT 30 executa uma decomposição de valor singular (que, novamente, pode ser mencionada como “SVD”) para fins de exemplo, a unidade LIT 30 pode transformar os coeficientes HOA 11 em dois ou mais conjuntos de coeficientes HOA transformados. Os “conjuntos” de coeficientes HOA transformados podem incluir vetores de coeficientes HOA transformados. No exemplo da figura 3, a unidade LIT 30 pode executar o SVD com relação aos coeficientes HOA 11 para gerar uma matriz denominada V, uma matriz S, e uma matriz U. SVD, em álgebra linear, pode representar uma factorização de uma matriz y-por-z real ou completa X (onde X pode representar dados de áudio de multicanais, como os coeficientes HOA 11) na seguinte forma: X = USV* U pode representar uma matriz unitária y por y real ou complexa, onde as colunas y de U são conhecidas como os vetores singulares-esquerdos dos dados de áudio de multicanais. S pode representar uma matriz diagonal retangular y-por- z com números reais não negativos na diagonal, onde os valores diagonais de S são conhecidos como os valores singulares dos dados de áudio de multicanais. V* (que pode indicar um transpose conjugado de V) pode representar uma matriz unitária z-por-z real ou complexa, onde as colunas z de V* são conhecidas como os vetores singulares-da direita dos dados de áudio de multicanais.[00074] In any event, assuming the LIT unit 30 performs a singular value decomposition (which, again, may be referred to as “SVD”) for purposes of example, the LIT unit 30 may transform the HOA coefficients 11 into two or more sets of transformed HOA coefficients. The “sets” of transformed HOA coefficients can include vectors of transformed HOA coefficients. In the example in Figure 3, the LIT unit 30 can SVD against the HOA coefficients 11 to generate a matrix named V, an S matrix, and a U matrix. SVD, in linear algebra, can represent a factorization of a real or complete y-by-z matrix X (where X can represent multichannel audio data, like the HOA coefficients 11) in the following form: X = USV* U can represent a real or complex y-by-y matrix, where the y-columns of U are known as the left-singular vectors of multichannel audio data. S can represent a y-by-z rectangular diagonal matrix with non-negative real numbers on the diagonal, where the diagonal values of S are known as the singular values of the multichannel audio data. V* (which can indicate a conjugate transpose of V) can represent a real or complex unitary z-by-z matrix, where the z-columns of V* are known as the right-singular vectors of multichannel audio data.

[00075] Em alguns exemplos, a matriz V* na expressão matemática SVD referenciada acima é indicada como a transpose conjugada da matriz V para refletir que SVD pode ser aplicada a matrizes compreendendo números complexos. Quando aplicado a matrizes compreendendo somente números reais, o conjugado complexo da matriz V (ou, em outras palavras, a matriz V*) pode ser considerada como sendo a transpose da matriz V. Abaixo é assumido, para fins de facilidade de ilustração, que os coeficientes HOA 11 compreendem números reais com o resultado de que a matriz V é transmitida através de SVD ao invés da matriz V*. Além disso, embora indicado como a matriz V nessa revelação, referência à matriz V deve ser entendida como se referindo à transpose da matriz V onde apropriado. Embora assumido como sendo a matriz V, as técnicas podem ser aplicadas em um modo similar a coeficientes HOA 11 tendo coeficientes complexos, onde a saída do SVD é a matriz V*. Por conseguinte, as técnicas não devem ser limitadas nesse aspecto a somente fornecer aplicação de SVD para gerar uma matriz V, porém pode incluir aplicação de SVD a coeficientes HOA 11 tendo componentes complexos para gerar uma matriz V*.[00075] In some examples, the matrix V* in the SVD mathematical expression referenced above is indicated as the conjugate transpose of the matrix V to reflect that SVD can be applied to matrices comprising complex numbers. When applied to matrices comprising only real numbers, the complex conjugate of the matrix V (or, in other words, the matrix V*) can be considered to be the transpose of the matrix V. Below it is assumed, for ease of illustration, that the HOA 11 coefficients comprise real numbers with the result that the matrix V is transmitted through SVD rather than the matrix V*. Furthermore, although referred to as the V matrix in this disclosure, reference to the V matrix should be understood to refer to the transpose of the V matrix where appropriate. Although assumed to be the V matrix, the techniques can be applied in a similar way to HOA 11 coefficients having complex coefficients, where the output of the SVD is the V* matrix. Therefore, techniques should not be limited in this respect to only providing SVD mapping to generate a V-matrix, but may include SVD mapping to HOA 11 coefficients having complex components to generate a V* matrix.

[00076] Desse modo, a unidade LIT 30 pode executar SVD com relação aos coeficientes 11 para transmitir vetores US[k] 33 (que podem representar uma versão combinada dos vetores S e vetores U) tendo dimensões D: M x (N+1)2, e vetores V[k] 35 tendo dimensões D: (N+1)2 x (N+1)2. Elementos de vetor individuais na matriz US[k] pode ser também denominados XPS(k) enquanto vetores individuais da matriz V[k] podem ser também denominados v(k).[00076] In this way, the LIT unit 30 can perform SVD with respect to the coefficients 11 to transmit US[k] 33 vectors (which can represent a combined version of the S vectors and U vectors) having dimensions D: M x (N+1)2, and V[k] 35 vectors having dimensions D: (N+1)2 x (N+1)2. Individual vector elements in the matrix US[k] can also be named XPS(k) while individual vectors in the matrix V[k] can also be named v(k).

[00077] Uma análise das matrizes U, S e V pode revelar que as matrizes carregam ou representam características espaciais e temporais do campo de som subjacente representado acima por X. cada dos vetores N em U (de amostras de comprimento M) pode representar sinais de áudio separados, normalizados como uma função de tempo (para o período de tempo representado por amostras M), que são ortogonais entre si e que foram desacoplados de quaisquer características espaciais (que também podem ser mencionadas como informações direcionais). As características espaciais, representando formato e posição espacial (r, teta, phi) podem ao invés ser representadas por i° vetores individuais, v(i)(k), na matriz V (cada do comprimento (N+1)2).[00077] An analysis of the U, S and V matrices can reveal that the matrices carry or represent spatial and temporal characteristics of the underlying sound field represented above by X. Each of the N vectors in U (of samples of length M) can represent separate audio signals, normalized as a function of time (for the time period represented by M samples), which are orthogonal to each other and which have been decoupled from any spatial characteristics (which can also be referred to as directional information). The spatial features, representing shape and spatial position (r, theta, phi) can instead be represented by i° individual vectors, v(i)(k), in matrix V (each of length (N+1)2).

[00078] Os elementos individuais de cada de vetores v(i)(k) podem representar um coeficiente HOA descrevendo o formato (incluindo largura) e posição do campo de som para um objeto de áudio associado. Os dois vetores na matriz U e matriz V são normalizados de modo que suas energias de raiz quadrada média são iguais a unidade. A energia dos sinais de áudio em U são, desse modo representadas pelos elementos diagonais em S. Multiplicando U e S para formar US[k] (com elementos de vetor individuais XPS(k)), desse modo representa o sinal de áudio com energias. A capacidade da decomposição de SVD desacoplar os sinais de tempo de áudio (em U), suas energias (em S) e suas características espaciais (em V) pode suportar vários aspectos das técnicas descritas nessa revelação. Além disso, o modelo de sintetizar os coeficientes HOA[k] subjacentes, X, por uma multiplicação de vetor de US[k] e V[k] origina o termo “decomposição baseada em vetor, ” que é usado do início ao fim desse documento.[00078] The individual elements of each of vectors v(i)(k) can represent an HOA coefficient describing the format (including width) and position of the sound field for an associated audio object. The two vectors in the U matrix and V matrix are normalized so that their root mean square energies equal unity. The energies of the audio signals in U are thus represented by the diagonal elements in S. Multiplying U and S to form US[k] (with individual vector elements XPS(k)), thus representing the audio signal with energies. The ability of SVD decomposition to decouple audio time signals (in U), their energies (in S), and their spatial characteristics (in V) may support various aspects of the techniques described in this disclosure. Furthermore, the model of synthesizing the underlying HOA[k] coefficients, X, by a vector multiplication of US[k] and V[k] gives rise to the term “vector-based decomposition,” which is used throughout this document.

[00079] Embora descrito como sendo executado diretamente com relação aos coeficientes HOA 11, a unidade LIT 30 pode aplicar a transformada invertível linear em derivados dos coeficientes HOA 11. Por exemplo, a unidade LIT 30 pode aplicar SVD com relação a uma matriz de densidade espectral de energia derivada dos coeficientes HOA 11. Por executar SVD com relação à densidade espectral de energia (PSD) dos coeficientes HOA ao invés dos próprios coeficientes, a unidade LIT 30 pode potencialmente reduzir a complexidade computacional de executar o SVD em termos de um ou mais dos ciclos de processador e espaço de armazenagem, enquanto obtém a mesma eficiência de codificação de áudio de fonte como se o SVD fosse aplicado diretamente aos coeficientes HOA.[00079] Although described as being performed directly with respect to the HOA 11 coefficients, the LIT unit 30 can apply the linear invertible transform on derivatives of the HOA 11 coefficients. For example, the LIT unit 30 can apply SVD with respect to an energy spectral density matrix derived from the HOA 11 coefficients. can potentially reduce the computational complexity of running SVD in terms of one or more of the processor cycles and storage space, while achieving the same source audio coding efficiency as if SVD were applied directly to the HOA coefficients.

[00080] A unidade de cálculo de parâmetro 32 representa uma unidade configurada para calcular vários parâmetros, como um parâmetro de correlação (R), parâmetros de propriedades direcionais (θ, 9, r) e uma propriedade de energia (e). Cada dos parâmetros para o quadro atual pode ser indicado como R[k], θ[k], 9[k], r[k] e e[k]. A unidade de cálculo de parâmetro 32 pode executar uma análise e/ou correlação de energia (ou a denominada correlação cruzada) com relação aos vetores US[k] 33 para identificar os parâmetros. A unidade de cálculo de parâmetro 32 pode determinar também os parâmetros para o quadro anterior, onde os parâmetros de quadro anterior podem ser indicados R[k-1], 0[k-1], 9[k-1], r[-1k] e e[k-1], com base no quadro anterior de vetor US[k-1] e vetores V[k-1]. A unidade de cálculo de parâmetro 32 pode transmitir os parâmetros atuais 37 e os parâmetros anteriores 39 para a unidade de reordenar 34.[00080] The parameter calculation unit 32 represents a unit configured to calculate various parameters, such as a correlation parameter (R), parameters of directional properties (θ, 9, r) and an energy property (e). Each of the parameters for the current frame can be specified as R[k], θ[k], 9[k], r[k] and e[k]. The parameter calculation unit 32 can perform an energy analysis and/or correlation (or so-called cross-correlation) against the US[k] vectors 33 to identify the parameters. The parameter calculation unit 32 can also determine the parameters for the previous frame, where the previous frame parameters can be indicated R[k-1], 0[k-1], 9[k-1], r[-1k] and e[k-1], based on the previous frame of vector US[k-1] and vectors V[k-1]. The parameter calculation unit 32 can transmit the current parameters 37 and the previous parameters 39 to the reordering unit 34.

[00081] Os parâmetros calculados pela unidade de cálculo de parâmetro 32 podem ser usados pela unidade de reordenar 34 para reordenar os objetos de áudio para representar sua avaliação natural ou continuação ao longo do tempo. A unidade de reordenar 34 pode comparar cada dos parâmetros 37 a partir dos primeiros vetores US[k] 33 no sentido de curva contra cada dos parâmetros 39 para os segundos vetores US[k-1] 33. A unidade de reordenar 34 pode reordenar (usando, como exemplo, um algoritmo húngaro) os vários vetores na matriz US[k] 33 e a matriz V[k] 35 com base nos parâmetros atuais 37 e os parâmetros anteriores 39 para transmitir uma matriz US[k] reordenada 33’ (que pode WD ser indicada matematicamente como ) e uma matriz V[k] reordenada 35’ (que pode ser indicada VM) matematicamente como para uma unidade de seleção de som de primeiro plano (ou som predominante - PS) 3 6 (“unidade de seleção de primeiro plano 36”) e uma unidade de compensação de energia 38.[00081] The parameters calculated by the parameter calculation unit 32 can be used by the reordering unit 34 to reorder the audio objects to represent their natural evaluation or continuation over time. The reordering unit 34 can compare each of the parameters 37 from the first US[k] vectors 33 in the curve direction against each of the parameters 39 to the second US[k] 33 vectors. transmit a 33' reordered matrix US[k] (which can WD be written mathematically as ) and a 35' reordered matrix V[k] (which can be denoted VM) mathematically as for a foreground sound (or predominant sound - PS) selection unit 36 ("foreground selection unit 36") and an energy compensation unit 38.

[00082] A unidade de análise de campo de som 44 pode representar uma unidade configurada para executar uma análise de campo de som com relação aos coeficientes HOA 11 de modo a potencialmente obter uma taxa de bits alvo 41. A unidade de análise de campo de som 44 pode, com base na análise e/ou em uma taxa de bits alvo recebida 41, determinar o número total de instanciações de codificador psicoacústico (que pode ser uma função do número total de canais ambiente ou de segundo plano (BGTOT) e o número de canais de primeiro plano ou, em outras palavras, canais predominantes. O número total de instanciações de codificador psicoacústico pode ser indicado como numHOATransportChannels.[00082] The sound field analysis unit 44 may represent a unit configured to perform a sound field analysis with respect to the HOA coefficients 11 in order to potentially obtain a target bit rate 41. The sound field analysis unit 44 may, based on the analysis and/or a received target bit rate 41, determine the total number of psychoacoustic encoder instantiations (which may be a function of the total number of ambient or background channels (BGTO) T) and the number of foreground channels or, in other words, predominant channels. The total number of psychoacoustic encoder instantiations can be stated as numHOATransportChannels.

[00083] A unidade de análise de campo de som 44 pode determinar também, novamente para obter potencialmente a taxa de bits alvo 41, o número total de canais de primeiro plano (nFG) 45, a ordem mínima do campo de som de segundo plano (ou, em outras palavras, ambiente) )NBG ou, alternativamente, MinAmbHOAorder), o número correspondente de canais efetivos representativos da ordem mínima de campo de som de segundo plano (nBGa = (MinAmbHOAorder + 1)2 e índices (i) de canais HOA BG adicionais para enviar (que podem ser coletivamente indicados como informações de canal de segundo plano 43 no exemplo da figura 3). As informações de canal de segundo plano 42 podem ser também mencionadas como informações de canal ambiente 43. Cada dos canais que permanece de numHOATransportChannels - nBGa, pode ser um “canal ambiente/segundo plano adicional”, um “canal predominante baseado em vetor ativo”, um “sinal predominante baseado em direcional ativo” ou “totalmente inativo”. Em um aspecto, os tipos de canal podem ser indicados (como um “ChannelType”) elemento de sintaxe por dois bits (por exemplo, 00: sinal baseado em direcional; 01: sinal predominante baseado em vetor; 10: sinal ambiente adicional; 11: sinal inativo). O número total de sinais de segundo plano ou ambiente, nBGa, pode ser dado por (MinAmbHOAorder +1)2 + o número de vezes que o índice 10 (no exemplo acima) aparece como um tipo de canal no fluxo de bits para aquele quadro.[00083] The sound field analysis unit 44 can also determine, again to potentially obtain the target bit rate 41, the total number of foreground channels (nFG) 45, the minimum order of the background sound field (or, in other words, ambient) NBG or, alternatively, MinAmbHOAorder), the corresponding number of effective channels representative of the minimum order of background sound field (nBGa = (MinAmbHOAorder + 1)2 and indexes (i) of additional HOA BG channels to send (which can be collectively indicated as background channel information 43 in the example of figure 3). The background channel information 42 can also be referred to as ambient channel information 43. Each of the channels remaining from numHOATransportChannels - nBGa, can be an "additional ambient/background channel", an "active vector based predominant channel", an "active directional based predominant signal" or "to so inactive.” In one aspect, channel types may be indicated (such as a “ChannelType”) syntax element by two bits (eg, 00: directional-based signal; 01: vector-based predominant signal; 10: additional ambient signal; 11: signal inactive). The total number of background or ambient signals, nBGa, can be given by (MinAmbHOAorder +1)2 + the number of times index 10 (in the above example) appears as a channel type in the bitstream for that frame.

[00084] A unidade de análise de campo de som 44 pode selecionar o número de canais de segundo plano (ou, em outras palavras, ambiente) e o número de canais de primeiro plano (ou, em outras palavras, predominante) com base na taxa de bits alvo 41, selecionando mais canais de segundo plano e/ou primeiro plano quando a taxa de bits alvo 41 é relativamente mais elevada (por exemplo, quando a taxa de bits alvo 41 é igual ou maior que 512 Kbps). Em um aspecto, os numHOATransportChannels podem ser definidos em 8 enquanto o MinAmbHOAorder pode ser definido em 1 na seção de cabeçalho do fluxo de bits. Nesse cenário, em cada quadro, quatro canais podem ser dedicados a representar a porção de segundo plano ou ambiente do campo de som enquanto os outros 4 canais podem, em uma base de quadro a quadro variar no tipo de canal - por exemplo, usado como um canal de segundo plano/ambiente adicional ou um canal predominante/primeiro plano. Os sinais predominantes/primeiro plano podem ser um entre sinais baseados em vetor ou baseados em direcional, como descrito acima.[00084] The sound field analysis unit 44 can select the number of background (or, in other words, ambient) channels and the number of foreground (or, in other words, predominant) channels based on the target bitrate 41, selecting more background and/or foreground channels when the target bitrate 41 is relatively higher (for example, when the target bitrate 41 is equal to or greater than 512 Kbps). In one aspect, the numHOATransportChannels can be set to 8 while the MinAmbHOAorder can be set to 1 in the header section of the bitstream. In this scenario, in each frame, four channels can be dedicated to representing the background or ambient portion of the sound field while the other 4 channels can, on a frame-by-frame basis, vary in channel type - for example, used as an additional background/ambient channel or a predominant/foreground channel. The predominant/foreground signals can be one of vector-based or directional-based signals, as described above.

[00085] Em algumas instâncias, o número total de sinais predominantes baseados em vetor para um quadro, pode ser dado pelo número de vezes que o índice ChannelType é 01 no fluxo de bits daquele quadro. No aspecto acima, para cada canal ambiente/segundo plano adicional (por exemplo, correspondendo a um ChannelType de 10), informações correspondentes de qual dos coeficientes HOA possíveis (além dos primeiros quatro) podem ser representadas naquele canal. As informações, para conteúdo HOA de quarta ordem, podem ser um índice para indicar os coeficientes HOA 5-25. Os quatro primeiros coeficientes HOA 1-4 podem ser enviados todo tempo quando minAmbHOAorder é definido em 1, consequentemente, o dispositivo de codificação de áudio pode somente precisar indicar um dos coeficientes HOA ambiente adicionais tendo um índice de 525. As informações poderiam ser desse modo enviadas usando um elemento de sintaxe de 5 bits (para conteúdo de 4 a ordem), que podem ser indicadas como “CodedAmbCoeffIdx.” Em qualquer evento, a unidade de análise de campo de som 44 transmite as informações de canal de segundo plano 43 e os coeficientes HOA 11 para a unidade de seleção de segundo plano (BG) 36, as informações de canal de segundo plano 43 para a unidade de redução de coeficiente 46 e a unidade de geração de fluxo de bits 42 e o nFG 45 para uma unidade de seleção de primeiro plano 36.[00085] In some instances, the total number of predominant vector-based signals for a frame can be given by the number of times the ChannelType index is 01 in that frame's bitstream. In the above aspect, for each additional ambient/background channel (eg corresponding to a ChannelType of 10), corresponding information of which of the possible HOA coefficients (beyond the first four) can be represented on that channel. The information, for fourth-order HOA content, may be an index to indicate HOA coefficients 5-25. The first four HOA coefficients 1-4 can be sent at all times when minAmbHOAorder is set to 1, hence the audio coding device may only need to indicate one of the additional ambient HOA coefficients having an index of 525. The information could thus be sent using a 5-bit syntax element (for 4th-order content), which could be denoted as “CodedAmbCoeffIdx.” In any event, the sound field analysis unit 44 transmits the background channel information 43 and the HOA coefficients 11 to the background selection (BG) unit 36, the background channel information 43 to the coefficient reduction unit 46 and the bitstream generation unit 42 and the nFG 45 to a foreground selection unit 36.

[00086] A unidade de seleção de segundo plano 48 pode representar uma unidade configurada para determinar coeficientes HOA ambiente ou de segundo plano 47 com base nas informações de canal de segundo plano (por exemplo, o campo de som de segundo plano (NBG) e o número (nBGa) e os índices (i) de canais HOA BG adicionais a enviar). Por exemplo, quando NBG é igual a um, a unidade de seleção de segundo plano 48 pode selecionar os coeficientes HOA 11 para cada amostra do quadro de áudio tendo uma ordem igual ou menor que um. A unidade de seleção de segundo plano 48 pode, nesse exemplo, então selecionar os coeficientes HOA 11 tendo um índice identificado por um dos índices (i) como coeficientes HOA BG, onde o nBGa é fornecido para a unidade de geração de fluxo de bits 42 para ser especificado no fluxo de bits 21 de modo a permitir que o dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado no exemplo das figuras 2 e 4, analise os coeficientes HOA de segundo plano 47 a partir do fluxo de bits 21. A unidade de seleção de segundo plano 48 pode então transmitir os coeficientes HOA ambiente 47 para a unidade de compensação de energia 38. Os coeficientes HOA ambiente 47 podem ter dimensões D: M x [(NBG+1)2 + nBGa]. Os coeficientes HOA ambiente 47 podem ser também mencionados como “coeficientes HOA ambiente 47,” onde cada dos coeficientes HOA ambiente 47 corresponde a um canal HOA ambiente separado 47 a ser codificado pela unidade de codificador de áudio psicoacústico 40.[00086] The background selection unit 48 may represent a unit configured to determine ambient or background HOA coefficients 47 based on the background channel information (for example, the background sound field (NBG) and the number (nBGa) and indices (i) of additional HOA BG channels to send). For example, when NBG equals one, background selection unit 48 can select HOA coefficients 11 for each sample of the audio frame having an order equal to or less than one. The background selection unit 48 can, in this example, then select the HOA coefficients 11 having an index identified by one of the indices (i) as HOA BG coefficients, where the nBGa is provided to the bitstream generation unit 42 to be specified in the bitstream 21 so as to allow the audio decoding device, such as the audio decoding device 24 shown in the example of figures 2 and 4, to analyze the background HOA coefficients 4 7 from bitstream 21. The background selection unit 48 may then transmit the ambient HOA coefficients 47 to the power compensation unit 38. The ambient HOA coefficients 47 may have dimensions D: M x [(NBG+1)2 + nBGa]. The ambient HOA coefficients 47 may also be referred to as "ambient HOA coefficients 47," where each of the ambient HOA coefficients 47 corresponds to a separate ambient HOA channel 47 to be encoded by the psychoacoustic audio encoder unit 40.

[00087] A unidade de seleção de primeiro plano 36 pode representar uma unidade configurada para selecionar a matriz US[k] reordenada 33’ e a matriz V[k] reordenada 35’ que representam componentes de primeiro plano ou distintos do campo de som com base em nFG 45 (que pode representar um ou mais índices identificando os vetores de primeiro plano). A unidade de seleção de primeiro plano 36 pode transmitir sinais nFG 49 (que podem ser indicados como um US[k]1,...,nFG reordenado 49, FG1,...,Nfg[K] 49, ou 49) para a unidade de codificador de áudio psicoacústico 40, onde os sinais nFG 49 podem ter dimensões D: M x nFG e cada representa objetos mono-áudio. A unidade de seleção de primeiro plano 36 pode também transmitir a matriz V[k] reordenada 35’ (ou v(1...nFG)(k) 35’) correspondendo a componentes de primeiro plano do campo de som para a unidade de interpolação espaço-temporal 50, onde um subconjunto da matriz V[k] reordenada 35’ correspondendo aos componentes de primeiro plano pode ser indicado como matriz V[k] de primeiro plano 51k (que pode ser matematicamente indicado como ) tendo dimensões D: (N=1)2 x nFG.[00087] The foreground selection unit 36 may represent a unit configured to select the reordered US[k] matrix 33' and the reordered V[k] matrix 35' representing foreground or distinct components of the nFG-based sound field 45 (which may represent one or more indices identifying the foreground vectors). The foreground selection unit 36 may transmit nFG signals 49 (which may be indicated as a reordered US[k]1,...,nFG 49, FG1,...,Nfg[K] 49, or 49) to the psychoacoustic audio encoder unit 40, where the nFG signals 49 can have dimensions D:M x nFG and each represent mono-audio objects. The foreground selection unit 36 may also transmit the reordered matrix V[k] 35' (or v(1...nFG)(k) 35') corresponding to foreground components of the sound field to the space-time interpolation unit 50, where a subset of the reordered matrix V[k] 35' corresponding to the foreground components may be designated as foreground matrix V[k] 51k (which may be mathematically indicated as ) having dimensions D: (N=1)2 x nFG.

[00088] A unidade de compensação de energia 38 pode representar uma unidade configurada para executar compensação de energia com relação aos coeficientes HOA ambiente 47 para compensar perda de energia devido à remoção de vários dos canais HOA pela unidade de seleção de segundo plano 48. A unidade de compensação de energia 38 pode executar uma análise de energia com relação a uma ou mais entre a matriz US[k] reordenada 33’, matriz V[k] reordenada 35’, sinais nFG 49, os vetores V[k] de primeiro plano 51k e os coeficientes HOA ambiente 47 e então executar compensação de energia com base na análise de energia para gerar coeficientes HOA ambiente compensados em energia 47’. A unidade de compensação de energia 38 pode transmitir os coeficientes HOA ambiente compensados em energia 47’ para a unidade de decorrelação 60.[00088] The power compensation unit 38 can represent a unit configured to perform power compensation with respect to the ambient HOA coefficients 47 to compensate for energy loss due to the removal of several of the HOA channels by the background selection unit 48. The power compensation unit 38 can perform power analysis with respect to one or more of the reordered US[k] matrix 33', reordered V[k] matrix 35', nFG signals 49, the vectors Foreground V[k] 51k and ambient HOA coefficients 47 and then perform energy compensation based on energy analysis to generate energy compensated ambient HOA coefficients 47'. The energy compensation unit 38 may transmit the energy compensated ambient HOA coefficients 47' to the decorrelation unit 60.

[00089] A unidade de decorrelação 60 pode representar uma unidade configurada para implementar vários aspectos das técnicas descritas nessa revelação para reduzir ou eliminar correlação entre os coeficientes HOA ambiente compensados em energia 47’ para formar um ou mais sinais de áudio HOA ambiente decorrelacionados 67. A unidade de decorrelação 40’ pode transmitir os sinais de áudio HOA decorrelacionados 67 para a unidade de controle de ganho 62. A unidade de controle de ganho 62 pode representar uma unidade configurada para executar controle de ganho automático (que pode ser abreviado como “AGC”) com relação aos sinais de áudio HOA ambiente decorrelacionados 67 para obter sinais de áudio HOA ambiente de ganho controlado 67’. Após aplicar o controle de ganho, a unidade de controle de ganho automático 62 pode fornecer os sinais de áudio HOA ambiente de ganho controlado 67’ para a unidade de codificador de áudio psicoacústico 40.[00089] The decorrelation unit 60 may represent a unit configured to implement various aspects of the techniques described in this disclosure to reduce or eliminate correlation between the energy compensated ambient HOA coefficients 47' to form one or more decorrelated ambient HOA audio signals 67. The decorrelation unit 40' may transmit the decorrelated HOA audio signals 67 to the gain control unit 62. The gain control unit 62 may represent a unit configured to perform automatic gain control (which may be abbreviated as "AGC") against the decorrelated ambient HOA audio signals 67 to obtain gain controlled ambient HOA audio signals 67'. After applying the gain control, the automatic gain control unit 62 may provide the gain controlled ambient HOA audio signals 67' to the psychoacoustic audio encoder unit 40.

[00090] A unidade de decorrelação 60 incluída no dispositivo de codificação de áudio 20 pode representar instâncias únicas ou múltiplas de uma unidade configurada para aplicar uma ou mais transformadas de decorrelação aos coeficientes HOA ambiente compensados em energia 47’, para obter os sinais de áudio HOA decorrelacionados 67. Em alguns exemplos, a unidade de decorrelação 40’ pode aplicar uma matriz UHJ aos coeficientes HOA ambiente compensados em energia 47’. Em várias instâncias dessa revelação, a matriz UHJ pode ser também mencionada como uma “transformada baseada em fase”. A aplicação da transformada baseada em fase pode ser também mencionada aqui como “decorrelação de deslocamento de fase. ”[00090] The decorrelation unit 60 included in the audio coding device 20 may represent single or multiple instances of a unit configured to apply one or more decorrelation transforms to the energy compensated ambient HOA coefficients 47' to obtain the decorrelated HOA audio signals 67. In some examples, the decorrelation unit 40' may apply a UHJ matrix to the energy compensated ambient HOA coefficients 47'. In several instances of this disclosure, the UHJ matrix may also be referred to as a "phase-based transform". The application of the phase-based transform may also be referred to here as “phase shift decorrelation. ”

[00091] Formato UHJ ambisonic é um desenvolvimento do sistema de som surround Ambisonic projetado para ser compatível como mídia mono e estéreo. O formato UHJ inclui uma hierarquia de sistemas na qual o campo de som gravado será reproduzido com um grau de precisão que varia de acordo com os canais disponíveis. Em várias instâncias, UHJ também é mencionado como “Formato- C”. As iniciais indicam algumas das fontes incorporadas no sistema: U de Universal (UD-4); H de Matriz H; e J do Sistema 45J.[00091] Ambisonic UHJ format is a development of the Ambisonic surround sound system designed to be compatible with both mono and stereo media. The UHJ format includes a hierarchy of systems in which the recorded sound field will be reproduced with a degree of accuracy that varies depending on the available channels. In several instances, UHJ is also referred to as “Format-C”. The initials indicate some of the fonts built into the system: U for Universal (UD-4); H of Matrix H; and J of System 45J.

[00092] UHJ é um sistema hierárquico de codificar e decodificar informações de som direcionais na tecnologia de Ambisonics. Dependendo do número de canais disponíveis, um sistema pode transportar mais ou menos informações. UHJ é totalmente estéreo- e mono-compatível. Até quatro canais (L, R, T, Q ) podem ser usados.[00092] UHJ is a hierarchical system of encoding and decoding directional sound information in Ambisonics technology. Depending on the number of channels available, a system can carry more or less information. UHJ is fully stereo- and mono-compatible. Up to four channels (L, R, T, Q ) can be used.

[00093] Em uma forma, UHJ de 2 canais (L, R), informações surround horizontais (ou “planares”) podem ser transportadas por canais de sinal estéreo normal - CD, FM ou rádio digital, etc. - que podem ser recuperados usando um decodificador UHJ na extremidade de escuta. Somando os dois canais pode fornecer um sinal mono compatível, que pode ser uma representação mais precisa da versão de dois canais do que somando uma fonte “mono panpotted” convencional. Se um terceiro canal (T) estiver disponível, o terceiro canal pode ser usado para fornecer precisão de localização aperfeiçoada para o efeito surround planar quando decodificado através de um decodificador UHJ de 3 canais. O terceiro canal pode não ser necessário ter largura de banda de áudio total para essa finalidade, levando a possibilidade de sistemas denominados de ‘2 ^ canais”, onde o terceiro canal é limitado em largura de banda. Em um exemplo, o limite pode ser 5 kHz. O terceiro canal pode ser broadcast através de rádio FM, por exemplo, por meio de modulação de quadratura de fase. A adição de um quarto canal (Q) ao sistema UHJ pode permitir a codificação de som surround total com altura, às vezes mencionado como Periphony, com um nível de precisão idêntico ao Formato-B de 4 canais.[00093] In one form, UHJ 2-channel (L, R), horizontal (or “planar”) surround information can be carried over normal stereo signal channels - CD, FM or digital radio, etc. - which can be retrieved using a UHJ decoder at the listening end. Summing the two channels can provide a compatible mono signal, which can be a more accurate representation of the two-channel version than summing a conventional “mono panpotted” source. If a third channel (T) is available, the third channel can be used to provide improved location accuracy for the planar surround effect when decoded through a 3-channel UHJ decoder. The third channel may not be required to have full audio bandwidth for this purpose, leading to the possibility of so-called '2^channel' systems where the third channel is limited in bandwidth. In an example, the threshold might be 5 kHz. The third channel can be broadcast over FM radio, for example, by means of quadrature phase modulation. The addition of a fourth (Q) channel to the UHJ system can allow encoding of full height surround sound, sometimes referred to as Periphony, with an identical level of accuracy as 4-channel B-Format.

[00094] UHJ de 2 canais é um formato comumente usado para distribuição de gravações Ambisonic. Gravações UHJ de 2 canais podem ser transmitidas através de todos os canais estéreo normais e qualquer da mídia de 2 canais normal pode ser usada sem alteração. UHJ é compatível com estéreo em que, sem decodificação, o ouvinte pode perceber uma imagem estéreo, porém uma que é significativamente mais ampla que estéreo convencional (por exemplo, denominado “Super estéreo”). Os canais da esquerda e direita também podem ser somados para um grau muito alto de mono- compatibilidade. Retransmitido através de um decodificador UHJ, a capacidade de surround pode ser revelada.[00094] 2-channel UHJ is a commonly used format for distributing Ambisonic recordings. 2-channel UHJ recordings can be transmitted through all normal stereo channels and any normal 2-channel media can be used unchanged. UHJ supports stereo in that, without decoding, the listener can perceive a stereo image, but one that is significantly wider than conventional stereo (eg, called “Super Stereo”). The left and right channels can also be summed for a very high degree of mono-compatibility. Relayed through a UHJ decoder, surround capability can be revealed.

[00095] Uma representação matemática de exemplo da unidade de decorrelação 60 aplicando a matriz UHJ (ou transformada baseada em fase) é como a seguir: Codificação de UHJ: T = imag(htlbert( (-0.1432 * W) + (0.6512 * X) ))-(0.7071 * Y); Q = 0.9772 * Z; S = (0.9397 * W) + (0.1856 * X); D = imag(hilbert( (-0.3420 * W) + (0.5099 * X))) + (0.6555 * Y); Conversão de S e D em Esquerda e direita: Esquerda = (S+D)q2 Direita = (S-D)/2[00095] An example mathematical representation of the decorrelation unit 60 applying the UHJ matrix (or phase-based transform) is as follows: UHJ encoding: T = imag(htlbert( (-0.1432 * W) + (0.6512 * X) ))-(0.7071 * Y); Q = 0.9772 * Z; S = (0.9397 * W) + (0.1856 * X); D = imag(hilbert( (-0.3420 * W) + (0.5099 * X))) + (0.6555 * Y); Converting S and D to Left and Right: Left = (S+D)q2 Right = (S-D)/2

[00096] De acordo com algumas implementações dos cálculos acima, assunções com relação aos cálculos acima podem incluir o seguinte: canal de segundo plano HOA são Ambisonics de 1a ordem, normalizados FuMa, na ordem de numeração de canal Ambisonics W (a00), X(a11), Y(a11-), Z(a10).[00096] In accordance with some implementations of the above calculations, assumptions regarding the above calculations may include the following: HOA background channel are 1st order Ambisonics, normalized FuMa, in channel numbering order Ambisonics W(a00), X(a11), Y(a11-), Z(a10).

[00097] Nos cálculos listados acima, a unidade de decorrelação 40’ pode executar uma multiplicação escalar de várias matrizes por valores constantes. Por exemplo, para obter o sinal S, a unidade de decorrelação 60 pode executar multiplicação escalar de uma matriz W pelo valor constante de 0.9397 (por exemplo, por multiplicação escalar), e de uma matriz X pelo valor constante de 0.1856. Como também ilustrado nos cálculos listados acima, a unidade de decorrelação 60 pode aplicar uma transformada Hilbert (indicada pela função “Hilbert()” na codificação UHJ acima) na obtenção de cada dos sinais D e T. a função “Imag()” na codificação UHJ acima indica que o imaginário (no sentido matemático) do resultado da transformada Hilbert é obtido.[00097] In the calculations listed above, the decorrelation unit 40' can perform a scalar multiplication of several matrices by constant values. For example, to obtain the signal S, the decorrelation unit 60 can perform scalar multiplication of a matrix W by the constant value of 0.9397 (for example, by scalar multiplication), and of a matrix X by the constant value of 0.1856. As also illustrated in the calculations listed above, the decorrelation unit 60 can apply a Hilbert transform (indicated by the function "Hilbert()" in the above UHJ encoding) in obtaining each of the D and T signals.

[00098] Outra representação matemática de exemplo da unidade de decorrelação 60 aplicando a matriz UHJ (ou transformada baseada em fase) é como a seguir: Codificação UHJ: S = (0.9396926 * W) + (0.151520536509082 * X); D = imag(hilbert( (-0.3420201 * W) + (0.416299273350443 * X) )) + (0.535173990363608 * Y); T = 0.940604061228740 * (imag(hilbert( (-0.1432 * W) + (0.531702573500135 * X))) - (0.577350269189626 * Y)); Q = Zj Conversão de S e D em esquerda e direita: Esquerda = (S+D)/2; Direita = (S-D)/2;[00098] Another example mathematical representation of the decorrelation unit 60 applying the UHJ matrix (or phase-based transform) is as follows: UHJ encoding: S = (0.9396926 * W) + (0.151520536509082 * X); D = imag(hilbert( (-0.3420201 * W) + (0.416299273350443 * X) )) + (0.535173990363608 * Y); T = 0.940604061228740 * (imag(hilbert( (-0.1432 * W) + (0.531702573500135 * X))) - (0.577350269189626 * Y)); Q = Zj Conversion of S and D into left and right: Left = (S+D)/2; Right = (S-D)/2;

[00099] Em algumas implementações de exemplo dos cálculos acima, assunções com relação aos cálculos acima podem incluir o seguinte: canal de segundo plano HOA são Ambisonics de 1a ordem, N3D (ou “três-D total”) normalizado, na ordem de numeração de canal Ambisonics W(a00), X(a11), Y(a11-), Z(a10). Embora descrito aqui com relação à normalização N3D, será reconhecido que os cálculos de exemplo podem ser também aplicados a canais de segundo plano HOA que são SN3D normalizados (ou semi- normalizados Schmidt). Normalização N3D e SN3D podem diferir em termos dos fatores de escalonamento usados. Uma representação de exemplo de normalização N3D, em relação à normalização SN3D, é expressa abaixo: [00099] In some example implementations of the above calculations, assumptions regarding the above calculations may include the following: HOA background channel are 1st-order Ambisonics, N3D (or “full three-D”) normalized, in Ambisonics channel numbering order W(a00), X(a11), Y(a11-), Z(a10). Although described here with respect to N3D normalization, it will be recognized that the example calculations can also be applied to HOA background channels that are SN3D normalized (or semi-Schmidt normalized). N3D and SN3D normalization can differ in terms of the scaling factors used. An example representation of N3D normalization, in relation to SN3D normalization, is expressed below:

[000100] Um exemplo de coeficientes de ponderação usados em normalização SN3D é expresso abaixo: [000100] An example of weighting coefficients used in SN3D normalization is expressed below:

[000101] Nos cálculos listados acima, a unidade de decorrelação 60 pode executar uma multiplicação escalar de várias matrizes por valores constantes. Por exemplo, para obter o sinal S, a unidade de decorrelação 60 pode executar multiplicação escalar de uma matriz W pelo valor constante de 0.9396926 (por exemplo, por multiplicação escalar) e de uma matriz X pelo valor constante de 0.151520536509082. Como também ilustrado nos cálculos listados acima, a unidade de decorrelação 60 pode aplicar uma transformada Hilbert (indicada pela função “Hilbert()” na codificação UHJ acima ou decorrelação de deslocamento de fase) na obtenção de cada dos sinais D e T. A função “Imag()” na codificação UHJ acima indica que o imaginário (no sentido matemático) do resultado da transformada Hilbert é obtido.[000101] In the calculations listed above, the decorrelation unit 60 can perform a scalar multiplication of multiple matrices by constant values. For example, to obtain the signal S, the decorrelation unit 60 can perform scalar multiplication of a matrix W by the constant value of 0.9396926 (for example, by scalar multiplication) and of a matrix X by the constant value of 0.151520536509082. As also illustrated in the calculations listed above, the decorrelation unit 60 can apply a Hilbert transform (indicated by the "Hilbert()" function in the above UHJ encoding or phase shift decorrelation) in obtaining each of the D and T signals.

[000102] A unidade de decorrelação 60 pode executar os cálculos listados acima, de modo que os sinais S e D resultantes representam sinais de áudio da esquerda e direita (ou em outras palavras sinais de áudio estéreo). Em alguns desses cenários, a unidade de decorrelação 60 pode transmitir os sinais T e Q como parte dos sinais de áudio HOA ambiente decorrelacionados 67, porém um dispositivo de decodificação que recebe o fluxo de bits 21 pode não processar os sinais T e Q ao renderizar para uma geometria de alto-falante estéreo (ou, em outras palavras, configuração de alto-falante estéreo). Em exemplos, os coeficientes HOA ambiente 47’ podem representar um campo de som a ser renderizado em um sistema de produção mono-áudio. A unidade de decorrelação 60 pode transmitir os sinais S e D como parte dos sinais de áudio HOA ambiente decorrelacionados 67, e um dispositivo de decodificação que recebe o fluxo de bits 21 pode combinar (ou “misturar”) os sinais S e D para formar um sinal de áudio a ser renderizado e/ou transmitido em formato mono-áudio.[000102] The decorrelation unit 60 can perform the calculations listed above, so that the resulting S and D signals represent left and right audio signals (or in other words stereo audio signals). In some of these scenarios, the decorrelation unit 60 may transmit the T and Q signals as part of the decorrelated ambient HOA audio signals 67, however a decoding device receiving the bit stream 21 may not process the T and Q signals when rendering to a stereo speaker geometry (or, in other words, stereo speaker configuration). In examples, the 47' ambient HOA coefficients may represent a sound field to be rendered in a mono-audio production system. The decorrelation unit 60 can transmit the S and D signals as part of the decorrelated ambient HOA audio signals 67, and a decoding device receiving the bit stream 21 can combine (or "mix") the S and D signals to form an audio signal to be rendered and/or transmitted in mono-audio format.

[000103] Nesses exemplos, o dispositivo de decodificação e/ou dispositivo de reprodução podem recuperar o sinal mono-áudio em vários modos. Um exemplo é por misturar os sinais da esquerda e direita (representados por sinais S e D). Outro exemplo é por aplicar uma matriz UHJ (ou transformada baseada em fase) para decodificar um sinal W. Por produzir um sinal esquerdo natural e um sinal direito natural na forma dos sinais S e D por aplicar a matriz UHJ (ou transformada baseada em fase), a unidade de decorrelação 60 pode implementar técnicas dessa revelação para fornecer vantagens em potencial e/ou aperfeiçoamentos em potencial em relação a técnica que aplicam outras transformadas de decorrelação (como uma matriz de modo descrita no padrão MPEG-H).[000103] In these examples, the decoding device and/or playback device can recover the mono-audio signal in various ways. An example is by mixing left and right signals (represented by S and D signals). Another example is by applying a UHJ matrix (or phase-based transform) to decode a W signal. By producing a natural left signal and a natural right signal in the form of the S and D signals by applying the UHJ matrix (or phase-based transform), the decorrelation unit 60 can implement techniques of this disclosure to provide potential advantages and/or potential improvements over the technique applying other decorrelation transforms (such as a mode matrix described in the MPEG-H standard).

[000104] Em vários exemplos, a unidade de decorrelação 60 pode aplicar transformadas de decorrelação diferentes, com base em uma taxa de bits dos coeficientes HOA ambiente compensados em energia, recebidos, 47’. Por exemplo, a unidade de decorrelação 60 pode aplicar a matriz UHJ (ou transformada baseada em fase) descrita acima em cenários onde os coeficientes HOA ambiente compensados em energia 47’ representam uma entrada de quatro canais. Mais especificamente, com base nos coeficientes HOA ambiente compensados em energia 47’ representando uma entrada de quatro canais, a unidade de decorrelação 60 pode aplicar uma matriz UHJ 4 x 4 (ou transformada baseada em fase). Por exemplo, a matriz 4 x 4 pode ser ortogonal à entrada de quatro canais dos coeficientes HOA ambiente compensados em energia 47’. Em outras palavras, em instâncias onde os coeficientes HOA ambiente compensados em energia 47’ representam um número menor de canais (por exemplo, quatro), a unidade de decorrelação 60 pode aplicar a matriz UHJ como a transformada de decorrelação selecionada, para decorrelacionar os sinais de segundo plano dos sinais HOA ambiente compensados em energia 47’ para obter os sinais de áudio HOA ambiente decorrelacionados 67.[000104] In various examples, the decorrelation unit 60 may apply different decorrelation transforms based on a bit rate of the received energy compensated ambient HOA coefficients 47'. For example, the decorrelation unit 60 can apply the UHJ matrix (or phase-based transform) described above in scenarios where the energy-compensated ambient HOA coefficients 47' represent a four-channel input. More specifically, based on the energy-compensated ambient HOA coefficients 47' representing a four-channel input, the decorrelation unit 60 may apply a 4 x 4 UHJ matrix (or phase-based transform). For example, the 4 x 4 matrix can be orthogonal to the four-channel input of energy-compensated ambient HOA coefficients 47'. In other words, in instances where the energy compensated ambient HOA coefficients 47' represent a smaller number of channels (e.g., four), the decorrelation unit 60 can apply the UHJ matrix as the selected decorrelation transform, to decorrelate the background signals from the energy compensated ambient HOA signals 47' to obtain the decorrelated ambient HOA audio signals 67.

[000105] De acordo com esse exemplo, se os coeficientes HOA ambiente compensados em energia 47’ representarem um número maior de canais (por exemplo, nove), a unidade de decorrelação 60 pode aplicar uma transformada de decorrelação diferente da matriz UHJ (ou transformada baseada em fase). Por exemplo, em um cenário onde os coeficientes HOA ambiente compensados em energia 47’ representam uma entrada de nove canais, a unidade de decorrelação 60 pode aplicar uma matriz de modo (por exemplo, como descrito na fase I do padrão de áudio 3D MPEG-H referenciado acima), para decorrelacionar os coeficientes HOA ambiente compensados em energia 47’. Em exemplos onde os coeficientes HOA ambiente compensados em energia 47’ representam uma entrada de nove canais, a unidade de decorrelação 60 pode aplicar uma matriz de modo 9 x 9 para obter os sinais de áudio HOA ambiente decorrelacionados 67.[000105] According to this example, if the energy-compensated ambient HOA coefficients 47' represent a larger number of channels (for example, nine), the decorrelation unit 60 can apply a decorrelation transform other than the UHJ matrix (or phase-based transform). For example, in a scenario where the energy-compensated ambient HOA coefficients 47' represent a nine-channel input, the decorrelation unit 60 may apply a mode matrix (e.g., as described in Phase I of the MPEG-H 3D audio standard referenced above), to de-correlate the energy-compensated ambient HOA coefficients 47'. In instances where the energy compensated ambient HOA coefficients 47' represent a nine channel input, the decorrelation unit 60 may apply a 9 x 9 mode matrix to obtain the decorrelated ambient HOA audio signals 67.

[000106] Por sua vez, vários componentes do dispositivo de codificação de áudio 20 (como o codificador de áudio psicoacústico 40) pode codificar de forma perceptual os sinais de áudio HOA ambiente decorrelacionados 67 de acordo com AAC ou USAC. A unidade de decorrelação 60 pode aplicar a transformada de decorrelação de deslocamento de fase (por exemplo, a matriz UHJ ou transformada baseada em fase no caso de uma entrada de quatro canais), para otimizar potencialmente a codificação AAC/USAC para HOA. Em exemplos onde os coeficientes HOA ambiente compensados em energia 47’ (e desse modo, os sinais de áudio HOA ambiente decorrelacionados 67) representam dados de áudio a serem renderizados em um sistema de reprodução estéreo, a unidade de decorrelação 60 pode aplicar as técnicas dessa revelação para melhorar ou otimizar a compressão, com base em AAC e USAC sendo dados de áudio estéreo relativamente orientados (ou otimizados para).[000106] In turn, various components of the audio coding device 20 (such as the psychoacoustic audio coder 40) can perceptually encode the decorrelated ambient HOA audio signals 67 according to AAC or USAC. The decorrelation unit 60 can apply the phase shift decorrelation transform (e.g. the UHJ matrix or phase based transform in the case of a four channel input), to potentially optimize the AAC/USAC coding for HOA. In instances where the energy-compensated ambient HOA coefficients 47' (and thus, the decorrelated ambient HOA audio signals 67) represent audio data to be rendered in a stereo playback system, the decorrelation unit 60 can apply the techniques of this disclosure to improve or optimize the compression, based on AAC and USAC being relatively oriented (or optimized for) stereo audio data.

[000107] Será entendido que a unidade de decorrelação 60 pode aplicar as técnicas descritas aqui em situações onde os coeficientes HOA ambiente compensados em energia 47’ incluem canais de primeiro plano, bem como em situações onde os coeficientes HOA ambiente compensados em energia 47’ não incluem nenhum canal de primeiro plano. Como exemplo, a unidade de decorrelação 40’ pode aplicar as técnicas e/ou cálculos descritos acima, em um cenário onde os coeficientes HOA ambiente compensados em energia 47’ incluem zero (0) canais de primeiro plano e quatro (4) canais de segundo plano (por exemplo, um cenário de uma taxa de bits inferior/menor).[000107] It will be understood that the decorrelation unit 60 can apply the techniques described here in situations where the energy compensated ambient HOA coefficients 47' include foreground channels, as well as in situations where the energy compensated ambient HOA coefficients 47' do not include any foreground channels. As an example, the decorrelation unit 40' may apply the techniques and/or calculations described above, in a scenario where the energy-compensated ambient HOA coefficients 47' include zero (0) foreground channels and four (4) background channels (e.g., a lower/lower bitrate scenario).

[000108] Em alguns exemplos, a unidade de decorrelação 60 pode fazer com que a unidade de geração de fluxo de bits 42 sinalize, como parte do fluxo de bits baseado em vetor 21, um ou mais elementos de sintaxe que indicam que a unidade de decorrelação 60 aplicou uma transformada de decorrelação aos coeficientes HOA ambiente compensados em energia 47’. Por fornecer tal indicação para um dispositivo de decodificação, a unidade de decorrelação 60 pode permitir que o dispositivo de decodificação execute transformadas de decorrelação recíproca em dados de áudio no domínio HOA. Em alguns exemplos, a unidade de decorrelação 60 pode fazer com que a unidade de geração de fluxo de bits 42 sinalize elementos de sintaxe que indicam qual transformada de decorrelação foi aplicada, como a matriz UHJ (ou outra transformada baseada em fase) ou a matriz de modo.[000108] In some examples, the decorrelation unit 60 may cause the bitstream generation unit 42 to signal, as part of the vector-based bitstream 21, one or more syntax elements that indicate that the decorrelation unit 60 has applied a decorrelation transform to the energy-compensated ambient HOA coefficients 47'. By providing such an indication to a decoding device, the decorrelation unit 60 can allow the decoding device to perform reciprocal decorrelation transforms on audio data in the HOA domain. In some examples, the decorrelation unit 60 may cause the bitstream generation unit 42 to signal syntax elements that indicate which decorrelation transform has been applied, such as the UHJ matrix (or other phase-based transform) or the mode matrix.

[000109] A unidade de decorrelação 60 pode aplicar uma transformada baseada em fase ao coeficiente HOA ambiente compensado em energia 47’. A transformada baseada em fase para as primeiras sequências de coeficiente HOA OMIN de CAMB (k-1) é definida por Com os coeficientes d como definido na Tabela 1, os quadros de sinal S(k-2) e M(K-2) sendo definidos por E A+90 (k-2) e B+90(k-2) são os quadros de sinais deslocados em fase de +90 graus A e B definidos por A transformada baseada em fase para as primeiras sequências de coeficiente HOA OMIN de CP,AMB(k-1) é definida de acordo. A transformada descrita pode introduzir um retardo de um quadro.[000109] The decorrelation unit 60 may apply a phase-based transform to the energy-compensated ambient HOA coefficient 47'. The phase-based transform for the first HOA OMIN coefficient sequences of CAMB (k-1) is defined by With the d coefficients as defined in Table 1, the signal frames S(k-2) and M(K-2) being defined by And A+90(k-2) and B+90(k-2) are the +90 degrees A and B phase-shifted signal frames defined by The phase-based transform for the first sequences of HOA coefficient OMIN of CP,AMB(k-1) is defined accordingly. The described transform can introduce a delay of one frame.

[000110] Acima, o xAMB,LOW,1 (k-1) até xAMB,LOW,4 (k- 2) pode corresponder aos sinais de áudio HOA ambiente decorrelacionados 67. Na equação acima, a variável CAMB,1(k) indica os coeficientes HOA para o k° quadro correspondendo às funções de base esférica tendo uma (ordem:subordem) de (0:0), que pode ser também referida como o componente ou canal “W”. A variável CAMB,2 (k) indica os coeficientes HOA para o k° quadro correspondendo às funções de base esférica tendo uma (ordem: subordem) de (1:-1), que também pode ser mencionado como o canal ou componente ‘Y’. A variável CAMB,3 (k) indica os coeficientes HOA para o k° quadro correspondendo às funções de base esférica tendo uma (ordem: subordem) de (1:0), que também pode ser mencionado como o canal ou componente ‘Z’. A variável CAMB,4 (k) indica os coeficientes HOA para o k° quadro correspondendo às funções de base esférica tendo uma (ordem: subordem) de (1:1), que também pode ser mencionado como o canal ou componente ‘X’. O CAMB,1 (k) até CAMB,3(k) podem corresponder a coeficientes HOA ambiente 47’.[000110] Above, the xAMB,LOW,1 (k-1) to xAMB,LOW,4 (k-2) can correspond to the decorrelated ambient HOA audio signals 67. In the above equation, the variable CAMB,1(k) indicates the HOA coefficients for the kth frame corresponding to the spherical base functions having an (order:suborder) of (0:0), which can also be referred to as the “W” component or channel. The variable CAMB,2 (k) indicates the HOA coefficients for the kth frame corresponding to the spherical basis functions having an (order: suborder) of (1:-1), which may also be referred to as the 'Y' channel or component. The variable CAMB,3 (k) indicates the HOA coefficients for the kth frame corresponding to the spherical basis functions having an (order: suborder) of (1:0), which may also be referred to as the 'Z' channel or component. The variable CAMB,4 (k) indicates the HOA coefficients for the kth frame corresponding to the spherical basis functions having an (order: suborder) of (1:1), which may also be referred to as the 'X' channel or component. The CAMB,1(k) through CAMB,3(k) can correspond to 47' ambient HOA coefficients.

[000111] A tabela 11 abaixo ilustra um exemplo de coeficientes que a unidade de decorrelação 40 pode usar para executar uma transformada baseada em fase. Tabela 1 Coeficientes para transformada baseada em fase[000111] Table 11 below illustrates an example of coefficients that the decorrelation unit 40 can use to perform a phase-based transform. Table 1 Coefficients for phase-based transform

[000112] Em alguns exemplos, vários componentes do dispositivo de codificação de áudio 20 (como a unidade de geração de fluxo de bits 42) podem ser configurados para transmitir somente representações HOA de primeira ordem para taxas de bit alvo inferiores (por exemplo, uma taxa de bit alvo de 128K ou 256K). De acordo com alguns desses exemplos, o dispositivo de codificação de áudio 20 (ou componentes do mesmo, como a unidade de geração de fluxo de bits 42) pode ser configurado para descartar coeficientes HOA de ordem superior (por exemplo, coeficientes com uma ordem maior que a primeira ordem, ou em outras palavras, N>1). Entretanto, em exemplos onde o dispositivo de codificação de áudio 20 determina que a taxa de bits alvo seja relativamente elevada, o dispositivo de codificação de áudio 20 (por exemplo, a unidade de geração de fluxo de bits 42) pode separar os canais de primeiro plano e segundo plano, e pode atribuir bits (por exemplo, em quantidades maiores) aos canais de primeiro plano.[000112] In some examples, various components of the audio encoding device 20 (such as the bitstream generation unit 42) may be configured to transmit only first-order HOA representations for lower target bitrates (for example, a target bitrate of 128K or 256K). According to some of these examples, the audio coding device 20 (or components thereof, such as the bit stream generation unit 42) can be configured to discard higher order HOA coefficients (e.g. coefficients with an order greater than the first order, or in other words, N>1). However, in instances where the audio encoding device 20 determines the target bitrate to be relatively high, the audio encoding device 20 (e.g., bitstream generation unit 42) may separate the foreground and background channels, and may assign bits (e.g., in larger amounts) to the foreground channels.

[000113] Embora descrito como sendo aplicado aos coeficientes HOA ambiente compensados em energia 47’, o dispositivo de codificação de áudio 20 pode não aplicar decorrelação aos coeficientes HOA ambiente compensados em energia 47’. Ao invés, a unidade de compensação de energia 38 pode fornecer os coeficientes HOA ambiente compensados em energia 47’ diretamente à unidade de controle de ganho 62, que pode executar controle de ganho automático com relação aos coeficientes HOA ambiente compensados em energia 47’. Como tal, a unidade de decorrelação 60 é mostrada como uma linha tracejada para indicar que a unidade de decorrelação pode nem sempre executar decorrelação ou ser incluída no dispositivo de decodificação de áudio 20.[000113] Although described as being applied to the energy compensated ambient HOA coefficients 47', the audio coding device 20 may not apply decorrelation to the energy compensated ambient HOA coefficients 47'. Instead, the energy compensation unit 38 can supply the energy compensated ambient HOA coefficients 47' directly to the gain control unit 62, which can perform automatic gain control with respect to the energy compensated ambient HOA coefficients 47'. As such, the decorrelation unit 60 is shown as a dashed line to indicate that the decorrelation unit may not always perform decorrelation or be included in the audio decoding device 20.

[000114] A unidade de interpolação espaço- temporal 50 pode representar uma unidade configurada para receber os vetores V[k] de primeiro plano, 51k para o k° quadro e os vetores V[k-1] de primeiro plano 51k-1 para o quadro anterior (consequentemente a notação k-1) e executar interpolação espaço-temporal para gerar vetores V[k] de primeiro plano interpolados. A unidade de interpolação espaço-temporal 50 pode recombinar os sinais nFG 49 com os vetores V[k] de primeiro plano 51k para recuperar coeficientes HOA de primeiro plano reordenados. A unidade de interpolação espaço-temporal 50 pode então dividir os coeficientes HOA de primeiro plano reordenados pelos vetores V[k] interpolados para gerar sinais nFG interpolados 49’.[000114] The space-time interpolation unit 50 can represent a unit configured to receive the foreground vectors V[k] 51k for the kth frame and the foreground vectors V[k-1] 51k-1 for the previous frame (hence the k-1 notation) and perform space-time interpolation to generate interpolated foreground vectors V[k]. The space-time interpolation unit 50 can recombine the nFG signals 49 with the foreground V[k] vectors 51k to recover reordered foreground HOA coefficients. The space-time interpolation unit 50 can then divide the reordered foreground HOA coefficients by the interpolated V[k] vectors to generate interpolated nFG signals 49'.

[000115] A unidade de interpolação espaço- temporal 50 pode também transmitir os vetores V[k] de primeiro plano 51k que foram usados para gerar os vetores V[k] de primeiro plano interpolados de modo que um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24, possa gerar os vetores V[k] de primeiro plano interpolados e desse modo recuperar os vetores V[k] de primeiro plano 51k. Os vetores V[k] de primeiro plano 51k usados para gerar os vetores V[k] de primeiro plano interpolados são indicados como os vetores V[k] de primeiro plano restantes 53. Para assegurar que o mesmo V[k] e V[k-1] sejam usados no codificador e decodificador (para criar os vetores interpolados V[k]) versões quantizadas/desquantizadas dos vetores podem ser usadas no codificador e decodificador. A unidade de interpolação espaço-temporal 50 pode transmitir os sinais nFG interpolados 49’ para a unidade de controle de ganho 62 e os vetores V[k] de primeiro plano interpolados 51k para a unidade de redução de coeficiente 46.[000115] The space-time interpolation unit 50 can also transmit the foreground V[k] vectors 51k that were used to generate the interpolated foreground V[k] vectors so that an audio decoding device, such as the audio decoding device 24, can generate the interpolated foreground V[k] vectors and thereby recover the foreground V[k] vectors 51k. The foreground V[k] vectors 51k used to generate the interpolated foreground V[k] vectors are denoted as the remaining foreground V[k] vectors 53. To ensure that the same V[k] and V[k-1] are used in the encoder and decoder (to create the interpolated V[k] vectors) quantized/dequantized versions of the vectors can be used in the encoder and decoder. The space-time interpolation unit 50 can transmit the interpolated nFG signals 49' to the gain control unit 62 and the interpolated foreground V[k] vectors 51k to the coefficient reduction unit 46.

[000116] A unidade de controle de ganho 62 pode também representar uma unidade configurada para executar controle automático de ganho (que pode ser abreviado como “AGC”) com relação aos sinais nFG interpolados 49’ para obter sinais nFG de ganho controlado 49’’. Após aplicar o controle de ganho, a unidade de controle de ganho automático 62 pode fornecer os sinais nFG de ganho controlado 49’’ para a unidade de codificador de áudio psicoacústico 40.[000116] The gain control unit 62 may also represent a unit configured to perform automatic gain control (which may be abbreviated as "AGC") with respect to interpolated nFG signals 49' to obtain gain controlled nFG signals 49''. After applying the gain control, the automatic gain control unit 62 can supply the gain controlled nFG signals 49'' to the psychoacoustic audio encoder unit 40.

[000117] A unidade de redução de coeficiente 46 pode representar uma unidade configurada para executar redução de coeficiente com relação aos vetores V[k] de primeiro plano restantes 53 com base nas informações de canal de segundo plano 43 para transmitir vetores V[k] de primeiro plano reduzidos 55 para a unidade de quantização 52. Os vetores V[k] de primeiro plano reduzido 55 podem ter dimensões D: [(N+1)2 - (NBG +1)2 - BGTOT] x nFG. A unidade de redução de coeficiente 46 pode, nesse aspecto, representar uma unidade configurada para reduzir o número de coeficientes nos vetores V[k] de primeiro plano restantes 53. Em outras palavras, a unidade de redução de coeficiente 46 pode representar uma unidade configurada para eliminar os coeficientes nos vetores V[k] de primeiro plano (que formam os vetores V[k] de primeiro plano restantes 53) tendo pouca a nenhuma informação direcional. Em alguns exemplos, os coeficientes dos vetores V[k] distintos ou, em outras palavras, de primeiro plano correspondendo a uma primeira e funções de base de ordem zero (que podem ser indicadas como NBG) fornecem pouca informação direcional e, portanto, podem ser removidos dos vetores V de primeiro plano (através de um processo que pode ser mencionado como “redução de coeficiente”). Nesse exemplo, maior flexibilidade pode ser fornecida não somente para identificar os coeficientes que correspondem a NBG, porém para identificar canais HOA adicionais (que podem ser indicados pela variável TotalOfAddAmbHOAChan) a partir do conjunto de [(NBG + 1)2 +1, (N+1)2].[000117] The coefficient reduction unit 46 may represent a unit configured to perform coefficient reduction with respect to the remaining foreground vectors V[k] 53 based on background channel information 43 to transmit reduced foreground V[k] vectors 55 to the quantization unit 52. The reduced foreground V[k] vectors 55 may have dimensions D: [(N+1)2 - (NBG +1)2 - BGTOT] x nFG. Coefficient reduction unit 46 may, in this regard, represent a unit configured to reduce the number of coefficients in the remaining foreground vectors V[k] 53. In other words, coefficient reduction unit 46 may represent a unit configured to eliminate the coefficients in the foreground vectors V[k] (which form the remaining foreground V[k] vectors 53) having little to no directional information. In some instances, the coefficients of distinct or, in other words, foreground vectors V[k] corresponding to a first and zero-order basis functions (which may be denoted as NBG) provide little directional information and therefore can be removed from the foreground V vectors (through a process that may be referred to as "coefficient reduction"). In this example, greater flexibility can be provided not only to identify the coefficients that correspond to NBG, but to identify additional HOA channels (which can be indicated by the TotalOfAddAmbHOAChan variable) from the set of [(NBG + 1)2 +1, (N+1)2].

[000118] A unidade de quantização 52 pode representar uma unidade configurada para executar qualquer forma de quantização para comprimir os vetores V[k] de primeiro plano reduzidos 55 para gerar vetores V[k] de primeiro plano codificados 57, transmitindo os vetores V[k] de primeiro plano codificados 57 para a unidade de geração de fluxo de bits 42. Em operação, a unidade de quantização 52 pode representar uma unidade configurada para comprimir um componente espacial do campo de som, isto é, um ou mais dos vetores V[k] de primeiro plano reduzidos 55 nesse exemplo. A unidade de quantização 52 pode executar qualquer um dos seguintes 12 modos de quantização expostos na fase I ou fase II do padrão de codificação de áudio MPEG-H 3D referenciado acima. A unidade de quantização 52 pode executar também versões previstas de qualquer dos tipos acima de modos de quantização, onde uma diferença é determinada entre um elemento de (ou um peso quando quantização de vetor é executada) do vetor-V de um quadro anterior e o elemento (ou peso quando quantização de vetor é executada) do vetor-V de um quadro atual é determinado. A unidade de quantização 52 pode então quantizar a diferença entre os elementos ou pesos do quadro atual e quaro anterior ao invés do valor do elemento do vetor-V do próprio quadro atual. A unidade de quantização 52 pode fornecer os vetores V[k] de primeiro plano codificados 57 para a unidade de geração de fluxo de bits 42. A unidade de quantização 52 pode também fornecer os elementos de sintaxe indicativos do modo de quantização (Por exemplo, o elemento de sintaxe NbitsQ) e quaisquer outros elementos de sintaxe usados para desquantizar ou de outro modo reconstruir o vetor-V.[000118] The quantization unit 52 may represent a unit configured to perform any form of quantization to compress the reduced foreground V[k] vectors 55 to generate encoded foreground V[k] vectors 57, transmitting the encoded foreground V[k] vectors 57 to the bit stream generation unit 42. In operation, the quantization unit 52 may represent a unit configured to compress a spatial component of the sound field , that is, one or more of the reduced foreground vectors V[k] 55 in this example. The quantization unit 52 can perform any one of the following 12 quantization modes set out in phase I or phase II of the MPEG-H 3D audio coding standard referenced above. The quantization unit 52 can also perform predicted versions of any of the above types of quantization modes, where a difference is determined between an element (or a weight when vector quantization is performed) of the V-vector of a previous frame and the element (or weight when vector quantization is performed) of the V-vector of a current frame is determined. The quantization unit 52 can then quantize the difference between the elements or weights of the current frame and the previous frame instead of the V-vector element value of the current frame itself. The quantization unit 52 may supply the encoded foreground V[k] vectors 57 to the bitstream generation unit 42. The quantization unit 52 may also supply the syntax elements indicative of the quantization mode (e.g., the NbitsQ syntax element) and any other syntax elements used to dequantize or otherwise reconstruct the V-vector.

[000119] A unidade de codificador de áudio psicoacústico 40 incluída no dispositivo de codificação de áudio 20 pode representar múltiplas instâncias de um codificador de áudio psicoacústico, cada uma das quais é usada para codificar um canal HOA ou objeto de áudio diferente de cada dos coeficientes HOA ambiente compensados em energia 47’ e os sinais nFG interpolados 49’ para gerar coeficientes HOA ambiente codificados 59 e sinais nFG codificados 61. A unidade de codificador de áudio psicoacústico 40 pode transmitir os coeficientes HOA ambiente codificados 59 e os sinais nFG codificados 61 para a unidade de geração de fluxo de bits 42.[000119] The psychoacoustic audio encoder unit 40 included in the audio coding device 20 can represent multiple instances of a psychoacoustic audio encoder, each of which is used to encode a different HOA channel or audio object from each of the energy compensated ambient HOA coefficients 47' and the interpolated nFG signals 49' to generate encoded ambient HOA coefficients 59 and encoded nFG signals 61. The unit psychoacoustic audio encoder 40 may transmit the encoded ambient HOA coefficients 59 and encoded nFG signals 61 to the bit stream generation unit 42.

[000120] A unidade de geração de fluxo de bits 42 incluída no dispositivo de codificação de áudio 20 representa uma unidade que formata dados para se conformar a um formato conhecido (que pode se referir a um formato conhecido por um dispositivo de decodificação), desse modo gerando o fluxo de bits baseado em vetor 21. O fluxo de bits 21 pode, em outras palavras, representar dados de áudio codificados, tendo sido codificados no modo descrito acima. A unidade de geração de fluxo de bits 42 pode representar um multiplexor em alguns exemplos, que pode receber os vetores V[k] de primeiro plano codificados 57, os coeficientes HOA ambiente codificados 59, os sinais nFG codificados 61 e as informações de canal de segundo plano 43. A unidade de geração de fluxo de bits 42 pode então gerar um fluxo de bits 21 com base nos vetores V[k] de primeiro plano codificados 57, os coeficientes HOA ambiente codificados 59, os sinais nFG codificados 61 e as informações de canal de segundo plano 43. Desse modo, a unidade de geração de fluxo de bits 42 pode desse modo especificar os vetores 57 no fluxo de bits 21 para obter o fluxo de bits 21. O fluxo de bits 21 pode incluir um fluxo de bits primário ou principal e um ou mais fluxos de bit de canal secundário.[000120] The bitstream generation unit 42 included in the audio encoding device 20 represents a unit that formats data to conform to a known format (which may refer to a format known by a decoding device), thereby generating the vector-based bitstream 21. The bitstream 21 can, in other words, represent encoded audio data, having been encoded in the manner described above. The bitstream generating unit 42 may represent a multiplexor in some examples, which may receive the coded foreground V[k] vectors 57, the coded ambient HOA coefficients 59, the coded nFG signals 61, and the background channel information 43. 59, the encoded nFG signals 61, and the background channel information 43. In this way, the bitstream generating unit 42 can thereby specify the vectors 57 in the bitstream 21 to obtain the bitstream 21. The bitstream 21 can include a primary or main bitstream and one or more minor channel bitstreams.

[000121] Embora não mostrado no exemplo da figura 3, o dispositivo de codificação de áudio 20 pode também incluir uma unidade de saída de fluxo de bits que comuta a saída do fluxo de bits a partir do dispositivo de codificação de áudio 20 (por exemplo, entre o fluxo de bits baseado em direcional 21 e o fluxo de bits baseado em vetor 21) com base em se um quadro atual deve ser codificado usando a síntese baseada em direcional ou a síntese baseada em vetor. A unidade de saída de fluxo de bits pode executar a comutação com base no elemento de sintaxe transmitido pela unidade de análise de conteúdo 26 indicando se uma síntese baseada em direcional foi realizada (como resultado de detectar que os coeficientes HOA 11 foram gerados de um objeto de áudio sintético) ou uma síntese baseada em vetor foi executada (como resultado de detectar que os coeficientes HOA foram registrados). A unidade de saída de fluxo de bits pode especificar a sintaxe de cabeçalho correta para indicar a comutação ou codificação atual usada para o quadro atual juntamente com o respectivo dos fluxos de bits 21.[000121] Although not shown in the example of Figure 3, the audio coding device 20 may also include a bitstream output unit that switches the bitstream output from the audio coding device 20 (e.g., between directional-based bitstream 21 and vector-based bitstream 21) based on whether a current frame should be encoded using directional-based synthesis or vector-based synthesis. The bitstream output unit may perform switching based on the syntax element transmitted by the content analysis unit 26 indicating whether a directional based synthesis has been performed (as a result of detecting that HOA coefficients 11 have been generated from a synthetic audio object) or a vector based synthesis has been performed (as a result of detecting that the HOA coefficients have been registered). The bitstream output unit can specify the correct header syntax to indicate the current switching or encoding used for the current frame along with the respective one of the 21 bitstreams.

[000122] Além disso, como observado acima, a unidade de análise de campo de som 44 pode identificar coeficientes HOA ambiente BGTOT 47, que podem alterar em uma base de quadro a quadro (embora às vezes BGTOT possa permanecer constante ou igual através de dois ou mais quadros adjacentes (em tempo)). A alteração em BGTOT pode resultar em alterações nos coeficientes expressos nos vetores V[k] de primeiro plano reduzidos 55. A alteração em BGTOT pode resultar em coeficientes HOA de segundo plano (que também podem ser mencionados como “coeficientes HOA ambiente”) que alteram em uma base de quadro a quadro (embora, novamente, às vezes BGTOT possa permanecer constante ou igual através de dois ou mais quadros adjacentes (em tempo)). As alterações frequentemente resultam em uma alteração de energia para os aspectos do campo de som representados pela adição ou remoção dos coeficientes HOA ambiente adicionais e a remoção correspondente de coeficientes a partir de ou adição de coeficientes aos vetores V[k] de primeiro plano reduzidos 55.[000122] Furthermore, as noted above, the sound field analysis unit 44 can identify BGTOT ambient HOA coefficients 47, which may change on a frame-by-frame basis (although sometimes BGTOT may remain constant or the same across two or more adjacent frames (in time)). Changing BGTOT can result in changes to the coefficients expressed in the reduced foreground V[k] vectors 55. Changing BGTOT can result in background HOA coefficients (which may also be referred to as "ambient HOA coefficients") that change on a frame-by-frame basis (although, again, sometimes BGTOT can remain constant or the same across two or more adjacent frames (in time)). The changes often result in a change of energy to the sound field aspects represented by the addition or removal of additional ambient HOA coefficients and the corresponding removal of coefficients from or addition of coefficients to the reduced foreground V[k] vectors 55.

[000123] Como resultado, a unidade de análise de campo de som 44 pode determinar ainda quando os coeficientes HOA ambiente mudam de quadro para quadro e geram um flag ou outro elemento de sintaxe indicativo da alteração no coeficiente HOA ambiente em termos de ser usado para representar os componentes ambiente do campo de som (onde a alteração também pode ser mencionada como uma “transição” do coeficiente HOA ambiente ou como uma “transição” do coeficiente HOA ambiente). Em particular, a unidade de redução de coeficiente 46 pode gerar o flag (que pode ser indicado como um flag AmbCoeffTransition ou um flag AmbCoeffIdxTransition), fornecendo o flag para a unidade de geração de fluxo de bits 42 de modo que o flag possa ser incluído no fluxo de bits 21 (possivelmente como parte de informação de canal secundário).[000123] As a result, the sound field analysis unit 44 can further determine when the ambient HOA coefficients change from frame to frame and generate a flag or other syntax element indicative of the change in the ambient HOA coefficient in terms of being used to represent the ambient components of the sound field (where the change can also be referred to as a “transition” of the ambient HOA coefficient or as a “transition” of the ambient HOA coefficient). In particular, the coefficient reduction unit 46 may generate the flag (which may be indicated as an AmbCoeffTransition flag or an AmbCoeffIdxTransition flag), providing the flag to the bitstream generation unit 42 so that the flag may be included in the bitstream 21 (possibly as part of secondary channel information).

[000124] A unidade de redução de coeficiente 46 pode, além de especificar o flag de transição de coeficiente ambiente, também modificar como os vetores V[k] de primeiro plano reduzidos 55 são gerados. Em um exemplo, após determinar que um dos coeficientes ambiente HOA ambiente está em transição durante o quadro atual, a unidade de redução de coeficiente 46 pode especificar, um coeficiente de vetor (que também pode ser mencionado como um “elemento de vetor” ou “elemento”) para cada dos vetores-V dos vetores V[k] de primeiro plano reduzido 55 que corresponde ao coeficiente HOA ambiente em transição. Novamente, o coeficiente HOA ambiente pode adicionar ou remover do BGTOT número total de coeficientes de segundo plano. Portanto, a alteração resultante no número total de coeficientes de segundo plano afeta se o coeficiente HOA ambiente é incluído ou não incluído no fluxo de bits, e se o elemento correspondente dos vetores-V está incluído para os vetores-V especificado no fluxo de bits no segundo e terceiro modos de configuração descritos acima. Mais informações referentes a como a unidade de redução de coeficiente 46 pode especificar os vetores V[k] de primeiro plano reduzidos 55 para superar as alterações em energia são fornecidas no pedido US número de série 14/594.533, intitulado “TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS, ” depositado em 12 de janeiro de 2015.[000124] The coefficient reduction unit 46 can, in addition to specifying the ambient coefficient transition flag, also modify how the reduced foreground V[k] vectors 55 are generated. In one example, after determining that one of the ambient HOA ambient coefficients is in transition during the current frame, the coefficient reduction unit 46 may specify, a vector coefficient (which may also be referred to as a "vector element" or "element") for each of the V-vectors of the reduced foreground V[k] vectors 55 that corresponds to the ambient HOA coefficient in transition. Again, the ambient HOA coefficient can add to or remove from the BGTOT the total number of background coefficients. Therefore, the resulting change in the total number of background coefficients affects whether or not the ambient HOA coefficient is included in the bitstream, and whether the corresponding element of V-vectors is included for the V-vectors specified in the bitstream in the second and third configuration modes described above. More information regarding how the coefficient reduction unit 46 can specify the reduced foreground V[k] vectors 55 to overcome changes in energy is provided in US application serial number 14/594,533, entitled “TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS,” filed January 12, 2015.

[000125] Nesse aspecto, a unidade de geração de fluxo de bits 42 pode gerar um fluxo de bits 21 em uma ampla variedade de esquemas de codificação diferentes, que pode facilitar geração de fluxo de bits flexível para acomodar um número grande de contextos de fornecimento de conteúdo diferentes. Um contexto que parece estar ganhando impulso na indústria de áudio é o fornecimento (ou, em outras palavras, “streaming”) de dados de áudio através de redes para um número crescente de dispositivos de reprodução diferentes. Fornecer conteúdo de áudio através de redes de largura de banda limitada para dispositivos tendo graus variáveis de capacidades de reprodução pode ser difícil, especialmente no contexto de dados de áudio HOA que permitem um alto grau de fidelidade de áudio 3D durante reprodução à custa de grande consumo de largura de banda (em relação a dados de áudio baseados em objeto ou canal).[000125] In this regard, the bitstream generation unit 42 can generate a bitstream 21 in a wide variety of different encoding schemes, which can facilitate flexible bitstream generation to accommodate a large number of different content delivery contexts. One context that seems to be gaining momentum in the audio industry is the delivery (or, in other words, “streaming”) of audio data over networks to an increasing number of different playback devices. Delivering audio content over bandwidth-limited networks to devices having varying degrees of playback capabilities can be difficult, especially in the context of HOA audio data that allows a high degree of 3D audio fidelity during playback at the expense of high bandwidth consumption (relative to object-based or channel-based audio data).

[000126] De acordo com as técnicas descritas nessa revelação, a unidade de geração de fluxo de bits 42”pode utilizar uma ou mais camadas escalonáveis para permitir várias reconstruções dos coeficientes HOA 11. Cada das camadas pode ser hierárquica. Por exemplo, uma primeira camada (que pode ser mencionada como uma “camada base”) pode fornecer uma primeira reconstrução dos coeficientes HOA que permite que feeds de alto-falante estéreo sejam renderizados. Uma segunda camada (que pode ser mencionada como uma primeira “camada de aperfeiçoamento”) pode, quando aplicada à primeira reconstrução dos coeficientes HOA, escalonar a primeira reconstrução do coeficiente HOA para permitir que feeds de alto-falante de som surround horizontal (por exemplo, feeds de alto-falante 5.1) sejam renderizados. Em outras palavras, as camadas são hierárquicas de modo que uma primeira camada, quando combinada com uma segunda camada, fornece uma representação de resolução mais alta do sinal de áudio ambisonic de ordem superior.[000126] According to the techniques described in this disclosure, the bit stream generation unit 42” can use one or more scalable layers to allow multiple reconstructions of the HOA coefficients 11. Each of the layers can be hierarchical. For example, a first layer (which might be referred to as a “base layer”) can provide a first reconstruction of HOA coefficients that allows stereo speaker feeds to be rendered. A second layer (which may be referred to as a first "enhancement layer") can, when applied to the first reconstruction of the HOA coefficients, scale the first reconstruction of the HOA coefficient to allow horizontal surround sound speaker feeds (e.g. 5.1 speaker feeds) to be rendered. In other words, the layers are hierarchical so that a first layer, when combined with a second layer, provides a higher resolution representation of the higher order ambisonic audio signal.

[000127] Embora descrito acima como permitindo escalonamento de uma camada imediatamente precedente, qualquer camada acima de outra camada pode escalonar a camada inferior. Em outras palavras, a terceira camada descrita acima pode ser usada para escalonar a primeira camada, embora a primeira camada não tenha sido “escalonada” pela segunda camada. A terceira camada, quando aplicada diretamente à primeira camada, pode fornecer informações de altura e desse modo permitir que feeds de alto-falante irregulares correspondendo a geometrias de alto-falante irregularmente dispostas sejam renderizadas.[000127] Although described above as allowing scaling from an immediately preceding layer, any layer above another layer can scale the layer below. In other words, the third layer described above can be used to scale the first layer even though the first layer has not been “scaled” by the second layer. The third layer, when applied directly to the first layer, can provide height information and thereby allow irregular speaker feeds corresponding to irregularly arranged speaker geometries to be rendered.

[000128] A unidade de geração de fluxo de bits 42 pode, para permitir que as camadas sejam extraídas do fluxo de bits 21, especificar uma indicação de um número de camadas especificadas no fluxo de bits. A unidade de geração de fluxo de bits 42 pode transmitir o fluxo de bits 21 que inclui o número indicado de camadas. A unidade de geração de fluxo de bits 42 é descrita em mais detalhe com relação à figura 5. Vários exemplos diferentes de gerar os dados de áudio HOA escalonáveis são descritos nas figuras 7A-9B a seguir, com um exemplo das informações de banda lateral para cada dos exemplos acima nas figuras 10-13B.[000128] Bitstream generation unit 42 may, to enable layers to be extracted from bitstream 21, specify an indication of a number of specified layers in the bitstream. The bit stream generation unit 42 can transmit the bit stream 21 which includes the indicated number of layers. The bitstream generation unit 42 is described in more detail with reference to Fig. 5. Several different examples of generating the scalable HOA audio data are described in Figs. 7A-9B below, with an example of the sideband information for each of the above examples in Figs. 10-13B.

[000129] A figura 5 é um diagrama ilustrando, em mais detalhe, a unidade de geração de fluxo de bits 42 da figura 3 quando configurada para executar uma primeira das versões em potencial das técnicas de codificação de áudio escalonáveis descritas nessa revelação. No exemplo da figura 5, a unidade de geração de fluxo de bits 42 inclui uma unidade de geração de fluxo de bits escalonável 1000 e uma unidade de geração de fluxo de bits não escalonável 1002. A unidade de geração de fluxo de bits escalonável 1000 representa uma unidade configurada para gerar um fluxo de bits escalonável 21 compreendendo duas ou mais camadas (embora em alguns casos um fluxo de bits escalonável possa compreender uma única camada para certos contextos de áudio) tendo HOAFrames() similar àqueles mostrados em e descritos abaixo com relação aos exemplos das figuras 1113B. A unidade de geração de fluxo de bits não escalonável 1002 pode representar uma unidade configurada para gerar um fluxo de bits não escalonável 21 que não fornece camadas ou, em outras palavras, escalabilidade.[000129] Figure 5 is a diagram illustrating, in more detail, the bit stream generation unit 42 of Figure 3 when configured to perform a first of the potential versions of the scalable audio coding techniques described in that disclosure. In the example of Figure 5, the bitstream generation unit 42 includes a scalable bitstream generation unit 1000 and a non-scalable bitstream generation unit 1002. The scalable bitstream generation unit 1000 represents a unit configured to generate a scalable bitstream 21 comprising two or more layers (although in some cases a scalable bitstream may comprise a single layer for certain audio contexts) having HOAFrames() similar to those shown in and described below with respect to the examples of figures 1113B. The non-scalable bitstream generation unit 1002 may represent a unit configured to generate a non-scalable bitstream 21 that does not provide layering or, in other words, scalability.

[000130] Tanto o fluxo de bits não escalonável 21 como o fluxo de bits escalonável 21 pode ser mencionado como “fluxo de bits 21” dado que ambos incluem, tipicamente os mesmos dados subjacentes em termos dos coeficientes HOA ambiente codificados 59, os sinais nFG codificados 61 e os vetores V[k] de primeiro plano codificados 57. Uma diferença, entretanto, entre o fluxo de bits não escalonável 21 e o fluxo de bits escalonável 21 é que o fluxo de bits escalonável 21 inclui camadas, que podem ser indicadas como camadas 21A, 21B, etc. As camadas 21A podem incluir subconjuntos dos coeficientes HOA ambiente codificados 59, os sinais nFG codificados 61 e os vetores V[k] de primeiro plano codificados 57, como descrito em mais detalhe abaixo.[000130] Both the non-scalable bitstream 21 and the scalable bitstream 21 may be referred to as "bitstream 21" since both typically include the same underlying data in terms of the encoded ambient HOA coefficients 59, the encoded nFG signals 61 and the encoded foreground V[k] vectors 57. One difference, however, between the non-scalable bitstream 21 and the scalable bitstream 21 is that the scalable bitstream 21 includes layers, which may be denoted as layers 21A, 21B, etc. The layers 21A may include subsets of the encoded ambient HOA coefficients 59, the encoded nFG signals 61, and the encoded foreground V[k] vectors 57, as described in more detail below.

[000131] Embora os fluxos de bits escalonável e não escalonável 21 possam ser efetivamente representações diferentes do mesmo fluxo de bits 21, o fluxo de bits não escalonável 21 é indicado como fluxo de bits não escalonável 21’ para diferenciar o fluxo de bits escalonável 121 a partir do fluxo de bits não escalonável 21’. Além disso, em algumas instâncias, o fluxo de bits escalonável 21 pode incluir várias camadas que se conformam com o fluxo de bits não escalonável 21. Por exemplo, o fluxo de bits escalonável 21 pode incluir uma camada base que se conforma ao fluxo de bits não escalonável 21. Nessas instâncias, o fluxo de bits não escalonável 21’ pode representar um sub-fluxo de bits de fluxo de bits escalonável 21, onde esse sub-fluxo de bits não escalonável 21’ pode ser aperfeiçoado com camadas adicionais do fluxo de bits escalonável 21 (que são mencionados como camadas de aperfeiçoamento).[000131] Although the scalable and non-scalable bitstream 21 can effectively be different representations of the same bitstream 21, the non-scalable bitstream 21 is indicated as non-scalable bitstream 21' to differentiate the scalable bitstream 121 from the non-scalable bitstream 21'. Furthermore, in some instances, the scalable bitstream 21 may include multiple layers that conform to the non-scalable bitstream 21. For example, the scalable bitstream 21 may include a base layer that conforms to the non-scalable bitstream 21. In such instances, the non-scalable bitstream 21' may represent a sub-bitstream of the scalable bitstream 21, where that non-scalable bitstream 21' 21' can be enhanced with additional layers of the scalable bit stream 21 (which are referred to as enhancement layers).

[000132] A unidade de geração de fluxo de bits 42 pode obter informações de escalabilidade 1003 indicativas de se deve invocar a unidade de geração de fluxo de bits escalonável 1000 ou a unidade de geração de fluxo de bits não escalonável 1002. Em outras palavras, as informações de escalabilidade 1003 podem indicar se a unidade de geração de fluxo de bits 42 deve transmitir fluxo de bits escalonável 21 ou fluxo de bits não escalonável 21’. Para fins de ilustração, as informações de escalabilidade 1003 são assumidas como indicando que a unidade de geração de fluxo de bits 42 deve invocar a unidade de geração de fluxo de bits escalonável 1000 para transmitir o fluxo de bits escalonável 21’.[000132] The bitstream generation unit 42 can obtain scalability information 1003 indicative of whether to invoke the scalable bitstream generation unit 1000 or the non-scalable bitstream generation unit 1002. In other words, the scalability information 1003 can indicate whether the bitstream generation unit 42 should transmit scalable bitstream 21 or non-scalable bitstream 21 ’. For purposes of illustration, scalability information 1003 is assumed to indicate that bitstream generation unit 42 should invoke scalable bitstream generation unit 1000 to transmit scalable bitstream 21'.

[000133] Como adicionalmente mostrado no exemplo da figura 5, a unidade de geração de fluxo de bits 42 pode receber os coeficientes HOA ambiente codificados 59A-59D, os sinais nFG codificados 61A e 61B, e os vetores V[k] de primeiro plano codificados 57A e 57B. os coeficientes HOA ambiente codificados 59A podem representar coeficientes HOA ambiente codificados associados a uma função de base esférica tendo uma ordem de zero e uma subordem de zero. Os coeficientes HOA ambiente codificados 59B podem representar coeficientes HOA ambiente codificados associados a uma função base esférica tendo uma ordem de um e uma subordem de zero. Os coeficientes HOA ambiente codificados 59C podem representar coeficientes HOA ambiente codificados associados a uma função base esférica tendo uma ordem de um e uma subordem de um negativo. Os coeficientes HOA ambiente codificados 59D podem representar coeficientes HOA ambiente codificados associados a uma função base esférica tendo uma ordem de um e uma subordem de um positivo. Os coeficientes HOA ambiente codificados 59A-59D podem representar um exemplo de, e como resultado podem ser mencionados coletivamente como os coeficientes HOA ambiente codificados 59 discutidos acima.[000133] As further shown in the example of Figure 5, the bit stream generation unit 42 can receive the encoded ambient HOA coefficients 59A-59D, the encoded nFG signals 61A and 61B, and the encoded foreground V[k] vectors 57A and 57B. the coded ambient HOA coefficients 59A may represent coded ambient HOA coefficients associated with a spherical basis function having an order of zero and a suborder of zero. The coded ambient HOA coefficients 59B may represent coded ambient HOA coefficients associated with a spherical basis function having an order of one and a suborder of zero. The coded ambient HOA coefficients 59C may represent coded ambient HOA coefficients associated with a spherical basis function having an order of one and a suborder of negative one. The coded ambient HOA coefficients 59D may represent coded ambient HOA coefficients associated with a spherical basis function having an order of one and a suborder of positive one. The ambient coded HOA coefficients 59A-59D may represent an example of, and as a result may be referred to collectively as the ambient coded HOA coefficients 59 discussed above.

[000134] Os sinais nFG codificados 61A e 61B podem representar individualmente um objeto de áudio US representativo, nesse exemplo, de dois aspectos de primeiro plano mais predominantes do campo de som. Os vetores V[k] de primeiro plano codificados 57A e 57B podem representar informações direcionais (que também podem especificar largura além de direção) para os sinais nFG codificados 61A e 61B respectivamente. Os sinais nFG codificados 61A e 61B podem representar um exemplo de, e como resultado podem ser mencionados coletivamente como, os sinais nFG codificados 61 descritos acima. Os vetores V[k] de primeiro plano codificados 57A e 57B podem representar um exemplo de, e como resultado podem ser mencionados coletivamente como, os vetores V[k] de primeiro plano codificados 57 descritos acima.[000134] The encoded nFG signals 61A and 61B can individually represent a US audio object representative of, in this example, the two most predominant foreground aspects of the sound field. V[k] encoded foreground vectors 57A and 57B may represent directional information (which may also specify width in addition to direction) for encoded nFG signals 61A and 61B respectively. The encoded nFG signals 61A and 61B may represent an example of, and as a result may be referred to collectively as, the encoded nFG signals 61 described above. V[k] coded foreground vectors 57A and 57B may represent an example of, and as a result may be collectively referred to as, the V[k] coded foreground vectors 57 described above.

[000135] Após invocada, a unidade de geração de fluxo de bits escalonável 1000 pode gerar o fluxo de bits escalonável 21 para incluir as camadas 21A e 21B em um modo substancialmente similar àquele descrito abaixo com relação às figuras 7A-9B. A unidade de geração de fluxo de bits escalonável 1000 pode especificar uma indicação do número de camadas no fluxo de bits escalonável 21 bem como o número de elementos de primeiro plano e elementos do segundo plano em cada das camadas 21A e 21B. A unidade de geração de fluxo de bits escalonável 1000 pode, como exemplo, especificar um elemento de sintaxe NumberOfLayers que pode especificar L número de camadas, onde a variável L pode indicar o número de camadas. A unidade de geração de fluxo de bits escalonável 1000 pode então especificar, para cada camada (que pode ser indicada como a variável i = 1 para L), o número Bi dos coeficientes HOA ambiente codificados 59 e o número Fi dos sinais nFG codificados 61 enviados para cada camada (que também pode ou alternativamente indicar o número de vetores V[k] de primeiro plano codificados correspondentes 57).[000135] Once invoked, the scalable bitstream generation unit 1000 can generate the scalable bitstream 21 to include layers 21A and 21B in a manner substantially similar to that described below with respect to FIGS. 7A-9B. The scalable bitstream generation unit 1000 can specify an indication of the number of layers in the scalable bitstream 21 as well as the number of foreground elements and background elements in each of the layers 21A and 21B. The scalable bitstream generation unit 1000 can, as an example, specify a NumberOfLayers syntax element that can specify L number of layers, where the variable L can indicate the number of layers. The scalable bitstream generation unit 1000 can then specify, for each layer (which may be denoted as the variable i = 1 for L), the number Bi of the coded ambient HOA coefficients 59 and the number Fi of the coded nFG signals 61 sent to each layer (which may also or alternatively indicate the number of corresponding coded foreground V[k] vectors 57).

[000136] No exemplo da figura 5, a unidade de geração de fluxo de bits escalonável 1000 pode especificar no fluxo de bits escalonável 21 que codificação escalonável foi permitida e que duas camadas são incluídas no fluxo de bits escalonável 21, que a primeira camada 21A inclui quatro coeficientes HOA ambiente codificados 59 e sinais nFG codificados zero 61, e que a segunda camada 21A inclui coeficientes HOA ambiente codificado zero 59 e sinais nFG codificados w 61. A unidade de geração de fluxo de bits escalonável 1000 pode gerar também a primeira camada 21A (que pode ser também mencionada como uma “camada base 21A”) para incluir os coeficientes HOA ambiente codificados 59. A unidade de geração de fluxo de bits escalonável 1000 pode gerar ainda a segunda camada 21A (que pode ser mencionada como uma “camada de aperfeiçoamento 21B”) para incluir os sinais nFG codificados 61 e os vetores V[k] de primeiro plano codificados 57. A unidade de geração de fluxo de bits escalonável 1000 pode transmitir as camadas 21A e 21B como fluxo de bits escalonável 21. Em alguns exemplos, a unidade de geração de fluxo de bits escalonável 1000 pode armazenar o fluxo de bits escalonável 21’ em uma memória (quer interna ou externa a partir do codificador 20).[000136] In the example of Figure 5, the scalable bitstream generation unit 1000 can specify in the scalable bitstream 21 that scalable coding has been allowed and that two layers are included in the scalable bitstream 21, that the first layer 21A includes four coded ambient HOA coefficients 59 and zero coded nFG signals 61, and that the second layer 21A includes zero coded ambient HOA coefficients 59 and zero coded signals nFG encoded w 61. The scalable bitstream generating unit 1000 may also generate the first layer 21A (which may also be referred to as a "base layer 21A") for including the encoded ambient HOA coefficients 59. The scalable bitstream generating unit 1000 may further generate the second layer 21A (which may be referred to as an "enhancement layer 21B") for including the encoded nFG signals 61 and the encoded foreground vectors V[k] 57. The scalable bitstream generation unit 1000 may transmit layers 21A and 21B as scalable bitstream 21. In some examples, the scalable bitstream generation unit 1000 may store the scalable bitstream 21' in a memory (either internal or external from the encoder 20).

[000137] Em algumas instâncias, a unidade de geração de fluxo de bits escalonável 1000 pode não especificar uma ou mais de quaisquer das indicações do número de camadas, o número de componentes de primeiro plano (por exemplo, número de sinais nFG codificados 61 e vetores V[k] de primeiro plano codificados 57) em uma ou mais camadas, e o número de componentes de segundo plano (por exemplo, os coeficientes HOA ambiente codificados 59) em uma ou mais camadas. Os componentes também podem ser mencionados como canais nessa revelação. Ao invés, a unidade de geração de fluxo de bits escalonável 1000 pode comparar o número de camadas para um quadro atual com o número de camadas para um quadro anterior (por exemplo, o quadro anterior mais temporalmente recente). Quando a comparação resulta em nenhuma diferença (significando que o número de camadas no quadro atual é igual ao número de camadas no quadro anterior, a unidade de geração de fluxo de bits escalonável 1000 pode comparar o número de componentes de segundo plano e primeiro plano em cada camada em um modo similar.[000137] In some instances, the scalable bitstream generation unit 1000 may not specify one or more of any of the indications of the number of layers, the number of foreground components (e.g. number of coded nFG signals 61 and coded foreground V[k] vectors 57) in one or more layers, and the number of background components (e.g. coded ambient HOA coefficients 59) in one or more layers. Components may also be mentioned as channels in this disclosure. Instead, the scalable bitstream generation unit 1000 can compare the number of layers for a current frame with the number of layers for a previous frame (e.g., the most temporally recent previous frame). When the comparison results in no difference (meaning that the number of layers in the current frame is equal to the number of layers in the previous frame), the scalable bitstream generation unit 1000 can compare the number of background and foreground components in each layer in a similar fashion.

[000138] Em outras palavras, a unidade de geração de fluxo de bits escalonável 1000 pode comparar o número de componentes de segundo plano em uma ou mais camadas para o quadro atual com o número de componente de segundo plano em uma ou mais camadas para um quadro anterior. A unidade de geração de fluxo de bits escalonável 1000 pode comparar ainda o número de componentes de primeiro plano em uma ou mais camadas para o quadro atual com o número de componentes de primeiro plano em uma ou mais camadas para o quadro anterior.[000138] In other words, the scalable bitstream generation unit 1000 can compare the number of background components in one or more layers for the current frame with the number of background components in one or more layers for a previous frame. The scalable bitstream generation unit 1000 can further compare the number of foreground components in one or more layers for the current frame with the number of foreground components in one or more layers for the previous frame.

[000139] Quando ambas as comparações baseadas em componente resultam em nenhuma diferença (significando que o número de componentes de primeiro plano e segundo plano no quadro anterior é igual ao número de componentes de primeiro plano e segundo plano no quadro atual), a unidade de geração de fluxo de bits escalonável 1000 pode especificar uma indicação (por exemplo, um elemento de sintaxe HOABaseLayerConfigurationFlag) no fluxo de bits escalonável 21 que o número de camadas no quadro atual é igual ao número de camadas no quadro anterior ao invés de especificar uma ou mais ou qualquer das indicações do número de camadas, o número de componentes de primeiro plano (por exemplo, número dos sinais nFG codificados 61 e vetores V[k] de primeiro plano codificados 57) em uma ou mais camadas, e o número de componentes de segundo plano (por exemplo, os coeficientes HOA ambiente codificados 59) em uma ou mais camadas. O dispositivo de decodificação de áudio 24 pode então determinar que as indicações de quadro anterior do número de camadas, componentes de segundo plano e componentes de primeiro plano igualam a indicação de quadro atual de número do número de camadas, componentes de segundo plano e componentes de primeiro plano, como descrito abaixo em mais detalhe.[000139] When both component-based comparisons result in no difference (meaning that the number of foreground and background components in the previous frame is equal to the number of foreground and background components in the current frame), the scalable bitstream generation unit 1000 may specify an indication (e.g., a HOABaseLayerConfigurationFlag syntax element) in the scalable bitstream 21 that the number of layers in the current frame is equal to the number of layers in the previous frame instead specifying one or more or any of the indications of the number of layers, the number of foreground components (e.g., number of nFG signals coded 61 and foreground V[k] vectors coded 57) in one or more layers, and the number of background components (e.g., ambient HOA coefficients coded 59) in one or more layers. The audio decoding device 24 can then determine that the previous frame indications of the number of layers, background components, and foreground components equal the current frame number indications of the number of layers, background components, and foreground components, as described in more detail below.

[000140] Quando qualquer uma das comparações mencionadas acima resulta em diferenças, a unidade de geração de fluxo de bits escalonável 1000 pode especificar uma indicação (por exemplo, um elemento de sintaxe HOABaseLayerConfigurationFlag) no fluxo de bits escalonável 21 que o número de camadas no quadro atual não é igual ao número de camadas no quadro anterior. A unidade de geração de fluxo de bits escalonável 1000 pode então especificar as indicações do número de camadas, o número de componentes de primeiro plano (por exemplo, número dos sinais nFG codificados 61 e vetores V[k] de primeiro plano codificados 57) em uma ou mais camadas, e o número de componentes de segundo plano (por exemplo, os coeficientes HOA ambiente codificados 59) em uma ou mais camadas, como mencionado acima. Nesse aspecto, a unidade de geração de fluxo de bits escalonável 1000 pode especificar, no fluxo de bits, uma indicação de se um número de camadas do fluxo de bits alterou em um quadro atual quando comparado com um número de camadas do fluxo de bits em um quadro anterior, e especificar o número indicado de camadas do fluxo de bits no quadro atual.[000140] When any of the aforementioned comparisons result in differences, the scalable bitstream generation unit 1000 may specify an indication (e.g., a HOABaseLayerConfigurationFlag syntax element) in the scalable bitstream 21 that the number of layers in the current frame is not equal to the number of layers in the previous frame. The scalable bitstream generation unit 1000 can then specify indications of the number of layers, the number of foreground components (e.g., number of coded nFG signals 61 and coded foreground V[k] vectors 57) in one or more layers, and the number of background components (e.g., coded ambient HOA coefficients 59) in one or more layers, as mentioned above. In this regard, the scalable bitstream generation unit 1000 can specify, in the bitstream, an indication of whether a number of layers of the bitstream has changed in a current frame when compared to a number of layers of the bitstream in a previous frame, and specify the indicated number of layers of the bitstream in the current frame.

[000141] Em alguns exemplos, ao invés de não especificar uma indicação do número de componentes de primeiro plano e a indicação do número de componentes de segundo plano, a unidade de geração de fluxo de bits escalonável 1000 pode não especificar uma indicação de um número de componentes (por exemplo, um elemento de sintaxe “NumChannels”, que pode ser um conjunto tendo [i]entradas onde i é igual ao número de camadas) no fluxo de bits escalonável 21. A unidade de geração de fluxo de bits escalonável 1000 pode não especificar essa indicação do número de componentes (onde esses componentes podem ser também mencionados como “canais”) no lugar de não especificar o número de componentes de primeiro plano e segundo plano dado que o número de componentes de primeiro plano e segundo plano pode ser derivado do número mais geral de canais. A derivação da indicação do número de componentes de primeiro plano e da indicação do número de canais de segundo plano pode, em alguns exemplos, proceder de acordo com a seguinte tabela: Tabela - sintaxe de ChannelSideinfoData(i) Onde a descrição do ChannelType é dada como a seguir: ChannelType: 0: sinal baseado em direção 1: sinal baseado em vetor (que pode representar um sinal de primeiro plano) 2: coeficiente HOA ambiente adicional (que pode representar um sinal ambiente ou de segundo plano) 3: vazio Como resultado de sinalizar o ChannelType de acordo com a tabela de sintaxe SideChannelinfo acima, o número de componentes de primeiro plano por camada pode ser determinado como uma função do número de elementos de sintaxe de ChannelType definidos para 1 e o número de componentes de segundo plano por camada pode ser determinado como uma função do número de elementos de sintaxe ChannelType definido para 2.[000141] In some examples, instead of not specifying an indication of the number of foreground components and an indication of the number of background components, the scalable bitstream generation unit 1000 may not specify an indication of a number of components (for example, a "NumChannels" syntax element, which can be a set having [i]entries where i is equal to the number of layers) in the scalable bitstream 21. The scalable bitstream generation unit 1000 may not specify such an indication of the number of components (where those components may also be referred to as "channels") rather than specifying the number of foreground and background components since the number of foreground and background components can be derived from the more general number of channels. The derivation of the indication of the number of foreground components and the indication of the number of background channels can, in some examples, proceed according to the following table: Table - syntax of ChannelSideinfoData(i) Where the description of the ChannelType is given as follows: ChannelType: 0: direction-based signal 1: vector-based signal (which can represent a foreground signal) 2: additional ambient HOA coefficient (which can represent an ambient or background signal) 3: empty As a result of signaling the ChannelType according to the SideChannelinfo syntax table above, the number of foreground components per layer can be determined as a function of the number of ChannelType syntax elements set to 1 and the number of background components per layer can be determined as a function of the number of ChannelType syntax elements set to 2.

[000142] A unidade de geração de fluxo de bits escalonável 1000 pode, em alguns exemplos, especificar um HOADecoderConfig em uma base quadro a quadro, que fornece as informações de configuração para extrair as camadas a partir do fluxo de bits 21. A HOADecoderConfig pode ser especificada como uma alternativa para ou em combinação com a tabela acima. A seguinte tabela pode definir a sintaxe para o objeto HOADecoderConfig_FrameByFrame() no fluxo de bits 21. [000142] The scalable bitstream generation unit 1000 may, in some examples, specify a HOADecoderConfig on a frame-by-frame basis, which provides the configuration information to extract the layers from the bitstream 21. The HOADecoderConfig may be specified as an alternative to or in combination with the above table. The following table can define the syntax for the HOADecoderConfig_FrameByFrame() object in bitstream 21.

[000143] Na tabela acima, o elemento de sintaxe HOABaseLayerPresent pode representar um flag que indica se a camada base do fluxo de bits escalonável 21 está presente. Quando presente, a unidade de geração de fluxo de bits escalonável 1000 especifica um elemento de sintaxe HOABaseLayerConfigurationFlag, que pode representar um elemento de sintaxe indicando se informações de configuração para a camada base estão persentes no fluxo de bits 21. Quando as informações de configuração para a camada base estão presentes no fluxo de bits 21, a unidade de geração de fluxo de bits escalonável 1000 especifica um número de camadas (isto é, o elemento de sintaxe Numlayers no exemplo), um número de canais de primeiro plano (isto é, o elemento de sintaxe NumFGchannels no exemplo) para cada das camadas, e um número de canais de segundo plano (isto é, o elemento de sintaxe NumBGchannels no exemplo) para cada das camadas. Quando o flag HOABaseLayerPresent indica que a configuração de camada base não está presente, a unidade de geração de fluxo de bits escalonável 1000 pode não fornecer quaisquer elementos de sintaxe adicionais e o dispositivo de decodificação de áudio 24 pode determinar que os dados de configuração para o quadro atual sejam iguais àqueles para um quadro anterior.[000143] In the table above, the HOABaseLayerPresent syntax element can represent a flag that indicates whether the base layer of scalable bitstream 21 is present. When present, scalable bitstream generation unit 1000 specifies a HOABaseLayerConfigurationFlag syntax element, which may represent a syntax element indicating whether configuration information for the base layer is present in bitstream 21. foreground (that is, the NumFGchannels syntax element in the example) for each of the layers, and a number of background channels (that is, the NumBGchannels syntax element in the example) for each of the layers. When the HOABaseLayerPresent flag indicates that the base layer configuration is not present, the scalable bitstream generation unit 1000 may not provide any additional syntax elements and the audio decoding device 24 may determine that the configuration data for the current frame is the same as that for a previous frame.

[000144] Em alguns exemplos, a unidade de geração de fluxo de bits escalonável 1000 pode especificar o objeto HOADecoderConfig no fluxo de bits escalonável 21, porém não especificar o número de canais de primeiro plano e segundo plano por camada, onde o número de canais de primeiro plano e segundo plano podem ser estáticos ou determinados como descrito acima com relação à tabela ChannelSideInfo. O HOADecoderConfig pode, nesse exemplo, ser definido de acordo com a seguinte tabela. [000144] In some examples, the scalable bitstream generation unit 1000 may specify the HOADecoderConfig object in the scalable bitstream 21, but not specify the number of foreground and background channels per layer, where the number of foreground and background channels may be static or determined as described above with respect to the ChannelSideInfo table. The HOADecoderConfig can, in this example, be defined according to the following table.

[000145] Ainda como outra alternativa, as tabelas de sintaxe acima para HOADecoderConfig podem ser substituídas com a seguinte tabela de sintaxe para HOADecoderConfig. Nota: MinAmbHOAOrder = 30...37 são reservados[000145] As yet another alternative, the syntax tables above for HOADEcoderConfig can be replaced with the following syntax table for HOADEcoderConfig. Note: MinAmbHOAOrder = 30...37 are reserved

[000146] Nesse aspecto, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para, como descrito acima, especificar, no fluxo de bits, uma indicação de um número de canais especificados em uma ou mais camadas do fluxo de bits, e especificar o número indicado dos canais em uma ou mais camadas do fluxo de bits.[000146] In this regard, the scalable bitstream generation unit 1000 can be configured to, as described above, specify, in the bitstream, an indication of a specified number of channels in one or more layers of the bitstream, and specify the indicated number of channels in one or more layers of the bitstream.

[000147] Além disso, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar um elemento de sintaxe (por exemplo, na forma de um elemento de sintaxe NumLayers ou um elemento de sintaxe codedLayerCh como descrito abaixo em mais detalhe) indicativo do número de canais.[000147] In addition, the scalable bitstream generation unit 1000 may be configured to specify a syntax element (for example, in the form of a NumLayers syntax element or a codedLayerCh syntax element as described in more detail below) indicative of the number of channels.

[000148] Em alguns exemplos, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar uma indicação de um número total de canais especificados no fluxo de bits. A unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para, nessas instâncias, especificar o número total indicado dos canais em uma ou mais camadas do fluxo de bits. Nessas instâncias, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar um elemento de sintaxe (por exemplo, um elemento de sintaxe numHOATransportChannels como descrito abaixo em mais detalhe) indicativo do número total de canais.[000148] In some examples, the scalable bitstream generation unit 1000 may be configured to specify an indication of a total number of channels specified in the bitstream. The scalable bitstream generation unit 1000 may be configured to, in such instances, specify the indicated total number of channels in one or more layers of the bitstream. In these instances, the scalable bitstream generation unit 1000 may be configured to specify a syntax element (for example, a numHOATransportChannels syntax element as described in more detail below) indicative of the total number of channels.

[000149] Nesses e em outros exemplos, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits. Nessas instâncias, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar o número indicado do tipo indicado de um dos canais em uma ou mais camadas do fluxo de bits. O canal de primeiro plano pode compreender um objeto de áudio US e um vetor-V correspondente.[000149] In these and other examples, the scalable bitstream generation unit 1000 may be configured to specify an indication of a type of one of the specified channels in one or more layers in the bitstream. In these instances, the scalable bitstream generation unit 1000 may be configured to specify the indicated number of the indicated type of one of the channels in one or more layers of the bitstream. The foreground channel may comprise a US audio object and a corresponding V-vector.

[000150] Nesses e em outros exemplos, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, a indicação do tipo de um dos canais indicando que um dos canais é um canal de primeiro plano. Nessas instâncias, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar o canal de primeiro plano em uma ou mais camadas do fluxo de bits.[000150] In these and other examples, the scalable bitstream generation unit 1000 can be configured to specify an indication of a type of one of the channels specified in one or more layers in the bitstream, the indication of the type of one of the channels indicating that one of the channels is a foreground channel. In these instances, the scalable bitstream generation unit 1000 may be configured to specify the foreground channel in one or more layers of the bitstream.

[000151] Nesses e em outros exemplos, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, a indicação do tipo de um dos canais indicando que um dos canais é um canal de segundo plano. Nessas instâncias, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar o canal de segundo plano em uma ou mais camadas do fluxo de bits. O canal de segundo plano pode compreender um coeficiente HOA ambiente.[000151] In these and other examples, the scalable bitstream generation unit 1000 can be configured to specify an indication of a type of one of the channels specified in one or more layers in the bitstream, the indication of the type of one of the channels indicating that one of the channels is a background channel. In these instances, the scalable bitstream generation unit 1000 may be configured to specify the background channel in one or more layers of the bitstream. The background channel may comprise an ambient HOA coefficient.

[000152] Nesses e em outros exemplos, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar um elemento de sintaxe (por exemplo, um elemento de sintaxe ChannelType) indicativo do tipo de um dos canais.[000152] In these and other examples, the scalable bitstream generation unit 1000 may be configured to specify a syntax element (eg, a ChannelType syntax element) indicative of the type of one of the channels.

[000153] Nesses e em outros exemplos, a unidade de geração de fluxo de bits escalonável 1000 pode ser configurada para especificar a indicação do número de canais com base em um número de canais que resta no fluxo de bits após uma das camadas ser obtida (como definido por exemplo por um elemento de sintaxe remainingCh ou um elemento de sintaxe numAvaiableTransportChannels como descrito em mais detalhe abaixo.[000153] In these and other examples, the scalable bitstream generation unit 1000 can be configured to specify the indication of the number of channels based on a number of channels remaining in the bitstream after one of the layers is taken (as defined for example by a remainingCh syntax element or a numAvaiableTransportChannels syntax element as described in more detail below.

[000154] As figuras 7A-7D são fluxogramas ilustrando operação de exemplo do dispositivo de codificação de áudio 20 na geração de uma representação de duas camadas codificada dos coeficientes HOA 11. Com referência primeiramente ao exemplo da figura 7A, a unidade de decorrelação 60 pode primeiramente aplicar a decorrelação UHJ com relação ao segundo plano ambisonics de primeira ordem (onde “segundo plano ambisonics” pode se referir a coeficientes ambisonic descrevendo um componente de segundo plano de um campo de som) representado como coeficientes HOA de segundo plano compensado em energia 47A’-47D’ (300). O segundo plano ambisonics de primeira ordem 47A’-47D’ pode incluir os coeficientes HOA correspondendo a funções de base esférica tendo a seguinte (ordem, subordem): (0,0), (1,0), (1,-1), (1,1).[000154] Figures 7A-7D are flowcharts illustrating example operation of the audio coding device 20 in generating a coded two-layer representation of the HOA coefficients 11. background of a sound field) represented as energy compensated background HOA coefficients 47A'-47D' (300). The first-order ambisonics background 47A'-47D' may include the HOA coefficients corresponding to spherical basis functions having the following (order, suborder): (0.0), (1.0), (1,-1), (1,1).

[000155] A unidade de decorrelação 60 pode transmitir os sinais de áudio HOA ambiente decorrelacionados 67 como os sinais de áudio Q, T, L e R acima mencionados. O sinal de áudio Q pode fornecer informação de altura. O sinal de áudio T pode fornecer informação horizontal (incluindo informação para representar canais além do ponto ideal). O sinal de áudio L provê um canal estéreo esquerdo. O sinal de áudio R provê um canal estéreo direito.[000155] The decorrelation unit 60 can transmit the decorrelated ambient HOA audio signals 67 as the aforementioned Q, T, L and R audio signals. The Q audio signal can provide pitch information. The T audio signal can provide horizontal information (including information to represent channels beyond the sweet spot). The L audio signal provides a stereo left channel. The R audio signal provides a stereo right channel.

[000156] Em alguns exemplos, a matriz UHJ pode compreender pelo menos dados de áudio ambisonic de ordem superior associados a um canal de áudio esquerdo. Em outros exemplos, a matriz UHJ pode compreender pelo menos dados de áudio ambisonic de ordem superior associados a um canal de áudio direito. Ainda em outros exemplos, a matriz UHJ pode compreender pelo menos dados de áudio ambisonic de ordem superior associados a um canal de localização. Em outros exemplos, a matriz UHJ pode compreender pelo menos dados de áudio ambisonic de ordem superior associados a um canal de altura. Em outros exemplos, a matriz UHJ pode compreender pelo menos dados de áudio ambisonic de ordem superior associados a uma banda lateral para correção de ganho automático. Em outros exemplos, a matriz UHJ pode compreender pelo menos dados de áudio ambisonic de ordem superior associados a um canal de áudio esquerdo, um canal de áudio direito, um canal de localização, e um canal de altura e uma banda lateral para correção automática de ganho.[000156] In some examples, the UHJ matrix may comprise at least higher order ambisonic audio data associated with a left audio channel. In other examples, the UHJ matrix may comprise at least higher order ambisonic audio data associated with a right audio channel. In yet other examples, the UHJ matrix may comprise at least higher order ambisonic audio data associated with a location channel. In other examples, the UHJ matrix may comprise at least higher order ambisonic audio data associated with a pitch channel. In other examples, the UHJ matrix may comprise at least higher order ambisonic audio data associated with a sideband for automatic gain correction. In other examples, the UHJ matrix may comprise at least higher order ambisonic audio data associated with a left audio channel, a right audio channel, a location channel, and a height channel and a sideband for automatic gain correction.

[000157] A unidade de controle de ganho 62 pode aplicar controle automático de ganho (AGC) aos sinais de áudio HOA ambiente decorrelacionados 67 (302). A unidade de controle de ganho 62 pode passar os sinais de áudio HOA ambiente ajustados 67’ para a unidade de geração de fluxo de bits 42, que pode formar a camada base com base nos sinais de áudio HOA ambiente ajustados 67’ e pelo menos parte do canal de banda lateral com base nos dados de controle de ganho ambisonic de ordem superior (HOAGCD) (304).[000157] The gain control unit 62 can apply automatic gain control (AGC) to the decorrelated ambient HOA audio signals 67 (302). The gain control unit 62 can pass the adjusted ambient HOA audio signals 67' to the bit stream generation unit 42, which can form the base layer based on the adjusted ambient HOA audio signals 67' and at least part of the sideband channel based on the higher order ambisonic gain control (HOAGCD) data (304).

[000158] A unidade de controle de ganho 62 pode aplicar também o controle automático de ganho com relação aos sinais de áudio nFg interpolados 491 (que também podem ser mencionados como os “sinais predominantes baseados em vetor”) (306). A unidade de controle de ganho 62 pode transmitir os sinais de áudio nFG ajustados 49’’ juntamente com o HOAGCD para os sinais de áudio nFG ajustados 49’’ para a unidade de geração de fluxo de bits 42. A unidade de geração de fluxo de bits 42 pode formar a segunda camada com base nos sinais de áudio nFG ajustados 49’’ enquanto faz parte das informações de banda lateral com base no HOADGCD para os sinais de áudio nFG ajustados 49’’ e os vetores V[k] de primeiro plano codificados correspondentes 57 (308).[000158] The gain control unit 62 may also apply automatic gain control with respect to the interpolated nFg audio signals 491 (which may also be referred to as the "vector-based predominant signals") (306). The gain control unit 62 can transmit the 49'' adjusted nFG audio signals together with the HOAGCD for the 49'' adjusted nFG audio signals to the bitstream generating unit 42. The bitstream generating unit 42 can form the second layer based on the 49'' adjusted nFG audio signals while making part of the sideband information based on the HOADGCD for the 49'' adjusted nFG audio signals and the corresponding coded foreground V[k] vectors 57 (308).

[000159] A primeira camada (isto é, uma camada base) de duas ou mais camadas de dados de áudio ambisonic de ordem superior pode compreender coeficientes ambisonic de ordem superior correspondendo a uma ou mais funções de base esférica tendo uma ordem igual a ou menor que um. Em alguns exemplos, a segunda camada (isto é, uma camada de aperfeiçoamento) compreende dados de áudio predominantes baseados em vetor.[000159] The first layer (i.e. a base layer) of two or more layers of higher order ambisonic audio data may comprise higher order ambisonic coefficients corresponding to one or more spherical basis functions having an order equal to or less than one. In some examples, the second layer (i.e., an enhancement layer) comprises vector-based predominant audio data.

[000160] Em alguns exemplos, o áudio predominante baseado em vetor compreende pelo menos dados de áudio predominante e um vetor-V codificado. Como descrito acima, o vetor-V codificado pode ser decomposto a partir dos dados de áudio ambisonic de ordem superior através da aplicação de uma transformada invertível linear pela unidade LIT 30 do dispositivo de codificação de áudio 20. Em outros exemplos, os dados de áudio predominantes baseados em vetor compreendem pelo menos um canal ambisonic de ordem superior adicional. Ainda em outros exemplos, os dados de áudio predominantes baseados em vetor compreendem pelo menos uma banda lateral de correção automática de ganho. Em outros exemplos, os dados de áudio predominantes baseados em vetor compreendem pelo menos dados de áudio predominantes, um vetor-V codificado, um canal ambisonic de ordem superior adicional e uma banda lateral de correção automática de ganho.[000160] In some examples, vector-based predominant audio comprises at least predominant audio data and a V-encoded vector. As described above, the encoded V-vector can be decomposed from the higher order ambisonic audio data by applying a linear invertible transform by the LIT unit 30 of the audio coding device 20. In other examples, the vector-based predominant audio data comprises at least one additional higher order ambisonic channel. In yet other examples, the predominant vector-based audio data comprises at least one automatic gain correction sideband. In other examples, vector-based predominant audio data comprises at least predominant audio data, a V-encoded vector, an additional higher order ambisonic channel, and an automatic gain correction sideband.

[000161] Na formação da primeira camada e segunda camada, a unidade de geração de fluxo de bits 42 pode executar processos de verificação de erro que fornecem detecção de erro, correção de erro ou tanto detecção como correção de erro. Em alguns exemplos, a unidade de geração de fluxo de bits 42 pode executar um processo de verificação de erro na primeira camada (isto é, a camada base). Em outro exemplo, o dispositivo de codificação de áudio pode executar um processo de verificação de erro na segunda camada (isto é, a camada de aperfeiçoamento). Ainda em outro exemplo, a unidade de geração de fluxo de bits 42 pode executar um processo de verificação de erro na primeira camada (isto é, a camada base, e, em resposta à determinação de que a primeira camada é isenta de erro, o dispositivo de codificação de áudio pode executar um processo de verificação de erro na segunda camada (isto é, a camada de aperfeiçoamento). Em qualquer dos exemplos acima nos quais a unidade de geração de fluxo de bits 42 executa o processo de verificação de erro na primeira camada (isto é, a camada base), a primeira camada pode ser considerada uma camada robusta que é robusta para erros.[000161] In forming the first layer and second layer, the bit stream generation unit 42 can perform error checking processes that provide error detection, error correction or both error detection and correction. In some examples, the bitstream generation unit 42 may perform an error checking process on the first layer (i.e., the base layer). In another example, the audio encoding device may perform an error checking process on the second layer (i.e., the enhancement layer). In yet another example, the bitstream generation unit 42 can perform an error checking process on the first layer (i.e., the base layer, and, in response to the determination that the first layer is error free, the audio encoding device can perform an error checking process on the second layer (i.e., the enhancement layer). robust that is robust to errors.

[000162] Com referência a seguir à figura 7B, a unidade de controle de ganho 62 e a unidade de geração de fluxo de bits 42 executam operações similares àquela da unidade de controle de ganho 62 e a unidade de geração de fluxo de bits 42 descritas acima com relação à figura 7A. entretanto, a unidade de decorrelação 60 pode aplicar uma decorrelação de matriz de modo, ao invés da decorrelação UHJ, ao segundo plano ambisonics de primeira ordem 47A’- 47D’ (301).[000162] With reference to Fig. 7B below, the gain control unit 62 and the bit stream generation unit 42 perform operations similar to that of the gain control unit 62 and the bit stream generation unit 42 described above with respect to Fig. 7A. however, the decorrelation unit 60 may apply a mode matrix decorrelation, rather than UHJ decorrelation, to the first order ambisonics background 47A'-47D' (301).

[000163] Com referência a seguir à figura 7C, a unidade de controle de ganho 62 e a unidade de geração de fluxo de bits 42 podem executar operações similares àquela da unidade de controle de ganho 62 e a unidade de fluxo de bits 42 descritas acima com relação aos exemplos das figuras 7A e 7B. Entretanto, no exemplo da figura 7C, a unidade de decorrelação 60 pode não aplicar qualquer transformada ao segundo plano ambisonics de primeira ordem 47A’-47D’. Em cada dos seguintes exemplos 8A-10B, é assumido, porém não ilustrado que a unidade de decorrelação 60 pode, como alternativa, não aplicar decorrelação com relação a um ou mais do segundo plano ambisonics de primeira ordem 47A’-47D’.[000163] With reference to Fig. 7C below, the gain control unit 62 and the bit stream generation unit 42 can perform operations similar to that of the gain control unit 62 and the bit stream unit 42 described above with respect to the examples of Figs. 7A and 7B. However, in the example of Figure 7C, the decorrelation unit 60 may not apply any transform to the first order ambisonics background 47A'-47D'. In each of the following examples 8A-10B, it is assumed but not illustrated that the decorrelation unit 60 may alternatively not apply decorrelation with respect to one or more of the first order ambisonics background 47A'-47D'.

[000164] Com referência a seguir à figura 7D, a unidade de decorrelação 60 e a unidade de geração de fluxo de bits 42 podem executar operações similares àquela da unidade de controle de ganho 52 e a unidade de geração de fluxo de bits 42 descritas acima com relação aos exemplos das figuras 7A e 7B. Entretanto, no exemplo da figura 7D, a unidade de controle de ganho 62 pode não aplicar qualquer controle de ganho aos sinais de áudio HOA ambiente decorrelacionados 67. Em cada dos seguintes exemplos 8A- 10B, é assumido, porém não ilustrado que a unidade de controle de ganho 52 pode, como alternativa, não aplicar decorrelação com relação a um ou mais dos sinais de áudio HOA ambiente de decorrelação 67.[000164] With further reference to figure 7D, the decorrelation unit 60 and the bit stream generation unit 42 can perform operations similar to that of the gain control unit 52 and the bit stream generation unit 42 described above with respect to the examples of figures 7A and 7B. However, in the example of Figure 7D, the gain control unit 62 may not apply any gain control to the decorrelated ambient HOA audio signals 67. In each of the following examples 8A-10B, it is assumed, but not illustrated, that the gain control unit 52 may alternatively not apply decorrelation with respect to one or more of the decorrelated ambient HOA audio signals 67.

[000165] Em cada dos exemplos das figuras 7A-7D, a unidade de geração de fluxo de bits 42 pode especificar um ou mais elementos de sintaxe no fluxo de bits 21. A figura 10 é um diagrama ilustrando um exemplo de um objeto de configuração HOA especificado no fluxo de bits 21. Para cada dos exemplos das figuras 7A-7D, a unidade de geração de fluxo de bits 42 pode definir o elemento de sintaxe codedVVecLength 400 em 1 ou 2, que indica que os canais HOA de segundo plano de 1a ordem contêm o componente de 1a ordem de todos os sons predominantes. A unidade de geração de fluxo de bits 42 pode também definir o elemento de sintaxe ambienceDecorrelationMethod 402 de modo que o elemento 402 sinaliza o uso da decorrelação UHJ (por exemplo, como descrito acima com relação à figura 7A), sinaliza o uso da decorrelação de modo de matriz (Por exemplo, como descrito acima com relação à figura 7B), ou sinaliza que nenhuma decorrelação foi usada (por exemplo, como descrito acima com relação à figura 7C).[000165] In each of the examples of figures 7A-7D, the bitstream generation unit 42 can specify one or more syntax elements in the bitstream 21. Figure 10 is a diagram illustrating an example of a HOA configuration object specified in the bitstream 21. For each of the examples of figures 7A-7D, the bitstream generation unit 42 can set the codedVVecLength syntax element 400 to 1 or 2, which indicates that the 1st order background HOA channels contain the 1st order component of all predominant sounds. The bitstream generation unit 42 may also define the ambienceDecorrelationMethod syntax element 402 such that element 402 signals the use of UHJ decorrelation (e.g., as described above with respect to Fig. 7A), signals the use of matrix mode decorrelation (E.g., as described above with respect to Fig. 7B), or signals that no decorrelation has been used (e.g., as described above with respect to Fig. 7C).

[000166] A figura 11 é um diagrama ilustrando informações de banda lateral 410 geradas pela unidade de geração de fluxo de bits 42 para a primeira e segunda camadas. As informações de banda lateral 410 incluem informações de camada base de banda lateral 412 e informações de segunda camada de banda lateral 414A e 414B. Quando somente a camada base é fornecida ao dispositivo de decodificação de áudio 24, o dispositivo de codificação de áudio 20 pode fornecer somente as informações de camada base de banda lateral 412. As informações de camada base de banda lateral 412 incluem o HOAGCD para a camada base. As informações de segunda camada de banda lateral 414A incluem elementos de sintaxe de canais de transporte 1-4 e HOAGCD correspondente. As informações de segunda camada de banda lateral 414B incluem dois vetores V[k] reduzidos codificados correspondentes 57 correspondendo aos canais de transporte 1 e 2 (dado que os canais de transporte 3 e 4 estão vazios como indicado pelo elemento de sintaxe ChannelType igualando 112 ou 310).[000166] Figure 11 is a diagram illustrating sideband information 410 generated by the bitstream generation unit 42 for the first and second layers. Sideband information 410 includes sideband base layer information 412 and sideband second layer information 414A and 414B. When only the base layer is provided to the audio decoding device 24, the audio decoding device 20 can only provide the sideband base layer information 412. The sideband base layer information 412 includes the HOAGCD for the base layer. Sideband second layer information 414A includes syntax elements from transport channels 1-4 and corresponding HOAGCD. Sideband second layer information 414B includes two corresponding encoded reduced V[k] vectors 57 corresponding to transport channels 1 and 2 (given transport channels 3 and 4 are empty as indicated by the ChannelType syntax element equaling 112 or 310).

[000167] As figuras 8A e 8B são fluxogramas ilustrando operação de exemplo do dispositivo de codificação de áudio 20 na geração de uma representação de três camadas codificada dos coeficientes HOA 11. Com referência primeiramente ao exemplo da figura 8A, a unidade de decorrelação 60 e a unidade de controle de ganho 62 podem executar operações similares àquelas descritas acima com relação à figura 7A. Entretanto, a unidade de geração de fluxo de bis 42 pode formar a camada base com base no sinal de áudio L e o sinal de áudio R dos sinais de áudio HOA ambiente ajustados 67 ao invés de todos os sinais de áudio HOA ambiente ajustados 67 (310). A camada base pode, nesse aspecto, fornecer canais estéreo quando renderizados no dispositivo de decodificação de áudio 24. A unidade de geração de fluxo de bits 42 pode também gerar informações de banda lateral para a camada base que inclui o HOAGCD.[000167] Figures 8A and 8B are flowcharts illustrating example operation of the audio coding device 20 in generating a coded three-layer representation of the HOA coefficients 11. With reference first to the example of Figure 8A, the decorrelation unit 60 and the gain control unit 62 can perform operations similar to those described above with respect to Figure 7A. However, the bis stream generation unit 42 can form the base layer based on the L audio signal and the R audio signal of the adjusted ambient HOA audio signals 67 instead of all the adjusted ambient HOA audio signals 67 (310). The base layer may, in this regard, provide stereo channels when rendered on the audio decoding device 24. The bitstream generation unit 42 may also generate sideband information for the base layer which includes the HOAGCD.

[000168] A operação da unidade de geração de fluxo de bis 42 pode também diferir daquela descrita acima com relação à figura 7A em que a unidade de geração de fluxo de bits 42 pode formar uma segunda camada com base nos sinais de áudio Q e T dos sinais de áudio HOA ambiente ajustados 67 (312). A segunda camada no exemplo da figura 8A pode fornecer canais horizontais e canais de áudio 3d quando renderizados no dispositivo de decodificação de áudio 24. A unidade de geração de fluxo de bits 42 pode gerar também informações de banda lateral para a segunda camada que inclui o HOAGCD. A unidade de geração de fluxo de bits 42 pode também formar uma terceira camada em um modo substancialmente similar àquele descrito acima com relação à formação da segunda camada no exemplo da figura 7A.[000168] The operation of the bis stream generation unit 42 can also differ from that described above with respect to figure 7A in that the bit stream generation unit 42 can form a second layer based on the Q and T audio signals of the adjusted ambient HOA audio signals 67 (312). The second layer in the example of Fig. 8A can provide horizontal channels and 3d audio channels when rendered on the audio decoding device 24. The bitstream generation unit 42 can also generate sideband information for the second layer which includes the HOAGCD. The bit stream generation unit 42 can also form a third layer in a manner substantially similar to that described above with respect to forming the second layer in the example of Fig. 7A.

[000169] A unidade de geração de fluxo de bits 42 pode especificar o objeto de configuração HOA para o fluxo de bits 21 similar àquele descrito acima com relação à figura 10. Além disso, a unidade de geração de fluxo de bits 42 do codificador de áudio 20 define o elemento de sintaxe MinAmbHoaOrder 404 em 2 de modo a indicar que o segundo plano HOA de primeira ordem é transmitido.[000169] The bitstream generation unit 42 can specify the HOA configuration object for the bitstream 21 similar to that described above with respect to Fig. 10 . Furthermore, the bitstream generation unit 42 of the audio encoder 20 sets the MinAmbHoaOrder syntax element 404 to 2 in order to indicate that the first-order HOA background is transmitted.

[000170] A unidade de geração de fluxo de bits 42 pode também gerar informações de banda lateral similares a informações de banda lateral 412 mostradas no exemplo da figura 12A. A figura 12A é um diagrama ilustrando informações de banda lateral 412 geradas de acordo com os aspectos de codificação escalonável das técnicas descritas nessa revelação. As informações de banda lateral 412 incluem informações de camada base de banda lateral 416, informações de segunda camada de banda lateral 418, e informações de terceira camada de banda lateral 420A e 420B. as informações de camada base de banda lateral 416 podem fornecer o HOAGCD para a camada base. As informações de segunda camada de banda lateral 418 podem fornecer o HOAGCD para a segunda camada. As informações de terceira camada de banda lateral 420A e 420B podem ser similares às informações de banda lateral 414A e 414B descritas acima com relação à figura 11.[000170] The bitstream generation unit 42 can also generate sideband information similar to sideband information 412 shown in the example of Fig. 12A. 12A is a diagram illustrating sideband information 412 generated in accordance with the scalable encoding aspects of the techniques described in this disclosure. Sideband information 412 includes sideband base layer information 416, sideband second layer information 418, and sideband layer third information 420A and 420B. sideband base layer information 416 may provide the HOAGCD for the base layer. Sideband second layer information 418 may provide the HOAGCD for the second layer. The third layer sideband information 420A and 420B may be similar to the sideband information 414A and 414B described above with respect to Figure 11.

[000171] Similar à figura 7A, o dispositivo de geração de fluxo de bits 42 pode executar processos de verificação de erro. Em alguns exemplos, o dispositivo de geração de fluxo de bits 42 pode executar um processo de verificação de erro na primeira camada (isto é, a camada base). Em outro exemplo, o dispositivo de geração de fluxo de bits 42 pode executar um processo de verificação de erro na primeira camada (isto é, a camada base) e refrear de executar um processo de verificação de erro na segunda camada (isto é, a camada de aperfeiçoamento). Ainda em outro exemplo, o dispositivo de geração de fluxo de bits 42 pode executar um processo de verificação de erro na primeira camada (isto é, a camada base) e, em resposta à determinação de que a primeira camada é isenta de erro, o dispositivo de codificação de áudio pode executar um processo de verificação de erro na segunda camada (isto é, a camada de aperfeiçoamento). Em qualquer dos exemplos acima nos quais o dispositivo de codificação de áudio executa o processo de verificação de erro na primeira camada (isto é, a camada base), a primeira camada pode ser considerada uma camada robusta que é robusta a erros.[000171] Similar to figure 7A, the bit stream generation device 42 can perform error checking processes. In some examples, the bitstream generation device 42 may perform an error checking process on the first layer (i.e., the base layer). In another example, the bit stream generation device 42 can perform an error checking process on the first layer (i.e., the base layer) and refrain from performing an error checking process on the second layer (i.e., the enhancement layer). In yet another example, the bitstream generation device 42 can perform an error checking process on the first layer (i.e., the base layer) and, in response to the determination that the first layer is error free, the audio encoding device can perform an error checking process on the second layer (i.e., the enhancement layer). In any of the above examples where the audio encoding device performs the error checking process on the first layer (i.e. the base layer), the first layer can be considered a robust layer that is robust to errors.

[000172] Embora descrito como fornecendo três camadas, em alguns exemplos, o dispositivo de geração de fluxo de bits 42 pode especificar uma indicação no fluxo de bits que há somente duas camadas e especificar uma primeira das camadas do fluxo de bits indicativo de componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução de canal estéreo, e uma segunda das camadas do fluxo de bits indicativo dos componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução de multicanais horizontais por três ou mais alto-falantes dispostos em um plano horizontal único. Em outras palavras, embora mostrado como fornecendo três camadas, o dispositivo de geração de fluxo de bits 42 pode gerar somente duas das três camadas em algumas instâncias. Deve ser entendido que qualquer subconjunto das camadas pode ser gerado, embora não descrito em detalhe aqui.[000172] Although described as providing three layers, in some examples, the bitstream generation device 42 may specify an indication in the bitstream that there are only two layers and specify a first of the bitstream layers indicative of background components of the higher order ambisonic audio signal that provide stereo channel reproduction, and a second of the layers of the bitstream indicative of the background components of the higher order ambisonic audio signal that provide horizontal multichannel reproduction by three or more speakers arranged in a plane single horizontal. In other words, although shown as providing three layers, the bitstream generation device 42 can only generate two of the three layers in some instances. It should be understood that any subset of the layers can be generated, although not described in detail here.

[000173] Com referência a seguir à figura 8B, a unidade de controle de ganho 62 e a unidade de geração de fluxo de bits 42 executam operações similares àquela da unidade de controle de ganho 62 e a unidade de geração de fluxo de bits 42 descritas acima com relação à figura 8A. entretanto, a unidade de decorrelação 60 pode aplicar uma decorrelação de matriz de modo, ao invés da decorrelação UHJ, para o segundo plano ambisonics de primeira ordem 47A’ (316). Em alguns exemplos, o segundo plano ambisonics de primeira ordem 47A’ pode incluir os coeficientes ambisonic de ordem zero 47A’. A unidade de controle de ganho 62 pode aplicar o controle automático de ganho aos coeficientes ambisonic de primeira ordem correspondendo aos coeficientes harmônicos esféricos tendo uma primeira ordem, e o sinal de áudio HOA ambiente decorrelacionado 67.[000173] With reference to Fig. 8B below, the gain control unit 62 and the bit stream generation unit 42 perform operations similar to that of the gain control unit 62 and the bit stream generation unit 42 described above with respect to Fig. 8A. however, the decorrelation unit 60 may apply a mode matrix decorrelation, rather than the UHJ decorrelation, to the first order ambisonics background 47A' (316). In some examples, the background first-order ambisonics 47A' may include the zero-order ambisonic coefficients 47A'. The gain control unit 62 can apply automatic gain control to the first order ambisonic coefficients corresponding to the spherical harmonic coefficients having a first order, and the decorrelated ambient HOA audio signal 67.

[000174] A unidade de geração de fluxo de bits 42 pode formar uma camada base com base no sinal de áudio HOA ambiente ajustado 67 e pelo menos parte da banda lateral com base no HOAGCD correspondente (310). O sinal de áudio HOA ambiente 67 pode fornecer um mono canal quando renderizado no dispositivo de decodificação de áudio 24. A unidade de geração de fluxo de bits 42 pode formar uma segunda camada com base nos coeficientes HOA ambiente ajustados 47B’’-47D’’ e pelo menos parte da banda lateral com base no HOAGCD correspondente (318). Os coeficientes HOA ambiente ajustados 47B’-47D’ podem fornecer canais X, Y e Z (ou estéreo, horizontal e de altura) quando renderizados no dispositivo de decodificação de áudio 24. A unidade de geração de fluxo de bits 42 pode formar a terceira camada e pelo menos parte das informações de banda lateral em um modo similar àquele descrito acima com relação à figura 8A. a unidade de geração de fluxo de bits 42 pode gerar informações de banda lateral 412 como descrito em mais detalhe com relação à figura 12B (326).[000174] The bitstream generation unit 42 can form a base layer based on the adjusted ambient HOA audio signal 67 and at least part of the sideband based on the corresponding HOAGCD (310). The ambient HOA audio signal 67 can provide a mono channel when rendered in the audio decoding device 24. The bitstream generation unit 42 can form a second layer based on the adjusted ambient HOA coefficients 47B''-47D'' and at least part of the sideband based on the corresponding HOAGCD (318). The adjusted ambient HOA coefficients 47B'-47D' can provide X, Y and Z channels (or stereo, horizontal and height) when rendered in the audio decoding device 24. The bit stream generation unit 42 can form the third layer and at least part of the sideband information in a similar way to that described above with respect to Fig. 8A. bit stream generation unit 42 may generate sideband information 412 as described in more detail with respect to Fig. 12B (326).

[000175] A figura 12B é um diagrama ilustrando informações de banda lateral 414 geradas de acordo com os aspectos de codificação escalonáveis das técnicas descritas nessa revelação. As informações de banda lateral 414 incluem informações de camada base de banda lateral 416, informações de segunda camada de banda lateral 422, e informações de terceira camada de banda lateral 424A-424C. As informações de camada base de banda lateral 416 podem fornecer o HOAGCD para a camada abse. As inofmrações de segunda camada de sidband 422 podem fornecer o HOAGCD para a segunda camada. As informações de terceira camada de banda lateral 424A-424C podem ser similares ás informações de banda lateral 414A (exceto pelas informações de banda lateral 414A serem especificadas como informações de terceira camada de banda lateral 424A e 424B) e 414B descritas acima com relação à figura 11.[000175] Figure 12B is a diagram illustrating sideband information 414 generated in accordance with the scalable encoding aspects of the techniques described in this disclosure. Sideband information 414 includes sideband base layer information 416, sideband second layer information 422, and sideband layer third information 424A-424C. Sideband base layer information 416 may provide the HOAGCD for the base layer. The sidband second layer information 422 may provide the HOAGCD for the second layer. The third layer sideband information 424A-424C may be similar to the sideband information 414A (except that the sideband information 414A is specified as the third layer sideband information 424A and 424B) and 414B described above with respect to Figure 11.

[000176] As figuras 9A e 9B são fluxogramas ilustrando operação de exemplo do dispositivo de codificação de áudio 20 na geração de uma representação de quatro camadas codificada dos coeficientes HOA 11. Com referência primeiramente ao exemplo da figura 9A, a unidade de decorrelação 60 e a unidade de controle de ganho 62 podem executar operações similares àquelas descritas acima com relação à figura 8A. a unidade de geração de fluxo de bits 42 pode formar a camada base em um modo similar àqueles descrito acima com relação ao exemplo da figura 8A, isto é, com base no sinal de áudio L e o sinal de áudio R dos sinais de áudio HOA ambiente ajustados 67 ao invés de todos os sinais de áudio HOA ambiente ajustados 67 (310). A camada base pode, nesse aspecto, fornecer canais estéreo quando renderizados no dispositivo de decodificação de áudio 24 (ou, em outras palavras, fornecer reprodução de canal estéreo). A unidade de geração de fluxo de bits 42 também pode gerar informações de banda lateral para a camada base que incluem o HOAGCD.[000176] Figures 9A and 9B are flowcharts illustrating example operation of the audio coding device 20 in generating a coded four-layer representation of the HOA coefficients 11. With reference first to the example of Figure 9A, the decorrelation unit 60 and the gain control unit 62 can perform operations similar to those described above with respect to Figure 8A. the bitstream generation unit 42 can form the base layer in a similar way to those described above with respect to the example of Fig. 8A, i.e. based on the L audio signal and the R audio signal of the adjusted ambient HOA audio signals 67 instead of all the adjusted ambient HOA audio signals 67 (310). The base layer can, in that respect, provide stereo channels when rendered on audio decoding device 24 (or, in other words, provide stereo channel playback). The bitstream generation unit 42 can also generate sideband information for the base layer that includes the HOAGCD.

[000177] A operação da unidade de geração de fluxo de bits 42 pode diferir daquela descrita acima com relação à figura 8A em que a unidade de geração de fluxo de bits 42 pode formar uma segunda camada com base no sinal de áudio T (e não o sinal de áudio Q) dos sinais de áudio HOA ambiente ajustados 67 (322). A segunda camada no exemplo da figura 9A pode fornecer canais horizontais quando renderizados no dispositivo de decodificação de áudio 24 (ou, em outras palavras, reprodução de multicanais por três ou mais alto-falante em um plano horizontal único). A unidade de geração de fluxo de bits 42 pode também gerar informações de banda lateral para a segunda camada que inclui o HOAGCD. A unidade de geração de fluxo de bits 42 pode formar também uma terceira camada com base no sinal de áudio Q dos sinais de áudio HOA ambiente ajustados 67 (324). A terceira camada pode fornecer reprodução tridimensional por três ou mais alto-falantes dispostos em um ou mais planos horizontais. A unidade de geração de fluxo de bits 42 pode formar a quarta camada em um modo substancialmente similar ao descrito acima com relação à formação da terceira camada no exemplo da figura 8A (326).[000177] The operation of the bitstream generation unit 42 may differ from that described above with respect to Figure 8A in that the bitstream generation unit 42 can form a second layer based on the T audio signal (and not the Q audio signal) of the adjusted ambient HOA audio signals 67 (322). The second layer in the example of Figure 9A can provide horizontal channels when rendered on audio decoding device 24 (or, in other words, multichannel playback by three or more speakers in a single horizontal plane). Bitstream generation unit 42 may also generate sideband information for the second layer including the HOAGCD. The bitstream generation unit 42 can also form a third layer based on the Q audio signal of the adjusted ambient HOA audio signals 67 (324). The third layer can provide three-dimensional reproduction by three or more speakers arranged in one or more horizontal planes. The bit stream generation unit 42 can form the fourth layer in a substantially similar manner as described above with respect to forming the third layer in the example of Fig. 8A (326).

[000178] A unidade de geração de fluxo de bits 42 pode especificar o objeto de configuração HOA para o fluxo de bits 21 similar àquele descrito acima com relação à figura 10. Além disso, a unidade de geração de fluxo e bits 42 do codificador de áudio 20 define o elemento de sintaxe MinAmbHoaOrder 404 em 2 de modo a indicar que o segundo plano HOA de 1a ordem é transmitido.[000178] The bit stream generation unit 42 can specify the HOA configuration object for the bit stream 21 similar to that described above with respect to figure 10. In addition, the bit stream generation unit 42 of the audio encoder 20 sets the MinAmbHoaOrder syntax element 404 to 2 in order to indicate that the 1st order HOA background is transmitted.

[000179] A unidade de geração de fluxo de bits 42 pode também gerar informações de banda lateral similares a informações de banda lateral 412 mostradas no exemplo da figura 13A. A figura 13A é um diagrama ilustrando informações de banda lateral 430 geradas de acordo com os aspectos de codificação escalonável das técnicas descritas nessa revelação. As informações de banda lateral 430 incluem informações de camada base de banda lateral 416, informações de segunda camada de banda lateral 418, informações de terceira camada de banda lateral 432 e informações de quarta camada de banda lateral 434A e 434B. As informações de camada base de banda lateral 416 podem fornecer o HOAGCD para a camada base. As informações de segunda camada de banda lateral 418 podem fornecer o HOAGCD para a segunda camada. As informações de terceira camada de banda lateral 430 podem fornecer o HOAGCD para a terceira camada. As informações de quarta camada de banda lateral 434A e 434B podem ser similares às informações de banda lateral 420A e 420B descritas acima com relação à figura 12A.[000179] The bit stream generation unit 42 can also generate sideband information similar to sideband information 412 shown in the example of Fig. 13A. Figure 13A is a diagram illustrating sideband information 430 generated in accordance with the scalable encoding aspects of the techniques described in this disclosure. Sideband information 430 includes sideband base layer information 416, sideband second layer information 418, sideband third layer information 432, and sideband fourth layer information 434A and 434B. The sideband base layer information 416 may provide the HOAGCD for the base layer. Sideband second layer information 418 may provide the HOAGCD for the second layer. Sideband third layer information 430 may provide the HOAGCD for the third layer. The fourth layer sideband information 434A and 434B may be similar to the sideband information 420A and 420B described above with respect to Fig. 12A.

[000180] Similar à figura 7A, o dispositivo de geração de fluxo de bits 42 pode executar processos de verificação de erro. Em alguns exemplos, o dispositivo de geração de fluxo de bit 42 pode executar um processo de verificação de erro na primeira camada (isto é, a camada base). Em outro exemplo, o dispositivo de geração de fluxo de bits 42 pode executar um processo de verificação de erro na primeira camada (isto é, a camada base) e refrear de executar um processo de verificação de erro na camada restante (isto é, as camadas de aperfeiçoamento). Ainda em outro exemplo, o dispositivo de geração de fluxo de bits 42 pode executar um processo de verificação de erro na primeira camada (isto é, a camada base) e, em resposta à determinação de que a primeira camada é isenta de erro, o dispositivo de codificação de áudio pode executar um processo de verificação de erro na segunda camada (isto é, a camada de aperfeiçoamento). Em qualquer um dos exemplos acima nos quais o dispositivo de codificação de áudio executa o processo de verificação de erro na primeira camada (isto é, a camada base), a primeira camada pode ser considerada uma camada robusta que é robusta a erros.[000180] Similar to figure 7A, the bit stream generation device 42 can perform error checking processes. In some examples, the bit stream generation device 42 may perform an error checking process on the first layer (i.e., the base layer). In another example, the bit stream generation device 42 can perform an error checking process on the first layer (i.e. the base layer) and refrain from performing an error checking process on the remaining layer (i.e. the enhancement layers). In yet another example, the bitstream generation device 42 can perform an error checking process on the first layer (i.e., the base layer) and, in response to the determination that the first layer is error free, the audio encoding device can perform an error checking process on the second layer (i.e., the enhancement layer). In any of the above examples where the audio encoding device performs the error checking process on the first layer (i.e. the base layer), the first layer can be considered a robust layer that is robust to errors.

[000181] Com referência a seguir à figura 9B, a unidade de controle de ganho 62 e a unidade de geração de fluxo de bits 42 executam operações similares àquela da unidade de controle de ganho 62 e unidade de geração de fluxo de bits 42 descritas acima com relação à figura 9A. Entretanto, a unidade de decorrelação 60 pode aplicar uma decorrelação de matriz de modo, ao invés da decorrelação UHJ, ao segundo plano ambisonics de primeira ordem 47A’ (316). Em alguns exemplos, o segundo plano ambisonics de primeira ordem 47A’ pode incluir os coeficientes ambisonic de zero ordem 47A’. A unidade de controle de ganho 62 pode aplicar o controle de ganho automático aos coeficientes ambisonic de primeira ordem correspondendo aos coeficientes harmônicos esféricos tendo uma primeira ordem, e o sinal de áudio HOA ambiente decorrelacionado 67 (302).[000181] With reference to Fig. 9B below, the gain control unit 62 and the bit stream generation unit 42 perform operations similar to that of the gain control unit 62 and bit stream generation unit 42 described above with respect to Fig. 9A. However, the decorrelation unit 60 may apply a mode matrix decorrelation, rather than the UHJ decorrelation, to the first order ambisonics background 47A' (316). In some examples, the background first-order ambisonics 47A' may include the zero-order ambisonic coefficients 47A'. The gain control unit 62 can apply automatic gain control to the first order ambisonic coefficients corresponding to the spherical harmonic coefficients having a first order, and the decorrelated ambient HOA audio signal 67 (302).

[000182] A unidade de geração de fluxo de bits 42 pode formar uma camada base com base no sinal de áudio HOA ambiente ajustado 67 e pelo menos parte da banda lateral com base no HOAGCD correspondente (310). O sinal de áudio HOA ambiente 67 pode fornecer um canal mono quando renderizado no dispositivo de decodificação de áudio 24. A unidade de geração de fluxo de bits 42 pode formar uma segunda camada com base nos coeficientes HOA ambiente ajustados 47B” e 47C” e pelo menos parte da banda lateral com base no HOAGCD correspondente (322). Os coeficientes HOA ambiente ajustados 47B” e 47C” podem fornecer X, Y reprodução de multicanais horizontal por três ou mais alto- falantes dispostos em um plano horizontal único. A unidade de geração de fluxo de bits 42 pode formar uma terceira camada com base nos coeficientes HOA ambiente ajustados 47D” e pelo menos parte da banda lateral com base no HOAGCD correspondente (324). Os coeficientes HOA ambiente ajustados 47D” podem fornecer reprodução tridimensional por três ou mais alto-falantes dispostos em um ou mais planos horizontais. A unidade de geração de fluxo de bits 42 pode formar a quarta camada e pelo menos parte das informações de banda lateral em um modo similar àquele descrito acima com relação à figura 8A (326). A unidade de geração de fluxo de bits 42 pode gerar informações de banda lateral 412 como descrito em mais detalhe com relação à figura 12B.[000182] The bitstream generation unit 42 can form a base layer based on the adjusted ambient HOA audio signal 67 and at least part of the sideband based on the corresponding HOAGCD (310). The ambient HOA audio signal 67 can provide a mono channel when rendered in the audio decoding device 24. The bitstream generation unit 42 can form a second layer based on the adjusted ambient HOA coefficients 47B" and 47C" and at least part of the sideband based on the corresponding HOAGCD (322). The adjusted ambient HOA coefficients 47B” and 47C” can provide X, Y horizontal multichannel reproduction by three or more speakers arranged in a single horizontal plane. The bit stream generation unit 42 can form a third layer based on the adjusted ambient HOA coefficients 47D" and at least part of the sideband based on the corresponding HOAGCD (324). Adjusted 47D” ambient HOA coefficients can provide three-dimensional reproduction by three or more loudspeakers arranged in one or more horizontal planes. The bitstream generation unit 42 can form the fourth layer and at least part of the sideband information in a similar manner to that described above with respect to Fig. 8A (326). Bitstream generation unit 42 may generate sideband information 412 as described in more detail with respect to Fig. 12B.

[000183] A figura 13B é um diagrama ilustrando informações de banda lateral 440 geradas de acordo com os aspectos de codificação escalonável das técnicas descritas nessa revelação. As informações de banda lateral 440 incluem informações de camada base de banda lateral 416, informações de segunda camada de banda lateral 442, informações de terceira camada de banda lateral 444 e informações de quarta camada de banda lateral 446A-446C. as informações de camada base de banda lateral 416 podem fornecer o HOAGCD para a camada base. As informações de segunda camada de banda lateral 442 podem fornecer o HOAGCD para a segunda camada. As informações de terceira camada de banda lateral podem fornecer o HOAGCD para a terceira camada. As informações de quarta camada de banda lateral 446A-446C podem ser similares às informações de banda lateral 424A-424C descritas acima com relação à figura 12B.[000183] Figure 13B is a diagram illustrating sideband information 440 generated in accordance with the scalable encoding aspects of the techniques described in this disclosure. Sideband information 440 includes sideband base layer information 416, sideband second layer information 442, sideband third layer information 444, and sideband fourth layer information 446A-446C. sideband base layer information 416 may provide the HOAGCD for the base layer. Sideband second layer information 442 may provide the HOAGCD for the second layer. The sideband third layer information can provide the HOAGCD for the third layer. The fourth layer sideband information 446A-446C may be similar to the sideband information 424A-424C described above with respect to Fig. 12B.

[000184] A figura 4 é um diagrama de blocos ilustrando o dispositivo de decodificação de áudio 24 da figura 2 em mais detalhe. Como mostrado no exemplo da figura 4 o dispositivo de decodificação de áudio 24 pode incluir uma unidade de extração 72, uma unidade de reconstrução baseada em direcionalidade 90 e uma unidade de reconstrução baseada em vetor 92. Embora descrito abaixo, mais informações referentes ao dispositivo de decodificação de áudio 24 e os vários aspectos de descomprimir ou de outro modo decodificar coeficientes HOA são disponíveis na Publicação de Pedido de Patente internacional no. WO 2014/194099, intitulada “INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD, ” depositado em 29 de maio de 2014. Informações adicionais também podem ser encontradas na fase I e fase II acima referenciadas do padrão de codificação de áudio 3D MPEG-H e o artigo correspondente referenciado acima resumindo a fase I do padrão de codificação de áudio 3D MPEG-H.[000184] Figure 4 is a block diagram illustrating the audio decoding device 24 of Figure 2 in more detail. As shown in the example of Figure 4 the audio decoding device 24 may include an extraction unit 72, a directionality based reconstruction unit 90 and a vector based reconstruction unit 92. WO 2014/194099, entitled “INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD,” filed May 29, 2014. Additional information can also be found in the above referenced Phase I and Phase II of the 3D MPEG-H Audio Coding Standard and the corresponding article referenced above summarizing Phase I of the 3D MPEG-H Audio Coding Standard.

[000185] A unidade de extração 72 pode representar uma unidade configurada para receber o fluxo de bits 21 e extrair as várias versões codificadas (por exemplo, uma versão codificada baseada em direcional ou uma versão codificada baseada em vetor) dos coeficientes HOA 11. A unidade de extração 72 pode determinar do elemento de sintaxe acima mencionado indicativo de se os coeficientes HOA 11 foram codificados através de várias versões baseadas em vetor ou baseadas em direção. Quando uma codificação baseada em direcional foi executada, a unidade de extração 72 pode extrair a versão baseada em direcional dos coeficientes HOA 11 e os elementos de sintaxe associados à versão codificada (que é indicado como informações baseadas em direcional 92 no exemplo da figura 4), passando as informações baseadas em direcional 91 para a unidade de reconstrução baseada em direcional 90. A unidade de reconstrução baseada em direcional 90 pode representar uma unidade configurada para reconstruir os coeficientes HOA na forma de coeficientes HOA 11’ com base nas informações baseadas em direcional 91.[000185] The extraction unit 72 can represent a unit configured to receive the bit stream 21 and extract the various encoded versions (for example, a directional-based encoded version or a vector-based encoded version) of the HOA coefficients 11. When a directional based encoding has been performed, the extraction unit 72 can extract the directional based version of the HOA coefficients 11 and the syntax elements associated with the encoded version (which is indicated as directional based information 92 in the example of Figure 4), passing the directional based information 91 to the directional based reconstruction unit 90. on information based on directional 91.

[000186] Quando o elemento de sintaxe indica que os coeficientes HOA 11 foram codificados usando uma síntese baseada em vetor, a unidade de extração 72 pode extrair os vetores V[k] de primeiro plano 57 (que podem incluir pesos codificados 57 e/ou índices 63 ou vetores-V quantizados escalares), os coeficientes HOA ambiente codificados 59 e os objetos de áudio correspondentes 61 (que podem ser também mencionados como sinais nFG codificados 61). Os objetos de áudio 61 correspondem, individualmente, a um dos vetores 57. A unidade de extração 72 pode passar os vetores V[k] de primeiro plano codificados 57 para a unidade de reconstrução de vetor-V 74 e os coeficientes HOA ambiente codificados 59 juntamente com os sinais nFG codificados 61 para a unidade de decodificação psicoacústica 80. A unidade de extração 72 é descrita em mais detalhe com relação ao exemplo da figura 6.[000186] When the syntax element indicates that hoa 11 coefficients were coded using a vector-based synthesis, 72 extraction unit can extract vectors V [K] vectors 57 (which may include encoded weights 57 and/or indexes 63 or scalar quantized vectors), the coefficients Hoa coded environment 59 and the corresponding audio objects 61 (which may 61 also mentioned as coded NFG signs 61). The audio objects 61 individually correspond to one of the vectors 57. The extraction unit 72 can pass the encoded foreground V[k] vectors 57 to the V-vector reconstruction unit 74 and the encoded ambient HOA coefficients 59 along with the encoded nFG signals 61 to the psychoacoustic decoding unit 80. The extraction unit 72 is described in more detail with respect to the example of Figure 6.

[000187] A figura 6 é um diagrama ilustrando, em mais detalhe, a unidade de extração 72 da figura 4 quando configurada para executar a primeira das versões em potencial das técnicas de decodificação de áudio escalonável descritas nessa revelação. No exemplo da figura 6, a unidade de extração 72 inclui uma unidade de seleção de modo 1010, uma unidade de extração escalonável 1012 e uma unidade de extração não escalonável 1014. A unidade de seleção de modo 1010 representa uma unidade configurada para selecionar se extração escalonável ou não escalonável deve ser executada com relação ao fluxo de bits 21. A unidade de seleção de modo 1010 pode incluir uma memória na qual o fluxo de bits 21 é armazenado. A unidade de seleção de modo 1010 pode determinar se extração escalonável ou não escalonável deve ser executada com base na indicação de se codificação escalonável foi habilitada. Um elemento de sintaxe HOABaseLayerPresent pode representar a indicação de se codificação escalonável foi realizada ao codificar o fluxo de bits 21.[000187] Figure 6 is a diagram illustrating, in more detail, the extraction unit 72 of Figure 4 when configured to perform the first of the potential versions of the scalable audio decoding techniques described in this disclosure. In the example of Figure 6, the extraction unit 72 includes a mode selection unit 1010, a scalable extraction unit 1012 and a non-scalable extraction unit 1014. The mode selection unit 1010 represents a unit configured to select whether scalable or non-scalable extraction is to be performed with respect to the bit stream 21. The mode selection unit 1010 may include a memory in which the bit stream 21 is stored. The mode selection unit 1010 can determine whether scalable or non-scalable extraction is to be performed based on the indication that scalable coding has been enabled. A HOABaseLayerPresent syntax element can represent the indication of whether scalable encoding was performed when encoding bit stream 21.

[000188] Quando o elemento de sintaxe HOABaseLayerPresent indica que codificação escalonável foi habilitada, a unidade de seleção de modo 1010 pode identificar o fluxo de bits 21 como o fluxo de bits escalonável 21 e transmitir o fluxo de bits escalonável 21 para a unidade de extração escalonável 1012. Quando o elemento de sintaxe HOABaseLayerPresent indica que codificação escalonável não foi habilitada, a unidade de seleção de modo 1010 pode identificar o fluxo de bits 21 como o fluxo de bits não escalonável 21’ e transmitir o fluxo de bits não escalonável 21’ para a unidade de extração não escalonável 1014. A unidade de extração não escalonável 1014 representa uma unidade configurada para operar de acordo com a fase I do padrão de codificação de áudio 3D MPEG-H.[000188] When the HOABaseLayerPresent syntax element indicates that scalable encoding has been enabled, the mode selection unit 1010 may identify the bitstream 21 as the scalable bitstream 21 and transmit the scalable bitstream 21 to the scalable extraction unit 1012. When the HOABaseLayerPresent syntax element indicates that scalable encoding has not been enabled, the mode selection unit 101 0 may identify the bit stream 21 as the non-scalable bit stream 21' and transmit the non-scalable bit stream 21' to the non-scalable extraction unit 1014. The non-scalable extraction unit 1014 represents a unit configured to operate in accordance with phase I of the MPEG-H 3D audio coding standard.

[000189] A unidade de extração escalonável 1012 pode representar uma unidade configurada para extrair um ou mais dos coeficientes HOA ambiente 59, os sinais nFG codificados 61 e os vetores V[k] de primeiro plano codificados 57 a partir de uma ou mais camadas do fluxo de bits escalonável 21 com base em vários elementos de sintaxe descritos abaixo em mais detalhe (e mostrados acima em várias tabelas HOADecoderConfig). No exemplo da figura 6, a unidade de extração escalonável 1012 pode extrair, como um exemplo, os quatro coeficientes HOA ambiente codificados 59A-59D a partir da camada base 21A do fluxo de bits escalonável 21. A unidade de extração escalonável 1012 pode extrair também, a partir da camada de aperfeiçoamento 21B do fluxo de bits escalonável 21, os dois sinais nFG codificados 61A e 61B (como um exemplo) bem como os dois vetores V[k] de primeiro plano codificados 57A e 57B. a unidade de extração escalonável 1012 pode transmitir os coeficientes HOA ambiente 59, os sinais nFG codificados 61 e os vetores V[k] de primeiro plano codificados 57 para a unidade de decodificação baseada em vetor 92 mostrada no exemplo da figura 4.[000189] The scalable extraction unit 1012 may represent a unit configured to extract one or more of the ambient HOA coefficients 59, the encoded nFG signals 61 and the encoded foreground V[k] vectors 57 from one or more layers of the scalable bitstream 21 based on various syntax elements described in more detail below (and shown above in various HOADecoderConfig tables). In the example of figure 6, the scalable extraction unit 1012 can extract, as an example, the four encoded ambient HOA coefficients 59A-59D from the base layer 21A of the scalable bitstream 21. The scalable extraction unit 1012 can also extract, from the enhancement layer 21B of the scalable bitstream 21, the two encoded nFG signals 61A and 61B (as an example) as well as the two encoded foreground V[k] vectors 57A and 57B. the scalable extraction unit 1012 may transmit the ambient HOA coefficients 59, the encoded nFG signals 61 and the encoded foreground V[k] vectors 57 to the vector based decoding unit 92 shown in the example of Figure 4.

[000190] Mais especificamente, a unidade de extração 72 do dispositivo de decodificação de áudio 24 pode extrair canais das camadas L como exposto na tabela de sintaxe HOADecoderCofnig_FramebyFrame acima.[000190] More specifically, the extraction unit 72 of the audio decoding device 24 can extract channels from the L layers as exposed in the syntax table HOADecoderCofnig_FramebyFrame above.

[000191] De acordo com a tabela de sintaxe HOADecoderCofnig_FramebyFrame acima, a unidade de seleção de modo 1010 pode primeiramente obter o elemento de sintaxe HOABaseLayerPresent, que pode indicar se codificação de áudio escalonável foi executada. Quando não habilitado como especificado por, por exemplo, um valor zero para o elemento de sintaxe HOABaseLayerPresent, a unidade de seleção de modo 1010 pode determinar o elemento de sintaxe MinAmbHoaOrder e provê o fluxo de bits não escalonável para a unidade de extração não escalonável 1014, que executa processos de extração não escalonável similares àqueles descritos acima. Quando habilitado como especificado, por exemplo, por um valor para o elemento de sintaxe HOABaseLayerPresent, a unidade de seleção de modo 1010 define o valor de elemento de sintaxe MinAmbHOAOrder como sendo negativo um (-1) e provê o fluxo de bits escalonável 21’ para a unidade de extração escalonável 1012.[000191] According to the above HOADecoderCofnig_FramebyFrame syntax table, the mode selection unit 1010 can first obtain the HOABaseLayerPresent syntax element, which can indicate whether scalable audio encoding has been performed. When not enabled as specified by, for example, a zero value for the HOABaseLayerPresent syntax element, the mode selection unit 1010 may determine the MinAmbHoaOrder syntax element and provide the non-scalable bit stream to the non-scalable extraction unit 1014, which performs non-scalable extraction processes similar to those described above. When enabled as specified, for example, by a value for the HOABaseLayerPresent syntax element, the mode selection unit 1010 sets the MinAmbHOAOrder syntax element value to be negative one (-1) and provides the scalable bitstream 21' to the scalable extraction unit 1012.

[000192] A unidade de extração escalonável 1012 pode obter uma indicação de se um número de camadas do fluxo de bits foi alterado em um quadro atual quando comparado com um número de camadas do fluxo de bits em um quadro anterior. A indicação de se o número de camadas do fluxo de bits foi alterado no quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior pode ser indicado como um elemento de sintaxe “HOABaseLayerConfigurationFlag” na tabela acima.[000192] The scalable extraction unit 1012 can obtain an indication of whether a number of layers of the bitstream has changed in a current frame when compared to a number of layers of the bitstream in a previous frame. The indication of whether the number of bitstream layers has changed in the current frame as compared to the number of bitstream layers in the previous frame can be indicated as a “HOABaseLayerConfigurationFlag” syntax element in the table above.

[000193] A unidade de extração escalonável 1012 pode obter uma indicação de um número de camadas do fluxo de bits no quadro atual com base na indicação. Quando a indicação indica que o número de camadas do fluxo de bits não mudou no quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior, a unidade de extração escalonável 1012 pode determinar o número de camadas do fluxo de bits no quadro atual como igual ao número de camadas do fluxo de bits no quadro anterior de acordo com a porção da tabela de sintaxe acima que afirma: } else } NumLayers = NumLayersPrevFrame; Onde a “NumLayers” pode representar um elemento de sintaxe representando o número de camadas do fluxo de bits no quadro atual e o “NumLayersPrevFrame” pode representar um elemento de sintaxe representando o número de camadas do fluxo de bits no quadro anterior.[000193] The scalable extraction unit 1012 can obtain an indication of a number of layers of the bit stream in the current frame based on the indication. When the indication indicates that the number of layers of the bitstream has not changed in the current frame when compared to the number of layers of the bitstream in the previous frame, the scalable extraction unit 1012 can determine the number of layers of the bitstream in the current frame as equal to the number of layers of the bitstream in the previous frame according to the portion of the above syntax table that states: } else } NumLayers = NumLayersPrevFrame; Where “NumLayers” can represent a syntax element representing the number of layers of the bitstream in the current frame and “NumLayersPrevFrame” can represent a syntax element representing the number of layers of the bitstream in the previous frame.

[000194] De acordo com a tabela de sintaxe HOADecoderConfig_FramebyFrame acima, a unidade de extração escalonável 1012 pode, quando a indicação indica que o número de camadas do fluxo de bits não mudou no quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior, determinar uma indicação de primeiro plano atual de um número atual de componentes de primeiro plano em uma ou mais das camadas para o quadro atual como sendo igual a uma indicação de primeiro plano anterior para um número anterior de componentes de primeiro plano em uma ou mais das camadas do quadro anterior. Em outras palavras, a unidade de extração escalonável 1012 pode, quando o HOABaseLayerConfigurationFlag é igual a zero, determinar o elemento de sintaxe HumFGchannels[i] representativo da indicação de primeiro plano atual do número atual de componente de primeiro plano em uma ou mais das camadas do quadro atual como sendo igual ao elemento de sintaxe NumFGchannels_PrevFrame[i] que é representativo da indicação de primeiro plano anterior do número anterior de componentes de primeiro plano em uma ou mais camadas do quadro anterior. A unidade de extração escalonável 1012 pode obter adicionalmente os componentes de primeiro plano a partir de uma ou mais camadas no quadro atual com base na indicação de primeiro plano atual.[000194] According to the above HOADecoderConfig_FramebyFrame syntax table, the scalable extraction unit 1012 can, when the indication indicates that the number of layers of the bitstream has not changed in the current frame when compared to the number of layers of the bitstream in the previous frame, determine a current foreground indication of a current number of foreground components in one or more of the layers for the current frame to be equal to a previous foreground indication for a previous number of foreground components on one or more of the layers in the previous frame. In other words, the scalable extraction unit 1012 can, when the HOABaseLayerConfigurationFlag equals zero, determine the syntax element HumFGchannels[i] representative of the current foreground indication of the current number of foreground components in one or more of the layers of the current frame to be equal to the syntax element NumFGchannels_PrevFrame[i] that is representative of the previous foreground indication of the previous number of foreground components in one or more layers of the previous frame. Scalable extraction unit 1012 can additionally obtain foreground components from one or more layers in the current frame based on the current foreground indication.

[000195] A unidade de extração escalonável 1012 pode também, quando a indicação indica que o número de camadas do fluxo de bits não mudou no quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior, determinar uma indicação de segundo plano atual de um número atual de componentes de segundo plano em uma ou mais das camadas para o quadro atual como sendo igual a uma indicação de segundo plano anterior para um número anterior de componentes de segundo plano em uma ou mais das camadas do quadro anterior. Em outras palavras, a unidade de extração escalonável 1012 pode, quando HOABaseLayerConfigurationFlag é igual a zero, determinar o elemento de sintaxe NumBGchannels[i] representativo da indicação de segundo plano atual do número atual de componente de segundo plano em uma ou mais das camadas do quadro atual como sendo igual ao elemento de sintaxe NumBGchannels_PrevFrame[i] que é representativo da indicação de segundo plano anterior do número anterior de componentes de segundo plano em uma ou mais camadas do quadro anterior. A unidade de extração escalonável 1012 pode obter ainda os componentes de segundo plano a partir de uma ou mais camadas no quadro atual com base na indicação de segundo plano atual.[000195] The scalable extraction unit 1012 may also, when the indication indicates that the number of layers of the bitstream has not changed in the current frame when compared to the number of layers of the bitstream in the previous frame, determine a current background indication of a current number of background components in one or more of the layers for the current frame to be equal to a previous background indication for a previous number of background components in one or more of the layers of the previous frame. In other words, the scalable extraction unit 1012 can, when HOABaseLayerConfigurationFlag equals zero, determine the syntax element NumBGchannels[i] representative of the current background indication of the current number of background components in one or more of the layers of the current frame to be equal to the syntax element NumBGchannels_PrevFrame[i] that is representative of the previous background indication of the previous number of background components in one or more layers of the previous frame. The scalable extraction unit 1012 can further obtain the background components from one or more layers in the current frame based on the current background indication.

[000196] Para habilitar as técnicas acima que podem potencialmente reduzir sinalização de várias indicações do número de camadas, componentes de primeiro plano e componentes de segundo plano, a unidade de extração escalonável 1012 pode definir o elemento de sintaxe NumFGChannels_PrevFrame[i] e o elemento de sintaxe NumBGchannel_PrevFrame[i] para as indicações para o quadro atual (por exemplo, o elemento de sintaxe NumFGchannels[i] e o NumBGchannels[i], iterando através de todas as camadas i. isso é representado na seguinte sintaxe: [000196] To enable the above techniques that can potentially reduce signaling of various indications of the number of layers, foreground components, and background components, the scalable extraction unit 1012 may define the syntax element NumFGChannels_PrevFrame[i] and the syntax element NumBGchannel_PrevFrame[i] to the indications for the current frame (e.g., the syntax element NumFGchannels[i] and the NumBGchannels[i], it running through all layers i. this is represented in the following syntax:

[000197] Quando a indicação indica que o número de camadas do fluxo de bits mudou no quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior (por exemplo, quando o HOABaseLayerConfigurationFlag é igual a um), a unidade de extração escalonável 1012 obtém o elemento de sintaxe NumLayerBits como uma função do numHOATransportChannels, que é passado para a tabela de sintaxe tendo sido obtida de acordo com outras tabelas de sintaxe não descritas nessa)[000197] When the indication indicates that the number of bitstream layers has changed in the current frame when compared to the number of bitstream layers in the previous frame (for example, when the HOABaseLayerConfigurationFlag is equal to one), the scalable extraction unit 1012 gets the syntax element NumLayerBits as a function of numHOATransportChannels, which is passed to the syntax table having been obtained according to other syntax tables not described in this one)

[000198] A unidade de extração escalonável 1012 no fluxo de bits (por exemplo, o elemento de sintaxe NumLayers), onde a indicação pode ter um número de bits indicados pelo elemento de sintaxe NumLayerBits. O elemento de sintaxe NumLayers pode especificar o número de camadas especificadas no fluxo de bits, onde o número de camadas pode ser indicado como L acima. A unidade de extração escalonável 1012 pode determinar a seguir o numAvailableTransportChannels como uma função do numHOATransportChannels e o numAvailableTransportChannels como uma função do numAvailableTransportChannels.[000198] The scalable extraction unit 1012 in the bit stream (for example, the NumLayers syntax element), where the indication can be a number of bits indicated by the NumLayerBits syntax element. The NumLayers syntax element can specify the number of layers specified in the bitstream, where the number of layers can be indicated as L above. The scalable extraction unit 1012 may then determine the numAvailableTransportChannels as a function of numHOATransportChannels and the numAvailableTransportChannels as a function of numAvailableTransportChannels.

[000199] A unidade de extração escalonável 1012 pode então iterar através de NumLayers de 1 até Num-Layers- 1 para determinar o número de canais HOA de segundo plano (Bi) e o número de canais HOA de primeiro plano (Fi) especificado para ia camada. A unidade de extração escalonável 1012 pode não iterar através do número de última camada (NumLayer) e somente através da NumLayer-1 visto que a última camada BL pode ser determinada quando o número total de canais HOA de primeiro plano e segundo plano enviados no fluxo de bits são conhecidos pela unidade de extração escalonável 1012 (por exemplo, quando o número total de canais HOA de primeiro plano e segundo plano são sinalizados como elementos de sintaxe).[000199] The scalable extraction unit 1012 can then iterate through NumLayers 1 through Num-Layers- 1 to determine the number of background HOA channels (Bi) and the number of foreground HOA channels (Fi) specified for i layer. The scalable extraction unit 1012 may not iterate through the last layer number (NumLayer) and only through NumLayer-1 since the last BL layer can be determined when the total number of foreground and background HOA channels sent in the bit stream are known by the scalable extraction unit 1012 (e.g. when the total number of foreground and background HOA channels are signaled as syntax elements).

[000200] Nesse aspecto, a unidade de extração escalonável 1012 pode obter as camadas do fluxo de bits baseado na indicação do número de camadas. A unidade de extração escalonável 1012 pode, como descrito acima, obter uma indicação de um número de canais especificados no fluxo de bits 21 (por exemplo, numHOATransportChannels), e obter as camadas, por pelo menos em parte, obter as camadas do fluxo de bits 21 com base na indicação do número de camadas e a indicação do número de canais.[000200] In this regard, the scalable extraction unit 1012 can obtain the layers of the bitstream based on the indication of the number of layers. The scalable extraction unit 1012 can, as described above, obtain an indication of a specified number of channels in the bitstream 21 (e.g., numHOATransportChannels), and obtain the layers, by at least in part obtaining the layers of the bitstream 21 based on the indication of the number of layers and the indication of the number of channels.

[000201] Ao iterar através de cada camada, a unidade de extração escalonável 1012 pode primeiramente determinar o número de canais de primeiro plano para a ia camada por obter o elemento de sintaxe NumFGchannels[i]. A unidade de extração escalonável 1012 pode então subtrair o NumFGchannels[i] do numAvailableTransportChannels para atualizar o numAvailableTransportChannels e refletir que NumFGchannels[i] dos canais HOA de primeiro plano 61 (que podem ser também mencionados como os “sinais nFG codificados 61”) foram extraídos do fluxo de bits. Desse modo, a unidade de extração escalonável 1012 pode obter uma indicação de um número de canais de primeiro plano especificados no fluxo de bits 21 para pelo menos uma das camadas (por exemplo, numFGchannels) e obter os canais de primeiro plano para pelo menos uma das camadas do fluxo de bits com base na indicação do número de canais de primeiro plano.[000201] When iterating through each layer, the scalable extraction unit 1012 may first determine the number of foreground channels for the 1st layer by obtaining the syntax element NumFGchannels[i]. The scalable extraction unit 1012 can then subtract the NumFGchannels[i] from the numAvailableTransportChannels to update the numAvailableTransportChannels to reflect that the NumFGchannels[i] of the foreground HOA channels 61 (which may also be referred to as the "coded nFG signals 61") have been extracted from the bitstream. In this way, the scalable extraction unit 1012 can obtain an indication of a number of foreground channels specified in the bitstream 21 for at least one of the layers (e.g., numFGchannels) and obtain the foreground channels for at least one of the layers of the bitstream based on the indication of the number of foreground channels.

[000202] De modo semelhante, a unidade de extração escalonável 1012 pode determinar o número de canais de segundo plano para a ia camada por obter o elemento de sintaxe NumBGchannels[i]. A unidade de extração escalonável 1012 pode então subtrair o NumBGchannels[i] a partir do numAvailableTransportChannels para refletir que NumBGchannels[i] dos canais HOA de segundo plano 59 (que também podem ser mencionados como os “coeficientes HOA ambiente codificados 59”) foram extraídos do fluxo de bits. Desse modo, a unidade de extração escalonável 1012 pode obter uma indicação de um número de canais de segundo plano (por exemplo, NumBGchannels) especificado no fluxo de bits 21 para pelo menos uma das camadas, e obter os canais de segundo plano para pelo menos uma das camadas do fluxo de bits com base na indicação do número de canais de segundo plano.[000202] Similarly, the scalable extraction unit 1012 can determine the number of background channels for the 1st layer by obtaining the NumBGchannels[i] syntax element. The scalable extraction unit 1012 can then subtract the NumBGchannels[i] from the numAvailableTransportChannels to reflect that the NumBGchannels[i] of the background HOA channels 59 (which may also be referred to as the "encoded ambient HOA coefficients 59") have been extracted from the bit stream. In this way, the scalable extraction unit 1012 can obtain an indication of a number of background channels (e.g., NumBGchannels) specified in the bitstream 21 for at least one of the layers, and obtain the background channels for at least one of the layers of the bitstream based on the indication of the number of background channels.

[000203] A unidade de extração escalonável 1012 pode continuar por obter o numAvailableTransportChannelsBits como uma função do numAvailableTransports. De acordo com a tabela de sintaxe acima, a unidade de extração escalonável 1012 pode analisar o número de bits especificado pelo numAvaiableTransportChannelsBits para determinar o numFGchannels[i] e o NumBGchannels [i]. Dado que o numAvailableTransportChannelBits muda (por exemplo, se torna menor após cada iteração), o número de bits usados para representar o elemento de sintaxe NumFGchannels[i] e o elemento de sintaxe numBGchannels[i] reduz, desse modo fornece uma forma de codificação de comprimento variável que potencialmente reduz overhead na sinalização do elemento de sintaxe NumFGchannels[i] e o elemento de sintaxe NumBGchannels [i].[000203] Scalable extraction unit 1012 can proceed by getting numAvailableTransportChannelsBits as a function of numAvailableTransports. According to the above syntax table, the scalable extraction unit 1012 can parse the number of bits specified by numAvaiableTransportChannelsBits to determine the numFGchannels[i] and the NumBGchannels[i]. As the numAvailableTransportChannelBits changes (e.g., becomes smaller after each iteration), the number of bits used to represent the NumFGchannels[i] syntax element and the numBGchannels[i] syntax element reduces, thereby providing a variable-length encoding form that potentially reduces overhead in signaling the NumFGchannels[i] syntax element and the NumBGchannels[i] syntax element.

[000204] Como observado acima, a unidade de geração de fluxo de bits escalonável 1000 pode especificar o elemento de sintaxe NumChannels no lugar dos elementos de sintaxe NumFGchannels e NumBGchannels. Nesse caso, a unidade de extração escalonável 1012 pode ser configurada para operar de acordo com a segunda tabela de sintaxe HOADecoderConfig mostrada acima.[000204] As noted above, the scalable bitstream generation unit 1000 may specify the NumChannels syntax element in place of the NumFGchannels and NumBGchannels syntax elements. In that case, the scalable extraction unit 1012 can be configured to operate in accordance with the second HOADecoderConfig syntax table shown above.

[000205] Nesse aspecto, a unidade de extração escalonável 1012 pode, quando a indicação indica que o número de camadas do fluxo de bits mudou no quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior, obter uma indicação de um número de componentes em uma ou mais das camadas para o quadro atual com base em um número de componentes em uma ou mais das camadas do quadro anterior. A unidade de extração escalonável 1012 pode obter ainda uma indicação de um número de componentes de segundo plano em uma ou mais camadas para o quadro atual com base na indicação do número de componentes. A unidade de extração escalonável 1012 pode também obter uma indicação de um número de componentes de primeiro plano em uma ou mais camadas para o quadro atual com base na indicação do número de componentes.[000205] In this regard, the scalable extraction unit 1012 can, when the indication indicates that the number of layers of the bitstream has changed in the current frame when compared to the number of layers of the bitstream in the previous frame, obtain an indication of a number of components in one or more of the layers for the current frame based on a number of components in one or more of the layers of the previous frame. The scalable extraction unit 1012 may further obtain an indication of a number of background components in one or more layers for the current frame based on the indication of the number of components. The scalable extraction unit 1012 may also obtain an indication of a number of foreground components in one or more layers for the current frame based on the indication of the number of components.

[000206] Dado que o número de camadas pode mudar de quadro para quadro que a indicação do número de canais de primeiro plano e segundo plano pode mudar de quadro para quadro, a indicação de que o número de camadas mudou pode efetivamente também indicar que o número de canais mudou. Como resultado, a indicação de que o número de camadas mudou pode resultar na unidade de extração escalonável 1012 obtendo uma indicação de se o número de canais especificado em uma ou mais camadas no fluxo de bits 21 mudou em um quadro atual quando comparado com um número de canais especificado em uma ou mais camadas no fluxo de bits do quadro anterior. Como tal, a unidade de extração escalonável 1012 pode obter um dos canais com base na indicação de se o número de canais especificados em uma ou mais camadas no fluxo de bits mudou no quadro atual.[000206] Given that the number of layers can change from frame to frame that the indication of the number of foreground and background channels can change from frame to frame, the indication that the number of layers has changed can effectively also indicate that the number of channels has changed. As a result, the indication that the number of layers has changed can result in the scalable extraction unit 1012 obtaining an indication of whether the specified number of channels in one or more layers in the bit stream 21 has changed in a current frame when compared to a specified number of channels in one or more layers in the previous frame's bit stream. As such, the scalable extraction unit 1012 can obtain one of the channels based on an indication of whether the number of channels specified in one or more layers in the bitstream has changed in the current frame.

[000207] Além disso, a unidade de extração escalonável 1012 pode determinar o número de canais especificados em uma ou mais camadas do fluxo de bits 21 no quadro atual como igual ao número de canais especificados em uma ou mais camadas do fluxo de bits 21 no quadro anterior quando a indicação indica que o número de canais especificados em uma ou mais camadas do fluxo de bits 21 não mudou no quadro atual quando comparado com o número de canais especificados em uma ou mais camadas do fluxo de bits no quadro anterior.[000207] Furthermore, the scalable extraction unit 1012 can determine the number of channels specified in one or more layers of the bitstream 21 in the current frame as equal to the number of channels specified in one or more layers of the bitstream 21 in the previous frame when the indication indicates that the number of channels specified in one or more layers of the bitstream 21 has not changed in the current frame when compared to the number of channels specified in one or more layers of the bitstream in the previous frame.

[000208] Além disso, a unidade de extração escalonável 1012 pode, quando a indicação indica que o número de canais especificados em uma ou mais camadas do fluxo de bits 21 não mudou no quadro atual quando comparado com o número de canais especificados em um ou mais camadas do fluxo de bits no quadro anterior, obter uma indicação de um número atual de canais em uma ou mais das camadas para o quadro atual como sendo igual a um número anterior de canais em uma ou mais das camadas do quadro anterior.[000208] Furthermore, the scalable extraction unit 1012 can, when the indication indicates that the number of channels specified in one or more layers of the bitstream 21 has not changed in the current frame when compared with the number of channels specified in one or more layers of the bitstream in the previous frame, obtain an indication of a current number of channels in one or more of the layers for the current frame as being equal to a previous number of channels in one or more of the layers of the previous frame.

[000209] Para permitir as técnicas acima que podem reduzir potencialmente a sinalização de várias indicações do número de camadas e componentes (que também pode ser mencionado como “canais” nessa revelação), a unidade de extração escalonável 1012 pode definir o elemento de sintaxe NumChannels_PrevFrame[i] para as indicações para o quadro atual (por exemplo, o elemento de sintaxe NumChannels[i], iterando através de todas as camadas i. isso é representado na seguinte sintaxe: [000209] To allow for the above techniques that can potentially reduce the signaling of various indications of the number of layers and components (which may also be referred to as "channels" in this disclosure), the scalable extraction unit 1012 may set the syntax element NumChannels_PrevFrame[i] to the indications for the current frame (e.g., the syntax element NumChannels[i], iterating through all layers i. This is represented in the following syntax:

[000210] Alternativamente, o elemento de sintaxe acima (NumLayersPrevFrame=NumLayers, etc.) pode ser omitido e a tabela de sintaxe HOADecoderConfig(numHOATransportChannels) listada acima pode ser atualizada como exposto na seguinte tabela: [000210] Alternatively, the above syntax element (NumLayersPrevFrame=NumLayers, etc.) can be omitted and the HOADecoderConfig(numHOATransportChannels) syntax table listed above can be updated as shown in the following table:

[000211] Ainda como outra alternativa, a unidade de extração 72 pode operar de acordo com o terceiro HOADecdor Config listado acima. De acordo com a terceira tabela de sintaxe HOADecoderConfig listada acima, a unidade de extração escalonável 1012 pode ser configurada para obter, a partir do fluxo de bits escalonável 21, uma indicação de um número de canais especificados em uma ou mais camadas no fluxo de bits, e obter os canais especificados em uma ou mais camadas no fluxo de bits com base na indicação do número de canais (que pode se referir a um componente de segundo plano ou um componente de primeiro plano do campo de som). Nessas e em outras instâncias, a unidade de extração escalonável 1012 pode ser configurada para obter um elemento de sintaxe (por exemplo, o codedLayerCh na tabela acima referenciada) indicativa do número de canais.[000211] As yet another alternative, the extraction unit 72 can operate according to the third HOADecdor Config listed above. According to the third HOADecoderConfig syntax table listed above, the scalable extraction unit 1012 can be configured to obtain, from the scalable bitstream 21, an indication of a specified number of channels in one or more layers in the bitstream, and to obtain the specified channels in one or more layers in the bitstream based on the indication of the number of channels (which may refer to a background component or a foreground component of the sound field). In these and other instances, scalable extraction unit 1012 may be configured to obtain a syntax element (eg, the codedLayerCh in the above-referenced table) indicative of the number of channels.

[000212] Nessas e em outras instâncias, a unidade de extração escalonável 1012 pode ser configurada para obter uma indicação de um número total de canais especificados no fluxo de bits. A unidade de extração escalonável 1012 pode ser também configurada para obter os canais especificados em uma ou mais camadas com base na indicação do número de canais especificados em uma ou mais camadas e a indicação do número total de canais. Nessas e em outras instâncias, a unidade de extração escalonável 1012 pode ser configurada par obter um elemento de sintaxe (por exemplo, o elemento de sintaxe NumHOATransportChannels acima mencionado) indicativo do número total de canais.[000212] In these and other instances, the scalable extraction unit 1012 may be configured to obtain an indication of a total number of channels specified in the bit stream. The scalable extraction unit 1012 can also be configured to obtain the specified channels in one or more layers based on the indication of the specified number of channels in the one or more layers and the indication of the total number of channels. In these and other instances, scalable extraction unit 1012 may be configured to obtain a syntax element (e.g., the aforementioned NumHOATransportChannels syntax element) indicative of the total number of channels.

[000213] Nessas e em outras instâncias, a unidade de extração escalonável 1012 pode ser configurada para obter uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits. A unidade de extração escalonável 1012 pode ser também configurada para obter um dos canais com base na indicação do número de camadas e a indicação do tipo de um dos canais.[000213] In these and other instances, the scalable extraction unit 1012 may be configured to obtain an indication of a type from one of the specified channels in one or more layers in the bitstream. The scalable extraction unit 1012 can also be configured to obtain one of the channels based on the indication of the number of layers and the indication of the type of one of the channels.

[000214] Nessas e em outras instâncias, a unidade de extração escalonável 1012 pode ser configurada para obter uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, a indicação do tipo de um dos canais indicando que um dos canais é um canal de primeiro plano. A unidade de extração escalonável 1012 pode ser configurada para obter um dos canais com base na indicação do número de camadas e a indicação de que o tipo de um dos canais é o canal de primeiro plano. Nessas instâncias, um dos canais compreende um objeto de áudio US e um vetor-V correspondente.[000214] In these and other instances, the scalable extraction unit 1012 can be configured to obtain an indication of a type of one of the channels specified in one or more layers in the bitstream, the indication of the type of one of the channels indicating that one of the channels is a foreground channel. The scalable extraction unit 1012 can be configured to obtain one of the channels based on the indication of the number of layers and the indication that the type of one of the channels is the foreground channel. In these instances, one of the channels comprises a US audio object and a corresponding V-vector.

[000215] Nessas e em outras instâncias, a unidade de extração escalonável 1012 pode ser configurada para obter uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, a indicação do tipo de um dos canais indicando que um dos canais é um canal de segundo plano. Nessas instâncias, a unidade de extração escalonável 1012 pode ser também configurada para obter um dos canais com base na indicação do número de camadas e a indicação de que o tipo de um dos canais é o canal de segundo plano. Nessas instâncias, um dos canais compreende um coeficiente ambisonic de ordem superior de segundo plano.[000215] In these and other instances, the scalable extraction unit 1012 can be configured to obtain an indication of a type of one of the channels specified in one or more layers in the bitstream, the indication of the type of one of the channels indicating that one of the channels is a background channel. In such instances, the scalable extraction unit 1012 may also be configured to obtain one of the channels based on the indication of the number of layers and the indication that the type of one of the channels is the background channel. In these instances, one of the channels comprises a background higher-order ambisonic coefficient.

[000216] Nessas e em outras instâncias, a unidade de extração escalonável 1012 pode ser configurada para obter um elemento de sintaxe (por exemplo, o elemento de sintaxe ChannelType descrito acima com relação à figura 30) indicativo do tipo de um dos canais.[000216] In these and other instances, the scalable extraction unit 1012 can be configured to obtain a syntax element (for example, the ChannelType syntax element described above with respect to figure 30) indicative of the type of one of the channels.

[000217] Nessas e em outras instâncias, a unidade de extração escalonável 1012 pode ser configurada para obter a indicação do número de canais com base em um número de canais que resta no fluxo de bits após obtenção de uma das camadas. Isto é, o valor do elemento de sintaxe HOALayerChBits varia como uma função do elemento de sintaxe remainingCh como exposto na tabela de sintaxe acima por todo o curso do loop. A unidade de extração escalonável 1012 pode então analisar o elemento de sintaxe codedLayerCh com base no elemento de sintaxe HOALayerChBits em mutação.[000217] In these and other instances, the scalable extraction unit 1012 can be configured to obtain the indication of the number of channels based on a number of channels remaining in the bitstream after obtaining one of the layers. That is, the value of the HOALayerChBits syntax element varies as a function of the remainingCh syntax element as shown in the above syntax table throughout the course of the loop. The scalable extraction unit 1012 can then parse the codedLayerCh syntax element based on the mutating HOALayerChBits syntax element.

[000218] Voltando ao exemplo dos quatro canais de segundo plano e os dois canais de primeiro plano, a unidade de extração escalonável 1012 pode receber uma indicação de que o número de camadas é dois, isto é, a camada base 21A e a camada de aperfeiçoamento 21B no exemplo da figura 6. A unidade de extração escalonável 1012 pode obter uma indicação de que o número de canais de primeiro plano é zero para a camada base 21A (por exemplo, a partir de NumFGchannels [0] e dois para a camada de aperfeiçoamento 21B (por exemplo, de NumFGchannels[1]). A unidade de extração escalonável 1012 pode, nesse exemplo, também obter uma indicação de que o número de canais de segundo plano é quatro para a camada base 21A (por exemplo, de NumBGchannels [0]) e zero para a camada de aperfeiçoamento 21B (por exemplo, de NumBGchannels[1]). Embora descrito com relação a um exemplo específico, qualquer combinação diferente de canais de segundo plano e primeiro plano pode ser indicada. A unidade de extração escalonável 1012 pode então extrair os quatro canais de segundo plano especificados 59A-59D a partir da camada base 21A e os dois canais de primeiro plano 61A e 61B a partir da camada de aperfeiçoamento 21B (juntamente com a informação de vetor-V correspondente 57A e 57B a partir da informação de banda lateral).[000218] Returning to the example of the four background channels and the two foreground channels, the scalable extraction unit 1012 can receive an indication that the number of layers is two, that is, the base layer 21A and the enhancement layer 21B in the example of figure 6. The scalable extraction unit 1012 can obtain an indication that the number of foreground channels is zero for the base layer 21A (for example, from NumFG channels[0] and two for enhancement layer 21B (eg, from NumFGchannels[1]). The scalable extraction unit 1012 may, in that example, also obtain an indication that the number of background channels is four for base layer 21A (eg, from NumBGchannels[0]) and zero for enhancement layer 21B (eg, from NumBGchannels[1]). Although described with respect to a specific example, any different combination of channels background and foreground can be indicated. The scalable extraction unit 1012 can then extract the four specified background channels 59A-59D from the base layer 21A and the two foreground channels 61A and 61B from the enhancement layer 21B (along with the corresponding V-vector information 57A and 57B from the sideband information).

[000219] Embora descrito acima com relação aos elementos de sintaxe NumFGchannels e ao NumBGchannels, as técnicas também podem ser executadas usando o elemento de sintaxe ChannelType a partir da tabela de sintaxe ChannelSideinfo acima. Nesse aspecto, o NumFGchannels e o NumBGchannels também podem representar uma indicação de um tipo de um dos canais. Em outras palavras, o NumBGchannels pode representar uma indicação de que um tipo de um dos canais é um canal de segundo plano. O NumFGchannels pode representar uma indicação de que um tipo de um dos canais é um canal de primeiro plano.[000219] While described above with regards to NumFGchannels and NumBGchannels syntax elements, the techniques can also be performed using the ChannelType syntax element from the ChannelSideinfo syntax table above. In this respect, NumFGchannels and NumBGchannels can also represent an indication of a type of one of the channels. In other words, the NumBGchannels can represent an indication that a type of one of the channels is a background channel. The NumFGchannels can represent an indication that a type of one of the channels is a foreground channel.

[000220] Como tal, se o elemento de sintaxe ChannelType ou o elemento de sintaxe NumFGchannels com o elemento de sintaxe NumBGchannels forem usados (ou potencialmente ambos ou algum subconjunto de qualquer um), a unidade de extração de fluxo de bits escalonável 1012 pode obter uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits. A unidade de extração de fluxo de bits escalonável 1012 pode, quando a indicação do tipo indica que um dos canais é um canal de segundo plano, obter um dos canais com base na indicação do número de camadas e a indicação de que o tipo de um dos canais é o canal de segundo plano. A unidade de extração de fluxo de bits escalonável 1012 pode, quando a indicação do tipo indica que um dos canais é um canal de primeiro plano, obter um dos canais com base na indicação do número de camadas e a indicação de que o tipo de um dos canais é o canal de primeiro plano.[000220] As such, if either the ChannelType syntax element or the NumFGchannels syntax element with the NumBGchannels syntax element are used (or potentially both or some subset of either), the scalable bitstream extraction unit 1012 can obtain an indication of a type of one of the specified channels in one or more layers in the bitstream. The scalable bitstream extraction unit 1012 can, when the type indication indicates that one of the channels is a background channel, obtain one of the channels based on the indication of the number of layers and the indication that the type of one of the channels is the background channel. The scalable bitstream extraction unit 1012 can, when the type indication indicates that one of the channels is a foreground channel, obtain one of the channels based on the indication of the number of layers and the indication that the type of one of the channels is the foreground channel.

[000221] A unidade de reconstrução de vetor-V 74 pode representar uma unidade configurada para reconstruir os vetores-V a partir dos vetores V[k] de primeiro plano codificados 57. A unidade de reconstrução de vetor-V 74 pode operar em um modo recíproco àquele da unidade de quantização 52.[000221] The V-vector reconstruction unit 74 may represent a unit configured to reconstruct the V-vectors from the encoded foreground V[k] vectors 57. The V-vector reconstruction unit 74 may operate in a reciprocal mode to that of the quantization unit 52.

[000222] A unidade de decodificação psicoacústica 80 pode operar em um modo recíproco à unidade de codificador de áudio psicoacústico 40 mostrada no exemplo da figura 3 de modo a decodificar os coeficientes HOA ambiente codificados 59 e os sinais nFG codificados 61 e desse modo gerar sinais de áudio HOA ambiente ajustados 67’ e os sinais nFG interpolados ajustados 49’’ (que também podem ser mencionados como objetos de áudio nFG interpolados ajustados 49’). A unidade de decodificação psicoacústica 80 pode passar os sinais de áudio HOA ambiente ajustados 67’ e os sinais nFG interpolados ajustados 49’’ para a unidade de controle de ganho inverso 86.[000222] The psychoacoustic decoding unit 80 can operate in a reciprocal mode to the psychoacoustic audio encoder unit 40 shown in the example of figure 3 in order to decode the ambient HOA coded coefficients 59 and the encoded nFG signals 61 and thereby generate ambient HOA audio signals adjusted 67' and the interpolated nFG signals adjusted 49'' (which can also be referred to as objects nFG interpolated audio files adjusted 49'). The psychoacoustic decoding unit 80 can pass the ambient HOA audio signals set 67' and the interpolated nFG signals set 49'' to the inverse gain control unit 86.

[000223] A unidade de controle de ganho inverso 86 pode representar uma unidade configurada para executar um controle de ganho inverso com relação a cada dos sinais de áudio HOA ambiente ajustados 67’ e os sinais nFG interpolados ajustados 49’’, onde esse controle de ganho inverso é recíproco ao controle de ganho executado pela unidade de controle de ganho 62. A unidade de controle de ganho inverso 86 pode executar o controle de ganho inverso de acordo com o HOAGCD correspondente especificado na informação de banda lateral discutida acima com relação aos exemplos das figuras 11-13B. A unidade de controle de ganho inverso 86 pode transmitir sinais de áudio HOA ambiente decorrelacionados 67 para a unidade de recorrelação 88 (mostrada como “unidade recorr 88” no exemplo da figura 4) e os sinais de áudio nFG interpolados 49’’ para a unidade de formulação de primeiro plano 78.[000223] The inverse gain control unit 86 can represent a unit configured to perform an inverse gain control with respect to each of the HOA ambient audio signals adjusted 67' and the interpolated nFG signals adjusted 49'', where this inverse gain control is reciprocal to the gain control performed by the gain control unit 62. The inverse gain control unit 86 can perform inverse gain control according to the corresponding HOAGCD specified in sideband information discussed above with respect to the examples of Figures 11-13B. The inverse gain control unit 86 can transmit decorrelated ambient HOA audio signals 67 to the recursion unit 88 (shown as "recurr unit 88" in the example of Figure 4) and the interpolated nFG audio signals 49'' to the foreground formulation unit 78.

[000224] A unidade de recorrelação 88 pode implementar técnicas dessa revelação para reduzir correlação entre canais de segundo plano dos sinais de áudio HOA ambiente decorrelacionados 67 para reduzir ou mitigar desmascaramento de ruído. Nos exemplos onde a unidade de recorrelação 88 aplica uma matriz UHJ (por exemplo, uma matriz UHJ inversa) como a transformada de recorrelação selecionada, a unidade de recorrelação 81 pode aperfeiçoar as taxas de compressão e conservar recursos de computação por reduzir operações de processamento de dados.[000224] Recurrence unit 88 can implement techniques of this disclosure to reduce correlation between background channels of decorrelated ambient HOA audio signals 67 to reduce or mitigate noise unmasking. In instances where the recursion unit 88 applies a UHJ matrix (e.g., an inverse UHJ matrix) as the selected recursion transform, the recursion unit 81 can improve compression rates and conserve computing resources by reducing data processing operations.

[000225] Em alguns exemplos, o fluxo de bits escalonável 21 pode incluir um ou mais elementos de sintaxe que indicam que uma transformada de decorrelação foi aplicada durante codificação. A inclusão de tais elementos de sintaxe no fluxo de bits baseado em vetor 21 pode permitir que a unidade de recorrelação 88 execute transformadas de decorrelação recíproca (por exemplo, correlação ou recorrelação) nos sinais de áudio HOA ambiente decorrelacionados 67. Em alguns exemplos, os elementos de sintaxe de sinal podem indicar qual transformada de decorrelação foi aplicada, como a matriz UHJ ou a matriz de modo, desse modo permitindo que unidade de recorrelação 88 selecione a transformada de recorrelação apropriada para aplicar aos sinais de áudio HOA decorrelacionados 67.[000225] In some examples, the scalable bitstream 21 may include one or more syntax elements that indicate that a decorrelation transform has been applied during encoding. The inclusion of such syntax elements in the vector-based bit stream 21 may allow the recursion unit 88 to perform reciprocal decorrelation transforms (e.g., correlation or recurration) on the decorrelated ambient HOA audio signals 67. In some examples, the signal syntax elements may indicate which decorrelation transform has been applied, such as the UHJ matrix or the mode matrix, thereby allowing the recursion unit 88 to select the appropriate recursion transform to apply to the HO audio signals The decorrelated 67.

[000226] A unidade de recorrelação 88 pode executar a recorrelação com relação aos sinais de áudio HOA ambiente decorrelacionados 67 para obter coeficientes HOA ambiente compensados em energia 47’. A unidade de recorrelação 88 pode transmitir os coeficientes HOA ambiente compensados em energia 47’ para a unidade de desvanecimento 770. Embora descrito como executando a decorrelação, em alguns exemplos nenhuma decorrelação pode ter sido executada. Como tal, a unidade de reconstrução baseada em vetor 92 pode não executar ou em alguns exemplos incluir uma unidade de recorrelação 88. A ausência da unidade de recorrelação 88 em alguns exemplos é indicada.[000226] The re-relation unit 88 can perform re-relation with respect to the decorrelated ambient HOA audio signals 67 to obtain energy-compensated ambient HOA coefficients 47'. The re-correlation unit 88 may transmit the energy-compensated ambient HOA coefficients 47' to the fading unit 770. Although described as performing de-correlation, in some examples no de-correlation may have been performed. As such, vector based reconstruction unit 92 may not perform or in some examples include a recursion unit 88. The absence of recursion unit 88 in some examples is indicated.

[000227] A unidade de interpolação espaço- temporal 76 pode operar em um modo similar àquele descrito acima com relação à unidade de interpolação espaço-temporal 50. A unidade de interpolação espaço-temporal 76 pode receber os vetores V[k] de primeiro plano reduzidos 55k e executar a interpolação espaço-temporal com relação aos vetores V[k] de primeiro plano 55k e os vetores V[k-1] de primeiro plano reduzidos 55k-1 para gerar vetores V[k] de primeiro plano interpolados 55k”. A unidade de interpolação espaço-temporal 76 pode enviar os vetores V[k] de primeiro plano interpolados 55k” para a unidade de desvanecimento 770.[000227] The space-time interpolation unit 76 can operate in a similar manner to that described above with respect to the space-time interpolation unit 50. The space-time interpolation unit 76 can receive the reduced foreground vectors V[k] 55k and perform space-time interpolation with respect to the foreground vectors V[k] 55k and the foreground vectors V[k-1] reduced 55k-1 to generate 55k interpolated foreground V[k] vectors”. The space-time interpolation unit 76 may send the 55k” interpolated foreground vectors V[k] to the fading unit 770.

[000228] A unidade de extração 72 pode também transmitir um sinal 757 indicativo de quando um dos coeficientes HOA ambiente está em transição para a unidade de desvanecimento 770, que pode então determinar qual do SHCBG 47’ (onde o SHCBG 47’ pode ser também indicado como “canais HOA ambiente 47”’ ou “coeficientes HOA ambiente 47’”) e os elementos dos vetores V[k] de primeiro plano interpolados 55k” são para ser desvanecidos ou desaparecidos. Em alguns exemplos, a unidade de desvanecimento 770 pode operar oposta com relação a cada dos coeficientes HOA ambiente 47’ e os elementos dos vetores V[k] de primeiro plano interpolados 55k”. Isto é, a unidade de desvanecimento 770 pode executar um desvanecimento ou desaparecimento, ou tanto um desvanecimento como desaparecimento com relação a um correspondente dos coeficientes HOA ambiente 47’, enquanto executa um desvanecimento ou desaparecimento ou tanto um desvanecimento como um desaparecimento, com relação a um correspondente dos elementos dos vetores V[k] de primeiro plano interpolados 55k”. A unidade de desvanecimento 770 pode transmitir coeficientes HOA ambiente ajustados 47” para a unidade de formulação de coeficiente HOA 82 e vetores V[k] de primeiro plano ajustados 55k”’ para a unidade de formulação de primeiro plano 78. Nesse aspecto, a unidade de desvanecimento 770 representa uma unidade configurada para executar uma operação de desvanecimento com relação a vários aspectos dos coeficientes HOA ou derivados dos mesmos, por exemplo, na forma de coeficientes HOA ambiente 47’ e os elementos dos vetores V[k] de primeiro plano interpolados 55k”.[000228] The extraction unit 72 can also transmit a signal 757 indicative of when one of the ambient HOA coefficients is in transition to the fading unit 770, which can then determine which of the SHCBG 47' (where the SHCBG 47' can also be indicated as "ambient HOA channels 47"' or "ambient HOA coefficients 47'") and the elements of the interpolated foreground vectors V[k] 55k” are to be faded or faded. In some examples, the fading unit 770 may operate opposite with respect to each of the ambient HOA coefficients 47' and the elements of the interpolated foreground V[k] vectors 55k”. That is, the fading unit 770 can perform a fade or fade, or both a fade and fade with respect to a corresponding one of the ambient HOA coefficients 47', while performing a fade or fade or both a fade and a fade, with respect to a correspondent of the elements of the interpolated foreground vectors V[k] 55k". Fading unit 770 may transmit 47" adjusted ambient HOA coefficients to 55k" adjusted HOA coefficient formulation unit and 55k" adjusted foreground vectors V[k] to 78 foreground formulation unit. 47' and the interpolated foreground V[k] vector elements 55k”.

[000229] A unidade de formulação de primeiro plano 78 pode representar uma unidade configurada para executar multiplicação de matriz com relação aos vetores V[k] de primeiro plano ajustados 55k”’ e os sinais nFG interpolados 49’ para gerar os coeficientes HOA de primeiro plano 65. Nesse aspecto, a unidade de formulação de primeiro plano 78 pode combinar os objetos de áudio 49’ (que é outro modo pelo qual indicar os sinais nFG interpolados 49’) com os vetores 55k”’ para reconstruir o primeiro plano ou, em outras palavras, aspectos predominantes dos coeficientes HOA 11’. A unidade de formulação de primeiro plano 78 pode executar uma multiplicação de matriz dos sinais nFG interpolados 49’ pelos vetores V[k] de primeiro plano ajustados 55k”’.[000229] The foreground formulation unit 78 can represent a unit configured to perform matrix multiplication with respect to the adjusted foreground vectors V[k] 55k"' and the interpolated nFG signals 49' to generate the foreground HOA coefficients 65. In this regard, the foreground formulation unit 78 can combine the audio objects 49' (which is another way in which to indicate the interpolated nFG signals 49') with the 55k”’ vectors to reconstruct the foreground or, in other words, predominant aspects of the HOA 11’ coefficients. The foreground formulation unit 78 may perform a matrix multiplication of the interpolated nFG signals 49' by the adjusted foreground vectors V[k] 55k"'.

[000230] A unidade de formulação de coeficiente HOA 82 pode representar uma unidade configurada para combinar os coeficientes HOA de primeiro plano 65 com os coeficientes HOA ambiente 47” de modo a obter os coeficientes HOA 11’. A notação principal reflete que os coeficientes HOA 11’ podem ser similares a, porém não iguais aos coeficientes HOA 11. As diferenças entre os coeficientes HOA 11 e 11’ podem resultar de perda devido à transmissão através de uma mídia de transmissão de perda, quantização ou outras operações de perda.[000230] The HOA coefficient formulation unit 82 can represent a unit configured to combine the foreground HOA coefficients 65 with the ambient HOA coefficients 47” in order to obtain the HOA coefficients 11'. The main notation reflects that the HOA 11' coefficients may be similar to, but not the same as, the HOA 11 coefficients. Differences between the HOA 11 and 11' coefficients may result from loss due to transmission through a lossy transmission media, quantization, or other lossy operations.

[000231] As figuras 14A e 14B são fluxogramas ilustrando operações de exemplo de dispositivo de codificação de áudio 20 na execução de vários aspectos das técnicas descritas nessa revelação. Com referência primeiramente ao exemplo da figura 14A, o dispositivo de codificação de áudio 20 pode obter canais para um quadro atual de coeficientes HOA 11 no modo descrito acima (por exemplo, uma decomposição linear, interpolação, etc.) (500). Os canais podem compreender coeficientes HOA ambiente codificados 59, sinais nFG codificados 61 (e banda lateral correspondente na forma de vetores-V de primeiro plano codificados 57) ou tanto coeficiente HOA ambiente codificado 59 como sinais nFG codificados 61 (e banda lateral correspondente na forma de vetores-V de primeiro plano codificados 57).[000231] Figures 14A and 14B are flowcharts illustrating example operations of audio encoding device 20 in performing various aspects of the techniques described in this disclosure. Referring first to the example of Fig. 14A, the audio coding device 20 can obtain channels for a current frame of HOA coefficients 11 in the manner described above (eg, a linear decomposition, interpolation, etc.) (500). The channels may comprise coded ambient HOA coefficients 59, coded nFG signals 61 (and corresponding sideband in the form of coded foreground V-vectors 57) or both coded ambient HOA coefficient 59 and coded nFG signals 61 (and corresponding sideband in the form of coded foreground V-vectors 57).

[000232] A unidade de geração de fluxo de bits 42 do dispositivo de codificação de áudio 20 pode então especificar uma indicação de um número de camadas no fluxo de bits escalonável 21 no modo descrito acima (502). A unidade de geração de fluxo de bits 42 pode especificar um subconjunto dos canais na camada atual do fluxo de bits escalonável 21 (504). A unidade de geração de fluxo de bits 42 pode manter um contador para a camada atual, onde o contador fornece uma indicação da camada atual. Após especificar os canais na camada atual, a unidade de geração de fluxo de bits 42 pode incrementar o contador.[000232] The bitstream generation unit 42 of the audio coding device 20 can then specify an indication of a number of layers in the scalable bitstream 21 in the manner described above (502). The bitstream generation unit 42 may specify a subset of the channels in the current layer of the scalable bitstream 21 (504). The bit stream generation unit 42 may maintain a counter for the current layer, where the counter provides an indication of the current layer. After specifying the channels in the current layer, the bitstream generation unit 42 can increment the counter.

[000233] A unidade de geração de fluxo de bits 42 pode então determinar se a camada atual (por exemplo, o contador) é maior que o número de camadas especificadas no fluxo de bits (506). Quando a camada atual não é maior que o número de camadas (“NÃO” 506), a unidade de geração de fluxo de bits 42 pode especificar um subconjunto diferente dos canais na camada atual (que mudou quando o contador foi incrementado) (504). A unidade de geração de fluxo de bits 42 pode continuar desse modo até que a camada atual seja maior que o número de camadas (“SIM” 506). Quando a camada atual é maior que o número de camadas (“SIM” 506), a unidade de geração de fluxo de bits pode prosseguir para o quadro seguinte com o quadro atual se tornando o quadro anterior e obter os canais para o quadro agora atual do fluxo de bits escalonável 21 (500). O processo pode continuar até atingir o último quadro dos coeficientes HOA 11 (500-506). Como observado acima, em alguns exemplos, a indicação do número de camadas pode não ser explicitamente indicada, porém implicitamente especificada no fluxo de bits escalonável 21 (por exemplo, quando o número de camadas não mudou do quadro anterior para o quadro atual).[000233] The bitstream generation unit 42 can then determine whether the current layer (eg, the counter) is greater than the number of layers specified in the bitstream (506). When the current layer is not greater than the number of layers ("NO" 506), the bitstream generation unit 42 may specify a different subset of the channels in the current layer (which changed when the counter was incremented) (504). The bit stream generation unit 42 can continue in this way until the current layer is greater than the number of layers ("SIM" 506). When the current layer is greater than the number of layers ("YES" 506), the bitstream generation unit can proceed to the next frame with the current frame becoming the previous frame and obtain the channels for the now current frame from the scalable bitstream 21 (500). The process can continue until reaching the last frame of HOA 11 coefficients (500-506). As noted above, in some examples, the indication of the number of layers may not be explicitly stated, but implicitly specified in the scalable bitstream 21 (for example, when the number of layers has not changed from the previous frame to the current frame).

[000234] Com referência a seguir ao exemplo ad figura 14B, o dispositivo de codificação de áudio 20 pode obter canais para um quadro atual de coeficientes HOA 11 no modo descrito acima (por exemplo, uma decomposição linear, interpolação, etc.) (510). Os canais podem compreender coeficientes HOA ambiente codificados 59, sinais nFG codificados 61 (e banda lateral correspondente na forma de vetores-V de primeiro plano codificados 57) ou tanto coeficiente HOA ambiente codificado 59 como sinais nFG codificados 61 (e banda lateral correspondente na forma de vetores-V de primeiro plano codificado 57).[000234] With reference below to the example of Figure 14B, the audio coding device 20 can obtain channels for a current frame of HOA coefficients 11 in the manner described above (eg, a linear decomposition, interpolation, etc.) (510). The channels may comprise coded ambient HOA coefficients 59, coded nFG signals 61 (and corresponding sideband in the form of coded foreground V-vectors 57) or both coded ambient HOA coefficient 59 and coded nFG signals 61 (and corresponding sideband in the form of coded foreground V-vectors 57).

[000235] A unidade de geração de fluxo de bits 42 do dispositivo de codificação de áudio 20 pode então especificar uma indicação de um número de canais em uma camada do fluxo de bits escalonável 21 no modo descrito acima (512). A unidade de geração de fluxo de bits 42 pode especificar os canais correspondentes na camada atual do fluxo de bits escalonável 20 (514).[000235] The bitstream generation unit 42 of the audio coding device 20 can then specify an indication of a number of channels in a layer of the scalable bitstream 21 in the manner described above (512). The bitstream generation unit 42 can specify corresponding channels in the current layer of the scalable bitstream 20 (514).

[000236] A unidade de geração de fluxo de bits 42 pode então determinar se a camada atual (por exemplo, o contador) é maior que um número de camadas (516). Isto é, no exemplo da figura 14B, o número de camadas pode ser estático ou fixo (ao invés de especificado no fluxo de bits escalonável 21), enquanto o número de canais por camada pode ser especificado, ao contrário do exemplo da figura 14A onde o número de canais pode ser estático ou fixo e não sinalizado. A unidade de geração de fluxo de bits 42 pode ainda manter o contador indicativo da camada atual.[000236] The bitstream generation unit 42 can then determine whether the current layer (eg counter) is greater than a number of layers (516). That is, in the example of Figure 14B, the number of layers can be static or fixed (rather than specified in the scalable bitstream 21), while the number of channels per layer can be specified, unlike the example in Figure 14A where the number of channels can be static or fixed and unsignaled. The bit stream generation unit 42 can still keep the counter indicative of the current layer.

[000237] Quando a camada atual (como indicado pelo contador) não é maior que o número de camadas (“NÃO” 516), a unidade de geração de fluxo de bits 42 pode especificar outra indicação do número de canais em outra camada do fluxo de bits escalonável 21 para a camada agora atual (que mudou devido ao incremento do contador) (512). A unidade de geração de fluxo de bits 42 pode especificar também o número correspondente de canais na camada adicional do fluxo de bits 21 (514). A unidade de geração de fluxo de bits 42 pode continuar desse modo até que a camada atual seja maior que o número de camadas (“SIM” 516). Quando a camada atual é maior que o número de camadas (“SIM” 516), a unidade de geração de fluxo de bits pode prosseguir para o quadro seguinte com o quadro atual se tornando o quadro anterior e obter os canais para o quadro agora atual do fluxo de bits escalonável 21 (510). O processo pode continuar até atingir o último quadro dos coeficientes HOA 11 (510-516).[000237] When the current layer (as indicated by the counter) is not greater than the number of layers (“NO” 516), the bitstream generation unit 42 may specify another indication of the number of channels in another layer of the scalable bitstream 21 for the now current layer (which has changed due to the increment of the counter) (512). The bitstream generation unit 42 may also specify the corresponding number of channels in the additional bitstream layer 21 (514). The bit stream generation unit 42 can continue in this way until the current layer is greater than the number of layers ("SIM" 516). When the current layer is greater than the number of layers ("YES" 516), the bitstream generation unit can proceed to the next frame with the current frame becoming the previous frame and obtain the channels for the now current frame from the scalable bitstream 21 (510). The process can continue until reaching the last frame of HOA 11 coefficients (510-516).

[000238] Como observado acima, em alguns exemplos, a indicação do número de canais pode não ser explicitamente indicada, porém implicitamente especificada no fluxo de bits escalonável 21 (por exemplo, quando o número de camadas não mudou do quadro anterior para o quadro atual). Além disso, embora descrito como processos separados, as técnicas descritas com relação às figuras 14A e 14B podem ser executadas em combinação no modo descrito acima.[000238] As noted above, in some examples, the indication of the number of channels may not be explicitly stated, but implicitly specified in scalable bitstream 21 (for example, when the number of layers has not changed from the previous frame to the current frame). Furthermore, although described as separate processes, the techniques described with respect to Figures 14A and 14B can be performed in combination in the manner described above.

[000239] As figuras 15A e 15B são fluxogramas ilustrando operações de exemplo de dispositivo de decodificação de áudio 24 na execução de vários aspectos das técnicas descritas nessa revelação. Com referência primeiramente ao exemplo da figura 15A, o dispositivo de decodificação de áudio 24 pode obter um quadro atual a partir do fluxo de bits escalonável 21 (520). O quadro atual pode incluir uma ou mais camadas, cada uma das quais pode incluir um ou mais canais. Os canais podem compreender coeficientes HOA ambiente codificados 59, sinais nFG codificados 61 (e banda lateral correspondente na forma de vetores-V de primeiro plano codificados 57) ou tanto coeficientes HOA ambiente codificados 59 como sinais nFG codificados 61 (e banda lateral correspondente na forma de vetores-V de primeiro plano codificados 57).[000239] Figures 15A and 15B are flowcharts illustrating example operations of audio decoding device 24 in performing various aspects of the techniques described in this disclosure. Referring first to the example of Fig. 15A, the audio decoding device 24 can obtain a current frame from the scalable bit stream 21 (520). The current frame can include one or more layers, each of which can include one or more channels. The channels may comprise coded ambient HOA coefficients 59, coded nFG signals 61 (and corresponding sideband in the form of coded foreground V-vectors 57) or both coded ambient HOA coefficients 59 and coded nFG signals 61 (and corresponding sideband in the form of coded foreground V-vectors 57).

[000240] A unidade de extração 72 do dispositivo de decodificação de áudio 24 pode, então, obter uma indicação de um número de camadas no quadro atual do fluxo de bits escalonável 21 no modo descrito acima (522). A unidade de extração 72 pode obter um subconjunto dos canais na camada atual do fluxo de bits escalonável 21 (524). A unidade de extração 72 pode manter um contador para a camada atual, onde o contador fornece uma indicação da camada atual. Após especificar os canais na camada atual, a unidade de extração 72 pode incrementar o contador.[000240] The extraction unit 72 of the audio decoding device 24 can then obtain an indication of a number of layers in the current frame from the scalable bitstream 21 in the manner described above (522). The extraction unit 72 can obtain a subset of the channels in the current layer of the scalable bit stream 21 (524). The extraction unit 72 may maintain a counter for the current layer, where the counter provides an indication of the current layer. After specifying the channels in the current layer, the extraction unit 72 can increment the counter.

[000241] A unidade de extração 72 pode então determinar se a camada atual (por exemplo, o contador) é maior que o número de camadas especificadas no fluxo de bits (526). Quando a camada atual não é maior que o número de camadas (“Não” 526), a unidade de extração 72 pode obter um subconjunto diferente dos canais na camada atual (que mudou quando o contador foi incrementado) (524). A unidade de extração 72 pode continuar desse modo até que a camada atual seja maior que o número de camadas (“SIM” 526). Quando a camada atual é maior que o número de camadas (“SIM” 526), a unidade de extração 72 pode prosseguir para o quadro seguinte com o quadro atual se tornando o quadro anterior e obter o quadro atual novo do fluxo de bits escalonável 21 (520). O processo pode continuar até atingir o último quadro do fluxo de bits escalonável 21 (520-526). Como observado acima, em alguns exemplos, a indicação do número de camadas pode não ser explicitamente indicada, porém implicitamente especificada no fluxo de bits escalonável 21 (por exemplo, quando o número de camadas não mudou do quadro anterior para o quadro atual).[000241] The extraction unit 72 can then determine if the current layer (eg the counter) is greater than the number of layers specified in the bit stream (526). When the current layer is not greater than the number of layers ("No" 526), the extraction unit 72 can obtain a different subset of the channels in the current layer (which changed when the counter was incremented) (524). The extraction unit 72 can continue in this way until the current layer is greater than the number of layers ("SIM" 526). When the current layer is greater than the number of layers ("SIM" 526), the extraction unit 72 can proceed to the next frame with the current frame becoming the previous frame and obtain the new current frame from the scalable bit stream 21 (520). The process can continue until reaching the last frame of scalable bit stream 21 (520-526). As noted above, in some examples, the indication of the number of layers may not be explicitly stated, but implicitly specified in the scalable bitstream 21 (for example, when the number of layers has not changed from the previous frame to the current frame).

[000242] Com referência a seguir ao exemplo da figura 15B, o dispositivo de decodificação de áudio 24 pode obter um quadro atual a partir do fluxo de bits escalonável 21 (530). O quadro atual pode incluir uma ou mais camadas, cada uma das quais pode incluir um ou mais canais. Os canais podem compreender coeficientes HOA ambiente codificados 59, sinais nFG codificados 61 (e banda lateral correspondente na forma de vetores-V de primeiro plano codificados 57) ou tanto coeficiente HOA ambiente codificado 59 como sinais nFG codificados 61 (e banda lateral correspondente na forma de vetores-V de primeiro plano codificado 57).[000242] With reference below to the example of Fig. 15B, the audio decoding device 24 can obtain a current frame from the scalable bitstream 21 (530). The current frame can include one or more layers, each of which can include one or more channels. The channels may comprise coded ambient HOA coefficients 59, coded nFG signals 61 (and corresponding sideband in the form of coded foreground V-vectors 57) or both coded ambient HOA coefficient 59 and coded nFG signals 61 (and corresponding sideband in the form of coded foreground V-vectors 57).

[000243] A unidade de extração 72 do dispositivo de decodificação de áudio 24 pode então obter uma indicação de um número de canais em uma camada do fluxo de bits escalonável 21 no modo descrito acima (532). A unidade de geração de fluxo de bits 42 pode obter o número correspondente de canais a partir da camada atual do fluxo de bits escalonável 21 (534).[000243] The extraction unit 72 of the audio decoding device 24 can then obtain an indication of a number of channels in a layer of the scalable bit stream 21 in the manner described above (532). The bitstream generation unit 42 can obtain the corresponding number of channels from the current layer of the scalable bitstream 21 (534).

[000244] A unidade de extração 72 pode então determinar se a camada atual (por exemplo, o contador) é maior que um número de camadas (536). Isto é, no exemplo da figura 15B, o número de camadas pode ser estático ou fixo (ao invés de especificado no fluxo de bits escalonável 21), enquanto o número de canais por camada pode ser especificado, ao contrário do exemplo da figura 15A, onde o número de canais pode ser estático ou fixo e não sinalizado. A unidade de extração 72 pode ainda manter o contador indicativo da camada atual.[000244] The extraction unit 72 can then determine if the current layer (eg the counter) is greater than a number of layers (536). That is, in the example of Figure 15B, the number of layers can be static or fixed (rather than specified in the scalable bit stream 21), while the number of channels per layer can be specified, unlike the example in Figure 15A, where the number of channels can be static or fixed and unsignaled. The extraction unit 72 can still keep the counter indicative of the current layer.

[000245] Quando a camada atual (como indicado pelo contador) não é maior que o número de camadas (“NÃO” 536), a unidade de extração 72 pode obter outra indicação do número de canais em outra camada do fluxo de bits escalonável 21 para a camada agora atual (que mudou devido ao incremento do contador) (532). A unidade de extração 72 pode também especificar o número correspondente de canais na camada adicional do fluxo de bits 21 (514). A unidade de extração 72 pode continuar desse modo até que a camada atual seja maior que o número de camadas (“SIM” 516). Quando a camada atual é maior que o número de camadas (“SIM” 516), a unidade de geração de fluxo de bits pode prosseguir para o quadro seguinte com o quadro atual se tornando o quadro anterior e obter os canais para o quadro agora atual do fluxo de bits escalonável 21 (510). O processo pode continuar até atingir o último quadro dos coeficientes HOA 11 (510-516).[000245] When the current layer (as indicated by the counter) is not greater than the number of layers ("NO" 536), the extraction unit 72 can obtain another indication of the number of channels in another layer of the scalable bit stream 21 for the now current layer (which has changed due to the increment of the counter) (532). The extraction unit 72 may also specify the corresponding number of channels in the further layer of the bit stream 21 (514). The extraction unit 72 can continue in this way until the current layer is greater than the number of layers ("SIM" 516). When the current layer is greater than the number of layers ("YES" 516), the bitstream generation unit can proceed to the next frame with the current frame becoming the previous frame and obtain the channels for the now current frame from the scalable bitstream 21 (510). The process can continue until reaching the last frame of HOA 11 coefficients (510-516).

[000246] Como observado acima, em alguns exemplos, a indicação do número de canais pode não ser explicitamente indicada, porém implicitamente especificada no fluxo de bits escalonável 21 (por exemplo, quando o número de camadas não mudou do quadro anterior para o quadro atual). Além disso, embora descrito como processos separados, as técnicas descritas com relação às figuras 15A e 15B podem ser executadas em combinação no modo descrito acima.[000246] As noted above, in some examples, the indication of the number of channels may not be explicitly stated, but implicitly specified in scalable bitstream 21 (for example, when the number of layers has not changed from the previous frame to the current frame). Furthermore, although described as separate processes, the techniques described with respect to Figures 15A and 15B can be performed in combination in the manner described above.

[000247] A figura 16 é um diagrama ilustrando codificação de áudio escalonável como executada pela unidade de geração de fluxo de bits 42 mostrada no exemplo da figura 16 de acordo com vários aspectos das técnicas descritas nessa revelação. No exemplo da figura 16, um codificador de áudio HOA, como o dispositivo de codificação de áudio 20 mostrado nos exemplos das figuras 2 e 3, pode codificar coeficientes HOA 11 (que também podem ser mencionados como um “sinal HOA 11”). O sinal HOA 11 pode compreender 24 canais, cada canal tendo 1024 amostras. Como observado acima, cada canal inclui 1024 amostras, que podem se referir a 1024 coeficientes HOA correspondendo a uma das funções de base esférica. O dispositivo de codificação de áudio 20 pode, como descrito acima com relação à unidade de geração de fluxo de bits 42 mostrada no exemplo da figura 5, executar várias operações para obter os coeficientes HOA ambiente codificados 59 (que também podem ser mencionados como os “canais HOA de segundo plano 59”) a partir do sinal HOA 11.[000247] Figure 16 is a diagram illustrating scalable audio coding as performed by the bitstream generation unit 42 shown in the example of Figure 16 in accordance with various aspects of the techniques described in this disclosure. In the example of Figure 16, a HOA audio encoder, such as the audio coding device 20 shown in the examples of Figures 2 and 3, can encode 11 HOA coefficients (which may also be referred to as a "11 HOA signal"). The HOA 11 signal can comprise 24 channels, each channel having 1024 samples. As noted above, each channel includes 1024 samples, which can refer to 1024 HOA coefficients corresponding to one of the spherical basis functions. The audio coding device 20 can, as described above with respect to the bit stream generation unit 42 shown in the example of figure 5, perform various operations to obtain the encoded ambient HOA coefficients 59 (which may also be referred to as the "background HOA channels 59") from the HOA signal 11.

[000248] Como adicionalmente mostrado no exemplo da figura 16, o dispositivo de codificação de áudio 20 obtém os canais HOA de segundo plano 59 como os primeiros quadros canais do sinal HOA 11. Os canais HOA de segundo plano 50 são indicados como onde 1:4 reflete que os quatro primeiros canais do sinal HOA 11 foram selecionados para representar os componentes de segundo plano do campo de som. Essa seleção de canal pode ser sinalizada como B = 4 em um elemento de sintaxe. A unidade de geração de fluxo de bits escalonável 1000 do dispositivo de codificação de áudio 20 pode então especificar os canais de segundo plano HOA 59 na camada base 21A (que pode ser mencionada como uma primeira camada de duas ou mais camadas).[000248] As further shown in the example of figure 16, the audio coding device 20 obtains the background HOA channels 59 as the first frame channels of the HOA signal 11. The background HOA channels 50 are indicated as where 1:4 reflects that the first four channels of the HOA 11 signal have been selected to represent the background components of the sound field. This channel selection can be flagged as B=4 in a syntax element. The scalable bitstream generation unit 1000 of the audio encoding device 20 can then specify the HOA background channels 59 in the base layer 21A (which may be referred to as a first layer of two or more layers).

[000249] A unidade de geração de fluxo de bits escalonável 1000 pode gerar a camada base 21A para incluir os canais de segundo plano 59 e informações de ganho como especificado de acordo com a seguinte equação: [000249] The scalable bitstream generation unit 1000 can generate the base layer 21A to include the background channels 59 and gain information as specified according to the following equation:

[000250] Como mostrado adicionalmente no exemplo da figura 16, o dispositivo de codificação de áudio 20 pode obter F canais HOA de primeiro plano, que podem ser expressos como os objetos de áudio US e o vetor-V correspondente. É assumido para fins de ilustração F=2. O dispositivo de codificação de áudio 20 pode, portanto, selecionar o primeiro e segundo objetos de áudio US 61 (que também podem ser mencionados como os “sinais nFG codificados 61 “) e os primeiro e segundo vetores-V 57 (que podem ser também mencionados como os “vetores V[l] de primeiro plano 57”), onde a seleção é indicada no exemplo da figura 5 como US1:2 e V1:2, respectivamente. A unidade de geração de fluxo de bits escalonável 1000 pode então gerar, a segunda camada 21B do fluxo de bits escalonável 21 para incluir o primeiro e segundo objetos de áudio US 61 e primeiro e segundo vetores-V 57.[000250] As further shown in the example of figure 16, the audio coding device 20 can obtain F foreground HOA channels, which can be expressed as the US audio objects and the corresponding V-vector. It is assumed for illustration purposes F=2. The audio coding device 20 can therefore select the first and second US audio objects 61 (which may also be referred to as the "encoded nFG signals 61") and the first and second V-vectors 57 (which may also be referred to as the "foreground V[l] vectors 57"), where the selection is indicated in the example of Figure 5 as US1:2 and V1:2, respectively. Scalable bitstream generation unit 1000 may then generate second layer 21B of scalable bitstream 21 to include first and second US audio objects 61 and first and second V-vectors 57.

[000251] A unidade de geração de fluxo de bits escalonável 1000 pode gerar também a camada de aperfeiçoamento 21B para incluir os canais HOA de primeiro plano 61 e informações de ganho juntamente com os vetores-V 57 como especificado de acordo com a seguinte equação: [000251] The scalable bitstream generation unit 1000 can also generate the enhancement layer 21B to include the foreground HOA channels 61 and gain information along with the V-vectors 57 as specified according to the following equation:

[000252] Para obter os coeficientes HOA 11’ a partir do fluxo de bits escalonável 21’, o dispositivo de decodificação de áudio 24 mostrado nos exemplos da figura 2 e 3 pode invocar a unidade de extração 72 mostrada em mais detalhe no exemplo da figura 6. A unidade de extração 72 que pode extrair os coeficientes HOA ambiente codificados 59A-59D, os sinais nFG codificados 61A e 61B, e os vetores V[k] de primeiro plano codificados 57A e 57B no modo descrito acima com relação à figura 6. A unidade de extração 72 pode então transmitir os coeficientes HOA ambiente codificados 59A-59D, os sinais nFG codificados 61A e 61B e os vetores V[k] de primeiro plano codificados 57A e 57B para a unidade de decodificação baseada em vetor 92.[000252] To obtain the HOA coefficients 11' from the scalable bit stream 21', the audio decoding device 24 shown in the examples of figure 2 and 3 can invoke the extraction unit 72 shown in more detail in the example of figure 6. The extraction unit 72 that can extract the encoded ambient HOA coefficients 59A-59D, the encoded nFG signals 61A and 61B, and 6. The extraction unit 72 may then transmit the coded ambient HOA coefficients 59A-59D, the coded nFG signals 61A and 61B, and the coded foreground V[k] vectors 57A and 57B to the vector-based decoding unit 92.

[000253] A unidade de decodificação baseada em vetor 92 pode, então, multiplicar os objetos de áudio US 61 pelos vetores-V 57 de acordo com as seguintes equações: A primeira equação fornece a expressão matemática da operação genérica com relação a F. A segunda equação fornece a expressão matemática no exemplo onde F é assumido como igual a dois. O resultado dessa multiplicação é indicado como o sinal HOA de primeiro plano 1020. A unidade de decodificação baseada em vetor 92 então seleciona os canais mais altos (dado que os quatro coeficientes mais baixos já foram selecionados como os canais de segundo plano HOA 59), onde esses canais mais altos são indicados rj FG,1:2 “5:25 ■ como A unidade de decodificação baseada em vetor 92 em outras palavras obtém os canais de primeiro plano HOA 65 a partir do sinal HOA de primeiro plano 1020.[000253] The vector-based decoding unit 92 can then multiply the US audio objects 61 by the V-vectors 57 according to the following equations: The first equation gives the mathematical expression of the generic operation with respect to F. The second equation gives the mathematical expression in the example where F is assumed equal to two. The result of this multiplication is indicated as the foreground HOA signal 1020. The vector-based decoding unit 92 then selects the highest channels (given that the four lowest coefficients have already been selected as the background HOA channels 59), where these highest channels are denoted rj FG,1:2 "5:25" as The vector based decoding unit 92 in other words obtains the foreground HOA channels 65 from the foreground HOA signal 1020.

[000254] Como resultado, as técnicas podem facilitar disposição em camadas variável (ao contrário de exigir um número estático de camadas) para acomodar um número grande de contextos de codificação e fornecer potencialmente muito mais flexibilidade na especificação dos componentes de segundo plano e primeiro plano do campo de som. As técnicas podem fornecer muitos outros casos de uso, como descrito com relação às figuras 17-26. Esses vários casos de uso podem ser executados separadamente ou juntos em um fluxo de áudio dado. Além disso, a flexibilidade em especificar esses componentes nas técnicas de codificação de áudio escalonável pode permitir muito mais casos de uso. Em outras palavras, as técnicas não devem ser limitadas aos casos de uso descritos abaixo, porém podem incluir qualquer modo pelo qual os componentes de segundo plano e primeiro plano podem ser sinalizados em uma ou mais camadas de um fluxo de bits escalonável.[000254] As a result, the techniques can facilitate variable layering (as opposed to requiring a static number of layers) to accommodate a large number of encoding contexts and potentially provide much more flexibility in specifying the background and foreground components of the sound field. The techniques can provide many other use cases, as described with reference to Figures 17-26. These various use cases can be executed separately or together on a given audio stream. Furthermore, the flexibility in specifying these components in scalable audio coding techniques can allow for many more use cases. In other words, the techniques should not be limited to the use cases described below, but can include any way in which background and foreground components can be signaled in one or more layers of a scalable bitstream.

[000255] A figura 17 é um diagrama conceptual de um exemplo onde os elementos de sintaxe indicam que há duas camadas com quatro coeficientes HOA ambiente codificados especificados em uma camada base e dois sinais nFG codificados são especificados na camada de aperfeiçoamento. O exemplo da figura 17 mostra o quadro HOA como a unidade de geração de fluxo de bits escalonável 1000 mostrada no exemplo da figura 5 pode segmentar o quadro para formar a camada base incluindo dados de correção de ganho HOA de banda lateral para os coeficientes HOA ambiente codificados 59A-59D. A unidade de geração de fluxo de bits escalonável 1000 pode também segmentar o quadro HOA de uma camada de aperfeiçoamento 21 que inclui os dois vetores V[k] de primeiro plano codificados 57 e os dados de correção de ganho HOA para os sinais nFG ambiente codificados 61.[000255] Figure 17 is a conceptual diagram of an example where the syntax elements indicate that there are two layers with four encoded ambient HOA coefficients specified in a base layer and two encoded nFG signals are specified in the enhancement layer. The example of Figure 17 shows the HOA frame how the scalable bitstream generation unit 1000 shown in the example of Figure 5 can segment the frame to form the base layer including sideband HOA gain correction data for the encoded ambient HOA coefficients 59A-59D. The scalable bitstream generation unit 1000 may also segment the HOA frame from an enhancement layer 21 that includes the two encoded foreground V[k] vectors 57 and the HOA gain correction data for the encoded ambient nFG signals 61.

[000256] Como adicionalmente mostrado no exemplo da figura 17, a unidade de codificação de áudio psicoacústico 40 é mostrada como dividida em instanciações separadas de codificador de áudio psicoacústico 40A, que pode ser mencionado como codificadores temporais de camada base 40A, e codificadores de áudio psicoacústico 40B, que podem ser mencionados como codificadores temporais de camada de aperfeiçoamento 40B. Os codificadores temporais de camada base 40A representam quatro instanciações de codificadores de áudio psicoacústico que processam os quatro componentes da camada base. Os codificadores temporais de camada de aperfeiçoamento 40B representam duas instanciações de codificadores de áudio psicoacústico que processam os dois componentes da camada de aperfeiçoamento.[000256] As further shown in the example of Figure 17, the psychoacoustic audio coding unit 40 is shown as divided into separate instances of psychoacoustic audio coder 40A, which may be referred to as base layer temporal encoders 40A, and psychoacoustic audio encoders 40B, which may be referred to as enhancement layer temporal encoders 40B. Base layer temporal encoders 40A represent four instantiations of psychoacoustic audio encoders that process the four base layer components. The enhancement layer temporal encoders 40B represent two instantiations of psychoacoustic audio encoders that process the two enhancement layer components.

[000257] A figura 18 é um diagrama ilustrando, em mais detalhe, a unidade de geração de fluxo de bits 42 da figura 3 quando configurada para executar uma segunda das versões em potencial das técnicas de codificação de áudio escalonável descritas nessa revelação. Nesse exemplo, a unidade de geração de fluxo de bits 42 é substancialmente similar à unidade de geração de fluxo de bits 42 descrita acima com relação ao exemplo da figura 5. Entretanto, a unidade de geração de fluxo de bits 42 executa a segunda versão das técnicas de codificação escalonável para especificar três camadas 21A-21C ao invés de duas camadas 21A e 21B. A unidade de geração de fluxo de bits escalonável 1000 pode especificar indicações de que dois coeficientes HOA ambiente codificados e sinais nFG codificados em zero são especificados na camada base 21A, indicações de que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados são especificados em uma primeira camada de aperfeiçoamento 21B, e indicações de que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados 61 são especificados em uma segunda camada de aperfeiçoamento 21C. a unidade de geração de fluxo de bits escalonável 1000 pode então especificar os dois coeficientes HOA ambiente codificados 59A e 59B na camada base 21A, os dois sinais nFG codificados 61A e 61B com os dois vetores V[k] de primeiro plano codificados 57A e 57B na primeira camada de aperfeiçoamento 21B, e os dois sinais nFG codificados 61C e 61D com os dois vetores V[k] de primeiro plano codificados 57C e 57D na segunda camada de aperfeiçoamento 21C. A unidade de geração de fluxo de bits escalonável 1000 pode então transmitir essas camadas como fluxo de bits escalonável 21.[000257] Figure 18 is a diagram illustrating, in more detail, the bitstream generation unit 42 of Figure 3 when configured to perform a second of the potential versions of the scalable audio coding techniques described in that disclosure. In this example, the bitstream generation unit 42 is substantially similar to the bitstream generation unit 42 described above with respect to the example of Figure 5. However, the bitstream generation unit 42 performs the second version of scalable coding techniques to specify three layers 21A-21C instead of two layers 21A and 21B. The scalable bitstream generating unit 1000 can specify indications that two ambient HOA coefficients coded and zero encoded nFG signals are specified in the base layer 21A, indications that ambient HOA coefficients coded zero and two encoded nFG signals are specified in a first enhancement layer 21B, and indications that ambient HOA coefficients encoded zero and two encoded nFG signals 61 are specified in a second enhancement layer 21C. the scalable bitstream generation unit 1000 can then specify the two encoded ambient HOA coefficients 59A and 59B in the base layer 21A, the two encoded nFG signals 61A and 61B with the two encoded foreground V[k] vectors 57A and 57B in the first enhancement layer 21B, and the two encoded nFG signals 61C and 61D with the two V[k] vectors coded foreground images 57C and 57D on the second enhancement layer 21C. The scalable bitstream generation unit 1000 can then transmit these layers as scalable bitstream 21.

[000258] A figura 19 é um diagrama ilustrando, em mais detalhe, a unidade de extração 72 da figura 3 quando configurada para executar a segunda das versões em potencial das técnicas de decodificação de áudio escalonável descritas nessa revelação. Nesse exemplo, a unidade de extração de fluxo de bits 72 é substancialmente similar à unidade de extração de fluxo de bits 72 descrita acima com relação ao exemplo da figura 6. Entretanto, a unidade de extração de fluxo de bits 72 executa a segunda versão das técnicas de codificação escalonável com relação a três camadas 21A-21C ao invés de duas camadas 21A e 21B. a unidade de extração de fluxo de bits escalonável 1012 pode obter indicações de que dois coeficientes HOA ambiente codificados e sinais nFG codificados em zero são especificados na camada base 21A, indicações de que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados são especificados em uma primeira camada de aperfeiçoamento 21B, e indicações de que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados são especificados em uma segunda camada de aperfeiçoamento 21C. A unidade de extração de fluxo de bits escalonável 1012 pode então obter os dois coeficientes HOA ambiente codificados 59A e 59B a partir da camada base 21A, os dois sinais nFG codificados 61A e 61B com os dois vetores V[k] de primeiro plano codificados 57A e 57B a partir da primeira camada de aperfeiçoamento 21B, e os dois sinais nFG codificados 61C e 61D com os dois vetores V[k] de primeiro plano codificados 57C e 57D a partir da segunda camada de aperfeiçoamento 21C. a unidade de extração de fluxo de bits escalonável 1012 pode transmitir os coeficientes HOA ambiente codificados 59, os sinais nFG codificados 61 e os vetores V[k] de primeiro plano codificados 57 sinais nFG codificados 61 sinais nFG codificados 61 sinais nFG codificados 61 para a unidade de decodificação baseada em vetor 92.[000258] Figure 19 is a diagram illustrating, in more detail, the extraction unit 72 of Figure 3 when configured to perform the second of the potential versions of the scalable audio decoding techniques described in this disclosure. In this example, the bitstream extraction unit 72 is substantially similar to the bitstream extraction unit 72 described above with respect to the example of Figure 6. However, the bitstream extraction unit 72 performs the second version of scalable coding techniques with respect to three layers 21A-21C instead of two layers 21A and 21B. the scalable bitstream extraction unit 1012 can obtain indications that two coded ambient HOA coefficients and zero coded nFG signals are specified in the base layer 21A, indications that zero coded ambient HOA coefficients and two coded nFG signals are specified in a first enhancement layer 21B, and indications that zero coded ambient HOA coefficients and two encoded nFG signals are specified in a second enhancement layer 21C. The scalable bitstream extraction unit 1012 can then obtain the two encoded ambient HOA coefficients 59A and 59B from the base layer 21A, the two encoded nFG signals 61A and 61B with the two encoded foreground V[k] vectors 57A and 57B from the first enhancement layer 21B, and the two encoded nFG signals 61C and 61D with the two vectors Coded foreground V[k] 57C and 57D from the second enhancement layer 21C. the scalable bitstream extraction unit 1012 can transmit the 59 coded ambient HOA coefficients, the 61 coded nFG signals, and the 57 coded foreground V[k] vectors 57 coded nFG signals 61 coded nFG signals 61 61 coded nFG signals to the vector based decoding unit 92.

[000259] A figura 20 é um diagrama ilustrando um segundo caso de uso pelo qual a unidade de geração de fluxo de bits da figura 18 e a unidade de extração da figura 19 podem executar a segunda das versões em potencial das técnicas descritas nessa revelação. Por exemplo, a unidade de geração e fluxo de bits 42 mostrada no exemplo da figura 18 pode especificar o elemento de sintaxe NumLayer (que é mostrado como “NumberOfLayers” para facilidade de compreensão) para indicar o número de camadas especificadas no fluxo de bits escalonável 21 é três. A unidade de geração de fluxo de bits 42 pode especificar ainda que o número de canais de segundo plano especificado na primeira camada 21A (que também é mencionado como a “camada base”) é dois enquanto o número de canais de primeiro plano especificado na primeira camada 21B é zero (isto é, B1 = 2, F1 = 0 no exemplo da figura 20). A unidade de geração de fluxo de bits 42 pode especificar ainda que o número de canais de segundo plano especificados na segunda camada 21B (que também é mencionada como a “camada de aperfeiçoamento”) é zero enquanto o número de canais de primeiro plano especificados na segunda camada 21B é dois (isto é, B2 = 0, F2 = 2 no exemplo d figura 20). A unidade de geração de fluxo de bits 42 pode especificar ainda que o número de canais de segundo plano especificados na segunda amada 21C (que também é mencionada como a “camada de aperfeiçoamento”) é zero enquanto o número de canais de primeiro plano especificados na segunda camada 21C é dois (isto é, B3 = 0, F3 = 2 no exemplo da figura 20). Entretanto, o dispositivo de codificação de áudio 20 pode não necessariamente sinalizar as informações de canal de primeiro plano e segundo plano da terceira camada quando o número total de canais de primeiro plano e segundo plano já são conhecidos no decodificador (Por exemplo, por meio de elementos de sintaxe adicionais, como totalNumBGchannels e totalNumFGchannels).[000259] Figure 20 is a diagram illustrating a second use case by which the bitstream generation unit of Figure 18 and the extraction unit of Figure 19 can perform the second of potential versions of the techniques described in this disclosure. For example, the bitstream and generation unit 42 shown in the example of Figure 18 may specify the syntax element NumLayer (which is shown as "NumberOfLayers" for ease of understanding) to indicate the number of layers specified in the scalable bitstream 21 is three. The bitstream generation unit 42 can further specify that the number of background channels specified in the first layer 21A (which is also referred to as the "base layer") is two while the number of foreground channels specified in the first layer 21B is zero (i.e., B1=2, F1=0 in the example of Fig. 20). The bit stream generation unit 42 can further specify that the number of background channels specified in the second layer 21B (which is also referred to as the "enhancement layer") is zero while the number of foreground channels specified in the second layer 21B is two (i.e. B2=0, F2=2 in the example of Figure 20). The bitstream generation unit 42 can further specify that the number of background channels specified in the second layer 21C (which is also referred to as the "enhancement layer") is zero while the number of foreground channels specified in the second layer 21C is two (i.e., B3=0, F3=2 in the example of Fig. 20). However, the audio encoding device 20 may not necessarily signal the foreground and background channel information of the third layer when the total number of foreground and background channels are already known in the decoder (e.g., through additional syntax elements such as totalNumBGchannels and totalNumFGchannels).

[000260] A unidade de geração de fluxo de bits 42 pode especificar esses valores Bi e Fi como NumBGchannels[i] e NumFGchannels[i]. Para o exemplo acima, o dispositivo de codificação de áudio 20 pode especificar o elemento de sintaxe NumBGchannels como {2, 0, 0} e o elemento de sintaxe NumFGchannels como {0, 2, 2}. A unidade de geração de fluxo de bits 42 pode especificar também os canais de áudio HOA de segundo plano 59, os canais HOA de primeiro plano 61 e os vetores-V 57 no fluxo de bits escalonável 21.[000260] Bitstream generation unit 42 can specify these Bi and Fi values as NumBGchannels[i] and NumFGchannels[i]. For the example above, the audio encoding device 20 can specify the NumBGchannels syntax element as {2, 0, 0} and the NumFGchannels syntax element as {0, 2, 2}. Bitstream generation unit 42 may also specify background HOA audio channels 59, foreground HOA channels 61 and V-vectors 57 in scalable bitstream 21.

[000261] O dispositivo de decodificação de áudio 24 mostrado nos exemplos das figuras 2 e 4 pode operar em um modo recíproco àquele do dispositivo de codificação de áudio 20 para analisar esses elementos de sintaxe a partir do fluxo de bits (por exemplo, como exposto na tabela de sintaxe HOADecoderConfig), como descrito acima com relação à unidade de extração de fluxo de bits 72 da figura 19. O dispositivo de decodificação de áudio 24 pode também analisar os canais de áudio HOA de segundo plano correspondentes 1002 e os canais HOA de primeiro plano 1010 a partir do fluxo de bits 21 de acordo com os elementos de sintaxe analisados, novamente como descrito acima com relação à unidade de extração de fluxo de bits 72 da figura 19.[000261] The audio decoding device 24 shown in the examples of figures 2 and 4 can operate in a reciprocal mode to that of the audio coding device 20 to parse these syntax elements from the bitstream (for example, as set out in the HOADecoderConfig syntax table), as described above with respect to the bitstream extraction unit 72 of figure 19. The audio decoding device 24 can also parse the corresponding background HOA audio channels 1002 and foreground HOA channels 1010 from bitstream 21 according to the parsed syntax elements, again as described above with respect to bitstream extraction unit 72 of Fig. 19.

[000262] A figura 21 é um diagrama conceptual de um exemplo onde os elementos de sintaxe indicam que há três camadas com dois coeficientes HOA ambiente codificados especificados em uma camada base, dois sinais nFG codificados são especificados em uma primeira camada de aperfeiçoamento e dois sinais nFG codificados são especificados em uma segunda camada de aperfeiçoamento. O exemplo da figura 21 mostra o quadro HOA como a unidade de geração de fluxo de bits escalonável 1000 mostrada no exemplo da figura 18 pode segmentar o quadro para formar a camada base incluindo dados de correção de ganho HOA de banda lateral para os coeficientes HOA ambiente codificados 59A e 59B. a unidade de geração de fluxo de bits escalonável 1000 pode também segmentar o quadro HOA de uma camada de aperfeiçoamento 21B que inclui os dois vetores V[k] de primeiro plano codificados 57 e os dados de correção de ganho HOA para os sinais nFG ambiente codificados 61 e uma camada de aperfeiçoamento 21C que inclui os dois vetores V[k] de primeiro plano codificados adicionais 57 e os dados de correção de ganho HOA para os sinais nFG codificados ambiente 61.[000262] Figure 21 is a conceptual diagram of an example where the syntax elements indicate that there are three layers with two encoded ambient HOA coefficients specified in a base layer, two encoded nFG signals are specified in a first enhancement layer, and two encoded nFG signals are specified in a second enhancement layer. The example of Figure 21 shows the HOA frame how the scalable bitstream generation unit 1000 shown in the example of Figure 18 can segment the frame to form the base layer including sideband HOA gain correction data for the encoded ambient HOA coefficients 59A and 59B. The 1000 Scalpable Bit Flow Generation Unit can also segment the Hoa Frame of a 21B Improvement Layer that includes the two coded forefront V [K] vectors and HAA gain correction data for coded NFG signals 61 and one 21C improvement layer that includes the two additional coded V [k] vectors 57 and the hoa gain correction data FG coded environment 61.

[000263] Como mostrado adicionalmente no exemplo da figura 21, a unidade de codificação de áudio psicoacústico 40 é mostrada como dividida em instanciações separadas de codificador de áudio psicoacústico 40A, que pode ser mencionado como codificadores temporais de camada base 40A, e codificadores de áudio psicoacústico 40B, que podem ser mencionados como codificadores temporais de camada de aperfeiçoamento 40B. Os codificadores temporais de camada base 40A representam duas instanciações de codificadores de áudio psicoacústico que processam os quatro componentes da camada base. Os codificadores temporais de camada de aperfeiçoamento 40B representam quatro instanciações de codificadores de áudio psicoacústico que processam os dois componentes da camada de aperfeiçoamento.[000263] As further shown in the example of figure 21, the psychoacoustic audio coding unit 40 is shown as divided into separate instances of psychoacoustic audio coder 40A, which may be referred to as base layer temporal encoders 40A, and psychoacoustic audio encoders 40B, which may be referred to as enhancement layer temporal encoders 40B. Base layer temporal encoders 40A represent two instances of psychoacoustic audio encoders that process the four base layer components. The enhancement layer temporal encoders 40B represent four instantiations of psychoacoustic audio encoders that process the two enhancement layer components.

[000264] A figura 22 é um diagrama ilustrando, em mais detalhe, a unidade de geração de fluxo de bits 42 da figura 3 quando configurada para executar uma terceira das versões em potencial das técnicas de codificação de áudio escalonável descritas nessa revelação. Nesse exemplo, a unidade de geração de fluxo de bits 42 é substancialmente similar à unidade de geração de fluxo de bits 42 descrita acima com relação ao exemplo da figura 18. Entretanto, a unidade de geração de fluxo de bits 42 executa a terceira versão das técnicas de codificação escalonável para especificar três camadas 21A-21C ao invés de duas camadas 21A e 21B. Além disso, a unidade de geração de fluxo de bits escalonável 1000 pode especificar indicações que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados são especificados na camada base 21A, indicações de que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados são especificados em uma primeira camada de aperfeiçoamento 21B, e indicações de que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados são especificados em uma segunda camada de aperfeiçoamento 21C. A unidade de geração de fluxo de bits escalonável 1000 pode então especificar os dois sinais nFG codificados 61A e 61B com os dois vetores V[k] de primeiro plano codificados 57A e 57B na camada base 21A, e dois sinais nFG codificados 61C e 61D com os vetores V[k] de primeiro plano codificados correspondentes 57C e 57D na primeira camada de aperfeiçoamento 21B, e os dois sinais nFG codificados 61E e 61F com os dois vetores V[k] codificados correspondentes 57E e 57F na segunda camada de aperfeiçoamento 21C. A unidade de geração de fluxo de bits escalonável 1000 pode então transmitir essas camadas como fluxo de bits escalonável 21.[000264] Figure 22 is a diagram illustrating, in more detail, the bitstream generation unit 42 of Figure 3 when configured to perform a third of the potential versions of the scalable audio coding techniques described in that disclosure. In this example, the bitstream generation unit 42 is substantially similar to the bitstream generation unit 42 described above with respect to the example of Figure 18. However, the bitstream generation unit 42 performs the third version of scalable coding techniques to specify three layers 21A-21C instead of two layers 21A and 21B. Furthermore, the scalable bitstream generation unit 1000 can specify indications that ambient HOA coefficients encoded in zero and two encoded nFG signals are specified in the base layer 21A, indications that ambient HOA coefficients encoded in zero and two encoded nFG signals are specified in a first enhancement layer 21B, and indications that ambient HOA coefficients encoded in zero and two encoded nFG signals are specified in a second enhancement layer 21C. The scalable bitstream generation unit 1000 can then specify the two encoded nFG signals 61A and 61B with the two encoded foreground V[k] vectors 57A and 57B in the base layer 21A, and two encoded nFG signals 61C and 61D with the corresponding encoded foreground V[k] vectors 57C and 57D in the first enhancement layer 21B, and the two n signals FG encoded 61E and 61F with the two corresponding V[k] encoded vectors 57E and 57F in the second enhancement layer 21C. The scalable bitstream generation unit 1000 can then transmit these layers as scalable bitstream 21.

[000265] A figura 23 é um diagrama ilustrando em mais detalhe, a unidade de extração 72 da figura 4 quando configurada para executar a terceira das versões em potencial das técnicas de decodificação de áudio escalonável descritas nessa revelação. Nesse exemplo, a unidade de extração de fluxo de bits 72 é substancialmente similar à unidade de extração de fluxo de bits 72 descrita acima com relação ao exemplo da figura 19. Entretanto, a unidade de extração de fluxo de bits 72 executa a terceira versão das técnicas de codificação escalonável com relação a três camadas 21A-21C ao invés de duas camadas 21A e 21B. além disso, a unidade de extração de fluxo de bits escalonável 1012 pode obter indicações de que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados são especificados na camada base 21A, indicações de que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados são especificados em uma primeira camada de aperfeiçoamento 21B, e indicações de que coeficientes HOA ambiente codificados em zero e dois sinais nFG codificados são especificados em uma segunda camada de aperfeiçoamento 21C. a unidade de extração de fluxo de bits escalonável 1012 pode, então, obter os dois sinais nFG codificados 61A e 61B com os dois vetores V[k] de primeiro plano codificados correspondentes 57A e 57N a partir da camada base 21A, os dois sinais nFG codificados 61C e 61D com os dois vetores V[k] de primeiro plano codificados correspondentes 57C e 57D a partir da primeira camada de aperfeiçoamento 21B, e os dois sinais nFG codificados 61E e 61F com os dois vetores V[k] codificados correspondentes 57E e 57F a partir da segunda camada de aperfeiçoamento 21C. A unidade de extração de fluxo de bits escalonável 1012 pode transmitir os sinais nFG codificados 61 e os vetores V[k] de primeiro plano codificados 57 para a unidade de decodificação baseada em vetor 92.[000265] Figure 23 is a diagram illustrating in more detail, the extraction unit 72 of Figure 4 when configured to perform the third of the potential versions of the scalable audio decoding techniques described in this disclosure. In this example, the bitstream extraction unit 72 is substantially similar to the bitstream extraction unit 72 described above with respect to the example of Fig. 19 . However, the bitstream extraction unit 72 performs the third version of scalable coding techniques with respect to three layers 21A-21C instead of two layers 21A and 21B. Furthermore, the scalable bitstream extraction unit 1012 can obtain indications that ambient HOA coefficients encoded in zero and two encoded nFG signals are specified in the base layer 21A, indications that ambient HOA coefficients encoded in zero and two encoded nFG signals are specified in a first enhancement layer 21B, and indications that ambient HOA coefficients encoded in zero and two encoded nFG signals are specified in a second enhancement layer 21C. the scalable bitstream extraction unit 1012 can then obtain the two coded nFG signals 61A and 61B with the two corresponding coded foreground vectors V[k] 57A and 57N from the base layer 21A, the two coded nFG signals 61C and 61D with the two corresponding coded foreground V[k] vectors 57C and 57D from the first enhancement layer 2 1B, and the two encoded nFG signals 61E and 61F with the two corresponding encoded V[k] vectors 57E and 57F from the second enhancement layer 21C. The scalable bitstream extraction unit 1012 may transmit the encoded nFG signals 61 and the encoded foreground V[k] vectors 57 to the vector based decoding unit 92.

[000266] A figura 24 é um diagrama ilustrando um terceiro caso de uso pelo qual um dispositivo de codificação de áudio pode especificar múltiplas camadas em um fluxo de bits de multicamadas de acordo com as técnicas descritas nessa revelação. Por exemplo, a unidade de geração de fluxo de bits 42 da figura 22 pode especificar o elemento de sintaxe NumLayer (que é mostrado como “NumberOfLayers” para facilidade de compreensão) para indicar que o número de camadas especificadas no fluxo de bits 21 é três. A unidade de geração de fluxo de bits 42 pode especificar ainda que o número de canais de segundo plano especificados na primeira camada (que também é mencionada como a “camada base”) é zero enquanto o número de canais de primeiro plano especificados na primeira camada é dois (isto é, B1 = 0, F1 = 2 no exemplo da figura 24). Em outras palavras, a camada base não fornece somente transporte de coeficientes HOA ambiente, mas pode permitir especificação de sinais de áudio HOA predominantes, ou em outras palavras, de primeiro plano.[000266] Figure 24 is a diagram illustrating a third use case whereby an audio encoding device can specify multiple layers in a multilayer bit stream in accordance with the techniques described in this disclosure. For example, the bitstream generation unit 42 of Fig. 22 may specify the NumLayer syntax element (which is shown as "NumberOfLayers" for ease of understanding) to indicate that the number of layers specified in the bitstream 21 is three. The bitstream generation unit 42 can further specify that the number of background channels specified in the first layer (which is also referred to as the "base layer") is zero while the number of foreground channels specified in the first layer is two (i.e., B1 = 0, F1 = 2 in the example of Fig. 24 ). In other words, the base layer not only provides transport of ambient HOA coefficients, but can allow specification of predominant, or in other words, foreground, HOA audio signals.

[000267] Esses dois canais de áudio de primeiro plano são indicados como os sinais nFG codificados 61A/B e os vetores V[k] de primeiro plano codificados 57A/B e podem ser matematicamente representados pela seguinte equação: O indica os dois canais de áudio de primeiro plano, que podem ser representados pelo primeiro e segundo objetos de áudio (US1 e US2) juntamente com os vetores-V correspondentes (V1 e V2).[000267] These two foreground audio channels are indicated as the 61A/B encoded nFG signals and the 57A/B encoded foreground V[k] vectors and can be mathematically represented by the following equation: O indicates the two foreground audio channels, which can be represented by the first and second audio objects (US1 and US2) along with the corresponding V-vectors (V1 and V2).

[000268] O dispositivo de geração de fluxo de bits 42 pode especificar ainda que o número de canais de segundo plano especificados na segunda camada (que também é mencionado como a “camada de aperfeiçoamento”) é zero enquanto o número de canais de primeiro plano especificados na segunda camada é dois (isto é, B2 = 0, F2 = 2) no exemplo da figura 24). Esses dois canais de áudio de primeiro plano são indicados como os sinais nFG codificados 61C/D e os vetores V[k] de primeiro plano codificados 57C/D e podem ser matematicamente representados pela seguinte equação: O indica os dois canais de áudio de primeiro plano, que podem ser representados pelo terceiro e quarto objetos de áudio (US3 e US4) juntamente com os vetores-V correspondentes (V3 e V4).[000268] The bitstream generation device 42 can further specify that the number of background channels specified in the second layer (which is also referred to as the "enhancement layer") is zero while the number of foreground channels specified in the second layer is two (i.e., B2 = 0, F2 = 2) in the example of Fig. 24 ). These two foreground audio channels are denoted as the 61C/D encoded nFG signals and the 57C/D encoded foreground V[k] vectors and can be mathematically represented by the following equation: O indicates the two foreground audio channels, which can be represented by the third and fourth audio objects (US3 and US4) along with the corresponding V-vectors (V3 and V4).

[000269] Além disso, a unidade de geração de fluxo de bits 42 pode especificar que o número de canais de segundo plano especificados na terceira camada (que também é mencionado como a “camada de aperfeiçoamento”) é zero enquanto o número de canais de primeiro plano especificados na terceira camada é dois (isto é, B3 = 0, F3 = 2 no exemplo da figura 24). Esses dois canais de áudio de primeiro plano são indicados como canais de áudio de primeiro plano 1024 e podem ser matematicamente representados pela seguinte equação: O indica os dois canais de áudio de primeiro plano 1024, que podem ser representados pelo quinto e sexto objetos de áudio (US5 e US6) juntamente com os vetores-V correspondentes (V5 e V6). Entretanto, a unidade de geração de fluxo de bits 42 pode não necessariamente sinalizar essas informações de canal de primeiro plano e segundo plano de terceira camada quando o número total de canais de primeiro plano e segundo plano já são conhecidos no decodificador (por exemplo, por meio de elementos de sintaxe adicionais, como totalNumBGchannels e totalNumFGchannels). A unidade de geração de fluxo de bits 42 pode, entretanto, não sinalizar as informações de canal de segundo plano e primeiro plano de terceira camada quando o número total de canais de primeiro plano e segundo plano já são conhecidos no decodificador (por exemplo, por meio de elementos de sintaxe adicionais, como totalNumBGchannels e totalNumFGchannels).[000269] Furthermore, the bitstream generation unit 42 can specify that the number of background channels specified in the third layer (which is also referred to as the "enhancement layer") is zero while the number of foreground channels specified in the third layer is two (i.e., B3 = 0, F3 = 2 in the example of Figure 24). These two foreground audio channels are denoted as foreground audio channels 1024 and can be mathematically represented by the following equation: O indicates the two foreground audio channels 1024, which can be represented by the fifth and sixth audio objects (US5 and US6) along with the corresponding V-vectors (V5 and V6). However, the bitstream generation unit 42 may not necessarily signal such third-layer foreground and background channel information when the total number of foreground and background channels are already known in the decoder (e.g., via additional syntax elements such as totalNumBGchannels and totalNumFGchannels). The bitstream generation unit 42 may, however, not signal the third-layer background and foreground channel information when the total number of foreground and background channels are already known in the decoder (e.g., via additional syntax elements such as totalNumBGchannels and totalNumFGchannels).

[000270] A unidade de geração de fluxo de bits 42 pode especificar esses valores Bi e Fi como NumBGchannels[i] e NumFGchannels[i]. Para o exemplo acima, o dispositivo de codificação de áudio 20 pode especificar o elemento de sintaxe NumBGchannels como {0, 0, 0} e o elemento de sintaxe NumFGchannels como {2, 2, 2}. O dispositivo de codificação de áudio 20 pode também especificar os canais HOA de primeiro plano 1020-1024 no fluxo de bits 21.[000270] Bitstream generation unit 42 can specify these Bi and Fi values as NumBGchannels[i] and NumFGchannels[i]. For the example above, the audio encoding device 20 can specify the NumBGchannels syntax element as {0, 0, 0} and the NumFGchannels syntax element as {2, 2, 2}. Audio encoding device 20 may also specify foreground HOA channels 1020-1024 in bitstream 21.

[000271] O dispositivo de decodificação de áudio 24 mostrado nos exemplos das figuras 2 e 4 pode operar em um modo recíproco àquele do dispositivo de codificação de áudio 20 para analisar, como descrito acima com relação à unidade de extração de fluxo de bits 72 da figura 23, esses elementos de sintaxe a partir do fluxo de bits (por exemplo, como exposto na tabela de sintaxe HOADecoderConfig acima). O dispositivo de decodificação de áudio 24 pode também analisar, novamente como descrito acima com relação à unidade de extração de fluxo de bits 72 da figura 23, os canais de áudio HOA de primeiro plano correspondentes 10201024 a partir do fluxo de bits 21 de acordo com os elementos de sintaxe analisados e reconstruir coeficientes HOA 1026 através da soma dos canais de áudio HOA de primeiro plano 1020-1024.[000271] The audio decoding device 24 shown in the examples of figures 2 and 4 can operate in a reciprocal mode to that of the audio coding device 20 to parse, as described above with respect to the bitstream extraction unit 72 of figure 23, these syntax elements from the bitstream (for example, as set out in the HOADecoderConfig syntax table above). The audio decoding device 24 can also parse, again as described above with respect to the bitstream extraction unit 72 of Fig. 23, the corresponding foreground HOA audio channels 10201024 from the bitstream 21 according to the parsed syntax elements and reconstruct HOA coefficients 1026 by summing the foreground HOA audio channels 1020-1024.

[000272] A figura 25 é um diagrama conceptual de um exemplo onde os elementos de sintaxe indicam que há três camadas com dois sinais nFG codificados especificados em uma camada base, dois sinais nFG codificados são especificados em uma primeira camada de aperfeiçoamento e dois sinais nFG codificados são especificados em uma segunda camada de aperfeiçoamento. O exemplo ad figura 25 mostra o quadro HOA como a unidade de geração de fluxo de bits escalonável 1000 mostrada no exemplo da figura 22 pode segmentar o quadro para formar a camada base incluindo dados de correção de ganho HOA de banda lateral para os sinais nFG codificados 61A e 61B e dois vetores V[k] de primeiro plano codificados 57. A unidade de geração de fluxo de bits escalonável 1000 pode também segmentar o quadro HOA para formar uma camada de aperfeiçoamento 21B que inclui os dois vetores V[k] de primeiro plano codificados 57 e os dados de correção de ganho HOA para os sinais Nfg ambiente codificados 61 e uma camada de aperfeiçoamento 21C que inclui os dois vetores V[k] de primeiro plano codificados adicionais 57 e os dados de correção de ganho HOA para os sinais nFG ambiente codificados 61.[000272] Figure 25 is a conceptual diagram of an example where the syntax elements indicate that there are three layers with two encoded nFG signals specified in a base layer, two encoded nFG signals are specified in a first enhancement layer, and two encoded nFG signals are specified in a second enhancement layer. Example ad Figure 25 shows the HOA frame how the scalable bitstream generation unit 1000 shown in the example of Figure 22 can segment the frame to form the base layer by including sideband HOA gain correction data for encoded nFG signals 61A and 61B and two foreground encoded V[k] vectors 57. The scalable bitstream generation unit 1000 can also segment the HOA frame to form a layer of enhancement 21B that includes the two encoded foreground V[k] vectors 57 and the HOA gain correction data for the encoded ambient Nfg signals 61 and an enhancement layer 21C that includes the additional two encoded foreground V[k] vectors 57 and the HOA gain correction data for the encoded ambient nFG signals 61.

[000273] Como mostrado adicionalmente no exemplo da figura 25, a unidade de codificação de áudio psicoacústico 40 é mostrada como dividida em instanciações separadas de codificador de áudio psicoacústico 40A, que pode ser mencionado como codificadores temporais de camada base 40A, e codificadores de áudio psicoacústico 40B, que podem ser mencionados como codificadores temporais de camada de aperfeiçoamento 40B. Os codificadores temporais de camada base 40A representam duas instanciações de codificadores de áudio psicoacústico que processam os quatro componentes da camada base. Os codificadores temporais de camada de aperfeiçoamento 40B representam quatro instanciações de codificadores de áudio psicoacústicos que processam os dois componentes da camada de aperfeiçoamento.[000273] As further shown in the example of Fig. 25, the psychoacoustic audio coding unit 40 is shown as divided into separate instances of psychoacoustic audio coder 40A, which may be referred to as base layer temporal encoders 40A, and psychoacoustic audio encoders 40B, which may be referred to as enhancement layer temporal encoders 40B. Base layer temporal encoders 40A represent two instances of psychoacoustic audio encoders that process the four base layer components. The enhancement layer temporal encoders 40B represent four instantiations of psychoacoustic audio encoders that process the two enhancement layer components.

[000274] A figura 26 é um diagrama ilustrando um terceiro caso de uso pelo qual um dispositivo de codificação de áudio pode especificar múltiplas camadas em um fluxo de bits de multicamadas de acordo com as técnicas descritas nessa revelação. Por exemplo, o dispositivo de codificação de áudio 20 mostrado no exemplo das figuras 2 e 3 pode especificar o elemento de sintaxe NumLayer (que é mostrado como “NumberOfLayers” para facilidade de compreensão) para indicar que o número de camadas especificadas no fluxo de bits 21 é quatro. O dispositivo de codificação de áduio20 pode especificar ainda que o número de canais de segundo plano especificados na primeira camada (que é também mencionado como a “camada base” é um enquanto o número de canais de primeiro plano especificados na primeira camada é zero (isto é, B1 = 1, F1 = 0 no exemplo da figura 26).[000274] Figure 26 is a diagram illustrating a third use case whereby an audio encoding device can specify multiple layers in a multilayer bit stream in accordance with the techniques described in this disclosure. For example, the audio encoding device 20 shown in the example of figures 2 and 3 may specify the syntax element NumLayer (which is shown as "NumberOfLayers" for ease of understanding) to indicate that the number of layers specified in the bit stream 21 is four. The audio encoding device 20 can further specify that the number of background channels specified in the first layer (which is also referred to as the "base layer" is one while the number of foreground channels specified in the first layer is zero (i.e., B1 = 1, F1 = 0 in the example of Fig. 26 ).

[000275] O dispositivo de codificação de áudio 20 pode especificar ainda que o número de canais de segundo plano especificados na segunda camada (que também é mencionado como uma “primeira camada de aperfeiçoamento”) é um enquanto o número de canais de segundo plano especificados na segunda camada é zero (isto é, B2 = 1, F2 = 0 no exemplo da figura 26). O dispositivo de codificação de áudio 20 pode especificar também que o número de canais de segundo plano especificados na terceira camada (que também é mencionada como uma “segunda camada de aperfeiçoamento”) é um enquanto o número de canais de primeiro plano especificados na terceira camada é zero (isto é, B3 = 1, F3 = 0 no exemplo da figura 26). Além disso, o dispositivo de codificação de áudio 20 pode especificar que o número de canais de segundo plano especificados na quarta camada (que também é mencionada como a “camada de aperfeiçoamento”) é um enquanto o número de canais de primeiro plano especificados na terceira camada é zero (isto é, B4 = 1, F4 = 0 no exemplo da figura 26). Entretanto, o dispositivo de codificação de áudio 20 pode não necessariamente sinalizar as informações de canal de segundo plano e primeiro plano da quarta camada quando o número total de canais de primeiro plano e segundo plano já são conhecidos no decodificador (por exemplo, por meio de elementos de sintaxe adicionais, como numBGchannels e totalNumFGchannels).[000275] The audio coding device 20 can further specify that the number of background channels specified in the second layer (which is also referred to as a "first layer of enhancement") is one while the number of background channels specified in the second layer is zero (i.e. B2 = 1, F2 = 0 in the example of Figure 26). The audio encoding device 20 can also specify that the number of background channels specified in the third layer (which is also referred to as a "second enhancement layer") is one while the number of foreground channels specified in the third layer is zero (i.e., B3=1, F3=0 in the example of Fig. 26). Furthermore, the audio encoding device 20 can specify that the number of background channels specified in the fourth layer (which is also referred to as the "enhancement layer") is one while the number of foreground channels specified in the third layer is zero (i.e., B4=1, F4=0 in the example of Fig. 26). However, the audio encoding device 20 may not necessarily signal the background and foreground channel information of the fourth layer when the total number of foreground and background channels are already known in the decoder (e.g., through additional syntax elements such as numBGchannels and totalNumFGchannels).

[000276] O dispositivo de codificação de áudio 20 pode especificar esses valores Bi e Fi como NumBGchannels[i] e NumFGchannels[i]. Para o exemplo acima, o dispositivo de codificação de áudio 20 pode especificar o elemento de sintaxe NumBGchannels como {1, 1, 1, 1} e o elemento de sintaxe NumFGchnanels como {0, 0, 0, 0}. O dispositivo de codificação de áudio 20 pode também especificar os canais de áudio HOA de segundo plano 1030 no fluxo de bits 21. Nesse aspecto, as técnicas podem permitir que as camadas de aperfeiçoamento especifiquem ambiente, ou em outras palavras canais HOA de segundo plano 1030, que podem ter sido decorrelacionados antes de serem especificados nas camada base e de aperfeiçoamento do fluxo de bits 21 como descrito acima com relação aos exemplos das figuras 7A-9B. Entretanto, novamente, as técnicas expostas nessa revelação não são necessariamente limitadas à decorrelação e podem não fornecer elementos de sintaxe ou quaisquer outras indicações no fluxo de bits relevante para decorrelação como descrito acima.[000276] Audio encoding device 20 can specify these Bi and Fi values as NumBGchannels[i] and NumFGchannels[i]. For the example above, the audio encoding device 20 can specify the NumBGchannels syntax element as {1, 1, 1, 1} and the NumFGchnanels syntax element as {0, 0, 0, 0}. Audio encoding device 20 may also specify background HOA audio channels 1030 in bitstream 21. In this regard, techniques may allow enhancement layers to specify ambience, or in other words background HOA channels 1030, which may have been decorrelated prior to being specified in base and enhancement layers of bitstream 21 as described above with respect to the examples of Figures 7A-9B. However, again, the techniques disclosed in this disclosure are not necessarily limited to decorrelation and may not provide syntax elements or any other indications in the relevant bitstream for decorrelation as described above.

[000277] O dispositivo de decodificação de áudio 24 mostrado nos exemplos das figuras 2 e 4 pode operar em um modo recíproco àquele do dispositivo de codificação de áudio 20 para analisar esses elementos de sintaxe a partir do fluxo de bits (por exemplo, como exposto na tabela de sintaxe HOADecoderConfig). O dispositivo de decodificação de áudio 24 pode analisar também os canais de áudio HOA de segundo plano correspondentes 1030 a partir do fluxo de bits 21 de acordo com os elementos de sintaxe analisados.[000277] The audio decoding device 24 shown in the examples of figures 2 and 4 can operate in a reciprocal mode to that of the audio coding device 20 to parse these syntax elements from the bit stream (for example, as exposed in the HOADecoderConfig syntax table). The audio decoding device 24 can also parse the corresponding background HOA audio channels 1030 from the bitstream 21 according to the parsed syntax elements.

[000278] Como observado acima, em algumas instâncias, o fluxo de bits escalonável 21 pode incluir várias camadas que se conformam ao fluxo de bits não escalonável 21. Por exemplo, o fluxo de bits escalonável 21 pode incluir uma camada base que se conforma ao fluxo de bits não escalonável 21. Nessas instâncias, o fluxo de bits não escalonável 21 pode representar um sub-fluxo de bits de fluxo de bits escalonável 21, onde esse sub-fluxo de bits não escalonável 21 pode ser aperfeiçoado com camadas adicionais do fluxo de bits escalonável 21 (que são mencionadas como camadas de aperfeiçoamento).[000278] As noted above, in some instances, the scalable bitstream 21 may include multiple layers that conform to the non-scalable bitstream 21. For example, the scalable bitstream 21 may include a base layer that conforms to the non-scalable bitstream 21. In these instances, the non-scalable bitstream 21 may represent a sub-bitstream of the scalable bitstream 21, where that sub-stream Unscalable bitstream 21 can be enhanced with additional layers of scalable bitstream 21 (which are referred to as enhancement layers).

[000279] As figuras 27 e 28 são diagramas de bloco ilustrando uma unidade de geração de fluxo de bits escalonável 42 e uma unidade de extração de fluxo de bits escalonável 72 que podem ser configuradas para executar vários aspectos das técnicas descritas nessa revelação. No exemplo da figura 27, a unidade de geração de fluxo de bits escalonável 42 pode representar um exemplo da unidade de geração de fluxo de bits 42 descrita acima com relação ao exemplo da figura 3. A unidade de geração de fluxo de bits escalonável 42 pode transmitir uma camada base 21 que se conforma (em termos de sintaxe e capacidade de ser decodificado por decodificadores de áudio que não suportam codificação escalonável) a um fluxo de bits não escalonável 21. A unidade de geração de fluxo de bits escalonável 42 pode operar em modos descritos acima com relação a qualquer uma das unidades de geração de fluxo de bits supra 42 exceto que a unidade de geração de fluxo de bits escalonável 42 não inclui uma unidade de geração de fluxo de bits não escalonável 1002. Ao invés, a unidade de geração de fluxo de bits escalonável 42 transmite uma camada de base 21 que se conforma a um fluxo de bits não escalonável e como tal não requer uma unidade de geração de fluxo de bits não escalonável separada 1000. No exemplo da figura 28, a unidade de extração de fluxo de bits escalonável 72 pode operar reciprocamente com a unidade de geração de fluxo de bits escalonável 42.[000279] Figures 27 and 28 are block diagrams illustrating a scalable bitstream generation unit 42 and a scalable bitstream extraction unit 72 that can be configured to perform various aspects of the techniques described in this disclosure. In the example of Fig. 27, the scalable bitstream generation unit 42 can represent an example of the bitstream generation unit 42 described above with respect to the example of Fig. 3. The scalable bitstream generation unit 42 can transmit a base layer 21 that conforms (in terms of syntax and ability to be decoded by audio decoders that do not support scalable coding) to a non-scalable bitstream 21. The bitstream generation unit The scalable bitstream generation unit 42 may operate in modes described above with respect to any of the above bitstream generation units 42 except that the scalable bitstream generation unit 42 does not include a non-scalable bitstream generation unit 1002. Rather, the scalable bitstream generation unit 42 transmits a base layer 21 that conforms to a non-scalable bitstream and as such does not require a separate non-scalable bitstream generation unit 1 000. In the example of Fig. 28, the scalable bitstream extraction unit 72 can operate reciprocally with the scalable bitstream generation unit 42.

[000280] A figura 29 representa um diagrama conceptual representando um codificador 900 que pode ser configurado para operar de acordo com vários aspectos das técnicas descritas nessa revelação. O codificador 900 pode representar outro exemplo do dispositivo de codificação de áudio 20. O codificador 900 pode incluir uma unidade de decomposição espacial 902, uma unidade de decorrelação 904 e uma unidade de codificação temporal 906. A unidade de decomposição espacial 902 pode representar uma unidade configurada para transmitir os sons predominantes baseados em vetor (na forma dos objetos de áudio mencionados acima), os vetores-V correspondentes associados a esses sons predominantes baseados em vetor e coeficientes HOA ambiente horizontais 903. A unidade de decomposição espacial 902 pode diferir de uma decomposição baseada em direcional em que os vetores-V descrevem tanto a direção como a largura do objeto correspondente dos objetos de áudio à medida que cada objeto de áudio se move ao longo do tempo no campo de som.[000280] Figure 29 is a conceptual diagram representing an encoder 900 that can be configured to operate in accordance with various aspects of the techniques described in this disclosure. Encoder 900 may represent another example of audio coding device 20. Encoder 900 may include a spatial decomposition unit 902, a decorrelation unit 904, and a temporal coding unit 906. The spatial decomposition unit 902 may represent a unit configured to transmit the vector-based predominant sounds (in the form of the aforementioned audio objects), the corresponding V-vectors associated with those vector-based predominant sounds, and horizontal ambient HOA coefficients 903. The spatial decomposition unit 902 may differ from a directional-based decomposition in that the V-vectors describe both the direction and the corresponding object width of the audio objects as each audio object moves over time in the sound field.

[000281] A unidade de decomposição espacial 902 pode incluir unidades 30-38 e 44-52 da unidade de síntese baseada em vetor 27 mostrada no exemplo da figura 3 e opera, em geral, no modo descrito acima com relação à unidade 30-38 e 44-52. A unidade de decomposição espacial 902 pode diferir da unidade de síntese baseada em vetor 27 em que a unidade de decomposição espacial 902 pode não executar codificação psicoacústica ou de outro modo incluir unidade de codificador psicoacústico 40 e pode não incluir uma unidade de geração de fluxo de bits 42. Além disso, no contexto de codificação de áudio escalonável, a unidade de decomposição espacial 902 pode passar através dos coeficientes HOA ambiente horizontais 903 (significando, em alguns exemplos, que esses coeficientes HOA horizontais podem não ser modificados ou de outro modo ajustados e são analisados a partir de coeficientes HOA 901).[000281] The spatial decomposition unit 902 may include units 30-38 and 44-52 of the vector-based synthesis unit 27 shown in the example of Figure 3 and operates, in general, in the manner described above with respect to unit 30-38 and 44-52. The spatial decomposition unit 902 may differ from the vector-based synthesis unit 27 in that the spatial decomposition unit 902 may not perform psychoacoustic coding or otherwise include a psychoacoustic encoder unit 40 and may not include a bitstream generation unit 42. Furthermore, in the context of scalable audio coding, the spatial decomposition unit 902 may pass through horizontal ambient HOA coefficients 903 (meaning, in some examples, that these coefficients s Horizontal HOA may not be modified or otherwise adjusted and are analyzed from HOA 901 coefficients).

[000282] Os coeficientes HOA ambiente horizontais 903 podem se referir a qualquer um dos coeficientes HOA 901 (que também pode ser mencionado como dados de áudio HOA 901) que descrevem um componente horizontal do campo de som. Por exemplo, os coeficientes HOA ambiente horizontais 903 podem incluir coeficientes HOA associados a uma função de base esférica tendo uma ordem de zero e uma subordem de zero, coeficientes ambisonic de ordem superior correspondendo a uma função de base esférica tendo uma ordem de um e uma subordem de um negativo, e terceiros coeficientes ambisonic de ordem superior correspondendo a uma função de base esférica tendo uma ordem de um e uma subordem de um.[000282] Horizontal ambient HOA coefficients 903 may refer to any of the HOA coefficients 901 (which may also be referred to as HOA audio data 901) that describe a horizontal component of the sound field. For example, horizontal ambient HOA coefficients 903 can include HOA coefficients associated with a spherical basis function having an order of zero and a suborder of zero, higher order ambisonic coefficients corresponding to a spherical basis function having an order of one and a suborder of negative one, and third higher order ambisonic coefficients corresponding to a spherical basis function having an order of one and a suborder of one.

[000283] A unidade de decorrelação 904 representa uma unidade configurada para executar decorrelação com relação a uma primeira camada de duas ou mais camadas dos dados de áudio ambisonic de ordem superior 903 (onde os coeficientes HOA ambiente 903 são um exemplo desses dados de áudio HOA) para obter uma representação decorrelacionada 905 da primeira camada de duas ou mais camadas dos dados de áudio ambisonic de ordem superior. A camada base 903 pode ser similar a qualquer uma das primeiras camadas, camadas base ou subcamadas base descritas acima com relação às figuras 21-26. A unidade de decorrelação 904 pode executar decorrelação usando a matriz UHJ acima mencionada ou a matriz de modo. A unidade de decorrelação 904 pode também executar decorrelação usando uma transformação, como rotação, em um modo similar àquele descrito no pedido US no. De série 14/192.829, intitulado “TRANSFORMING SPHERICAL HARMONIC COEFFICIENTS, ” depositado em 27 de fevereiro de 2014, exceto que a rotação é executada para obter uma representação decorrelacionada da primeira camada ao invés de reduzir o número de coeficientes.[000283] The decorrelation unit 904 represents a unit configured to perform decorrelation with respect to a first layer of two or more layers of the higher order ambisonic audio data 903 (where ambient HOA coefficients 903 are an example of such HOA audio data) to obtain a decorrelated representation 905 of the first layer of two or more layers of the higher order ambisonic audio data. Base layer 903 may be similar to any of the first layers, base layers, or subbase layers described above with respect to Figures 21-26. The decorrelation unit 904 can perform decorrelation using the aforementioned UHJ matrix or the mode matrix. Decorrelation unit 904 may also perform decorrelation using a transformation, such as rotation, in a similar manner to that described in US application no. Serial 14/192,829, entitled “TRANSFORMING SPHERICAL HARMONIC COEFFICIENTS,” filed February 27, 2014, except that rotation is performed to obtain a decorrelated representation of the first layer rather than reducing the number of coefficients.

[000284] Em outras palavras, a unidade de decorrelação 904 pode executar uma rotação do campo de som para alinhar energia dos coeficientes HOA ambiente 903 ao longo de três eixos horizontais diferentes separados por 120 graus (como 0 graus azimutal / 0 graus de elevação, 120 graus azimutais / 0 graus de elevação, e 240 graus azimutais /0 grau de elevação). Por alinhar essas energias com os três eixos horizontais, a unidade de decorrelação 904 pode tentar decorrelacionar as energias entre si de modo que a unidade de decorrelação 904 pode utilizar uma transformação espacial para efetivamente renderizar três canais de áudio de decorrelação 905. A unidade de decorrelação 904 pode aplicar essa transformação espacial de modo a computar os sinais de áudio espacial 905 nos ângulos de azimute de 0 grau, 120 graus e 240 graus.[000284] In other words, the decorrelation unit 904 can perform a rotation of the sound field to align energy of the ambient HOA coefficients 903 along three different horizontal axes separated by 120 degrees (such as 0 degrees azimuthal / 0 degrees elevation, 120 degrees azimuthal / 0 degrees elevation, and 240 degrees azimuth / 0 degrees elevation). By aligning these energies with the three horizontal axes, the decorrelation unit 904 can attempt to decorrelate the energies with each other so that the decorrelation unit 904 can utilize a spatial transformation to effectively render three channels of decorrelation audio 905. The decorrelation unit 904 can apply this spatial transformation in order to compute the spatial audio signals 905 at azimuth angles of 0 degrees, 120 degrees, and 240 degrees.

[000285] Embora descrito com referência a ângulos de azimute de 0 grau, 120 graus e 240 graus, as técnicas podem ser aplicadas com relação a quaisquer três ângulos azimutais que uniformemente ou quase uniformemente dividem os 360 graus de azimute do círculo. Por exemplo, as técnicas também podem ser executadas com relação a uma transformação que computa os sinais de áudio espacial 905 nos ângulos de azimute de 60 graus, 180 graus e 300 graus. Além disso, embora descrito com relação a três coeficientes HOA ambiente 901, as técnicas podem ser executadas mais genericamente com relação a quaisquer coeficientes HOA horizontais, incluindo aqueles como descrito acima e quaisquer outros coeficientes HOA horizontais, como aqueles associados a uma função de base esférica tendo uma ordem de dois e subordem de dois, uma função de base esférica tendo uma ordem de dois e uma subordem de dois negativo, ..., uma função de base esférica tendo uma ordem de X e uma subordem de X, e uma função de base esférica tendo uma ordem de X e uma subordem de X negativo, onde X pode representar qualquer número incluindo 3, 4, 5, 6, etc.[000285] Although described with reference to azimuth angles of 0 degrees, 120 degrees, and 240 degrees, the techniques can be applied with respect to any three azimuthal angles that evenly or nearly evenly divide the 360 degrees of azimuth of the circle. For example, the techniques can also be performed against a transform that computes the 905 spatial audio signals at azimuth angles of 60 degrees, 180 degrees, and 300 degrees. Furthermore, although described with respect to three ambient HOA coefficients 901, the techniques may be performed more generally with respect to any horizontal HOA coefficients, including those as described above and any other horizontal HOA coefficients, such as those associated with a spherical basis function having an order of two and suborder of two, a spherical basis function having an order of two and a suborder of negative two, ..., a spherical basis function having an order of X and a suborder of X, and a spherical basis function having an order of X and a suborder of negative X, where X can represent any number including 3, 4, 5, 6, etc.

[000286] À medida que o número de coeficientes HOA horizontais aumenta, o número de porções uniformes ou quase uniformes do círculo de 360 graus pode aumentar. Por exemplo, quando o número de coeficientes HOA horizontais aumenta para cinco, a unidade de decorrelação 904 pode segmentar o círculo em cinco divisões uniformes (por exemplo, de aproximadamente 72 graus cada). O número de coeficientes HOA horizontais de X pode, como outro exemplo, resultar em X divisões uniformes com cada divisão tendo 360 graus / X graus.[000286] As the number of horizontal HOA coefficients increases, the number of uniform or nearly uniform portions of the 360 degree circle may increase. For example, when the number of horizontal HOA coefficients increases to five, the decorrelation unit 904 can segment the circle into five even divisions (eg, of approximately 72 degrees each). The number of horizontal HOA coefficients of X can, as another example, result in X uniform divisions with each division being 360 degrees / X degrees.

[000287] A unidade de decorrelação 904 pode, para identificar as informações de rotação indicativas da quantidade pela qual girar o campo de som representado pelos coeficientes HOA ambiente horizontais 903, executar uma análise de campo de som, análise de característica de conteúdo, e/ou análise espacial. Com base em uma ou mais dessas análises, a unidade de decorrelação 904 pode identificar a informação de rotação (ou outra informação de transformação da qual a informação de rotação é um exemplo) como um número de graus pelo qual girar horizontalmente o campo de som, e girar o campo de som, obtendo efetivamente uma representação girada (que é um exemplo da representação transformada mais geral) da camada base dos dados de áudio ambisonic de ordem superior.[000287] The decorrelation unit 904 may, in order to identify the rotation information indicative of the amount by which to rotate the sound field represented by the horizontal ambient HOA coefficients 903, perform a sound field analysis, content feature analysis, and/or spatial analysis. Based on one or more of these analyses, the decorrelation unit 904 can identify the rotation information (or other transformation information of which the rotation information is an example) as a number of degrees by which to horizontally rotate the sound field, and rotate the sound field, effectively obtaining a rotated representation (which is an example of the more general transformed representation) of the base layer of higher order ambisonic audio data.

[000288] A unidade de decorrelação 904 pode então aplicar uma transformada espacial à representação girada da camada base 903 (que também pode ser mencionada como uma primeira camada 903 de duas ou mais camadas) dos dados de áudio ambisonic de ordem superior. A transformada espacial pode converter a representação girada da camada base das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio harmônico esférico para um domínio espacial para obter uma representação decorrelacionada da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior. A representação de decorrelação da primeira camada pode incluir sinais de áudio espacial 905 renderizados nos três ângulos de azimute correspondentes de 0 grau, 120 graus e 240 graus, como mencionado acima. A unidade de decorrelação 904 pode então passar os sinais de áudio espacial ambiente horizontais 905 para a unidade de codificação temporal 906.[000288] The decorrelation unit 904 can then apply a spatial transform to the rotated representation of the base layer 903 (which may also be referred to as a first layer 903 of two or more layers) of the higher order ambisonic audio data. The spatial transform can convert the rotated representation of the base layer of the two or more layers of the higher order ambisonic audio data from a spherical harmonic domain to a spatial domain to obtain a decorrelated representation of the first layer of the two or more layers of the higher order ambisonic audio data. The decorrelation representation of the first layer may include spatial audio signals 905 rendered at the three corresponding azimuth angles of 0 degrees, 120 degrees and 240 degrees as mentioned above. The decorrelation unit 904 can then pass the horizontal ambient spatial audio signals 905 to the temporal coding unit 906.

[000289] A unidade de decodificação temporal 906 pode representar uma unidade configurada para executar codificação de áudio psicoacústico. A unidade de codificação temporal 906 pode representar um codificador AAC ou um codificador de áudio e fala unificada (USAC) para fornecer dois exemplos. Unidades de codificação de áudio temporal, como a unidade de codificação temporal 906, podem normalmente operar com relação aos dados de áudio decorrelacionados, como os 6 canais de uma configuração de alto-falante 5.1, esses 6 canais tendo sido renderizados para canais decorrelacionados. Entretanto, os coeficientes HOA ambiente horizontais 903 são aditivos em natureza e desse modo correlacionam em certo aspecto. O fornecimento desses coeficientes HOA ambiente horizontais 903 diretamente à unidade de codificação temporal 906 sem primeiramente executar alguma forma de decorrelação pode resultar em desmascarar ruído espacial no qual sons aparecem em locais que não eram pretendidos. Esses artefatos perceptuais, como desmascaramento de ruído espacial, podem ser reduzidos por executar a decorrelação baseada em transformação (ou, mais especificamente, baseada em rotação no exemplo da figura 29) descrita acima.[000289] Temporal decoding unit 906 may represent a unit configured to perform psychoacoustic audio encoding. Temporal coding unit 906 can represent an AAC encoder or a unified speech and audio (USAC) encoder to provide two examples. Temporal audio coding units such as temporal coding unit 906 can normally operate against decorrelated audio data such as the 6 channels of a 5.1 speaker setup, those 6 channels having been rendered to decorrelated channels. However, the horizontal ambient HOA coefficients 903 are additive in nature and thus correlate to some extent. Supplying these horizontal ambient HOA coefficients 903 directly to the temporal coding unit 906 without first performing some form of decorrelation can result in unmasking spatial noise in which sounds appear in places they were not intended. These perceptual artifacts, such as spatial noise unmasking, can be reduced by performing the transform-based (or, more specifically, rotation-based in the example in Figure 29) decorrelation described above.

[000290] A figura 30 é um diagrama ilustrando o codificador 900 mostrado no exemplo da figura 27 em mais detalhe. No exemplo da figura 30, o codificador 900 pode representar um codificador de camada base 900 que codifica a camada base somente horizontal de primeira ordem HOA 903 e não mostra unidade de decomposição espacial 902 visto que essa unidade 902 não executa, nesse exemplo de passagem, operações significativas diferentes de fornecer a camada base 903 a uma unidade de análise de campo de som 910 e uma unidade de rotação bidimensional (2D) da unidade de decorrelação 904.[000290] Figure 30 is a diagram illustrating the encoder 900 shown in the example of Figure 27 in more detail. In the example of Fig. 30, encoder 900 may represent a base layer encoder 900 that encodes the first order HOA horizontal only base layer 903 and does not show spatial decomposition unit 902 since such unit 902 does not, in this passing example, perform significant operations other than providing the base layer 903 to a sound field analysis unit 910 and a two-dimensional (2D) rotation unit of decorrelation unit 904.

[000291] Isto é, a unidade de decorrelação 904 inclui a unidade de análise de campo de som 910 e a unidade de rotação 2D 912. A unidade de análise de campo de som 910 representa uma unidade configurada para executar a análise de campo de som descrita acima em mais detalhe para obter um parâmetro de ângulo de rotação 911. O parâmetro de ângulo de rotação 911 representa um exemplo de informação de transformação na forma de informação de rotação. A unidade de rotação 2D 912 representa uma unidade configurada para executar uma rotação horizontal em torno do eixo-Z do campo de som com base no parâmetro de ângulo de rotação 911. Essa rotação é bidimensional em que a rotação somente envolve um eixo de rotação único e não inclui nenhuma, nesse exemplo, rotação de elevação. A unidade de rotação 2D 912 pode obter informação de rotação inversa 913 (por inverter, como exemplo, o parâmetro de ângulo de rotação 911 para obter o parâmetro de ângulo de rotação inversa 913), que pode ser um exemplo de informação de transformação inversa mais geral. A unidade de rotação 2D 912 pode fornecer o parâmetro de ângulo de rotação inversa 913 de modo que o codificador 900 possa especificar o parâmetro de ângulo de rotação inversa 913 no fluxo de bits.[000291] That is, the decorrelation unit 904 includes the sound field analysis unit 910 and the 2D rotation unit 912. The sound field analysis unit 910 represents a unit configured to perform the above-described sound field analysis in more detail to obtain a rotation angle parameter 911. The rotation angle parameter 911 represents an example of transformation information in the form of rotation information. The 2D rotation unit 912 represents a unit configured to perform a horizontal rotation about the Z-axis of the sound field based on the rotation angle parameter 911. This rotation is two-dimensional in that the rotation only involves a single rotation axis and does not include any, in this example, elevation rotation. 2D rotation unit 912 may obtain reverse rotation information 913 (by inverting, as an example, rotation angle parameter 911 to obtain reverse rotation angle parameter 913), which may be an example of more general reverse transformation information. The 2D rotation unit 912 may provide the reverse rotation angle parameter 913 so that the encoder 900 can specify the reverse rotation angle parameter 913 in the bit stream.

[000292] Em outras palavras, a unidade de rotação 2D 912 pode, com base na análise de campo de som, girar o campo de som 2D de modo que a energia predominante esteja potencialmente chegando de um dos pontos de amostragem espacial usados no módulo de transformada espacial 2D (0°, 120°, 240°) . A unidade de rotação 2D 912 pode, como exemplo, aplicar a seguinte matriz de rotação: - 1 0 0 Em alguns exemplos, a unidade de rotação 2D 912 pode, para evitar artefatos de quadro, aplicar uma função de suavização (interpolação) para assegurar uma transição suave do ângulo de rotação de variação de tempo. Essa função de suavização pode compreender uma função de suavização linear. Entretanto, outras funções de suavização, incluindo funções de suavização não linear podem ser usadas. A unidade de rotação 2D 912 pode, por exemplo, usar uma função de suavização de ranhura.[000292] In other words, the 2D rotation unit 912 can, based on the sound field analysis, rotate the 2D sound field so that the predominant energy is potentially arriving from one of the spatial sampling points used in the 2D spatial transform module (0°, 120°, 240°). The 2D rotation unit 912 can, as an example, apply the following rotation matrix: - 1 0 0 In some instances, the 2D rotation unit 912 may, to avoid frame artifacts, apply a smoothing (interpolation) function to ensure a smooth transition of the time varying rotation angle. Such a smoothing function may comprise a linear smoothing function. However, other smoothing functions including non-linear smoothing functions can be used. The 2D rotation unit 912 can, for example, use a groove smoothing function.

[000293] Para ilustrar, quando o módulo de unidade de análise de campo de som 910 indica que a direção dominante de campo de som está em 70° azimute em um quadro de análise, a unidade de rotação 2D 912 pode girar suavemente o campo de som em Φ = -70° de modo que a direção dominante seja agora 0°. Como outra possiblidade, a unidade de rotação 2D 912 pode girar o campo de som em Φ = 50°, de modo que a direção dominante seja agora 120°. A unidade de rotação 2D 912 pode então sinalizar o ângulo de rotação aplicado 913 como um parâmetro de banda lateral adicional no fluxo de bits, de modo que um decodificador possa aplicar a operação de rotação inversa correta.[000293] To illustrate, when the sound field analysis unit module 910 indicates that the dominant sound field direction is at 70° azimuth in an analysis frame, the 2D rotation unit 912 can smoothly rotate the sound field by Φ = -70° so that the dominant direction is now 0°. As another possibility, the 2D rotation unit 912 can rotate the sound field by Φ = 50°, so that the dominant direction is now 120°. The 2D rotation unit 912 can then signal the applied rotation angle 913 as an additional sideband parameter in the bitstream, so that a decoder can apply the correct reverse rotation operation.

[000294] Como adicionalmente mostrado no exemplo da figura 30, a unidade de decorrelação 904 também inclui uma unidade de transformação espacial 2D 914. A unidade de transformação espacial 2D 914 representa uma unidade configurada para converter a representação girada da camada base a partir do domínio harmônico esférico para o domínio espacial, efetivamente renderizando a camada base girada 915 para os três ângulos de azimute (por exemplo, 0, 120 e 240). A unidade de transformação espacial 2D 914 pode multiplicar os coeficientes da camada base girada 915 com a seguinte matriz de transformação, que assume a ordem de coeficiente HOA ‘00+’, ’11-‘, ‘11+’ e normalização N3D: A matriz acima computa os sinais de áudio espacial 905 nos ângulos azimute 0°, 120° e 240°, de modo que o círculo de 360° seja uniformemente dividida em 3 porções. Como observado acima, outras separações são possíveis, desde que cada porção cubra 120 graus, por exemplo, computando os sinais espaciais em 60°, 180° e 300°.[000294] As further shown in the example of Figure 30, the decorrelation unit 904 also includes a 2D spatial transformation unit 914. The 2D spatial transformation unit 914 represents a unit configured to convert the rotated representation of the base layer from the spherical harmonic domain to the spatial domain, effectively rendering the rotated base layer 915 for the three azimuth angles (for example, 0, 120 and 240 ). The 2D spatial transformation unit 914 may multiply the rotated base layer coefficients 915 with the following transformation matrix, which assumes HOA coefficient order '00+', '11-', '11+' and N3D normalization: The above matrix computes the 905 spatial audio signals at azimuth angles 0°, 120° and 240°, so that the 360° circle is uniformly divided into 3 portions. As noted above, other separations are possible as long as each portion covers 120 degrees, for example computing the spatial signals at 60°, 180° and 300°.

[000295] Desse modo, as técnicas podem fornecer um dispositivo 900 configurado para executar codificação de dados de áudio ambisonic de ordem superior escalonável. O dispositivo 900 pode ser configurado para executar decorrelação com relação a uma primeira camada 903 de duas ou mais camadas dos dados de áudio ambisonic de ordem superior para obter uma representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000295] Thus, the art can provide a device 900 configured to perform scalable higher order ambisonic audio data encoding. Device 900 may be configured to perform decorrelation with respect to a first layer 903 of two or more layers of the higher order ambisonic audio data to obtain a decorrelated representation 905 of the first layer of the two or more layers of the higher order ambisonic audio data.

[000296] Nessas e em outras instâncias, a primeira camada 903 de duas ou mais camadas dos dados de áudio ambisonic de ordem superior compreende coeficientes ambisonic de ordem superior ambiente correspondendo a uma ou mais funções básicas esféricas tendo uma ordem igual a ou menor que um. Nessas e em outras instâncias a primeira camada 903 de duas ou mais camadas dos dados de áudio ambisonic de ordem superior compreende coeficientes ambisonic de ordem superior ambiente correspondendo somente a funções básicas esféricas descritivas de aspectos horizontais do campo de som. Nessas e em outras instâncias, os coeficientes ambisonic de ordem superior ambiente correspondendo somente a funções de base esférica descritivas dos aspectos horizontais do campo de som podem compreender primeiros coeficientes ambisonic de ordem superior ambiente correspondendo a uma função de base esférica tendo uma ordem de zero e uma subordem de zero, segundos coeficientes ambisonic de ordem superior correspondendo a uma função de base esférica tendo uma ordem de um e uma subordem de um negativo, e terceiros coeficientes ambisonic de ordem superior correspondendo a uma função de base esférica tendo uma ordem de um e uma subordem de um.[000296] In these and other instances, the first layer 903 of two or more layers of the higher order ambisonic audio data comprises ambient higher order ambisonic coefficients corresponding to one or more spherical basic functions having an order equal to or less than one. In these and other instances the first layer 903 of two or more layers of the higher order ambisonic audio data comprises ambient higher order ambisonic coefficients corresponding only to basic spherical functions descriptive of horizontal aspects of the sound field. In these and other instances, ambient higher order ambisonic coefficients corresponding only to spherical basis functions descriptive of horizontal aspects of the sound field may comprise first ambient higher order ambisonic coefficients corresponding to a spherical basis function having an order of zero and a suborder of zero, second higher order ambisonic coefficients corresponding to a spherical basis function having an order of one and a suborder of negative one, and third order ambisonic coefficients of negative one. upper corresponding to a spherical basis function having an order of one and a suborder of one.

[000297] Nessas e em outras instâncias, o dispositivo 900 pode ser configurado para executar uma transformação (por exemplo, por meio da unidade de rotação 2D 912) com relação à primeira camada 903 dos dados de áudio ambisonic de ordem superior.[000297] In these and other instances, the device 900 may be configured to perform a transformation (eg, via the 2D rotation unit 912) with respect to the first layer 903 of the higher order ambisonic audio data.

[000298] Nessas e em outras instâncias, o dispositivo 900 pode ser configurado para executar uma rotação (por exemplo, por meio da unidade de rotação 2D 912) com relação à primeira camada 903 dos dados de áudio ambisonic de ordem superior.[000298] In these and other instances, the device 900 may be configured to perform a rotation (eg, via the 2D rotation unit 912) with respect to the first layer 903 of the higher order ambisonic audio data.

[000299] Nessas e em outras instâncias, o dispositivo 900 pode ser configurado para aplicar uma transformação (por exemplo, por meio da unidade de rotação 2D 912) com relação à primeira camada 903 de duas ou mais camadas dos dados de áudio ambisonic de ordem superior para obter uma representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e converter a representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior (por exemplo, por meio da unidade de transformação espacial 2D 914) a partir de um domínio harmônico esférico para um domínio espacial para obter uma representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000299] In these and other instances, the device 900 can be configured to apply a transformation (e.g., via the 2D rotation unit 912) with respect to the first layer 903 of two or more layers of the higher-order ambisonic audio data to obtain a transformed representation 915 of the first layer of the two or more layers of the higher-order ambisonic audio data, and converting the transformed representation 915 of the first layer of the two or more layers of the audio data higher order ambisonic domain (e.g., by means of the 2D spatial transformation unit 914) from a spherical harmonic domain to a spatial domain to obtain a decorrelated representation 905 of the first layer of the two or more layers of the higher order ambisonic audio data.

[000300] Nessas e em outras instâncias, o dispositivo 900 pode ser configurado para aplicar uma rotação com relação à primeira camada 903 das duas ou mais camadas dos dados de áudio ambisonic de ordem superior para obter uma representação girada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e converter a representação girada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio harmônico esférico para um domínio espacial para obter uma representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000300] In these and other instances, the device 900 can be configured to apply a rotation with respect to the first layer 903 of the two or more layers of the higher order ambisonic audio data to obtain a 915 rotated representation of the first layer of the two or more layers of the higher order ambisonic audio data, and convert the 915 rotated representation of the first layer of the two or more layers of the higher order ambisonic audio data from a harmonic domain and pheric to a spatial domain to obtain a decorrelated representation 905 of the first layer of the two or more layers of the higher order ambisonic audio data.

[000301] Nessas e em outras instâncias, o dispositivo 900 pode ser configurado para obter informações de transformação 911, aplicar uma transformação com relação à primeira camada 903 das duas ou mais camadas dos dados de áudio ambisonic de ordem superior com base nas informações de transformação 911 para obter uma representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e converter a representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio harmônico esférico para um domínio espacial para obter uma representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000301] In these and other instances, the device 900 can be configured to obtain transformation information 911, apply a transformation with respect to the first layer 903 of the two or more layers of the higher order ambisonic audio data based on the transformation information 911 to obtain a transformed representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data, and convert the transformed representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data higher order ambisonic audio from a spherical harmonic domain to a spatial domain to obtain a 905 decorrelated representation of the first layer of the two or more layers of the higher order ambisonic audio data.

[000302] Nessas e em outras instâncias, o dispositivo 900 pode ser configurado para obter informações de rotação 911, e aplicar uma rotação com relação à primeira camada 903 das duas ou mais camadas dos dados de áudio ambisonic de ordem superior com base nas informações de rotação 911 para obter uma representação girada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e converter a representação girada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio harmônico esférico para um domínio espacial para obter uma representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000302] In these and other instances, the device 900 can be configured to obtain rotation information 911, and apply a rotation with respect to the first layer 903 of the two or more layers of the higher order ambisonic audio data based on the rotation information 911 to obtain a rotated representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data, and convert the rotated representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data from a spherical harmonic domain to a spatial domain to obtain a 905 decorrelated representation of the first layer of the two or more layers of the higher order ambisonic audio data.

[000303] Nessas e em outras instâncias, o dispositivo 900 pode ser configurado para aplicar uma transformação com relação à primeira camada 903 das duas ou mais camadas dos dados de áudio ambisonic de ordem superior usando pelo menos em parte uma função de suavização para obter uma representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e converter a representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio harmônico esférico para um domínio especial para obter uma representação decorrelacionada 905 da primeira camada de duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000303] In these and other instances, the device 900 can be configured to apply a transform with respect to the first layer 903 of the two or more layers of the higher order ambisonic audio data using at least in part a smoothing function to obtain a transformed representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data, and convert the first layer transformed representation 915 of the two or more layers of the higher order ambisonic audio data to from a spherical harmonic domain to a special domain to obtain a 905 decorrelated representation of the first layer of two or more layers of the higher order ambisonic audio data.

[000304] Nessas e em outras instâncias, o dispositivo 900 pode ser configurado para aplicar uma rotação com relação à primeira camada 903 das duas ou mais camadas dos dados de áudio ambisonic de ordem superior usando pelo menos em parte uma função de suavização para obter uma representação girada 915 da primeira camada de duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e converter a representação girada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio harmônico esférico para um domínio espacial para obter uma representação decorrelacionada da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000304] In these and other instances, the device 900 can be configured to apply a rotation with respect to the first layer 903 of the two or more layers of the higher order ambisonic audio data using at least in part a smoothing function to obtain a rotated representation 915 of the first layer of two or more layers of the higher order ambisonic audio data, and convert the rotated representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data from a spherical harmonic domain to a spatial domain to obtain a decorrelated representation of the first layer of the two or more layers of the higher order ambisonic audio data.

[000305] Nessas e em outras instâncias, o dispositivo 900 pode ser configurado para especificar uma indicação da função de suavização a ser usada ao aplicar uma transformação inversa ou uma rotação inversa.[000305] In these and other instances, device 900 can be configured to specify an indication of the smoothing function to be used when applying an inverse transform or an inverse rotation.

[000306] Nessas e em outras instâncias, o dispositivo 900 pode ser adicionalmente configurado para aplicar uma transformada invertível linear aos dados de áudio ambisonic de ordem superior para obter um vetor-V, e especificar o vetor V como uma segunda camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, como descrito acima com relação à figura 3.[000306] In these and other instances, the device 900 can be further configured to apply a linear invertible transform to the higher-order ambisonic audio data to obtain a V-vector, and specify the V-vector as a second layer of the two or more layers of the higher-order ambisonic audio data, as described above with respect to Figure 3.

[000307] Nessas e em outras instâncias, o dispositivo 900 pode ser adicionalmente configurado para obter coeficientes ambisonic de ordem superior associados a uma função de base esférica tendo uma ordem de um e uma subordem de zero, e especificar os coeficientes ambisonic de ordem superior como uma segunda camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000307] In these and other instances, the device 900 can be further configured to obtain higher order ambisonic coefficients associated with a spherical basis function having an order of one and a suborder of zero, and specify the higher order ambisonic coefficients as a second layer of the two or more layers of the higher order ambisonic audio data.

[000308] Nessas e em outras instâncias, o dispositivo 900 pode ser adicionalmente configurada para executar uma codificação temporal com relação à representação decorrelacionada da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000308] In these and other instances, the device 900 may be further configured to perform temporal encoding with respect to the decorrelated representation of the first layer of the two or more layers of the higher order ambisonic audio data.

[000309] A figura 31 é um diagrama de blocos ilustrando um decodificador de áudio 920 que pode ser configurado para operar de acordo com vários aspectos das técnicas descritas nessa revelação. O decodificador 920 pode representar outro exemplo do dispositivo de decodificação de áudio 24 mostrado no exemplo da figura 2 em termos de reconstruir os coeficientes HOA, reconstruir vetores-V das camadas de aperfeiçoamento, executar decodificação de áudio temporal (como executado por uma unidade de decodificação de áudio temporal 922), etc. Entretanto, o decodificador 920 difere em que o decodificador 920 opera com relação a dados de áudio ambisonic de ordem superior codificados escalonáveis como especificado no fluxo de bits.[000309] Figure 31 is a block diagram illustrating an audio decoder 920 that can be configured to operate in accordance with various aspects of the techniques described in this disclosure. Decoder 920 may represent another example of the audio decoding device 24 shown in the example of Figure 2 in terms of reconstructing the HOA coefficients, reconstructing V-vectors of the enhancement layers, performing temporal audio decoding (as performed by a temporal audio decoding unit 922), etc. However, decoder 920 differs in that decoder 920 operates with respect to scalable encoded higher order ambisonic audio data as specified in the bit stream.

[000310] Como mostrado no exemplo da figura 31, o decodificador de áudio 920 inclui uma unidade de decodificação temporal 922, uma unidade de transformação espacial 2D inversa 924, uma unidade de renderização de camada base 928 e uma unidade de processamento de camada de aperfeiçoamento 930. A unidade de decodificação temporal 922 pode ser configurada para operar em um modo recíproco àquele da unidade de codificação temporal 906. A unidade de transformação espacial 2D inversa 924 pode representar uma unidade configurada para operar em um modo recíproco àquele da unidade de transformação espacial 2D 914.[000310] As shown in the example of Figure 31, the audio decoder 920 includes a temporal decoding unit 922, an inverse 2D spatial transformation unit 924, a base layer rendering unit 928 and an enhancement layer processing unit 930. The temporal decoding unit 922 can be configured to operate in a reciprocal mode to that of the temporal coding unit 906. 2D inverse 924 may represent a unit configured to operate in a reciprocal mode to that of the 2D spatial transformation unit 914.

[000311] Em outras palavras, a unidade de transformação espacial 2D inversa 924 pode ser configurada para aplicar a matriz abaixo aos sinais de áudio espacial 905 para obter os coeficientes HOA ambiente horizontal girados 915 (que também podem ser mencionados como “a camada base girada 915”). A unidade de transformação espacial 2D inversa 924 pode transformar os 3 sinais de áudio transmitido 905 de volta para o domínio HOA usando a seguinte matriz de transformação, que como a matriz acima assume a ordem de coeficiente HOA ‘00+’, ’11-‘, ‘11+’ e normalização N3D: A matriz acima é o inverso da matriz de transformação usada no decodificador.[000311] In other words, the inverse 2D spatial transformation unit 924 can be configured to apply the matrix below to the spatial audio signals 905 to obtain the 915 horizontally rotated ambient HOA coefficients (which may also be referred to as "the 915 rotated base layer"). The inverse 2D spatial transformation unit 924 can transform the 3 transmitted audio signals 905 back to the HOA domain using the following transformation matrix, which like the matrix above assumes HOA coefficient order '00+', '11-', '11+' and N3D normalization: The matrix above is the inverse of the transformation matrix used in the decoder.

[000312] A unidade de rotação 2D inversa 926 pode ser configurada para operar em um modo recíproco àquele descrito acima com relação à unidade de rotação 2D 912. Nesse aspecto, a unidade de rotação 2D 912 pode executar uma rotação de acordo com a matriz de rotação mencionada acima com base no parâmetro de ângulo de rotação inversas 913 ao invés do parâmetro de ângulo de rotação 911. Em outras palavras, a unidade de rotação inversa 926 pode, com base na rotação sinalizada Φ, aplicada à matriz a seguir, que novamente assume a ordem de coeficiente ‘00+’, ’11-‘, ‘11+’ e normalização N3D: A unidade de rotação 2D inversa 926 pode usar a mesma função de suavização (interpolação) usada no decodificador para assegurar uma transição suave para o ângulo de rotação de variação de tempo, que pode ser sinalizado no fluxo de bit ou configurado a priori.[000312] The 2D rotation unit 926 can be configured to operate in a reciprocal mode to that described above with respect to the 2D rotation unit 912. In this regard, the 2D rotation unit 912 can perform a rotation according to the rotation matrix mentioned above based on the inverse rotation angle parameter 913 instead of the rotation angle parameter 911. In other words, the reverse rotation unit 926 can, with based on the Φ-signed rotation, applied to the following matrix, which again assumes coefficient order '00+', '11-', '11+' and N3D normalization: The inverse 2D rotation unit 926 can use the same smoothing (interpolation) function used in the decoder to ensure a smooth transition to the time varying rotation angle, which can be signaled in the bit stream or configured a priori.

[000313] A unidade de renderização de camada base 928 pode representar uma unidade configurada para renderizar os coeficientes HOA ambiente somente na horizontal da camada base para feeds de alto-falante. A unidade de processamento de camada de aperfeiçoamento 930 pode representar uma unidade configurada para executar processamento adicional da camada base com quaisquer camadas de aperfeiçoamento recebidas (decodificadas através de um percurso de decodificação de camada de aperfeiçoamento separada que invoca grande parte da decodificação descrita acima com relação a coeficientes HOA ambiente adicionais e os vetores-V juntamente com os objetos de áudio correspondendo aos vetores-V) para renderizar feeds de alto-falante. A unidade de processamento de camada de aperfeiçoamento 930 pode efetivamente aumentar a camada base para fornecer uma representação de resolução mais elevada do campo de som que pode fornecer uma experiencia de áudio mais imersiva tendo sons que potencialmente movem realisticamente no campo de som. A camada base pode ser similar a qualquer uma das primeiras camadas, camadas de base ou subcamadas de base descritas acima com relação às figuras 11-13B. as camadas de aperfeiçoamento podem ser similares a qualquer uma das segundas camadas, camadas de aperfeiçoamento, ou subcamadas de aperfeiçoamento descritas acima com relação às figuras 11-13B.[000313] Base layer rendering unit 928 may represent a unit configured to render the ambient HOA coefficients horizontally only from the base layer to speaker feeds. Enhancement layer processing unit 930 may represent a unit configured to perform additional base layer processing with any incoming enhancement layers (decoded through a separate enhancement layer decoding path that invokes much of the decoding described above with respect to additional ambient HOA coefficients and the V-vectors along with the audio objects corresponding to the V-vectors) to render speaker feeds. The enhancement layer processing unit 930 can effectively augment the base layer to provide a higher resolution representation of the sound field which can provide a more immersive audio experience having sounds that potentially move realistically in the sound field. The base layer can be similar to any of the first layers, base layers or subbase layers described above with respect to Figures 11-13B. the enhancement layers may be similar to any of the second layers, enhancement layers, or enhancement sub-layers described above with respect to Figures 11-13B.

[000314] Nesse aspecto, as técnicas fornecem um dispositivo 920 configurado para executar decodificação de dados de áudio ambisonic de ordem superior escalonável. O dispositivo pode ser configurado para obter uma representação decorrelacionada de uma primeira camada de duas ou mais camadas dos dados de áudio ambisonic de ordem superior (por exemplo, sinais de áudio espacial 905), os dados de áudio ambisonic de ordem superior descritivos de um campo de som. A representação decorrelacionada da primeira camada é decorrelacionada por executar decorrelação com relação à primeira camada dos dados de áudio ambisonic de ordem superior.[000314] In this regard, the techniques provide a device 920 configured to perform scalable higher order ambisonic audio data decoding. The device may be configured to obtain a first layer decorrelated representation of two or more layers of the higher order ambisonic audio data (e.g., spatial audio signals 905), the higher order ambisonic audio data descriptive of a sound field. The decorrelated representation of the first layer is decorrelated by performing decorrelation with respect to the first layer of the higher order ambisonic audio data.

[000315] Em algumas instâncias, a primeira camada de duas ou mais camadas dos dados de áudio ambisonic de ordem superior compreende coeficientes ambisonic de ordem superior ambiente correspondendo a uma ou mais funções de base esférica tendo uma ordem igual a ou menor que um. Nessas e em outras instâncias, a primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior compreende coeficientes ambisonic de ordem superior ambiente correspondendo somente a funções de base esférica descritivas de aspectos horizontais do campo de som. Nessas e em outras instâncias, os coeficientes ambisonic de ordem superior ambiente correspondendo somente a funções de base esférica descritivas dos aspectos horizontais do campo de som compreende primeiros coeficientes ambisonic de ordem superior ambiente correspondendo a uma função de base esférica tendo uma ordem de zero e uma subordem de zero, segundos coeficientes ambisonic de ordem superior correspondendo a uma função de base esférica tendo uma ordem de um e uma subordem de um negativo, e terceiros coeficientes ambisonic de ordem superior correspondendo a uma função de base esférica tendo uma ordem de um e uma subordem de um.[000315] In some instances, the first layer of two or more layers of higher-order ambisonic audio data comprises ambient higher-order ambisonic coefficients corresponding to one or more spherical basis functions having an order equal to or less than one. In these and other instances, the first layer of the two or more layers of higher order ambisonic audio data comprises ambient higher order ambisonic coefficients corresponding only to spherical basis functions descriptive of horizontal aspects of the sound field. In these and other instances, the ambient higher order ambisonic coefficients corresponding only to spherical basis functions descriptive of the horizontal aspects of the sound field comprise first ambient higher order ambisonic coefficients corresponding to a spherical basis function having an order of zero and a suborder of zero, higher order second ambisonic coefficients corresponding to a spherical basis function having an order of one and a suborder of negative one, and higher order third ambisonic coefficients corresponding to a spherical basis function having an order of one and a suborder of one.

[000316] Nessas e em outras instâncias a representação decorrelacionada da primeira camada é decorrelacionada por executar uma transformação com relação à primeira camada dos dados de áudio ambisonic de ordem superior, como descrito acima com relação ao codificador 900.[000316] In these and other instances the decorrelated representation of the first layer is decorrelated by performing a transformation with respect to the first layer of the higher order ambisonic audio data as described above with respect to encoder 900.

[000317] Nessas e em outras instâncias, o dispositivo 920 pode ser configurado para executar uma rotação (por exemplo, por unidade de rotação 2D inversa 926) com relação à primeira camada dos dados de áudio ambisonic de ordem superior.[000317] In these and other instances, the device 920 may be configured to perform one rotation (eg, per unit inverse 2D rotation 926) with respect to the first layer of the higher order ambisonic audio data.

[000318] Nessas e em outras instâncias, o dispositivo 920 pode ser configurado para recorrelacionar a representação decorrelacionada da primeira camada de duas ou mais camadas dos dados de áudio ambisonic de ordem superior para obter a primeira camada de duas ou mais camadas dos dados de áudio ambisonic de ordem superior como descrito acima, por exemplo, com relação à unidade de transformação espacial 2D inversa 924 e unidade de rotação 2D inversa 926.[000318] In these and other instances, the device 920 can be configured to re-correlate the decorrelated representation of the first layer of two or more layers of the higher order ambisonic audio data to obtain the first layer of two or more layers of the higher order ambisonic audio data as described above, for example, with respect to the inverse 2D spatial transformation unit 924 and inverse 2D rotation unit 926.

[000319] Nessas e outras instâncias, o dispositivo 920 pode ser configurado para converter a representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio espacial para um domínio harmônico esférico para obter uma representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e aplicar uma transformação inversa (por exemplo, como descrito acima com relação à unidade de rotação 2D inversa 926) com relação à representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior para obter a primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000319] In these and other instances, the device 920 can be configured to convert the decorrelated representation 905 of the first layer of the two or more layers of the higher order ambisonic audio data from a spatial domain to a spherical harmonic domain to obtain a transformed representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data, and apply an inverse transformation (e.g., as described above with respect to the 2D rotation unit in versa 926) with respect to transforming representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data to obtain the first layer of the two or more layers of the higher order ambisonic audio data.

[000320] Nessas e em outras instâncias, o dispositivo 920 pode ser configurado para converter a representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio espacial para um domínio harmônico esférico para obter uma representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e aplicar uma rotação inversa com relação à representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior para obter a primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000320] In these and other instances, the device 920 can be configured to convert the decorrelated representation 905 of the first layer of the two or more layers of the higher-order ambisonic audio data from a spatial domain to a spherical harmonic domain to obtain a transformed representation 915 of the first layer of the two or more layers of the higher-order ambisonic audio data, and apply an inverse rotation with respect to the transformed representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data to obtain the first layer of the two or more layers of higher order ambisonic audio data.

[000321] Nessas e em outras instâncias, o dispositivo 920 pode ser configurado para converter a representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio espacial para um domínio harmônico esférico para obter uma representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, obter informações de transformação 913, e aplicar uma transformação inversa com relação à representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior com base nas informações de transformação 913 para obter a primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000321] In these and other instances, the device 920 can be configured to convert the decorrelated representation 905 of the first layer of the two or more layers of the higher order ambisonic audio data from a spatial domain to a spherical harmonic domain to obtain a transformed representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data, obtain transformation information 913, and apply an inverse transformation with respect to the transformed representation 9 15 of the first layer of the two or more layers of the higher order ambisonic audio data based on the transformation information 913 to obtain the first layer of the two or more layers of the higher order ambisonic audio data.

[000322] Nessas e em outras instâncias, o dispositivo 920 pode ser configurado para converter a representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio espacial para um domínio harmônico esférico para obter uma representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, obter informações de rotação 913, e aplicar uma rotação inversa com relação à representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior com base nas informações de rotação 913 para obter a primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000322] In these and other instances, the device 920 can be configured to convert the decorrelated representation 905 of the first layer of the two or more layers of the higher order ambisonic audio data from a spatial domain to a spherical harmonic domain to obtain a transformed representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data, obtain rotation information 913, and apply an inverse rotation with respect to the transformed representation 9 15 of the first layer of the two or more layers of the higher order ambisonic audio data based on the rotation information 913 to obtain the first layer of the two or more layers of the higher order ambisonic audio data.

[000323] Nessas e em outras instâncias, o dispositivo 920 pode ser configurado para converter a representação decorrelacionada 905 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior a partir de um domínio espacial para um domínio harmônico esférico para obter uma representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e aplicar uma transformação inversa com relação à representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior usando, pelo menos em parte, uma função de suavização para obter a primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000323] In these and other instances, the device 920 can be configured to convert the decorrelated representation 905 of the first layer of the two or more layers of the higher-order ambisonic audio data from a spatial domain to a spherical harmonic domain to obtain a transformed representation 915 of the first layer of the two or more layers of the higher-order ambisonic audio data, and apply an inverse transformation with respect to the transformed representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data using, at least in part, a smoothing function to obtain the first layer of the two or more layers of higher order ambisonic audio data.

[000324] Nessas e em outras instâncias, o dispositivo 920 pode ser configurado para converter a representação decorrelacionada 905 da primeira camada de duas ou mais camadas dos dados de áudio ambisonic de ordem superior de um domínio espacial para um domínio harmônico esférico para obter uma representação transformada 915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, e aplicar uma rotação inversa com relação à rrepresentação915 da primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior usando pelo menos em parte, uma função de suavização para obter a primeira camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior.[000324] In these and other instances, the device 920 can be configured to convert the decorrelated representation 905 of the first layer of two or more layers of the higher order ambisonic audio data from a spatial domain to a spherical harmonic domain to obtain a transformed representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data, and apply an inverse rotation with respect to the representation 915 of the first layer of the two or more layers of the higher order ambisonic audio data using, at least in part, a smoothing function to obtain the first layer of the two or more layers of the higher order ambisonic audio data.

[000325] Nessas e em outras instâncias, o dispositivo 920 pode ser adicionalmente configurado para obter uma indicação da função de suavização a ser usada ao aplicar a transformação inversa ou a rotação inversa.[000325] In these and other instances, device 920 may be further configured to obtain an indication of the smoothing function to be used when applying the inverse transform or inverse rotation.

[000326] Nessas e em outras instâncias, o dispositivo 920 pode ser adicionalmente configurado para obter uma representação de uma segunda camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, onde a representação da segunda camada compreende dados de áudio predominantes baseados em vetor, os dados de áudio predominantes baseados em vetor compreendem pelo menos um dado de áudio predominante e um vetor-V codificado, e o vetor-V codificado é decomposto a partir dos dados de áudio ambisonic de ordem superior através de aplicação de uma transformada invertível linear, como descrito acima com relação ao exemplo da figura 3.[000326] In these and other instances, the device 920 can be further configured to obtain a second layer representation of the two or more layers of the higher order ambisonic audio data, where the second layer representation comprises vector-based predominant audio data, the vector-based predominant audio data comprises at least one predominant audio data and a V-encoded vector, and the V-encoded vector is decomposed from the higher order ambisonic audio data through application of a linear invertible transform, as described above with respect to the example in figure 3.

[000327] Nessas e em outras instâncias, o dispositivo 920 pode ser adicionalmente configurado para obter uma representação de uma segunda camada das duas ou mais camadas dos dados de áudio ambisonic de ordem superior, onde a representação da segunda camada compreende coeficientes ambisonic de ordem superior associados a uma função de base esférica tendo uma ordem de um e uma subordem de zero.[000327] In these and other instances, the device 920 may be further configured to obtain a second layer representation of the two or more layers of the higher order ambisonic audio data, where the second layer representation comprises higher order ambisonic coefficients associated with a spherical basis function having an order of one and a suborder of zero.

[000328] Desse modo, as técnicas podem habilitar um dispositivo a ser configurado para, ou fornecer um aparelho compreendendo meio para executar, ou uma mídia legível em computador não transitória tendo armazenado na mesma instruções que, quando executadas, fazem com que um ou mais processadores executem o método exposto nas seguintes cláusulas.[000328] In this way, the techniques can enable a device to be configured for, or provide an apparatus comprising means to execute, or non-transient computer-readable media having stored therein instructions that, when executed, cause one or more processors to execute the method set forth in the following clauses.

[000329] Cláusula 1A. Método de codificar um sinal de áudio ambisonic de ordem superior para gerar um fluxo de bits, o método compreendendo especificar uma indicação de um número de camadas no fluxo de bits, e transmitir o fluxo de bits que inclui o número indicado das camadas.[000329] Clause 1A. A method of encoding a higher order ambisonic audio signal to generate a bit stream, the method comprising specifying an indication of a number of layers in the bit stream, and transmitting the bit stream including the indicated number of layers.

[000330] Cláusula 2A. Método da cláusula 1A, compreendendo ainda especificar uma indicação de um número de canais incluídos no fluxo de bits.[000330] Clause 2A. The method of clause 1A, further comprising specifying an indication of a number of channels included in the bit stream.

[000331] Cláusula 3A. Método da cláusula 1A, em que a indicação do número de camadas compreende uma indicação de um número de camadas no fluxo de bits para um quadro anterior, e em que o método compreende ainda especificar, no fluxo de bits, uma indicação de se um número de camadas do fluxo de bits mudou para um quadro atual quando comparado com o número de camadas do fluxo de bits para o quadro anterior, e especificar o número indicado de camadas do fluxo de bits no quadro atual.[000331] Clause 3A. The method of clause 1A, wherein the indication of the number of layers comprises an indication of a number of layers in the bitstream for a previous frame, and the method further comprising specifying, in the bitstream, an indication of whether a number of layers of the bitstream has changed for a current frame when compared to the number of layers of the bitstream for the previous frame, and specifying the indicated number of layers of the bitstream in the current frame.

[000332] Cláusula 4A. Dispositivo da cláusula 3A, em que a especificação do número indicado de camadas compreende, quando a indicação indica que o número de camadas do fluxo de bits não mudou no quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior, especificar o número indicado de camadas sem especificar, no fluxo de bits, uma indicação de um número atual de componentes de segundo plano em uma ou mais das camadas para o quadro atual como sendo igual a um número anterior de componentes de segundo plano em uma ou mais das camadas do quadro anterior.[000332] Clause 4A. Device of clause 3A, wherein the specification of the indicated number of layers comprises, when the indication indicates that the number of layers of the bitstream has not changed in the current frame when compared to the number of layers of the bitstream in the previous frame, specifying the indicated number of layers without specifying, in the bitstream, an indication of a current number of background components in one or more of the layers for the current frame as being equal to a previous number of background components in one or more of the layers of the previous frame.

[000333] Cláusula 5A. Método da cláusula 1A, em que as camadas são hierárquicas de modo que uma primeira camada, quando combinada com uma segunda camada, fornece uma representação de resolução mais elevada do sinal de áudio ambisonic de ordem superior.[000333] Clause 5A. Method of Clause 1A, wherein the layers are hierarchical such that a first layer, when combined with a second layer, provides a higher resolution representation of the higher order ambisonic audio signal.

[000334] Cláusula 6A. Método da cláusula 1A, em que as camadas do fluxo de bits compreendem uma camada de base e uma camada de aperfeiçoamento, e em que o método compreende ainda aplicar uma transformada de decorrelação com relação a um ou mais canais da camada de base para obter uma representação decorrelacionada de componentes de segundo plano do sinal de áudio ambisonic de ordem superior.[000334] Clause 6A. The method of clause 1A, wherein the bitstream layers comprise a base layer and an enhancement layer, and the method further comprises applying a decorrelation transform with respect to one or more channels of the base layer to obtain a decorrelated representation of background components of the higher order ambisonic audio signal.

[000335] Cláusula 7A. Método da cláusula 6A, em que a transformada de decorrelação compreende uma transformada UHJ.[000335] Clause 7A. The method of clause 6A, wherein the decorrelation transform comprises a UHJ transform.

[000336] Cláusula 8A. Método da cláusula 6A, em que a transformada de decorrelação compreende uma transformada de matriz de modo.[000336] Clause 8A. The method of clause 6A, wherein the decorrelation transform comprises a mode matrix transform.

[000337] Além disso, as técnicas podem permitir que um dispositivo seja configurado para, ou forneça um aparelho compreendendo meio para executar, ou uma mídia legível em computador não transitória tendo armazenado na mesma instruções que, quando executadas, fazem com que um ou mais processadores execute o método exposto nas seguintes cláusulas.[000337] In addition, the techniques may allow a device to be configured for, or provide an apparatus comprising means to execute, or a non-transient computer-readable medium having stored therein instructions that, when executed, cause one or more processors to execute the method set forth in the following clauses.

[000338] Cláusula 1B. Método de codificar um sinal de áudio ambisonic de ordem superior para gerar um fluxo de bits, o método compreendendo especificar, no fluxo de bits, uma indicação de um número de canais especificados em uma ou mais camadas do fluxo de bits, e especificar o número indicado dos canais em uma ou mais camadas do fluxo de bits.[000338] Clause 1B. A method of encoding a higher order ambisonic audio signal to generate a bitstream, the method comprising specifying, in the bitstream, an indication of a specified number of channels in one or more layers of the bitstream, and specifying the indicated number of channels in one or more layers of the bitstream.

[000339] Cláusula 2B. Método da cláusula 1B, compreendendo ainda especificar uma indicação de um número total de canais especificados no fluxo de bits, em que a especificação do número indicado de canais compreende especificar o número total indicado dos canais em uma ou mais camadas do fluxo de bits.[000339] Clause 2B. The method of clause 1B, further comprising specifying an indication of a total number of specified channels in the bitstream, wherein specifying the indicated number of channels comprises specifying the indicated total number of channels in one or more layers of the bitstream.

[000340] Cláusula 3B. Método da cláusula 1B, compreendendo ainda especificar uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, e especificar o número indicado de canais compreende especificar o número indicado do tipo indicado de um dos canais em uma ou mais camadas do fluxo de bits.[000340] Clause 3B. The method of clause 1B, further comprising specifying an indication of a type of one of the specified channels in one or more layers in the bitstream, and specifying the indicated number of channels comprises specifying the indicated number of the indicated type of one of the channels in one or more layers of the bitstream.

[000341] Cláusula 4B. Método da cláusula 1B, compreendendo ainda especificar uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, a indicação do tipo de um dos canais indicando que um dos canais é um canal de primeiro plano, e em que a especificação do número indicado de canais compreende especificar o canal de primeiro plano em uma ou mais camadas do fluxo de bits.[000341] Clause 4B. The method of clause 1B, further comprising specifying an indication of a type of one of the specified channels in one or more layers in the bitstream, indicating the type of one of the channels indicating that one of the channels is a foreground channel, and wherein specifying the indicated number of channels comprises specifying the foreground channel in one or more layers of the bitstream.

[000342] Cláusula 5B. Método da cláusula 1B, compreendendo ainda especificar uma indicação, no fluxo de bits, de um número de camadas especificadas no fluxo de bits.[000342] Clause 5B. The method of clause 1B, further comprising specifying an indication, in the bitstream, of a specified number of layers in the bitstream.

[000343] Cláusula 6B. Método da cláusula 1B, compreendendo ainda especificar uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, a indicação do tipo de um dos canais indicando que um dos canais é um canal de segundo plano, em que a especificação do número indicado dos canais compreende especificar o canal de segundo plano em uma ou mais camadas do fluxo de bits.[000343] Clause 6B. The method of clause 1B, further comprising specifying a type indication of one of the specified channels in one or more layers in the bit stream, indicating the type of one of the channels indicating that one of the channels is a background channel, wherein specifying the indicated number of channels comprises specifying the background channel in one or more layers of the bit stream.

[000344] Cláusula 7B. Método da cláusula 6B, em que um dos canais compreende um coeficiente ambisonic de ordem superior de segundo plano.[000344] Clause 7B. The method of clause 6B, wherein one of the channels comprises a background higher order ambisonic coefficient.

[000345] Cláusula 1B. Método da cláusula 1B, em que a especificação da indicação do número de canais compreende especificar a indicação do número de canais com base em um número de canais que resta no fluxo de bits após uma das camadas ser especificada.[000345] Clause 1B. The method of clause 1B, wherein specifying the indication of the number of channels comprises specifying the indication of the number of channels based on a number of channels remaining in the bit stream after one of the layers is specified.

[000346] Desse modo, as técnicas podem permitir que um dispositivo seja configurado para ou fornecer um aparelho compreendendo meio para executar, ou uma mídia legível em computador não transitória tendo armazenado na mesma instruções que, quando executadas, fazem com que um ou mais processadores execute o método exposto nas seguintes cláusulas.[000346] In this way, the techniques can allow a device to be configured to or provide an apparatus comprising means to execute, or non-transient computer-readable media having stored therein instructions that, when executed, cause one or more processors to execute the method set forth in the following clauses.

[000347] Cláusula 1C. Método de decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior, o método compreendendo obter, a partir do fluxo de bits, uma indicação de um número de camadas especificadas no fluxo de bits, e obter as camadas do fluxo de bits com base na indicação do número de camadas.[000347] Clause 1C. A method of decoding a bitstream representative of a higher order ambisonic audio signal, the method comprising obtaining, from the bitstream, an indication of a specified number of layers in the bitstream, and obtaining the layers of the bitstream based on the indication of the number of layers.

[000348] Cláusula 2C. Método da cláusula 1C, compreendendo ainda obter uma indicação de um número de canais especificados no fluxo de bits, e em que a obtenção das camadas compreende obter as camadas do fluxo de bits com base na indicação do número de camadas e indicação do número de canais.[000348] Clause 2C. The method of clause 1C, further comprising obtaining an indication of a specified number of channels in the bitstream, and wherein obtaining the layers comprises obtaining the layers of the bitstream based on the indication of the number of layers and indication of the number of channels.

[000349] Cláusula 3C. Método da clausula 1C, compreendendo ainda obter uma indicação de um número de canais de primeiro plano especificados no fluxo de bits para pelo menos uma das camadas, e em que a obtenção das camadas compreende obter os canais de primeiro plano para pelo menos uma das camadas do fluxo de bits com base na indicação do número de canais de primeiro plano.[000349] Clause 3C. The method of clause 1C, further comprising obtaining an indication of a specified number of foreground channels in the bitstream for at least one of the layers, and wherein obtaining the layers comprises obtaining the foreground channels for at least one of the layers of the bitstream based on the indication of the number of foreground channels.

[000350] Cláusula 4C. Método da cláusula 1C, compreendendo ainda obter uma indicação de um número de canais de segundo plano especificados no fluxo de bits para pelo menos uma das camadas, e em que a obtenção das camadas compreende obter os canais de segundo plano para pelo menos uma das camadas do fluxo de bits com base na indicação do número de canais de segundo plano.[000350] Clause 4C. The method of clause 1C, further comprising obtaining an indication of a specified number of background channels in the bitstream for at least one of the layers, and wherein obtaining the layers comprises obtaining the background channels for at least one of the layers of the bitstream based on the indication of the number of background channels.

[000351] Cláusula 5C. Método da cláusula 1C, em que a indicação do número das camadas indica que o número de camada é dois, em que as duas camadas compreendem uma camada base e uma camada de aperfeiçoamento, e em que a obtenção das camadas compreende obter uma indicação de que um número de canais de primeiro plano é zero para a camada base e dois para a camada de aperfeiçoamento.[000351] Clause 5C. The method of clause 1C, wherein indicating the number of layers indicates that the number of layers is two, wherein the two layers comprise a base layer and an enhancement layer, and wherein obtaining the layers comprises obtaining an indication that a number of foreground channels is zero for the base layer and two for the enhancement layer.

[000352] Cláusula 6C. Método da clausula 1C ou 5C, em que a indicação do número das camadas indica que o número de camada é dois, em que as duas camadas compreendem uma camada base e uma camada de aperfeiçoamento, e em que o método compreende ainda obter uma indicação de que um número de canais de segundo plano é quatro para a camada base e zero para a camada de aperfeiçoamento.[000352] Clause 6C. The method of clause 1C or 5C, wherein the indication of the number of layers indicates that the number of layers is two, wherein the two layers comprise a base layer and an enhancement layer, and the method further comprises obtaining an indication that a number of background channels is four for the base layer and zero for the enhancement layer.

[000353] Cláusula 7. Método da cláusula 1C, em que a indicação do número das camadas indica que o número de camada é três, em que as três camadas compreendem uma camada base, uma primeira camada de aperfeiçoamento e uma segunda camada de aperfeiçoamento, e em que o método compreende ainda obter uma indicação de que um número de canais de primeiro plano é zero para a camada base, dois para a primeira camada de aperfeiçoamento e dois para a terceira camada de aperfeiçoamento.[000353] Clause 7. Method of clause 1C, in which the indication of the number of layers indicates that the number of layers is three, in which the three layers comprise a base layer, a first enhancement layer and a second enhancement layer, and in which the method further comprises obtaining an indication that a number of foreground channels is zero for the base layer, two for the first enhancement layer and two for the third enhancement layer.

[000354] Cláusula 8C. Método da cláusula 1C ou 7C, em que a indicação do número das camadas indica que o número de camada é três, em que as três camadas compreendem uma camada base, uma primeira camada de aperfeiçoamento e uma segunda camada de aperfeiçoamento, e em que o método compreende ainda obter uma indicação de que um número de canais de segundo plano é dois para a camada base, zero para a primeira camada de aperfeiçoamento e zero para a terceira camada de aperfeiçoamento.[000354] Clause 8C. The method of clause 1C or 7C, wherein indicating the number of layers indicates that the number of layers is three, wherein the three layers comprise a base layer, a first enhancement layer, and a second enhancement layer, and the method further comprising obtaining an indication that a number of background channels is two for the base layer, zero for the first enhancement layer, and zero for the third enhancement layer.

[000355] Cláusula 9C. Método da cláusula 1C, em que a indicação do número das camadas indica que o número de camada é três, em que as três camadas compreendem uma camada base, uma primeira camada de aperfeiçoamento e uma segunda camada de aperfeiçoamento, e em que o método compreende ainda obter uma indicação de que um número de canais de primeiro plano é dois para a camada base, dois para uma primeira camada de aperfeiçoamento e dois para uma terceira camada de aperfeiçoamento.[000355] Clause 9C. The method of clause 1C, wherein indicating the number of layers indicates that the number of layers is three, wherein the three layers comprise a base layer, a first enhancement layer and a second enhancement layer, and the method further comprising obtaining an indication that a number of foreground channels is two for the base layer, two for a first enhancement layer, and two for a third enhancement layer.

[000356] Cláusula 10C. Método da cláusula 1C ou 9C, em que a indicação do número das camadas indica que o número de camada é três, em que as três camadas compreendem uma camada base, uma primeira camada de aperfeiçoamento e uma segunda camada de aperfeiçoamento e em que o método compreende ainda obter um elemento de sintaxe de segundo plano indicando que o número de canais de segundo plano é zero para a camada base, zero para a primeira camada de aperfeiçoamento e zero para a terceira camada de aperfeiçoamento.[000356] Clause 10C. The method of clause 1C or 9C, wherein indicating the number of layers indicates that the layer number is three, wherein the three layers comprise a base layer, a first enhancement layer, and a second enhancement layer, and the method further comprises obtaining a background syntax element indicating that the number of background channels is zero for the base layer, zero for the first enhancement layer, and zero for the third enhancement layer.

[000357] Cláusula 11C. Método da cláusula 1C, em que a indicação do número de camadas compreende uma indicação de um número de camadas em um quadro anterior do fluxo de bits, e em que o método compreende ainda obter uma indicação de se um número de camadas do fluxo de bits mudou em um quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior, e obter o número de camadas do fluxo de bits no quadro atual com base na indicação de se o número de camadas do fluxo de bits mudou no quadro atual.[000357] Clause 11C. The method of clause 1C, wherein the indication of the number of layers comprises an indication of a number of layers in a previous frame of the bitstream, and the method further comprising obtaining an indication of whether a number of layers of the bitstream has changed in a current frame when compared to the number of layers of the bitstream in the previous frame, and obtaining the number of layers of the bitstream in the current frame based on the indication of whether the number of layers of the bitstream has changed in the current frame.

[000358] Cláusula 12C. Método da cláusula 11C, compreendendo ainda determinar o número de camadas do fluxo de bits no quadro atual como igual ao número de camadas do fluxo de bits no quadro anterior quando a indicação indica que o número de camadas do fluxo de bits não mudou no quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior.[000358] Clause 12C. The method of clause 11C, further comprising determining the number of layers of the bitstream in the current frame as equal to the number of layers of the bitstream in the previous frame when the indication indicates that the number of layers of the bitstream has not changed in the current frame when compared to the number of layers of the bitstream in the previous frame.

[000359] Cláusula 13C. Método da cláusula 11C, em que o método compreende ainda, quando a indicação indica que o número de camadas do fluxo de bits não mudou no quadro atual quando comparado com o número de camadas do fluxo de bits no quadro anterior, obter uma indicação de um número atual de componentes em uma ou mais das camadas para o quadro atual como sendo igual a um n'mero anterior de componentes em uma ou mais das camadas do quadro anterior.[000359] Clause 13C. The method of clause 11C, wherein the method further comprises, when the indication indicates that the number of layers of the bitstream has not changed in the current frame when compared to the number of layers of the bitstream in the previous frame, obtaining an indication of a current number of components in one or more of the layers for the current frame as being equal to a previous number of components in one or more of the layers of the previous frame.

[000360] Cláusula 14C. Método da cláusula 1C, em que a indicação do número de camadas indica que três camadas são especificadas no fluxo de bits, e em que a obtenção das camadas compreende obter uma primeira das camadas do fluxo de bits indicativo de componentes de segundo o plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução de canal estéreo, obter uma segunda das camadas do fluxo de bits indicativo dos componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução tridimensional por três ou mais alto-falantes dispostos em um ou mais planos horizontais, e obter uma terceira das camadas do fluxo de bits indicativo de componentes de primeiro plano do sinal de áudio ambisonic de ordem superior.[000360] Clause 14C. The method of clause 1C, wherein indicating the number of layers indicates that three layers are specified in the bitstream, and wherein obtaining the layers comprises obtaining a first of layers of the bitstream indicative of background components of the higher-order ambisonic audio signal providing stereo channel reproduction, obtaining a second of layers of the bitstream indicative of background components of the higher-order ambisonic audio signal that provide three-dimensional reproduction by three or more speakers disposed in one or more horizontal planes, and obtaining a third of layers of the stream bitrate indicative of foreground components of the higher order ambisonic audio signal.

[000361] Cláusula 15C. Método da cláusula 1C, em que a indicação do número de camadas indica que três camadas são especificadas no fluxo de bits, e em que a obtenção das camadas compreende obter uma primeira das camadas do fluxo de bis indicativos de componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução de canal mono, obter uma segunda das camadas do fluxo de bits indicativo dos componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução tridimensional por três ou mais alto-falantes dispostos em um ou mais planos horizontais, e obter uma terceira das camadas do fluxo de bits indicativo de componentes de primeiro plano do sinal de áudio ambisonic de ordem superior.[000361] Clause 15C. The method of clause 1C, wherein the indication of the number of layers indicates that three layers are specified in the bit stream, and wherein obtaining the layers comprises obtaining a first of layers of the bis stream indicative of background components of the higher order ambisonic audio signal that provide mono channel reproduction, obtaining a second of layers of the bit stream indicative of background components of the higher order ambisonic audio signal that provide three dimensional reproduction by three or more speakers disposed in one or more horizontal planes, and obtaining a third of layers of the bitstream indicative of foreground components of the higher order ambisonic audio signal.

[000362] Cláusula 16C. Método da cláusula 1C, em que a indicação do número de camadas indica que três camadas são especificadas no fluxo de bits, e em que a obtenção das camadas compreende obter uma primeira das camadas do fluxo de bits indicativo dos componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução de canal estéreo, obter uma segunda das camadas do fluxo de bits indicativo dos componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução de multicanais por três ou mais alto-falantes dispostos em um único plano horizontal, obter uma terceira das camadas do fluxo de bits indicativo dos componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução tridimensional por três ou mais alto-falantes dispostos em dois ou mais planos horizontais, e obter uma quarta das camadas do fluxo de bits indicativo de componentes de primeiro plano do sinal de áudio ambisonic de ordem superior.[000362] Clause 16C. The method of clause 1C, wherein the indication of the number of layers indicates that three layers are specified in the bitstream, and wherein obtaining the layers comprises obtaining a first of the layers of the bitstream indicative of background components of the higher order ambisonic audio signal providing stereo channel reproduction, obtaining a second of layers of the bitstream indicative of background components of the higher order ambisonic audio signal that provide multichannel reproduction by three or more speakers arranged in a single horizontal plane, obtaining a third of the layers of the stream bit stream indicative of background components of the higher order ambisonic audio signal providing three-dimensional reproduction by three or more speakers arranged in two or more horizontal planes, and obtain a fourth of the layers of bit stream indicative of foreground components of the higher order ambisonic audio signal.

[000363] Clausula 17C. Método da cláusula 1C, em que a indicação do número de camadas indica que três camadas são especificadas no fluxo de bits, e em que obter as camadas compreende obter uma primeira das camadas do fluxo de bits indicativo de componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução mono canal, obter uma segunda das camadas do fluxo de bits indicativo dos componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução de multicanais por três ou mais alto-falantes dispostos em um plano horizontal único, e obter uma terceira das camadas do fluxo de bis indicativo dos componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução tridimensional por três ou mais alto-falantes dispostos em dois ou mais planos horizontais, e obter uma quarta das camadas do fluxo de bits indicativo de componentes de primeiro plano do sinal de áudio ambisonic de ordem superior.[000363] Clause 17C. The method of clause 1C, wherein the indication of the number of layers indicates that three layers are specified in the bitstream, and wherein obtaining the layers comprises obtaining a first of layers of the bitstream indicative of background components of the higher order ambisonic audio signal providing mono channel reproduction, obtaining a second of layers of the bitstream indicative of background components of the higher order ambisonic audio signal that provide multichannel reproduction by three or more speakers arranged in a single horizontal plane, and obtaining a third of layers of the higher order ambisonic audio signal. bis indicative of background components of the higher-order ambisonic audio signal providing three-dimensional reproduction by three or more speakers arranged in two or more horizontal planes, and obtaining a fourth of the layers of the bitstream indicative of foreground components of the higher-order ambisonic audio signal.

[000364] Cláusula 18C. Método da cláusula 1C, em que a indicação do número de camadas indica que duas camadas são especificadas no fluxo de bits, e em que a obtenção das camadas compreende obter uma primeira das camadas do fluxo de bits indicativo de componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução de canal estéreo, e obter uma segunda das camadas do fluxo de bits indicativo dos componentes de segundo plano do sinal de áudio ambisonic de ordem superior que fornecem reprodução de multicanais horizontais por três ou mais alto-falantes dispostos em um plano horizontal único.[000364] Clause 18C. The method of clause 1C, wherein the indication of the number of layers indicates that two layers are specified in the bitstream, and wherein obtaining the layers comprises obtaining a first of layers of the bitstream indicative of background components of the higher-order ambisonic audio signal providing stereo channel reproduction, and obtaining a second of layers of the bitstream indicative of background components of the higher-order ambisonic audio signal that provide horizontal multichannel reproduction by three or more speakers arranged in a single horizontal plane.

[000365] Cláusula 19C. Método da cláusula 1C, compreendendo ainda obter uma indicação de um número de canais especificados no fluxo de bits, em que a obtenção das camadas compreende obter as camadas do fluxo de bits com base na indicação do número de camadas e a indicação do número de canais.[000365] Clause 19C. The method of clause 1C, further comprising obtaining an indication of a specified number of channels in the bitstream, wherein obtaining the layers comprises obtaining the layers of the bitstream based on the indication of the number of layers and the indication of the number of channels.

[000366] Cláusula 20C. Método da cláusula 1C, compreendendo ainda obter uma indicação de um número de canais de primeiro plano especificados no fluxo de bits para pelo menos uma das camadas, em que a obtenção das camadas compreende obter os canais de primeiro plano para pelo menos uma das camadas do fluxo de bits baseado na indicação do número de canais de primeiro plano.[000366] Clause 20C. The method of clause 1C, further comprising obtaining an indication of a specified number of foreground channels in the bitstream for at least one of the layers, wherein obtaining the layers comprises obtaining the foreground channels for at least one of the layers of the bitstream based on the indication of the number of foreground channels.

[000367] Cláusula 21C. Método da cláusula 1C, compreendendo ainda obter uma indicação de um número de canais de segundo plano especificados no fluxo de bits para pelo menos uma das camadas, em que a obtenção das camadas compreende obter os canais de segundo plano para pelo menos uma das camadas do fluxo de bits com base na indicação do número de canais de segundo plano.[000367] Clause 21C. The method of clause 1C, further comprising obtaining an indication of a specified number of background channels in the bitstream for at least one of the layers, wherein obtaining the layers comprises obtaining the background channels for at least one of the layers of the bitstream based on the indication of the number of background channels.

[000368] Cláusula 22C. Método da cláusula 1C, compreendendo ainda analisar uma indicação de um n'mero de canais de primeiro plano especificados no fluxo de bits para pelo menos uma das camadas com base em um número de canais restantes no fluxo de bits após pelo menos uma das camadas ser obtida, em que a obtenção das camadas compreende obter os canais de primeiro plano de pelo menos uma das camadas com base na indicação do número de canais de primeiro plano.[000368] Clause 22C. The method of clause 1C, further comprising parsing an indication of a specified number of foreground channels in the bitstream for at least one of the layers based on a number of channels remaining in the bitstream after at least one of the layers is obtained, wherein obtaining the layers comprises obtaining the foreground channels of at least one of the layers based on the indication of the number of foreground channels.

[000369] Cláusula 23C. Método da cláusula 22C, em que o número de canais que resta no fluxo de bits após pelo menos uma das camadas ser obtida é representado por um elemento de sintaxe.[000369] Clause 23C. Method of clause 22C, wherein the number of channels remaining in the bitstream after at least one of the layers is obtained is represented by a syntax element.

[000370] Cláusula 24C. Método da cláusula 1C, compreendendo ainda analisar uma indicação de um número de canais de segundo plano especificados no fluxo de bits para pelo menos uma das camadas com base em um número de canais após pelo menos uma das camadas ser obtida, em que a obtenção dos canais de segundo plano compreende obter os canais de segundo plano para pelo menos uma das camadas a partir do fluxo de bits com base na indicação do número de canais de segundo plano.[000370] Clause 24C. The method of clause 1C, further comprising parsing an indication of a specified number of background channels in the bitstream for at least one of the layers based on a number of channels after at least one of the layers is obtained, wherein obtaining the background channels for at least one of the layers from the bitstream based on the indication of the number of background channels.

[000371] Cláusula 25C. Método da cláusula 24C, em que o número de canais que resta no fluxo de bits após pelo menos uma das camadas ser obtida é representado por um elemento de sintaxe.[000371] Clause 25C. Method of clause 24C, wherein the number of channels remaining in the bit stream after at least one of the layers is obtained is represented by a syntax element.

[000372] Cláusula 26C. Método da cláusula 1C, em que as camadas do fluxo de bits compreendem uma camada base e uma camada de aperfeiçoamento, e em que o método compreende ainda aplicar uma transformada de correlação com relação a um ou mais canais da camada base para obter uma representação correlacionada de componentes de segundo plano do sinal de áudio ambisonic de ordem superior.[000372] Clause 26C. The method of clause 1C, wherein the bit stream layers comprise a base layer and an enhancement layer, and the method further comprises applying a correlation transform with respect to one or more channels of the base layer to obtain a correlated representation of background components of the higher order ambisonic audio signal.

[000373] Cláusula 27C. Método da cláusula 26C, em que a transformada de correlação compreende uma transformada UHJ inversa.[000373] Clause 27C. The method of clause 26C, wherein the correlation transform comprises an inverse UHJ transform.

[000374] Cláusula 28C. Método da cláusula 26C, em que a transformada de correlação compreende uma transformada de matriz de modo inverso.[000374] Clause 28C. The method of clause 26C, wherein the correlation transform comprises an inverse matrix transform.

[000375] Cláusula 29C. Método da cláusula 1C, em que um número de canais para cada das camadas do fluxo de bits é fixo.[000375] Clause 29C. Method of clause 1C, where a number of channels for each of the layers of the bitstream is fixed.

[000376] Além disso, as técnicas podem permitir que um dispositivo seja configurado para, ou fornecer um aparelho compreendendo meio para executar, ou uma mídia legível em computador não transitória tendo armazenado na mesma instruções que, quando executadas, fazem com que um ou mais processadores execute o método exposto nas seguintes cláusulas.[000376] In addition, the techniques may allow a device to be configured for, or provide an apparatus comprising means to execute, or a non-transient computer-readable medium having stored therein instructions that, when executed, cause one or more processors to execute the method set forth in the following clauses.

[000377] Cláusula 1D. Método de decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior, o método compreendendo obter, a partir do fluxo de bits, uma indicação de um número de canais especificados em uma ou mais camadas no fluxo de bits, e obter os canais especificados em uma ou mais camadas no fluxo de bits com base na indicação do número de canais.[000377] Clause 1D. A method of decoding a bitstream representative of a higher order ambisonic audio signal, the method comprising obtaining, from the bitstream, an indication of a specified number of channels in one or more layers in the bitstream, and obtaining the specified channels in one or more layers in the bitstream based on the indication of the number of channels.

[000378] Cláusula 2D. Método da cláusula 1D, compreendendo ainda obter uma indicação de um número total de canais especificados no fluxo de bits, e em que a obtenção dos canais compreende obter os canais especificados em uma ou mais camadas com base na indicação do número de canais especificados em uma ou mais camadas e a indicação do número total de canais.[000378] Clause 2D. The method of clause 1D, further comprising obtaining an indication of a total number of specified channels in the bit stream, and wherein obtaining the channels comprises obtaining the specified channels in one or more layers based on indicating the number of specified channels in one or more layers and indicating the total number of channels.

[000379] Cláusula 3D. Método da cláusula 1D, compreendendo ainda obter uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, e em que a obtenção dos canais compreende obter um dos canais com base na indicação do número de canais e a indicação do tipo de um dos canais.[000379] Clause 3D. The method of clause 1D, further comprising obtaining an indication of a type of one of the channels specified in one or more layers in the bit stream, and wherein obtaining the channels comprises obtaining one of the channels based on the indication of the number of channels and the indication of the type of one of the channels.

[000380] Cláusula 4D. Método da cláusula 1D, compreendendo ainda obter uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, a indicação do tipo de um dos canais indicando que um dos canais é um canal de primeiro plano, e em que a obtenção dos canais compreende obter um dos canais com base na indicação do número de canais e a indicação de que o tipo de um dos canais é o canal de primeiro plano.[000380] Clause 4D. The method of clause 1D, further comprising obtaining an indication of a type of one of the channels specified in one or more layers in the bitstream, indicating the type of one of the channels by indicating that one of the channels is a foreground channel, and wherein obtaining the channels comprises obtaining one of the channels based on the indication of the number of channels and indicating that the type of one of the channels is the foreground channel.

[000381] Cláusula 5D. Método da cláusula 1D, compreendendo ainda obter uma indicação de um número de camadas especificadas no fluxo de bits, e em que a obtenção dos canais compreende obter um dos canais com base na indicação do número de canais e a indicação do número de camadas.[000381] Clause 5D. The method of clause 1D, further comprising obtaining an indication of a specified number of layers in the bitstream, and wherein obtaining the channels comprises obtaining one of the channels based on the indication of the number of channels and the indication of the number of layers.

[000382] Cláusula 6D. Método da cláusula 5D, em que a indicação do número de camadas compreende uma indicação de um número de camadas em um quadro anterior do fluxo de bits, em que o método compreende ainda obter uma indicação de se o número de canais especificados em uma ou mais camadas no fluxo de bits mudou em um quadro atual quando comparado com um número de canais especificados em uma ou mais camadas no fluxo de bits do quadro anterior, e em que a obtenção dos canais compreende obter um dos canais com base na indicação de se o número de canais especificados em uma ou mais camadas no fluxo de bits mudou no quadro atual.[000382] Clause 6D. The method of clause 5D, wherein indicating the number of layers comprises an indication of a number of layers in a previous frame of the bit stream, the method further comprising obtaining an indication of whether the number of channels specified in one or more layers in the bit stream has changed in a current frame when compared to a number of channels specified in one or more layers in the bit stream of the previous frame, and wherein obtaining the channels comprises obtaining one of the channels based on an indication of whether the number of channels specified in one or more layers in the bit stream has changed in the current frame .

[000383] Cláusula 7D. Método da cláusula 5D, compreendendo ainda determinar o número de canais especificados em uma ou mais camadas do fluxo de bits no quadro atual como igual ao número de canais especificados em uma ou mais camadas do fluxo de bits no quadro anterior quando a indicação indica que o número de canais especificados em uma ou mais camadas do fluxo de bits não mudou no quadro atual quando comparado com o número de canais especificados em uma ou mais camadas do fluxo de bits no quadro anterior.[000383] Clause 7D. The method of clause 5D, further comprising determining the number of channels specified in one or more layers of the bitstream in the current frame as equal to the number of channels specified in one or more layers of the bitstream in the previous frame when the indication indicates that the number of channels specified in one or more layers of the bitstream in the previous frame has not changed in the current frame when compared to the number of channels specified in one or more layers of the bitstream in the previous frame.

[000384] Cláusula 8D. Método da cláusula 5D, em que um ou mais processadores são adicionalmente configurados para, quando a indicação indica que o número de canais especificados em uma ou mais camadas do fluxo de bits não mudou no quadro atual quando comparado com o número de canais especificados em uma ou mais camadas do fluxo de bits no quadro anterior, obter uma indicação de um número atual de canais em uma ou mais das camadas para o quadro atual como sendo igual a um número anterior de canais em uma ou mais das camadas do quadro anterior.[000384] Clause 8D. The method of clause 5D, wherein one or more processors are further configured to, when the indication indicates that the number of channels specified in one or more layers of the bitstream has not changed in the current frame when compared to the number of channels specified in one or more layers of the bitstream in the previous frame, obtain an indication of a current number of channels in one or more of the layers for the current frame as being equal to a previous number of channels in one or more of the layers of the previous frame.

[000385] Cláusula 9D. Método da cláusula 1D, compreendendo ainda obter uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, a indicação do tipo de um dos canais indicando que um dos canais é um canal de segundo plano, em que a obtenção dos canais compreende obter um dos canais com base na indicação do número de camadas e a indicação de que o tipo de um dos canais é o canal de segundo plano.[000385] Clause 9D. The method of clause 1D, further comprising obtaining an indication of a type of one of the channels specified in one or more layers in the bitstream, indicating the type of one of the channels by indicating that one of the channels is a background channel, wherein obtaining the channels comprises obtaining one of the channels based on the indication of the number of layers, and indicating that the type of one of the channels is the background channel.

[000386] Cláusula 10D. Método da cláusula 9D, compreendendo ainda obter uma indicação de um tipo de um dos canais especificados em uma ou mais camadas no fluxo de bits, a indicação do tipo de um dos canais indicando que um dos canais é um canal de segundo plano, em que a obtenção dos canais compreende obter um dos canais com base na indicação do número de camadas e a indicação de que o tipo de um dos canais é o canal de segundo plano.[000386] Clause 10D. The method of clause 9D, further comprising obtaining an indication of a type of one of the channels specified in one or more layers in the bit stream, indicating the type of one of the channels by indicating that one of the channels is a background channel, wherein obtaining the channels comprises obtaining one of the channels based on the indication of the number of layers, and indicating that the type of one of the channels is the background channel.

[000387] Cláusula 11D. Método da cláusula 9D, em que um dos canais compreende um coeficiente ambisonic de ordem superior de segundo plano.[000387] Clause 11D. The method of clause 9D, wherein one of the channels comprises a background higher order ambisonic coefficient.

[000388] Cláusula 12D. Método da cláusula 9D, em que a obtenção da indicação do tipo de um dos canais compreende obter um elemento de sintaxe indicativo do tipo de um dos canais.[000388] Clause 12D. The method of clause 9D, wherein obtaining the type indication of one of the channels comprises obtaining a syntax element indicative of the type of one of the channels.

[000389] Cláusula 13D. Método da cláusula 1D, em que a obtenção da indicação do número de canais compreende obter a indicação do número de canais com base em um número de canais que resta no fluxo de bits após uma das camadas ser obtida.[000389] Clause 13D. The method of clause 1D, wherein obtaining the indication of the number of channels comprises obtaining the indication of the number of channels based on a number of channels remaining in the bitstream after one of the layers is obtained.

[000390] Cláusula 14D. Método da cláusula 1D, em que as camadas compreendem uma camada de base.[000390] Clause 14D. Method of Clause 1D, wherein the layers comprise a base layer.

[000391] Cláusula 15D. Método da cláusula 1D, em que as camadas compreendem uma camada base e uma ou mais camadas de aperfeiçoamento.[000391] Clause 15D. Method of Clause 1D, wherein the layers comprise a base layer and one or more enhancement layers.

[000392] Cláusula 16D. Método da cláusula 1D, em que um número de uma ou mais camadas é fixo.[000392] Clause 16D. Clause 1D method, where a number of one or more layers is fixed.

[000393] As técnicas acima podem ser executadas com relação a qualquer número de contextos diferentes e ecossistemas de áudio. Um número de contextos de exemplo é descrito abaixo, embora as técnicas devam ser limitadas aos contextos de exemplo. Um ecossistema de áudio de exemplo pode incluir conteúdo de áudio, estúdios cinematográficos, estúdios de música, estúdios de áudio de jogos, conteúdo de áudio baseado em canal, motores de codificação, troncos de áudio de jogo, motores de renderização/codificação de áudio de jogo e sistemas de fornecimento.[000393] The above techniques can be performed against any number of different contexts and audio ecosystems. A number of example contexts are described below, although techniques should be limited to example contexts. An example audio ecosystem might include audio content, film studios, music studios, game audio studios, channel-based audio content, encoding engines, game audio trunks, game audio encoding/rendering engines, and delivery systems.

[000394] Os estúdios cinematográficos, os estudos de música, e os estúdios de áudio de jogos podem receber conteúdo de áudio. Em alguns exemplos, o conteúdo de áudio pode representar a saída de uma aquisição. Os estúdios cinematográficos podem transmitir conteúdo de áudio baseado em canal (por exemplo, em 2.0, 5.1 e 7.1) como pelo uso de uma estação de trabalho de áudio digital (DAW). Os estúdios de música podem transmitir conteúdo de áudio baseado em canal (por exemplo, em 2.0 e 5.1) como pelo uso de um DAW. Em qualquer caso, os motores de codificação podem receber e codificar o conteúdo de áudio baseado em canal com base em um ou mais codecs (por exemplo, AAC, AC3, Dolby True HD, Dolby Digital Plus, e DTS Master áudio) para transmissão pelos sistemas de fornecimento. Os estúdios de áudio de jogos podem transmitir um ou mais troncos de áudio de jogos, como pelo uso de um DAW. Os motores de renderização / codificação de áudio de jogos podem codificar e ou renderizar os troncos de áudio em conteúdo de áudio baseado em canal para transmissão pelos sistemas de fornecimento. Outro contexto de exemplo no qual as técnicas podem ser executadas compreende um ecossistema de áudio que pode incluir objetos de áudio de gravação de broadcast, sistemas de áudio profissionais, captura em dispositivo de consumidor, formato de áudio HOA, renderização em dispositivo, áudio de consumidor, TV e acessórios e sistemas de áudio de carro.[000394] Movie studios, music studios, and game audio studios can receive audio content. In some examples, audio content may represent the output of an acquisition. Film studios can stream channel-based audio content (for example, in 2.0, 5.1, and 7.1) as well by using a digital audio workstation (DAW). Music studios can stream audio content based on channel (eg in 2.0 and 5.1) as well as by using a DAW. In any case, encoding engines can receive and encode channel-based audio content based on one or more codecs (e.g., AAC, AC3, Dolby True HD, Dolby Digital Plus, and DTS Master Audio) for transmission by delivery systems. Game audio studios can stream one or more streams of game audio, such as through the use of a DAW. Game audio encoding/rendering engines can encode and or render the audio streams into channel-based audio content for transmission by delivery systems. Another example context in which the techniques may be performed comprises an audio ecosystem that may include broadcast recording audio objects, professional audio systems, consumer device capture, HOA audio format, on-device rendering, consumer audio, TV and accessories, and car audio systems.

[000395] Os objetos de áudio de gravação de broadcast, os sistemas de áudio profissionais, e a captura em dispositivo de consumidor podem todos codificar sua saída usando formato de áudio HOA. Desse modo, o conteúdo de áudio pode ser codificado usando o formato de áudio HOA em uma única representação que pode ser reproduzida usando a renderização em dispositivo, o áudio de consumidor, TV e acessórios e os sistemas de áudio de carro. Em outras palavras, a representação única do conteúdo de áudio pode ser reproduzida em um sistema de reprodução de áudio genérico (isto é, ao contrário de exigir uma configuração específica como 5.1, 7.1, etc.), como sistema de reprodução de áudio 16.[000395] Broadcast recording audio objects, professional audio systems, and consumer device capture can all encode their output using HOA audio format. In this way, audio content can be encoded using the HOA audio format into a single representation that can be played back using on-device rendering, consumer audio, TV and accessories, and car audio systems. In other words, the unique representation of the audio content can be played on a generic audio playback system (that is, as opposed to requiring a specific configuration like 5.1, 7.1, etc.)

[000396] Outros exemplos de contexto nos quais as técnicas podem ser executadas incluem um ecossistema de áudio que pode incluir elementos de aquisição, e elementos de reprodução. Os elementos de aquisição podem incluir dispositivos de aquisição cabeados e/ou sem fio (por exemplo, microfones Eigen), captura de som surround em dispositivo, e dispositivos móveis (por exemplo, smartphones e tablets). Em alguns exemplos, dispositivos de aquisição cabeados e/ou sem fio podem ser acoplados a dispositivo móvel através de canal(is) de comunicação cabeado(s) e/ou sem fio.[000396] Other examples of contexts in which techniques can be performed include an audio ecosystem that may include acquisition elements, and playback elements. Acquisition elements can include wired and/or wireless acquisition devices (eg, Eigen microphones), on-device surround sound capture, and mobile devices (eg, smartphones and tablets). In some examples, wired and/or wireless acquisition devices can be coupled to a mobile device through wired and/or wireless communication channel(s).

[000397] De acordo com uma ou mais técnicas dessa revelação, o dispositivo móvel pode ser usado para adquirir um campo de som. Por exemplo, o dispositivo móvel pode adquirir um campo de som através de dispositivos de aquisição cabeados e/ou sem fixo e/ou a captura de som surround em dispositivo (por exemplo, uma pluralidade de microfones integrados no dispositivo móvel). O dispositivo móvel pode então codificar o campo de som adquirido nos coeficientes HOA para reprodução por um ou mais dos elementos de reprodução. Por exemplo, um usuário do dispositivo móvel pode gravar (adquirir um campo de som de) um evento ao vivo (por exemplo, uma reunião, uma conferência, uma peça, um concerto, etc.) e codificar a gravação em coeficientes HOA.[000397] In accordance with one or more techniques of this disclosure, the mobile device can be used to acquire a sound field. For example, the mobile device may acquire a sound field through wired and/or wireless acquisition devices and/or device-based surround sound capture (e.g., a plurality of microphones built into the mobile device). The mobile device can then encode the acquired sound field into HOA coefficients for playback by one or more of the playback elements. For example, a mobile device user can record (acquire a sound field from) a live event (eg, a meeting, conference, play, concert, etc.) and encode the recording into HOA coefficients.

[000398] O dispositivo móvel pode também utilizar um ou mais dos elementos de reprodução para reproduzir o campo de som codificado em HOA. Por exemplo, o dispositivo móvel pode decodificar o campo de som codificado em HOA e transmitir um sinal para um ou mais dos elementos de reprodução que faz com que um ou mais dos elementos de reprodução recrie o campo de som. Como exemplo, o dispositivo móvel pode utilizar os canais de comunicação sem fio e/ou sem fio para transmitir o sinal para um ou mais alto-falantes (por exemplo, conjuntos de alto-falantes, barramentos de som, etc.). Como outro exemplo, o dispositivo móvel pode utilizar soluções de acoplamento para transmitir o sinal para uma ou mais estações de acoplamento e/ou um ou mais alto-falantes acoplados (por exemplo, sistemas de som em carros e/ou casas lares inteligentes). Como outro exemplo, o dispositivo móvel pode utilizar renderização de fone de ouvido para transmitir o sinal para um conjunto de fones de ouvido, por exemplo, para criar som binaural realista.[000398] The mobile device may also use one or more of the playback elements to reproduce the HOA encoded sound field. For example, the mobile device may decode the HOA-encoded sound field and transmit a signal to one or more of the playback elements that causes one or more of the playback elements to recreate the sound field. As an example, the mobile device may utilize wireless and/or wireless communication channels to transmit the signal to one or more speakers (eg, arrays of speakers, sound buses, etc.). As another example, the mobile device may use docking solutions to transmit the signal to one or more docking stations and/or one or more docked speakers (e.g., sound systems in cars and/or smart homes). As another example, the mobile device can use headphone rendering to transmit the signal to a set of headphones, for example, to create realistic binaural sound.

[000399] Em alguns exemplos, um dispositivo móvel específico pode tanto adquirir um campo de som 3D e reproduzir o mesmo campo de som 3D em um momento posterior. Em alguns exemplos, o dispositivo móvel pode adquirir um campo de som 3D, codificar o campo de som 3D em HOA, e transmitir o campo de som 3D codificado para um ou mais outros dispositivos (por exemplo, outros dispositivos móveis e/ou outros dispositivos não móveis) para reprodução.[000399] In some examples, a specific mobile device can both acquire a 3D sound field and reproduce the same 3D sound field at a later time. In some examples, the mobile device may acquire a 3D sound field, encode the 3D sound field into HOA, and transmit the encoded 3D sound field to one or more other devices (e.g., other mobile devices and/or other non-mobile devices) for playback.

[000400] Ainda outro contexto no qual as técnicas podem ser realizadas inclui um ecossistema de áudio que pode incluir conteúdo de áudio, estúdios de jogos, conteúdo de áudio codificado, motores de renderização e sistemas de fornecimento. Em alguns exemplos, os estúdios de jogos podem incluir um ou mais DAWs que podem suportar edição de sinais HOA. Por exemplo, um ou mais DAWs podem incluir plugins HOA e/ou ferramentas que podem ser configuradas para operar com (por exemplo, trabalhar com) um ou mais sistemas de áudio de jogo. Em alguns exemplos, os estúdios de jogos podem transmitir novos formatos de stem que suportam HOA. Em qualquer caso, os estúdios de jogos podem transmitir conteúdo de áudio codificado para os motores de renderização que podem renderizar um campo de som para reprodução pelos sistemas de fornecimento.[000400] Yet another context in which the techniques can be performed includes an audio ecosystem which may include audio content, game studios, encoded audio content, rendering engines, and delivery systems. In some instances, game studios may include one or more DAWs that can support HOA signal editing. For example, one or more DAWs may include HOA plugins and/or tools that can be configured to operate with (eg work with) one or more game audio systems. In some instances, game studios may stream new stem formats that support HOA. In any case, game studios can stream encoded audio content to rendering engines that can render a sound field for playback by delivery systems.

[000401] As técnicas podem ser também executadas com relação a dispositivos de aquisição de áudio exemplificadores. Por exemplo, as técnicas podem ser realizadas com relação a um microfone Eigen que pode incluir uma pluralidade de microfones que são coletivamente configurados para gravar um campo de som 3D. Em alguns exemplos, a pluralidade de microfones de microfone Eigen pode ser localizada na superfície de uma bola substancialmente esférica com um raio de aproximadamente 4 cm. Em alguns exemplos, o dispositivo de codificação de áudio 20 pode ser integrado no microfone Eigen de modo a transmitir um fluxo de bits 21 diretamente a partir do microfone.[000401] The techniques can also be performed with respect to exemplary audio acquisition devices. For example, the techniques can be performed with respect to an Eigen microphone that can include a plurality of microphones that are collectively configured to record a 3D sound field. In some examples, the plurality of Eigen microphone microphones may be located on the surface of a substantially spherical ball having a radius of approximately 4 cm. In some examples, the audio encoding device 20 can be integrated into the Eigen microphone so as to transmit a bit stream 21 directly from the microphone.

[000402] Outro contexto de aquisição de áudio exemplar pode incluir um caminhão de produção que pode ser configurado para receber um sinal a partir de um ou mais microfones como um ou mais microfones Eigen. O caminhão de produção pode incluir também um codificador de áudio, como codificador de áudio 20 da figura 3.[000402] Another exemplary audio acquisition context may include a production truck that can be configured to receive a signal from one or more microphones such as one or more Eigen microphones. The production truck may also include an audio encoder, such as audio encoder 20 in Figure 3.

[000403] O dispositivo móvel pode também, em algumas instâncias, incluir uma pluralidade de microfones que são coletivamente configurados para gravar um campo de som 3D. Em outras palavras, a pluralidade de microfones pode ter diversidade X, Y, Z. em alguns exemplos, o dispositivo móvel pode incluir um microfone que pode ser girado para fornecer diversidade X, Y, Z com relação a um ou mais outros microfones do dispositivo móvel. O dispositivo móvel também pode incluir um codificador de áudio, como codificador de áudio 20 da figura 3.[000403] The mobile device may also, in some instances, include a plurality of microphones that are collectively configured to record a 3D sound field. In other words, the plurality of microphones can have X,Y,Z diversity. In some examples, the mobile device can include a microphone that can be rotated to provide X,Y,Z diversity with respect to one or more other microphones of the mobile device. The mobile device may also include an audio encoder, such as audio encoder 20 in figure 3.

[000404] Um dispositivo de captura de áudio de vídeo reforçado pode ser adicionalmente configurado para gravar um campo de som 3D. Em alguns exemplos, o dispositivo de captura de vídeo reforçado pode ser fixado em um capacete de um usuário envolvido em uma atividade. Por exemplo, o dispositivo de captura de vídeo reforçado pode ser fixado em um capacete de um usuário de rafting em águas claras. Desse modo, o dispositivo de captura de vídeo reforçado pode capturar um campo de som 3D que representa a ação em volta do usuário (por exemplo, a água batendo atrás do usuário, outro rafter falando na frente do usuário, etc..).[000404] An enhanced video audio capture device can be additionally configured to record a 3D sound field. In some examples, the reinforced video capture device may be attached to a helmet of a user engaged in an activity. For example, the reinforced video capture device can be attached to a user's helmet when rafting in clear water. In this way, the enhanced video capture device can capture a 3D sound field that represents the action around the user (eg water lapping behind the user, another rafter speaking in front of the user, etc.).

[000405] As técnicas podem ser também executadas com relação a um dispositivo móvel aperfeiçoado acessório, que pode ser configurado para gravar um campo de som 3D. Em alguns exemplos, o dispositivo móvel pode ser similar aos dispositivos móveis discutidos acima, com a adição de um ou mais acessórios. Por exemplo, um microfone Eigen pode ser ligado ao dispositivo móvel acima mencionado para formar um dispositivo móvel aperfeiçoado acessório. Desse modo, o dispositivo móvel aperfeiçoado acessório pode capturar uma versão de qualidade superior do campo de som 3D do que apenas usar componentes de captura de som integrais com o dispositivo móvel aperfeiçoado acessório.[000405] The techniques can also be performed with respect to an enhanced accessory mobile device, which can be configured to record a 3D sound field. In some instances, the mobile device may be similar to the mobile devices discussed above, with the addition of one or more accessories. For example, an Eigen microphone can be connected to the aforementioned mobile device to form an enhanced accessory mobile device. In this way, the enhanced mobile device accessory can capture a higher quality version of the 3D sound field than just using integral sound capture components with the enhanced mobile device accessory.

[000406] Dispositivos de reprodução de áudio de exemplo que podem executar vários aspectos das técnicas descritas nessa revelação são adicionalmente discutidos abaixo. De acordo com uma ou mais técnicas dessa revelação, alto-falantes e/ou barramentos de som podem ser dispostos em qualquer configuração arbitrária enquanto ainda reproduz um campo de som 3D. Além disso, em alguns exemplos, dispositivos de reprodução de fone de ouvido podem ser acoplados a um decodificador 24 através de uma conexão cabeada ou sem fio. De acordo com uma ou mais técnicas dessa revelação, uma representação genérica única de um campo de som pode ser utilizada para renderizar o campo de som em qualquer combinação dos alto-falantes, os barramentos de som e os dispositivos de reprodução de fone de ouvido.[000406] Example audio playback devices that can perform various aspects of the techniques described in this disclosure are further discussed below. In accordance with one or more techniques of this disclosure, speakers and/or sound buses can be arranged in any arbitrary configuration while still reproducing a 3D sound field. Furthermore, in some examples, headphone playback devices may be coupled to a decoder 24 via a wired or wireless connection. In accordance with one or more techniques of this disclosure, a single generic representation of a sound field can be used to render the sound field in any combination of speakers, sound buses, and headphone playback devices.

[000407] Um número de ambientes de reprodução de áudio de exemplo diferentes também pode ser adequado para executar vários aspectos das técnicas descritas nessa revelação. Por exemplo, um ambiente de reprodução de alto- falante 5.1, um ambiente de reprodução de alto-falante 2.0 (por exemplo, estéreo), um ambiente de reprodução de alto- falante 9.1 com altura total de alto-falantes, um ambiente de reprodução de alto-falante 22.2, um ambiente de reprodução de alto-falante 16.0, um ambiente de reprodução de alto-falante automotivo, e um dispositivo móvel com ambiente de reprodução de auricular podem ser ambientes adequados para executar vários aspectos das técnicas descritas nessa revelação.[000407] A number of different example audio playback environments may also be suitable for performing various aspects of the techniques described in this disclosure. For example, a 5.1 speaker playback environment, a 2.0 speaker playback environment (e.g., stereo), a 9.1 speaker playback environment with full height speakers, a 22.2 speaker playback environment, a 16.0 speaker playback environment, an automotive speaker playback environment, and a mobile device with headset playback environment may be suitable environments for performing various aspects of the techniques described in this disclosure.

[000408] De acordo com uma ou mais técnicas dessa revelação, uma representação genérica única de um campo de som pode ser utilizada para renderizar o campo de som em qualquer um dos ambientes de reprodução acima. Adicionalmente, as técnicas dessa revelação permitem que um renderizador renderize um campo de som a partir de uma representação genérica para reprodução nos ambientes de reprodução diferentes daquele descrito acima. Por exemplo, se considerações de design proíbem colocação adequada de alto-falantes de acordo com um ambiente de reprodução de alto-falante 7.1 (por exemplo, se não for possível colocar um alto-falante surround certo), as técnicas dessa revelação permitem uma renderização para compensar com os outros 6 alto-falantes de modo que a reprodução possa ser obtida em um ambiente de reprodução de alto-falante 6.1.[000408] In accordance with one or more techniques of this disclosure, a single generic representation of a sound field may be used to render the sound field in any of the above playback environments. Additionally, the techniques in this disclosure allow a renderer to render a sound field from a generic representation for playback in playback environments other than the one described above. For example, if design considerations prohibit proper placement of speakers according to a 7.1 speaker playback environment (for example, if it is not possible to place a certain surround speaker), the techniques in this reveal allow for rendering to compensate with the other 6 speakers so that playback can be achieved in a 6.1 speaker playback environment.

[000409] Além disso, um usuário pode assistir um jogo de esportes enquanto usa fones de ouvido. De acordo com uma ou mais técnicas dessa revelação, o campo de som 3D do jogo de esportes pode ser adquirido (por exemplo, um ou mais microfones Eigen podem ser colocados em e/ou em torno do estádio de beisebol), coeficientes HOA correspondendo ao campo de som 3D podem ser obtidos e transmitidos para um decodificador, o decodificador pode reconstruir o campo de som 3D com base nos coeficientes HOA e transmitir o campo de som 3D reconstruído para um renderizador, o renderizador pode obter uma indicação com relação ao tipo de ambiente de reprodução (por exemplo, fones de ouvido), e renderizar o campo de som 3D reconstruído em sinais que fazem com que os fontes de ouvido transmitam uma representação do campo de som 3D do jogo de esportes.[000409] Also, a user can watch a sports game while wearing headphones. According to one or more techniques of this disclosure, the 3D sound field of the sports game can be acquired (for example, one or more Eigen microphones can be placed in and/or around the baseball stadium), HOA coefficients corresponding to the 3D sound field can be obtained and transmitted to a decoder, the decoder can reconstruct the 3D sound field based on the HOA coefficients and transmit the reconstructed 3D sound field to a renderer, the renderer can obtain an indication regarding the type of playback environment (for example, headphones), and render the reconstructed 3D sound field into signals that cause the headphone sources to transmit a representation of the sports game's 3D sound field.

[000410] Em cada das várias instâncias descritas acima, deve ser entendido que o dispositivo de codificação de áudio 20 pode executar um método ou de outro modo compreender meio para executar cada etapa do método para o qual o dispositivo de codificação de áudio 20 é configurado para executar. Em algumas instâncias, o meio pode compreender um ou mais processadores. Em algumas instâncias, um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas em uma mídia de armazenagem legível em computador não transitória. Em outras palavras, vários aspectos das técnicas em cada dos conjuntos de exemplos de codificação podem fornecer uma mídia de armazenagem legível em computador não transitória tendo armazenado na mesma instruções que, quando executadas, fazem com que um ou mais processadores executem o método para o qual o dispositivo de codificação de áudio 20 foi configurado para executar.[000410] In each of the various instances described above, it should be understood that the audio encoding device 20 may perform a method or otherwise comprise means for performing each step of the method for which the audio encoding device 20 is configured to perform. In some instances, the medium may comprise one or more processors. In some instances, one or more processors may represent a special purpose processor configured via instructions stored on a non-transient computer-readable storage medium. In other words, various aspects of the techniques in each of the sets of coding examples can provide a non-transient computer-readable storage medium having stored thereon instructions that, when executed, cause one or more processors to perform the method for which the audio coding device 20 has been configured to perform.

[000411] Em um ou mais exemplos, as funções descritas podem ser implementadas em hardware, software, firmware ou qualquer combinação dos mesmos. Se implementado em software, as funções podem ser armazenadas em ou transmitidas através como uma ou mais instruções ou código em uma mídia legível em computador e executadas por uma unidade de processamento baseado em hardware. Mídia legível em computador pode incluir mídia de armazenagem legível em computador, que corresponde a uma mídia tangível como mídia de armazenagem de dados. Mídia de armazenagem de dados pode ser qualquer mídia disponível que pode ser acessada por um ou mais computadores ou um ou mais processadores para recuperar instruções código e/ou estruturas de dados para implementação das técnicas descritas nessa revelação. Um produto de programa de computador pode incluir uma mídia legível em computador.[000411] In one or more examples, the functions described may be implemented in hardware, software, firmware or any combination thereof. If implemented in software, functions may be stored in or transmitted through as one or more instructions or code on computer-readable media and executed by a hardware-based processing unit. Computer-readable media may include computer-readable storage media, which corresponds to tangible media such as data storage media. Data storage media can be any available media that can be accessed by one or more computers or one or more processors to retrieve code instructions and/or data structures for implementing the techniques described in this disclosure. A computer program product may include computer readable media.

[000412] De modo semelhante, em cada das várias instâncias descritas acima, deve ser entendido que o dispositivo de decodificação de áudio 24 pode executar um método ou de outro modo compreender meio para executar cada etapa do método para o qual o dispositivo de decodificação de áudio 24 é configurado para executar. Em algumas instâncias, o meio pode compreender um ou mais processadores. Em algumas instâncias, um ou mais processadores podem representar um processador de propósito especial configurado por meio de instrução armazenada em uma mídia de armazenagem legível em computador não transitória. Em outras palavras, vários aspectos das técnicas em cada dos conjuntos de exemplos de codificação podem fornecer uma mídia de armazenagem legível em computador não transitória tendo armazenado na mesma instruções que, quando executadas, fazem com que um ou mais processadores execute o método para o qual o dispositivo de decodificação de áudio 24 foi configurado para executar.[000412] Similarly, in each of the various instances described above, it should be understood that the audio decoding device 24 may perform a method or otherwise comprise means for performing each step of the method for which the audio decoding device 24 is configured to perform. In some instances, the medium may comprise one or more processors. In some instances, one or more processors may represent a special purpose processor configured via instruction stored on a non-transient computer readable storage medium. In other words, various aspects of the techniques in each of the sets of coding examples can provide a non-transient computer-readable storage medium having stored therein instructions that, when executed, cause one or more processors to perform the method for which the audio decoding device 24 has been configured to perform.

[000413] Como exemplo, e não limitação, tal mídia de armazenagem legível em computador pode compreender RAM, ROM EEPROM, CD-ROM ou outra armazenagem de disco ótico, armazenagem de disco magnético, ou outros dispositivos de armazenagem magnética, memória flash, ou qualquer outra mídia que possa ser usada para armazenar código de programa desejado na forma de instruções ou estruturas de dados e que possa ser acessada por um computador. Deve ser entendido, entretanto, que mídia de armazenagem legível em computador e mídia de armazenagem de dados não incluem conexões, ondas portadoras, sinais, ou outra mídia transitória, porém são ao invés dirigidas a mídia de armazenagem tangível não transitória. Disk e disco, como usado aqui, inclui compact disc (CD), disco laser, disco ótico, digital versatile disc (DD), disco flexível e disco Blu-ray, onde disks normalmente reproduzem dados magneticamente, enquanto discos reproduzem dados opticamente com lasers. Combinações do acima devem ser também incluídas no escopo de mídia legível em computador.[000413] As an example, and not limitation, such computer-readable storage media may comprise RAM, ROM EEPROM, CD-ROM or other optical disk storage, magnetic disk storage, or other magnetic storage devices, flash memory, or any other media that can be used to store desired program code in the form of instructions or data structures and that can be accessed by a computer. It should be understood, however, that computer-readable storage media and data storage media do not include connections, carrier waves, signals, or other transient media, but are instead intended for non-transient tangible storage media. Disk and disc, as used here, include compact disc (CD), laser disc, optical disc, digital versatile disc (DD), floppy disk, and Blu-ray disc, where disks typically reproduce data magnetically, while discs reproduce data optically with lasers. Combinations of the above shall also be included in the scope of computer readable media.

[000414] Instruções podem ser executadas por um ou mais processadores, como um ou mais processadores de sinais digitais (DSPs), microprocessadores de propósito geral, circuitos integrados de aplicação específica (ASICs), disposições lógicas programáveis em campo (FPGAs), ou outro conjunto de circuitos de lógica discreta ou integrada equivalente. Por conseguinte, o termo “processador” como usado aqui pode se referir a qualquer da estrutura acima ou qualquer outra estrutura adequada para implementação das técnicas descritas aqui. Além disso, em alguns aspectos, a funcionalidade descrita aqui pode ser fornecida nos módulos de hardware e/ou software dedicados configurados para codificar e decodificar, ou incorporados em um codec combinado. Também, as técnicas podem ser totalmente implementadas em um ou mais circuitos ou elementos de lógica.[000414] Instructions can be executed by one or more processors, such as one or more digital signal processors (DSPs), general purpose microprocessors, application-specific integrated circuits (ASICs), field-programmable logic arrays (FPGAs), or other equivalent discrete or integrated logic circuitry. Accordingly, the term "processor" as used herein may refer to any of the above frameworks or any other framework suitable for implementing the techniques described herein. Furthermore, in some respects, the functionality described here may be provided in dedicated hardware and/or software modules configured to encode and decode, or incorporated into a combined codec. Also, the techniques can be fully implemented in one or more circuits or logic elements.

[000415] As técnicas dessa revelação podem ser implementadas em uma ampla variedade de dispositivos ou aparelhos, incluindo um aparelho telefônico sem fio, um circuito integrado (IC) ou um conjunto de ICs (por exemplo, um conjunto de chips). Vários componentes, módulos ou unidades são descritos nessa revelação para enfatizar aspectos funcionais de dispositivos configurados para executar as técnicas reveladas, porém não exigem necessariamente a realização por unidades de hardware diferentes. Ao invés, como descrito acima, várias unidades podem ser combinadas em uma unidade de hardware de codec ou fornecidas por uma coleção de unidades de hardware Inter operativas, incluindo um ou mais processadores como descrito acima, em combinação com software e/ou firmware adequado.[000415] The techniques of this disclosure can be implemented in a wide variety of devices or appliances, including a cordless telephone handset, an integrated circuit (IC) or a set of ICs (eg, a chip set). Various components, modules, or units are described in this disclosure to emphasize functional aspects of devices configured to perform the disclosed techniques, but do not necessarily require performance by different hardware units. Rather, as described above, multiple units may be combined into a codec hardware unit or provided by a collection of Inter-Operative hardware units, including one or more processors as described above, in combination with suitable software and/or firmware.

[000416] Vários aspectos das técnicas foram descritos. Esses e outros aspectos das técnicas estão compreendidas no escopo das reivindicações a seguir.[000416] Various aspects of the techniques have been described. These and other aspects of the techniques are within the scope of the following claims.

Claims (6)

1. Dispositivo configurado para decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior (HOA) que é fornecido em múltiplas camadas e compreende pelo menos um coeficiente HOA que corresponde a uma função de base harmônica esférica que possui uma ordem superior a um, o dispositivo caracterizado pelo fato de que compreende: uma memória configurada para armazenar o fluxo de bits; e um ou mais processadores configurados para: - obter, a partir do fluxo de bits, uma indicação de um número total de canais de transporte (59 A-D, 61 A-B) especificados no fluxo de bits; - determinar se o fluxo de bits é fornecido em múltiplas camadas; - em resposta à determinação de que o fluxo de bits é fornecido em múltiplas camadas, obter, a partir do fluxo de bits (21), uma indicação do número de camadas (21 A-C) especificadas no fluxo de bits; e - obter as camadas do fluxo de bits com base na indicação do número de camadas especificadas no fluxo de bits, na indicação do número de canais de transporte especificados no fluxo de bits e em um número de canais representativos de uma ordem HOA mínima de um campo de som de segundo plano do sinal de áudio, em que obter o número de camadas especificadas no fluxo de bits compreende obter uma indicação de um número de canais de transporte para cada camada com base em um elemento de sintaxe incluído no fluxo de bits para a camada, em que as indicações de números de canais de transporte para as camadas são obtidas iterativamente enquanto um número de canais de transporte remanescentes é superior a um, o número de canais de transporte remanescentes sendo calculado em cada iteração para ser o número total de canais de transporte menos a soma acumulada dos números de canais de transporte já obtidos, em que, em cada iteração, a indicação do número de canais de transporte para a respectiva camada é codificada no fluxo de bits utilizando um número de bits calculado com base no número de canais de transporte remanescentes, em que a indicação do número de camadas especificadas no fluxo de bits é obtida por incremento de um contador em cada iteração, em que se, após as iterações, o número de canais remanescentes for igual a um, então o número de camadas é incrementado em um e o número de canais de transporte para uma camada final é definido como sendo igual a um.1. Device configured to decode a bit stream representative of a higher order ambisonic audio signal (HOA) that is provided in multiple layers and comprises at least one HOA coefficient that corresponds to a spherical harmonic base function that has an order greater than one, the device characterized in that it comprises: a memory configured to store the bit stream; and one or more processors configured to: - obtain, from the bitstream, an indication of a total number of transport channels (59 A-D, 61 A-B) specified in the bitstream; - determine whether the bit stream is provided in multiple layers; - in response to determining that the bit stream is provided in multiple layers, obtaining from the bit stream (21) an indication of the number of layers (21 A-C) specified in the bit stream; and - obtaining the layers of the bitstream based on indicating the number of layers specified in the bitstream, indicating the number of transport channels specified in the bitstream, and a number of channels representative of a minimum HOA order of a background sound field of the audio signal, wherein obtaining the number of layers specified in the bitstream comprises obtaining an indication of a number of transport channels for each layer based on a syntax element included in the bitstream for the layer, wherein indications of numbers of transport channels for the layers are obtained iteratively while a number of transport channels remaining is greater than one, the number of transport channels remaining being calculated in each iteration to be the total number of transport channels minus the cumulative sum of the numbers of transport channels already obtained, wherein, in each iteration, the indication of the number of transport channels for the respective layer is encoded into the bit stream using a number of bits calculated based on the number of transport channels remaining, wherein the indication of the number of layers specified in the bit stream is obtained by incrementing a counter at each it eration, where if, after the iterations, the number of remaining channels is equal to one, then the number of layers is incremented by one and the number of transport channels for a final layer is set to be equal to one. 2. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que o fluxo de bits é fornecido em três ou mais camadas.2. Device according to claim 1, characterized in that the bit stream is provided in three or more layers. 3. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente alto-falantes configurados para reproduzir um campo de som com base nos sinais de áudio HOA.3. Device according to claim 1, characterized in that it additionally comprises speakers configured to reproduce a sound field based on HOA audio signals. 4. Método para decodificar um fluxo de bits representativo de um sinal de áudio ambisonic de ordem superior (HOA) que é fornecido em múltiplas camadas e compreende pelo menos um coeficiente HOA que corresponde a uma função de base harmônica esférica que possui uma ordem superior a um, o método caracterizado pelo fato de que compreende: obter uma indicação de um número de canais de transporte (59 A-D, 61 A-B) especificados no fluxo de bits; determinar se o fluxo de bits é fornecido em múltiplas camadas; em resposta à determinação de que o fluxo de bits é fornecido em múltiplas camadas, obter, a partir do fluxo de bits (21), um número de camadas (21 A-C) especificadas no fluxo de bits; e obter as camadas do fluxo de bits com base na indicação do número de camadas especificadas no fluxo de bits, na indicação do número de canais de transporte especificados no fluxo de bits e em um número de canais representativos de uma ordem HOA mínima de um campo de som de segundo plano do sinal de áudio, em que obter o número de camadas especificadas no fluxo de bits compreende obter uma indicação de um número de canais de transporte para cada camada com base em um elemento de sintaxe incluído no fluxo de bits para a camada, em que as indicações de números de canais de transporte para as camadas são obtidas iterativamente enquanto um número de canais de transporte remanescentes é superior a um, o número de canais de transporte remanescentes sendo calculado em cada iteração para ser o número total de canais de transporte menos a soma acumulada dos números de canais de transporte já obtidos, em que, em cada iteração, a indicação do número de canais de transporte para a respectiva camada é codificada no fluxo de bits utilizando um número de bits calculado com base no número de canais de transporte remanescentes, em que a indicação do número de camadas especificadas no fluxo de bits é obtida por incremento de um contador em cada iteração, em que se, após as iterações, o número de canais remanescentes for igual a um, então o número de camadas é incrementado em um e o número de canais de transporte para uma camada final é definido como sendo igual a um.4. Method for decoding a bit stream representative of a higher order ambisonic audio signal (HOA) that is provided in multiple layers and comprises at least one HOA coefficient that corresponds to a spherical harmonic base function that has an order greater than one, the method characterized in that it comprises: obtaining an indication of a number of transport channels (59 A-D, 61 A-B) specified in the bit stream; determining if the bit stream is provided in multiple layers; in response to determining that the bit stream is provided in multiple layers, obtaining, from the bit stream (21), a number of layers (21 A-C) specified in the bit stream; and obtaining the layers of the bitstream based on indicating the number of layers specified in the bitstream, indicating the number of transport channels specified in the bitstream, and a number of channels representative of a minimum HOA order of a background sound field of the audio signal, wherein obtaining the number of layers specified in the bitstream comprises obtaining an indication of a number of transport channels for each layer based on a syntax element included in the bitstream for the layer, wherein indications of numbers of transport channels for the layers are obtained iteratively while a number of transport channels remaining is greater than one, the number of transport channels remaining being calculated in each iteration to be the total number of transport channels minus the cumulative sum of the numbers of transport channels already obtained, wherein, in each iteration, the indication of the number of transport channels for the respective layer is encoded in the bit stream using a number of bits calculated based on the number of transport channels remaining, wherein the indication of the number of layers specified in the bit stream is obtained by incrementing a counter in each iteration , where if, after the iterations, the number of remaining channels is equal to one, then the number of layers is incremented by one and the number of transport channels for a final layer is set to be equal to one. 5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o fluxo de bits é fornecido em três ou mais camadas.5. Method according to claim 4, characterized in that the bit stream is provided in three or more layers. 6. Memória legível por computador caracterizada pelo fato de que compreende instruções nela armazenadas que, quando executadas, fazem com que um ou mais processadores realizem as etapas do método conforme definido na reivindicação 4 ou 5.6. Computer-readable memory characterized by the fact that it comprises instructions stored therein that, when executed, cause one or more processors to perform the steps of the method as defined in claim 4 or 5.
BR112017007287-4A 2014-12-03 2015-10-09 SIGNALING LAYERS FOR SCALABLE ENCODING OF HIGH-ORDER AMBISONIC AUDIO DATA BR112017007287B1 (en)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US201462062584P 2014-10-10 2014-10-10
US201462084461P 2014-11-25 2014-11-25
US201462087209P 2014-12-03 2014-12-03
US62/087,209 2014-12-03
US201462088445P 2014-12-05 2014-12-05
US62/088,445 2014-12-05
US201562145960P 2015-04-10 2015-04-10
US62/145,960 2015-04-10
US201562175185P 2015-06-12 2015-06-12
US201562187799P 2015-07-01 2015-07-01
US62/187,799 2015-07-01
US201562209764P 2015-08-25 2015-08-25
US14/878,691 US10140996B2 (en) 2014-10-10 2015-10-08 Signaling layers for scalable coding of higher order ambisonic audio data
US14/878,691 2015-10-08
PCT/US2015/054950 WO2016057925A1 (en) 2014-10-10 2015-10-09 Signaling layers for scalable coding of higher order ambisonic audio data

Publications (2)

Publication Number Publication Date
BR112017007287A2 BR112017007287A2 (en) 2017-12-26
BR112017007287B1 true BR112017007287B1 (en) 2023-05-30

Family

ID=

Similar Documents

Publication Publication Date Title
US11138983B2 (en) Signaling layers for scalable coding of higher order ambisonic audio data
RU2741763C2 (en) Reduced correlation between background channels of high-order ambiophony (hoa)
AU2015330759B2 (en) Signaling channels for scalable coding of higher order ambisonic audio data
BR112016017283B1 (en) CODING INDEPENDENT TABLES OF HIGHEST ENVIRONMENTAL AMBISSONIC COEFFICIENTS
BR112016026724B1 (en) DECOMPOSED CODING VECTORS FROM HIGHER ORDER AMBISSONIC AUDIO SIGNALS
BR112016026812B1 (en) DEVICE CONFIGURED TO DECODE AUDIO DATA INDICATIVE OF A PLURALITY OF HIGHER-ORDER AMBISSONIC COEFFICIENTS (HOA), METHOD FOR DECODING AUDIO DATA INDICATIVE OF A PLURALITY OF HOA COEFFICIENTS AND METHOD FOR CODING AUDIO DATA
BR112016026822B1 (en) DEVICE AND METHOD FOR DECODING AUDIO DATA AND COMPUTER READABLE MEMORY
BR112017007287B1 (en) SIGNALING LAYERS FOR SCALABLE ENCODING OF HIGH-ORDER AMBISONIC AUDIO DATA
BR112017007153B1 (en) SIGNALING CHANNELS FOR SCALABLE CODING OF HIGHER-ORDER AMBISONIC AUDIO DATA